Apuntes IA

` Intel.
ligencia Articial
` Enginyeria en Informatica
` APUNTS DINTEL.LIGENCIA ARTIFICIAL
` Departament de Llenguatges i Sistemes Informatics
CURS 2011/2012 2Q
cbea
This work is licensed under the Creative Commons Attribution-NonCommercial-ShareAlike License. cbea To view a copy of this license, visit http://creativecommons.org/licenses/by-nc-sa/2.0/ or send a letter to: Creative Commons, 559 Nathan Abbott Way, Stanford, California 94305, USA.
ndice general
0. Introduccin
Resolucin de problemas
3
5 5 6 9 13 13 13 14 16 18 23 23 23 24 24 27 27 28 29 29 30 31 35 35 36 38 40 41 43 43 44 45 46
1. Resolucin de problemas 1.1. Qu es un problema? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. El espacio de estados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Algoritmos de bsqueda en el espacio de estados . . . . . . . . . . . . . . . . . . . . . 2. Bsqueda no informada 2.1. Bsqueda independiente del problema 2.2. Bsqueda en anchura prioritaria . . . 2.3. Bsqueda en profundidad prioritaria 2.4. Bsqueda en profundidad iterativa . 2.5. Ejemplos . . . . . . . . . . . . . . . . 3. Bsqueda heurstica 3.1. El conocimiento importa . . . . . 3.2. El ptimo est en el camino . . . 3.3. T primero y t despus . . . . . 3.4. El algoritmo A . . . . . . . . . . 3.5. Pero, encontrar el ptimo? . . . 3.5.1. Admisibilidad . . . . . . . 3.5.2. Consistencia . . . . . . . . 3.5.3. Heurstico ms informado 3.6. Mi memoria se acaba . . . . . . . 3.6.1. El algoritmo IDA . . . . 3.6.2. Otras alternativas . . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
. . . . . . . . . . .
4. Bsqueda local 4.1. El tamao importa, a veces . . . . . . 4.2. Tu s, vosotros no . . . . . . . . . . . . 4.3. Un mundo de posibilidades . . . . . . . 4.4. Demasiado calor, demasiado fro . . . . 4.5. Cada oveja con su pareja . . . . . . . . 4.5.1. Codicacin . . . . . . . . . . . 4.5.2. Operadores . . . . . . . . . . . 4.5.3. Combinacin de individuos . . . 4.5.4. El algoritmo gentico cannico . 4.5.5. Cuando usarlos . . . . . . . . .
. . . . . . . . . . 1
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
2 5. Bsqueda con adversario 5.1. T contra mi o yo contra ti . . . 5.2. Una aproximacin trivial . . . . . 5.3. Seamos un poco ms inteligentes 5.4. Seamos an ms inteligentes . . .
NDICE GENERAL 47 47 48 48 50 55 55 56 57 59 61 62 63
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
6. Satisfaccin de restricciones 6.1. De variables y valores . . . . . . . . . . . . . 6.2. Buscando de manera diferente . . . . . . . . 6.2.1. Bsqueda con backtracking . . . . . 6.2.2. Propagacin de restricciones . . . . . 6.2.3. Combinando bsqueda y propagacin 6.3. Otra vuelta de tuerca . . . . . . . . . . . . . 6.4. Ejemplo: El Sudoku . . . . . . . . . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
. . . . . . .
II
Representacin del conocimiento

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
67 67 68 69 70 71 71 71 72 73 73 73 75 76 77 77 77 79 80 81 82 83 83 85 87 87 87 88 90
7. Introduccin a la representacin del conocimiento 7.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . 7.2. Esquema de representacin . . . . . . . . . . . . . . 7.3. Propiedades de un esquema de representacin . . . 7.4. Tipos de conocimiento . . . . . . . . . . . . . . . . 7.4.1. Conocimiento Relacional simple . . . . . . . 7.4.2. Conocimiento Heredable . . . . . . . . . . . 7.4.3. Conocimiento Inferible . . . . . . . . . . . . 7.4.4. Conocimiento Procedimental . . . . . . . . . 8. Lgica 8.1. Introduccin . . . . . . 8.2. Lgica proposicional . 8.3. Lgica de predicados . 8.4. Lgica y representacin
. . . . . . del
. . . . . . . . . . . . . . . . . . . . . . . . conocimiento
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
9. Sistemas de reglas de produccin 9.1. Introduccin . . . . . . . . . . . . . . . . . . . . 9.2. Elementos de un sistema de produccin . . . . . 9.3. El motor de inferencias . . . . . . . . . . . . . . 9.3.1. Ciclo de ejecucin . . . . . . . . . . . . . 9.4. Tipos de razonamiento . . . . . . . . . . . . . . 9.4.1. Razonamiento guiado por los datos . . . 9.4.2. Razonamiento guiado por los objetivos . 9.5. Las reglas como lenguaje de programacin . . . 9.6. Las reglas como parte de aplicaciones generales 10.Representaciones estructuradas 10.1. Introduccin . . . . . . . . . . . 10.2. Redes semnticas . . . . . . . . 10.3. Frames . . . . . . . . . . . . . . 10.3.1. Una sintaxis . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
NDICE GENERAL 11.Ontologas 11.1. Introduccin . . . . . . . . . 11.2. Necesidad de las ontologas . 11.3. Desarrollo de una ontologa 11.4. Proyectos de ontologas . . .
3 95 95 96 97 102
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
III
Sistemas basados en el conocimiento

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
105
. . . . . . . 107 107 108 109 110 111 112 112 115 115 115 116 117 118 118 118 119 120 120 121 121 121 121 122 122 123 124 127 127 127 128 128 130 131 132 132 133 133 134 134
12.Introduccin a los SBC 12.1. Introduccin . . . . . . . . . . . . . . . . . . . . 12.2. Caractersticas de los SBC . . . . . . . . . . . . 12.3. Necesidad de los SBC . . . . . . . . . . . . . . . 12.4. Problemas que se pueden resolver mediante SBC 12.5. Problemas de los SBC . . . . . . . . . . . . . . 12.6. reas de aplicacin de los SBC . . . . . . . . . 12.7. Breve historia de los SBC . . . . . . . . . . . .
13.Arquitectura de los SBC 13.1. Introduccin . . . . . . . . . . . . . . . . . . . . . 13.2. Arquitectura de los sistemas basados en reglas . . 13.2.1. Almacenamiento del conocimiento . . . . . 13.2.2. Uso e interpretacin del conocimiento . . . 13.2.3. Almacenamiento del estado del problema . 13.2.4. Justicacin e inspeccin de las soluciones 13.2.5. Aprendizaje . . . . . . . . . . . . . . . . . 13.3. Arquitectura de los sistemas basados en casos . . 13.3.1. Almacenamiento del conocimiento . . . . . 13.3.2. Uso e interpretacin del conocimiento . . . 13.3.3. Almacenamiento del estado del problema . 13.3.4. Justicacin e inspeccin de las soluciones 13.3.5. Aprendizaje . . . . . . . . . . . . . . . . . 13.4. Comunicacin con el entorno y/o el usuario . . . 13.5. Otras Metodologas . . . . . . . . . . . . . . . . . 13.5.1. Redes neuronales . . . . . . . . . . . . . . 13.5.2. Razonamiento basado en modelos . . . . . 13.5.3. Agentes Inteligentes/Sistemas multiagente
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . .
14.Desarrollo de los SBC 14.1. Ingeniera de sistemas basados en el conocimiento . . . . . . . 14.1.1. Modelo en cascada . . . . . . . . . . . . . . . . . . . . 14.1.2. Modelo en espiral . . . . . . . . . . . . . . . . . . . . . 14.1.3. Diferencias de los sistemas basados en el conocimiento 14.1.4. Ciclo de vida de un sistema basado en el conocimiento 14.1.5. Metodologas especializadas . . . . . . . . . . . . . . . 14.2. Una Metodologa sencilla para el desarrollo de SBC . . . . . . 14.2.1. Identicacin . . . . . . . . . . . . . . . . . . . . . . . 14.2.2. Conceptualizacin . . . . . . . . . . . . . . . . . . . . . 14.2.3. Formalizacin . . . . . . . . . . . . . . . . . . . . . . . 14.2.4. Implementacin . . . . . . . . . . . . . . . . . . . . . . 14.2.5. Prueba . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
4 15.Resolucin de problemas en los SBC 15.1. Clasicacin de los SBC . . . . . . . 15.2. Mtodos de resolucin de problemas . 15.2.1. Clasicacin Heurstica . . . . 15.2.2. Resolucin Constructiva . . .
NDICE GENERAL 135 135 137 137 142
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
. . . .
16.Razonamiento aproximado e incertidumbre 147 16.1. Incertidumbre y falta de informacin . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 17.Modelo Probabilista 17.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . 17.2. Teora de probabilidades . . . . . . . . . . . . . . . . . . . . 17.3. Inferencia probabilstica . . . . . . . . . . . . . . . . . . . . 17.3.1. Probabilidades condicionadas y reglas de produccin 17.4. Independencia probabilstica y la regla de Bayes . . . . . . . 17.5. Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . 17.6. Inferencia probabilstica mediante redes bayesianas . . . . . 17.6.1. Inferencia por enumeracin . . . . . . . . . . . . . . . 17.6.2. Algoritmo de eliminacin de variables . . . . . . . . . 18.Modelo Posibilista 18.1. Introduccin . . . . . . . . . . . . . . 18.2. Conjuntos difusos/Lgica difusa . . . 18.3. Conectivas lgicas en lgica difusa . . 18.4. Condiciones difusas . . . . . . . . . . 18.5. Inferencia difusa con datos precisos . 18.5.1. Modelo de inferencia difusa de 149 149 149 150 151 152 153 155 155 157 161 161 161 162 166 169 169
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Mamdani
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
IV
Tratamiento del lenguaje natural

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Textual. . . . . . . . . . . . . . . . . . . . . . . . . . . .
173
. . . . . . . . . . . 175 175 176 177 178 179 180 181 181 182 182 183 185 185 185 185 186 190 191
19.Tratamiento del Lenguaje Natural 19.1. Introduccin. El Lenguaje Natural y su tratamiento . . . . . . . . . . . 19.2. El problema de la comprensin del Lenguaje Natural . . . . . . . . . . 19.3. Niveles de descripcin y tratamiento lingstico . . . . . . . . . . . . . 19.3.1. Evolucin de la lingstica computacional . . . . . . . . . . . . . 19.3.2. Los niveles de la Descripcin Lingstica. . . . . . . . . . . . . . 19.4. Aportaciones de la inteligencia articial . . . . . . . . . . . . . . . . . . 19.4.1. Aplicaciones del lenguaje natural . . . . . . . . . . . . . . . . . 19.4.2. Breve historia del Tratamiento del lenguaje natural . . . . . . . 19.4.3. Aplicaciones basadas en Dilogos. . . . . . . . . . . . . . . . . . 19.4.4. Aplicaciones basadas en el tratamiento masivo de la Informacin 19.5. Tcnicas de comprensin del Lenguaje Natural: Su integracin . . . . . 20.El Conocimiento Lxico 20.1. Introduccin . . . . . . . . . . . . . . . . . . . . 20.2. Descripcin de la Informacin y el Conocimiento 20.2.1. La segmentacin de la oracin . . . . . . 20.2.2. El contenido de la informacin lxica . . 20.2.3. Lexicones Computacionales . . . . . . . 20.2.4. Lexicones Frasales . . . . . . . . . . . .
. . . . . Lxicos . . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
NDICE GENERAL
20.2.5. La adquisicin del Conocimiento Lxico . . . . . . . . . . . . . . . . . . . . . . 191 20.3. Implementaciones de los Diccionarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 20.4. Morfologa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193 21.La dimensin sintctica 21.1. Introduccin . . . . . . . . . . . . . . . . . . . . 21.2. Las redes de transicin . . . . . . . . . . . . . . 21.3. Los formalismos sintcticos: Las Gramticas . . 21.4. Gramticas de Estructura de Frase . . . . . . . 21.5. Analizadores Bsicos . . . . . . . . . . . . . . . 21.5.1. La tcnica del Anlisis Sintctico . . . . 21.5.2. Las ATNs . . . . . . . . . . . . . . . . . 21.5.3. Los Charts . . . . . . . . . . . . . . . . . 21.6. Los formalismos de Unicacin . . . . . . . . . 21.6.1. Introduccin . . . . . . . . . . . . . . . . 21.6.2. Referencia Histrica . . . . . . . . . . . 21.6.3. El anlisis gramatical como demostracin 21.6.4. Las Gramticas de Clusulas Denidas . 195 195 195 198 199 201 202 204 204 211 211 212 213 214
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . de un teorema . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
. . . . . . . . . . . . .
22.La interpretacin semntica 217 22.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Aprendizaje Automtico
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
223
. . . . . . 225 225 225 226 227 227 228
23.Aprendizaje Automtico 23.1. Introduccin . . . . . . . . . . . . . . . 23.2. Tipos de aprendizaje . . . . . . . . . . 23.3. Aprendizaje Inductivo . . . . . . . . . 23.3.1. Aprendizaje como bsqueda . . 23.3.2. Tipos de aprendizaje inductivo 23.4. rboles de Induccin . . . . . . . . . .
0. Introduccin
Este documento contiene las notas de clase de la asignatura Intelligncia Articial de la ingeniera en informtica de la Facultat dInformtica de Barcelona. El documento cubre todos los temas impartidos en la asignatura salvo el tema de introduccin y esta pensado como complemento a las transparencias utilizadas en las clases. El objetivo es que se lea esta documentacin antes de la clase correspondiente para que se obtenga un mejor aprovechamiento de las clases y se puedan realizar preguntas y dinamizar la clase. En ningn caso se pueden tomar estos apuntes como un substituto de las clases de teora.
Captulo 0. Introduccin
Parte I Resolucin de problemas
1. Resolucin de problemas
1.1 Qu es un problema?
Una de las principales capacidades de la inteligencia humana es su capacidad para resolver problemas. La habilidad para analizar los elementos esenciales de cada problema, abstrayndolos, el identicar las acciones que son necesarias para resolverlos y el determinar cual es la estrategia ms acertada para atacarlos, son rasgos fundamentales que debe tener cualquier entidad inteligente. Es por eso por lo que la resolucin de problemas es uno de los temas bsicos en inteligencia articial. Podemos denir la resolucin de problemas como el proceso que partiendo de unos datos iniciales y utilizando un conjunto de procedimientos escogidos a priori, es capaz de determinar el conjunto de pasos o elementos que nos llevan a lo que denominaremos una solucin. Esta solucin puede ser, por ejemplo, el conjunto de acciones que nos llevan a cumplir cierta propiedad o como deben combinarse los elementos que forman los datos iniciales para cumplir ciertas restricciones. Evidentemente, existen muchos tipos diferentes de problemas, pero todos ellos tienen elementos comunes que nos permiten clasicarlos y estructurarlos. Por lo tanto, no es descabellada la idea de poder resolverlos de manera automtica, si somos capaces de expresarlos de la manera adecuada. Para que podamos resolver problemas de una manera automatizada es necesario, en primer lugar, que podamos expresar las caractersticas de los problemas de una manera formal y estructurada. Eso nos obligar a encontrar un lenguaje comn que nos permita denir problemas. En segundo lugar, hemos de denir algoritmos que representen estrategias que nos permitan hallar la solucin de esos problemas, que trabajen a partir de ese lenguaje de representacin y que nos garanticen hasta cierta medida que la solucin que buscamos ser hallada. Si abstraemos las caractersticas que describen un problema podemos identicar los siguientes elementos: 1. Un punto de partida, los elementos que denen las caractersticas del problema. 2. Un objetivo a alcanzar, qu queremos obtener con la resolucin. 3. Acciones a nuestra disposicin para resolver el problema, de qu herramientas disponemos para manipular los elementos del problema. 4. Restricciones sobre el objetivo, qu caractersticas debe tener la solucin 5. Elementos que son relevantes en el problema denidos por el dominio concreto, qu conocimiento tenemos que nos puede ayudar a resolver el problema de una manera eciente. Escogiendo estos elementos como base de la representacin de un problema podemos llegar a diferentes aproximaciones, algunas generales, otras ms especcas. De entre los tipos de aproximaciones podemos citar: Espacio de estados: Se trata de la aproximacin ms general, un problema se divide en un conjunto de pasos de resolucin que enlazan los elementos iniciales con los elementos que describen la solucin, donde en cada paso podemos ver como se transforma el problema. Reduccin a subproblemas: En esta aproximacin suponemos que podemos descomponer el problema global en problemas ms pequeos de manera recursiva hasta llegar a problemas simples. Es necesario que exista la posibilidad de realizar esta descomposicin. 5
Captulo 1. Resolucin de problemas
Satisfaccin de restricciones: Esta aproximacin es especca para problemas que se puedan plantear como un conjunto de variables a las que se han de asignar valores cumpliendo ciertas restricciones. Juegos: Tambin es una aproximacin especca, en la que el problema se plantea como la competicin entre dos o mas agentes La eleccin de la forma de representacin depender de las caractersticas del problema, en ocasiones una metodologa especializada puede ser ms eciente.
1.2 El espacio de estados

La aproximacin ms general y ms sencilla de plantear es la que hemos denominado espacio de estados. Deberemos suponer que podemos denir un problema a partir de los elementos que intervienen en l y sus relaciones. En cada instante de la resolucin de un problema estos elementos tendrn unas caractersticas y relaciones especcas que son sucientes para determinar el momento de la resolucin en el que estamos. Denominaremos estado a la representacin de los elementos que describen el problema en un momento dado. Distinguiremos dos estados especiales, el estado inicial (punto de partida) y el estado nal (objetivo del problema). La cuestin principal que nos deberemos plantear ser qu debemos incluir en el estado. No existen unas directrices que nos resuelvan esta cuestin, pero podemos tomar como lnea general que debemos incluir lo suciente para que, cuando obtengamos la solucin, sta pueda trasladarse al problema real, ya que una simplicacin excesiva nos llevar a soluciones inservibles. En el otro extremo, representar elementos de estado que sean irrelevantes o superuos lo nico que conseguir es aumentar innecesariamente el coste computacional de la resolucin. Para poder movernos entre los diferentes estados que denen el problema, necesitaremos lo que denominaremos operadores de transformacin. Un operador es una funcin de transformacin sobre la representacin de un estado que lo convierte en otro estado. Los operadores denirn una relacin de accesibilidad entre estados. Los elementos que denen un operador son: 1. Condiciones de aplicabilidad, las condiciones que debe cumplir un estado para que podamos aplicrselo. 2. Funcin de transformacin, la transformacin que ha de aplicarse al estado para conseguir un estado sucesor al actual. Igual que con la eleccin de los elementos que forman parte del estado, tampoco existen unas directrices que nos permitan decidir, de manera general, que operadores sern necesarios para resolver el problema, cuantos sern necesarios o que nivel de granularidad han de tener (como de diferente es el estado transformado respecto al original). Se puede dar el mismo consejo que con los estados, pocos operadores pueden hacer que nuestro problema sea irresoluble o que la solucin no nos sirva en el problema real, demasiados operadores pueden hacer que el coste de la resolucin sea prohibitivo. Los estados y su relacin de accesibilidad conforman lo que se denomina el espacio de estados. ste representa todos los caminos que hay entre todos los estados posibles de un problema. Podra asimilarse con un mapa de carreteras de un problema, la solucin de nuestro problema esta dentro de ese mapa, solo nos falta hallar el camino adecuado. El ltimo elemento que nos queda por denir es la solucin. La deniremos de dos maneras, como la secuencia de pasos que llevan del estado inicial al nal (secuencia de operadores) o el estado nal del problema. Existen problemas en los que la secuencia de operadores es el objetivo de la solucin,
1.2 El espacio de estados
en stos, por lo general, sabemos como es la solucin, pero no sabemos como construirla y existen tambin problemas en los que queremos saber si es posible combinar los elementos del problema cumpliendo ciertas restricciones, pero la forma de averiguarlo no es importante. Tambin podremos catalogar los diferentes tipos problema segn el tipo de solucin que busquemos, dependiendo de si nos basta con una cualquiera, queremos la mejor o buscamos todas las soluciones posibles. Evidentemente el coste computacional de cada uno de estos tipos es muy diferente. En el caso de plantearnos el cuantos recursos gastamos para obtener una solucin, deberemos introducir otros elementos en la representacin del problema. Deniremos el coste de una solucin como la suma de los costos individuales de la aplicacin de los operadores a los estados, esto quiere decir que cada operador tendr tambin asociado un coste. Vamos a ver a continuacin dos ejemplos de como denir problemas como espacio de estados: Ejemplo 1.1 El ocho puzzle es un problema clsico que consiste en un tablero de 9 posiciones dispuesto como una matriz de 33 en el que hay 8 posiciones ocupadas por chas numeradas del 1 al 8 y una posicin vaca. Las chas se pueden mover ocupando la posicin vaca, si la tienen adyacente. El objetivo es partir de una disposicin cualquiera de las chas, para obtener una disposicin de stas en un orden especco. Tenemos una representacin del problema en la siguiente gura:
1 4 7
2 5 8
3 6
La denicin de los elementos del problema para plantearlo en el espacio de estados podra ser la siguiente: Espacio de estados: Conguraciones de 8 chas en el tablero Estado inicial: Cualquier conguracin Estado nal: Fichas en un orden especco Operadores: Mover el hueco Condiciones: El movimiento est dentro del tablero Transformacin: Intercambio entre el hueco y la cha en la posicin del movimiento Solucin: Que movimientos hay que hacer para llegar al estado nal, posiblemente nos interesa la solucin con el menor nmero de pasos En esta denicin hemos escogido como operador mover el hueco, evidentemente, en el problema real lo que se mueven son las chas, pero elegir el movimiento de una cha como operador nos habra dado 8 posibles aplicaciones con 4 direcciones posibles para cada una. Al elegir el mover hueco como operador tenemos una nica aplicacin con 4 direcciones posibles. Este tipo de elecciones sobre como representar el problema pueden hacer que sea computacionalmente ms o menos costoso de resolver, ya que estamos variando la forma y el tamao del espacio de estados.
Ejemplo 1.2 El problema de las N reinas es tambin un problema clsico, en este caso el problema se trata de colocar N reinas en un tablero de ajedrez de NN de manera que no se maten entre si. En este problema no nos interesa la manera de hallar la solucin, sino el estado nal. En la gura tenemos representada la solucin para un problema con dimensin 4:
La denicin de los elementos del problema para plantearlo en el espacio de estados podra ser la siguiente: Espacio de estados: Conguraciones de 0 a n reinas en el tablero con solo una por la y columna Estado inicial: Conguracin sin reinas en el tablero Estado nal: Conguracin en la que ninguna reina se mata entre si Operadores: Colocar una reina en una la y columna Condiciones: La reina no es matada por ninguna otra ya colocada Transformacin: Colocar una reina ms en el tablero en una la y columna determinada Solucin: Una solucin, pero no nos importan los pasos Tambin podramos haber hecho otras elecciones de representacin como por ejemplo que el estado inicial tuviera las N reinas colocadas, o que el operador permitiera mover las reinas a una celda adyacente. Todas estas alternativas supondran un coste de solucin ms elevado. Un elemento que ser importante a la hora de analizar los problemas que vamos a solucionar, y que nos permitir tomar decisiones, es el tamao del espacio de bsqueda y su conectividad. Este tamao inuir sobre el tipo de solucin que podemos esperar, por ejemplo, si el tamao es demasiado grande, encontrar la solucin ptima puede ser irrealizable, el tipo de algoritmo que es ms adecuado, por ejemplo, habr algoritmos ms aptos para soluciones que estn ms lejos del estado inicial, y cul ser el coste computacional que implicar la resolucin del problema. Es esencial entonces, a la hora de plantear un problema, estimar cual es el nmero de estados que contiene. Por ejemplo, en el caso del ocho puzzle tenemos tantas combinaciones como posibles ordenes podemos hacer de las 8 piezas mas el hueco, esto signica 9! estados posibles (362880 estados). Probablemente no tendremos que recorrer todos los estados posibles del problema, pero nos puede dar una idea de si el problema ser mas o menos difcil de resolver1 . Otro elemento a considerar es la conectividad entre los estados, que se puede calcular a partir del factor de ramicacin de los operadores que podemos utilizar. No es lo mismo recorrer un espacio
1 Se sola comentar hace unos aos que problemas que tengan menos de 232 estados para los que solo nos interesa saber si existe una estado solucin eran la frontera de los problemas sencillos y que se pueden resolver por fuerza bruta simplemente enumerndolos todos, con la capacidad de clculo actual probablemente ahora ese nmero mnimo de estados sea algo mayor.
1.3 Algoritmos de bsqueda en el espacio de estados Algoritmo 1.1 Esquema de algoritmo de bsqueda en espacio de estados Funcin: Busqueda en espacio de estados() Datos: El estado inicial Resultado: Una solution Seleccionar el primer estado como el estado actual mientras estado actua = estado nal hacer Generar y guardar sucesores del estado actual (expansin) Escoger el siguiente estado entre los pendientes (seleccin) n
de estados en el que de un estado podemos movernos a unos pocos estados sucesores, que un espacio de estados en los que cada estado esta conectado con casi todos los estados posibles. Esta es la razn por la que elegir operadores con un factor de ramicacin no muy grande es importante. Pero debemos tener en cuenta otra cosa, un factor de ramicacin pequeo puede hacer que el camino hasta la solucin sea ms largo. Como siempre, hemos de buscar el compromiso, tener mucha conectividad es malo, pero muy poca tambin puede ser malo. En el caso del ocho puzzle, el factor de ramicacin es 4 en el peor de los casos, pero en media podemos considerar que estar alrededor de 2.
?
Puedes tomarte unos minutos en pensar otros problemas que puedas denir segn el paradigma del espacio de estados. Debers jarte en que los problemas representables de este modo se pueden reducir a la bsqueda de un camino.
1.3 Algoritmos de bsqueda en el espacio de estados

La resolucin de un problema planteado como un espacio de estados pasa por la exploracin de ste. Debemos partir del estado inicial marcado por el problema, evaluando cada paso posible y avanzando hasta encontrar un estado nal. En el caso peor deberemos explorar todos los posibles caminos desde el estado inicial hasta poder llegar a un estado que cumpla las condiciones del estado nal. Para poder implementar un algoritmo capaz de explorar el espacio de estados en busca de una solucin primero debemos denir una representacin adecuada de ste. Las estructuras de datos ms adecuadas para representar el espacio de estados son los grafos y los rboles. En estas estructuras cada nodo de representar un estado del problema y los operadores de cambio de estado estarn representados por los arcos. La eleccin de un rbol o un grafo la determinar la posibilidad de que a un estado solo se pueda llegar a travs de un camino (rbol) o que haya diferentes caminos que puedan llevar al mismo estado (grafo). Los grafos sobre los que trabajarn los algoritmos de resolucin de problemas son diferentes de los algoritmos habituales sobre grafos. La caracterstica principal es que el grafo se construir a medida que se haga la exploracin, dado que el tamao que puede tener hace imposible que se pueda almacenar en memoria (el grafo puede ser incluso innito). Esto hace que, por ejemplo, los algoritmos habituales de caminos mnimos en grafos no sirvan en este tipo de problemas. Nosotros nos vamos a centrar en los algoritmos que encuentran una solucin, pero evidentemente extenderlo a todas las soluciones es bastante sencillo. En el algoritmo 1.1 se puede ver el que sera un esquema a alto nivel de un algoritmo que halla una solucin de un problema en el espacio de estados. En este algoritmo tenemos varias decisiones que nos permitirn obtener diferentes variantes que
10
Algoritmo 1.2 Esquema general de bsqueda Algoritmo: Busqueda General Est_abiertos.insertar(Estado inicial) Actual Est_abiertos.primero() mientras no es_nal?(Actual) y no Est_abiertos.vacia?() hacer Est_abiertos.borrar_primero() Est_cerrados.insertar(Actual) Hos generar_sucesores(Actual) Hos tratar_repetidos(Hos, Est_cerrados, Est_abiertos) Est_abiertos.insertar(Hos) Actual Est_abiertos.primero() n
se comportarn de distinta manera y que tendrn propiedades especcas. La primera decisin es el orden de expansin, o lo que es lo mismo, el orden en el que generamos los sucesores de un nodo. La segunda decisin es el orden de seleccin, o sea, el orden en el que decidimos explorar los nodos que an no hemos visitado. Entrando un poco ms en los detalles de funcionamiento del algoritmo, podremos distinguir dos tipos de nodos, los nodos abiertos, que representarn a los estados generados pero an no visitados y los nodos cerrados, que correspondern a los estados visitados y que ya se han expandido. Nuestro algoritmo siempre tendr una estructura que almacenar los nodos abiertos. Las diferentes polticas de insercin de esta estructura sern las que tengan una inuencia determinante sobre el tipo de bsqueda que har el algoritmo. Dado que estaremos explorando grafos, y que por lo tanto durante la exploracin nos encontraremos con estados ya visitados, puede ser necesario tener una estructura para almacenar los nodos cerrados. Merecer la pena si el nmero de nodos diferentes es pequeo respecto al nmero de caminos, pero puede ser prohibitivo para espacios de bsqueda muy grandes. En el algoritmo 1.2 tenemos un algoritmo algo ms detallado que nos va a servir como esquema general para la mayora de los algoritmos que iremos viendo. Variando la estructura de abiertos variamos el comportamiento del algoritmo (orden de visita de los nodos). La funcin generar_sucesores seguir el orden de generacin de sucesores denido en el problema. Este puede ser arbitrario o se puede hacer alguna ordenacin usando conocimiento especco del problema. El tratamiento de repetidos depender de cmo se visiten los nodos, en funcin de la estrategia de visitas puede ser innecesario. Para poder clasicar y analizar los algoritmos que vamos a tratar, escogeremos unas propiedades que nos permitirn caracterizarlos. Estas propiedades sern: Completitud: Si un algoritmo es completo tenemos la garanta de que hallar una solucin de existir, si no lo es, es posible que algoritmo no acabe o que sea incapaz de encontrarla. Complejidad temporal: Coste temporal de la bsqueda en funcin del tamao del problema, generalmente una cota que es funcin del factor de ramicacin y la profundidad a la que se encuentra la solucin. Complejidad espacial: Espacio requerido para almacenar los nodos pendientes de explorar, generalmente una cota que es funcin del factor de ramicacin y la profundidad a la que se encuentra la solucin. Tambin se puede tener en cuenta el espacio para almacenar los nodos ya explorados si es necesario para el algoritmo
1.3 Algoritmos de bsqueda en el espacio de estados
11
Optimalidad: Si es capaz de encontrar la mejor solucin segn algn criterio de preferencia o coste. Atendiendo a estos criterios podemos clasicar los algoritmos principales que estudiaremos en: Algoritmos de bsqueda no informada: Estos algoritmos no tienen en cuenta el coste de la solucin durante la bsqueda. Su funcionamiento es sistemtico, siguen un orden de visitas de nodos jo, establecido por la estructura del espacio de bsqueda. Los principales ejemplos de estos algoritmos son el de anchura prioritaria, el de profundidad prioritaria y el de profundidad iterativa. Algoritmos de bsqueda heurstica y bsqueda local: Estos algoritmos utilizan una estimacin del coste o de la calidad de la solucin para guiar la bsqueda, de manera que se basan en algn criterio heurstico dependiente del problema. Estos algoritmos no son sistemticos, de manera que el orden de exploracin no lo determina la estructura del espacio de bsqueda sino el criterio heurstico. Algunos de ellos tampoco son exhaustivos y basan su menor complejidad computacional en ignorar parte del espacio de bsqueda. Existen bastantes algoritmos de este tipo con funcionamientos muy diferentes, no siempre garantizan el encontrar la solucin ptima, ni tan siquiera el hallar una solucin. Los principales ejemplos de estos algoritmos son A , IDA , Branch & Bound, Hill-climbing. Desarrollaremos estos algoritmos en los captulos siguientes.
STOP
Este es un buen momento para repasar los diferentes algoritmos de recorrido de rboles y grafos y de bsqueda de caminos en grafos que se te han explicado en otras asignaturas. A pesar de que traten con estructuras nitas los principios bsicos son muy parecidos.
12
2. Bsqueda no informada
2.1 Bsqueda independiente del problema

Los algoritmos de bsqueda no informada (tambin conocidos como algoritmos de bsqueda ciega) no dependen de informacin propia del problema a la hora de resolverlo. Esto quiere decir que son algoritmos generales y por lo tanto se pueden aplicar en cualquier circunstancia. Estos algoritmos se basan en la estructura del espacio de estados y determinan estrategias sistemticas para su exploracin. Es decir, siguen una estrategia ja a la hora de visitar los nodos que representan los estados del problema. Se trata tambin de algoritmos exhaustivos, de manera que pueden acabar recorriendo todos los nodos del problema para hallar la solucin. Existen bsicamente dos polticas de recorrido de un espacio de bsqueda, en anchura y en profundidad. Todos los algoritmos que se explicarn a continuacin se basan en una de las dos. Al ser algoritmos exhaustivos y sistemticos su coste puede ser prohibitivo para la mayora de los problemas reales, por lo tanto solo ser aplicables en problemas pequeos. Su ventaja es que no nos hace falta obtener ningn conocimiento adicional sobre el problema, por lo que siempre son aplicables.
2.2 Bsqueda en anchura prioritaria

La bsqueda en anchura prioritaria intenta explorar el espacio de bsqueda haciendo un recorrido por niveles, de manera que un nodo se visita solamente cuando todos sus predecesores y sus hermanos anteriores en orden de generacin ya se han visitado. Para obtener este algoritmo solo hemos de instanciar en el algoritmo que vimos en el captulo anterior la estructura que guarda los nodos abiertos a una cola en el algoritmo general de bsqueda que hemos visto en el captulo anterior. Esta estructura nos consigue que se visiten los nodos en el orden que hemos establecido. Si nos jamos en las propiedades que hemos escogido para clasicar los algoritmos: Completitud: El algoritmo siempre encuentra una solucin de haberla. Complejidad temporal: Si tomamos como medida del coste el nmero de nodos explorados, este crece de manera exponencial respecto al factor de ramicacin y la profundidad de la solucin O(rp ). Complejidad espacial: Dado que tenemos que almacenar todos los nodos pendientes por explorar, el coste es exponencial respecto al factor de ramicacin y la profundidad de la solucin O(rp ). Optimalidad: La solucin obtenida es ptima respecto al nmero de pasos desde la raz, si los operadores de bsqueda tienen coste uniforme,el coste de la solucin sera el ptimo. Respecto al tratamiento de nodos repetidos, si nos jamos en la gura 2.1 podemos ver los diferentes casos con los que nos encontramos. 13
14
Captulo 2. Bsqueda no informada
Figura 2.1: Tratamiento de repetidos en bsqueda en anchura
El nodo de color negro sera el nodo generado actual, los nodos en cuadrcula son nodos cerrados y los nodos rayados son nodos abiertos. Si el nodo generado actual est repetido en niveles superiores (ms cerca de la raz), su coste ser peor ya que su camino desde la raz es ms largo, si est al mismo nivel, su coste ser el mismo. Esto quiere decir que para cualquier nodo repetido, su coste ser peor o igual que algn nodo anterior visitado o no, de manera que lo podremos descartar, ya que o lo hemos expandido ya o lo haremos prximamente. El coste espacial de guardar los nodos cerrados para el tratamiento de repetidos es tambin O(rp ). No hacer el tratamiento de nodos repetidos no supone ninguna ganancia, ya que tanto la cola de nodos abiertos como la de nodos repetidos crecen exponencialmente.
2.3 Bsqueda en profundidad prioritaria

La bsqueda en profundidad prioritaria intenta seguir un camino hasta la mayor profundidad posible, retrocediendo cuando acaba el camino y retomando la ltima posibilidad de eleccin disponible. Para obtener este algoritmo solo hemos de instanciar la estructura que guarda los nodos abiertos a una pila en el algoritmo genrico. Esta estructura nos consigue que se visiten los nodos en el orden que hemos establecido. El principal problema de este algoritmo es que no acaba si existe la posibilidad de que hayan caminos innitos. Una variante de este algoritmo que evita este problema es el algoritmo de profundidad limitada, ste impone un lmite mximo de profundidad que impone la longitud mxima de los caminos recorridos. Esta limitacin garantiza que el algoritmo acaba, pero no garantiza la solucin ya que sta puede estar a mayor profundidad que el lmite impuesto. El algoritmo de profundidad limitada se puede ver en el algoritmo 2.1. La nica diferencia en la implementacin de esta variante con el algoritmo general es que se dejan de generar sucesores cuando se alcanza la profundidad lmite. Si nos jamos en las propiedades que hemos escogido para clasicar los algoritmos: Completitud: El algoritmo encuentra una solucin si se impone una profundidad lmite y existe una solucin dentro de ese lmite. Complejidad temporal: Si tomamos como medida del coste el nmero de nodos explorados, el coste es exponencial respecto al factor de ramicacin y la profundidad del lmite de exploracin O(rp ).
2.3 Bsqueda en profundidad prioritaria Algoritmo 2.1 Algoritmo de profundidad limitada Procedimento: Busqueda en profundidad limitada (limite: entero) Est_abiertos.insertar(Estado inicial) Actual Est_abiertos.primero() mientras no es_nal?(Actual) y no Est_abiertos.vacia?() hacer Est_abiertos.borrar_primero() Est_cerrados.insertar(Actual) si profundidad(Actual) limite entonces Hos generar_sucesores (Actual) Hos tratar_repetidos (Hos, Est_cerrados, Est_abiertos) Est_abiertos.insertar(Hos) n Actual Est_abiertos.primero() n
15
Figura 2.2: Tratamiento de repetidos en bsqueda en profundidad Complejidad espacial: El coste es lineal respecto al factor de ramicacin y el lmite de profundidad O(rp). Si hacemos una implementacin recursiva del algoritmo el coste es O(p), ya que no nos hace falta generar todos los sucesores de un nodo, pudindolos tratar uno a uno. Si tratamos los nodos repetidos el coste espacial es igual que en anchura ya que tendremos que guardar todos los nodos cerrados. Optimalidad: No se garantiza que la solucin sea ptima, la solucin que se retornar ser la primera en el orden de exploracin.
Las implementaciones recursivas de los algoritmos permiten por lo general un gran ahorro de espacio. En este caso la bsqueda en profundidad se puede realizar recursivamente de manera natural (ver algoritmo 2.2). La recursividad permite que las alternativas queden almacenadas en la pila de ejecucin como puntos de continuacin del algoritmo sin necesidad de almacenar ninguna informacin. En este caso el ahorro de espacio es proporcional al factor de ramicacin que en la prctica en problemas difciles no es despreciable. Lo nico que perdemos es la capacidad de buscar repetidos en los nodos pendientes que tenemos en el camino recorrido, pero habitualmente la limitacin de memoria es una restriccin bastante fuerte que impide solucionar problemas con longitudes de camino muy largas. Respecto al tratamiento de nodos repetidos, si nos jamos en la gura 2.2 podemos ver los
' ( $ # $$# ('(( '' ((( '' ((' $$ ## ''(' 12 2 2 2 '((' 11211112 2 # ('('(' 1 #$#$ $ #$# 2222212 122221 211122 21221 1 1 1 212121221 1221 11221 12212121 1221121 12121 1 2121212122 21 11112121 22122 1212121 22211222 1111 !" 212212112 12112 12112 "!"" " !! "" ! !"! !"!
& & %% %& & & %% %& ) ) ) ) ) ) ) 000000 00000000 & & ))))))) %% 000000 %& ))))))0 )0000000) ))))))0 )0000000) ))))))0 )0)0)0)0)0)0)00)0) ))))))))0) 0)0000000 )0)0)0)0)0)0)0 00000000 ))))))) )0))0
16 Algoritmo 2.2 Algoritmo de profundidad limitada recursivo
Funcin: Busqueda en profundidad limitada recursiva (actual:nodo, limite: entero) si profundidad(Actual) limite entonces para todo nodo generar_sucesores (Actual) hacer si es_nal?(nodo) entonces retorna (nodo) sino resultado Busqueda en profundidad limitada recursiva(nodo,limite) si es_nal?(resultado) entonces retorna (resultado) n n n sino retorna () n
diferentes casos con los que nos encontramos. El nodo de color negro sera el nodo generado actual, los nodos en cuadrcula son nodos cerrados y los nodos rayados son nodos abiertos. Si el nodo generado actual est repetido en niveles superiores (ms cerca de la raz), su coste ser peor ya que su camino desde la raz es ms largo, si est al mismo nivel, su coste ser el mismo. En estos dos casos podemos olvidarnos de este nodo. En el caso de que el repetido corresponda a un nodo de profundidad superior, signica que hemos llegado al mismo estado por un camino ms corto, de manera que deberemos mantenerlo y continuar su exploracin, ya que nos permitir llegar a mayor profundidad que antes. En el caso de la bsqueda en profundidad, el tratamiento de nodos repetidos no es crucial ya que al tener un lmite en profundidad los ciclos no llevan a caminos innitos. No obstante, este caso se puede tratar comprobando los nodos en el camino actual ya que est completo en la estructura de nodos abiertos. Adems, no tratando repetidos mantenemos el coste espacial lineal, lo cual es una gran ventaja. El evitar tener que tratar repetidos y tener un coste espacial lineal supone una caracterstica diferenciadora de hace muy ventajosa a la bsqueda en profundidad. Este algoritmo ser capaz de obtener soluciones que se encuentren a gran profundidad. En un problema concreto, el algoritmo de bsqueda en anchura tendr una estructura de nodos abiertos de tamao O(rp ), lo que agotar rpidamente la memoria impidiendo continuar la bsqueda, pero solo habiendo alcanzado una profundidad de camino de p. En cambio el algoritmo en profundidad solo tendr O(rp) nodos abiertos al llegar a esa misma profundidad. Esto quiere decir que en problemas difciles la estrategia en profundidad ser la nica capaz de hallar una solucin con un espacio de memoria limitado.
2.4 Bsqueda en profundidad iterativa

Este algoritmo intenta obtener las propiedades ventajosas de la bsqueda en profundidad y en anchura combinadas, es decir, un coste espacial lineal y asegurar que la solucin ser ptima respecto a la longitud del camino. Para obtener esto lo que se hace es repetir sucesivamente el algoritmo de profundidad limitada, aumentando a cada iteracin la profundidad mxima a la que le permitimos llegar.
2.4 Bsqueda en profundidad iterativa Algoritmo 2.3 Algoritmo de profundidad iterativa (Iterative Deepening) Procedimento: Busqueda en profundidad iterativa (limite: entero) prof 1 Actual Estado inicial mientras no es_nal?(Actual) y prof<limite hacer Est_abiertos.inicializar() Est_abiertos.insertar(Estado inicial) Actual Est_abiertos.primero() mientras no es_nal?(Actual) y no Est_abiertos.vacia?() hacer Est_abiertos.borrar_primero() Est_cerrados.insertar(Actual) si profundidad(Actual) prof entonces Hos generar_sucesores (Actual) Hos tratar_repetidos (Hos, Est_cerrados, Est_abiertos) Est_abiertos.insertar(Hos) n Actual Est_abiertos.primero() n prof prof+1 n
17
Este algoritmo obtendra el mismo efecto que el recorrido en anchura en cada iteracin, ya que a cada paso recorremos un nivel ms del espacio de bsqueda. El coste espacial ser lineal ya que cada iteracin es un recorrido en profundidad. Para que el algoritmo acabe en el caso de que no haya solucin se puede imponer un lmite mximo de profundidad en la bsqueda. Aparentemente podra parecer que este algoritmo es ms costoso que los anteriores al tener que repetir en cada iteracin la bsqueda anterior, pero si pensamos en el nmero de nodos nuevos que recorremos a cada iteracin, estos son siempre tantos como todos los que hemos recorrido en todas las iteraciones anteriores, por lo que las repeticiones suponen un factor constante respecto a los que recorreramos haciendo solo la ltima iteracin. El algoritmo de profundidad iterativa se puede ver en el algoritmo 2.3. Si nos jamos en las propiedades que hemos escogido para clasicar los algoritmos: Completitud: El algoritmo siempre encontrar la solucin Complejidad temporal: La misma que la bsqueda en anchura. El regenerar el rbol en cada iteracin solo aade un factor constante a la funcin de coste O(rp ) Complejidad espacial: Igual que en la bsqueda en profundidad Optimalidad: La solucin es ptima igual que en la bsqueda en anchura Igual que en el caso del algoritmo en profundidad, el tratar repetidos acaba con todas las ventajas espaciales del algoritmo, por lo que es aconsejable no hacerlo. Como mximo se puede utilizar la estructura de nodos abiertos para detectar bucles en el camino actual. Si el algoritmo en profundidad limitada es capaz de encontrar soluciones a mayor profundidad, este algoritmo adems nos garantizar que la solucin ser ptima. Por lo tanto este es el algoritmo ms ventajoso de los tres.
18
3 Figura 2.3: Ejemplo de grafo
2.5 Ejemplos
En esta seccin vamos a ver ejemplos de ejecucin de los algoritmos vistos en estos captulos. En la gura 2.3 podemos ver el grafo que vamos a utilizar en los siguientes ejemplos. Este grafo tiene como nodo inicial el 1 y como nodo nal el 8, todos los caminos son dirigidos y tienen el mismo coste. Utilizaremos los algoritmos de bsqueda ciega para encontrar un camino entre estos dos nodos. Supondremos que hacemos un tratamiento de los nodos repetidos durante la ejecucin del algoritmo. Hay que tener en cuenta tambin que para poder recuperar el camino, los nodos deben tener un enlace al padre que los ha generado. Bsqueda en anchura 1. Este algoritmo comenzara encolando el nodo inicial (nodo 1). 2. Los nodos sucesores del primer nodo son los nodos 2 y 3, que pasaran a ser encolados 3. El siguiente nodo extrado de la cola sera el 2, que tiene como sucesores el 4 y el 6. 4. El siguiente nodo extrado de la cola sera el 3, que tiene como sucesores el 4, el 5 y el 7. Como el 4 est repetido no se encolara al ser de la misma profundidad que el nodo repetido. 5. El siguiente nodo extrado de la cola sera el 4, que tiene como sucesor el 5. Como el 4 est repetido no se encolara al tener profundidad mayor que el nodo repetido. 6. El siguiente nodo extrado de la cola sera el 6, que tiene como sucesores el 7 y el 8. Como el 7 est repetido no se encolara al tener profundidad mayor que el nodo repetido. 7. El siguiente nodo extrado de la cola sera el 5, que tiene como sucesores el 6 y el 7. Como los dos nodos corresponden a nodos repetidos con profundidad menor, no se encolaran. 8. El siguiente nodo extrado de la cola sera el 7, que tiene como sucesor el 8. Como el 8 est repetido no se encolara al tener la misma profundidad que el nodo repetido. 9. El siguiente nodo extrado de la cola sera el 8 que es el nodo solucin y por tanto acabara la ejecucin. En la gura 2.4 se puede ver el rbol de bsqueda que se genera. En el caso de los nodos cerrados necesitamos una estructura adicional para controlar los nodos repetidos. resultado) Bsqueda en profundidad 1. Este algoritmo comenzara empilando el nodo inicial (nodo 1).
2.5 Ejemplos 2. Los nodos sucesores del primer nodo son los nodos 2 y 3, que pasaran a ser empilados 3. El siguiente nodo extrado de la pila sera el 2, que tiene como sucesores el 4 y el 6. 4. El siguiente nodo extrado de la pila sera el 4, que tiene como sucesor el 5.
19
5. El siguiente nodo extrado de la pila sera el 5, que tiene como sucesores el 6 y el 7. Como el nodo 6 est en la pila en con nivel superior descartaramos este nodo. 6. El siguiente nodo extrado de la pila sera el 7, que tiene como sucesor el 8. 7. El siguiente nodo extrado de la pila sera el 8 que es el nodo solucin y por tanto acabara la ejecucin. En la gura 2.5 se puede ver el rbol de bsqueda que se genera. Faos que en este caso el camino es ms largo que el encontrado con el algoritmo anterior. De hecho es el primer camino solucin que se encuentra en la exploracin segn la ordenacin que se hace de los nodos. Para el control de repetidos, si se quiere ahorrar espacio, pueden solo tenerse en cuenta los nodos que hay en la pila como se ha hecho en el ejemplo, esto evitar que podamos entrar en bucle y que tengamos que tener una estructura para los nodos cerrados. Bsqueda en profundidad iterativa 1. Primera iteracin (profundidad 1) 1.1 Se comenzara empilando el nodo inicial (nodo 1). 1.2 Al extraer este nodo de la pila habramos visitado todos los caminos de profundidad 1 y con eso acabaramos la iteracin. 2. Segunda Iteracin (profundidad 2) 2.1 Se comenzara empilando el nodo inicial (nodo 1). 2.2 Los nodos sucesores del primer nodo son los nodos 2 y 3, que pasaran a ser empilados. 2.3 El siguiente nodo extrado de la pila sera el 2, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. 2.3 El siguiente nodo extrado de la pila sera el 3, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. Al extraer este nodo de la pila habramos visitado todos los caminos de profundidad 2 y con eso acabaramos la iteracin. 3. Tercera Iteracin (profundidad 3) 3.1 Se comenzara empilando el nodo inicial (nodo 1). 3.2 Los nodos sucesores del primer nodo son los nodos 2 y 3, que pasaran a ser empilados. 3.3 El siguiente nodo extrado de la pila sera el 2, que tiene como sucesores el 4 y el 6. 3.4 El siguiente nodo extrado de la pila sera el 4, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. 3.5 El siguiente nodo extrado de la pila sera el 6, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. 3.6 El siguiente nodo extrado de la pila sera el 3, que tiene como sucesores el 4, el 5 y el 7. 3.7 El siguiente nodo extrado de la pila sera el 4, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos.
20
Captulo 2. Bsqueda no informada 3.8 El siguiente nodo extrado de la pila sera el 5, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. 3.4 El siguiente nodo extrado de la pila sera el 7, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. Al extraer este nodo de la pila habramos visitado todos los caminos de profundidad 3 y con eso acabaramos la iteracin. 4. Cuarta Iteracin (profundidad 4) 4.1 Se comenzara empilando el nodo inicial (nodo 1). 4.2 Los nodos sucesores del primer nodo son los nodos 2 y 3, que pasaran a ser empilados. 4.3 El siguiente nodo extrado de la pila sera el 2, que tiene como sucesores el 4 y el 6. 4.4 El siguiente nodo extrado de la pila sera el 4, que tiene como sucesor el 5. 4.5 El siguiente nodo extrado de la pila sera el 5, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. 4.6 El siguiente nodo extrado de la pila sera el 6, que tiene como sucesores el 7 y el 8. 4.7 El siguiente nodo extrado de la pila sera el 7, los nodos sucesores estaran a mayor profundidad que el lmite actual, no los empilaramos. 4.8 El siguiente nodo extrado de la pila sera el 8 que es el nodo solucin y por tanto acabara la ejecucin. En la gura 2.6 se puede ver el rbol de bsqueda que se genera. En este caso encontramos el camino mas corto, ya que este algoritmo explora los caminos en orden de longitud como la bsqueda en anchura. Para mantener la ganancia en espacio en este caso no se han guardado los nodos cerraros, es por ello que no se ha tratado en nodo 4 en el paso 3.7 como repetido.
2.5 Ejemplos
21
Figura 2.4: Ejecucin del algoritmo de bsqueda en anchura
8 Figura 2.5: Ejecucin del algoritmo de bsqueda en profundidad
22
1 Primera iteracin
2 Segunda iteracin 1
4 Tercera iteracin 1
Cuarta iteracin Figura 2.6: Ejecucin del algoritmo de bsqueda IDA
3. Bsqueda heurstica
3.1 El conocimiento importa

Es evidente que los algoritmos de bsqueda no informada sern incapaces de encontrar soluciones en problemas en los que el tamao del espacio de bsqueda sea grande. Todos estos algoritmos tienen un coste temporal que es una funcin exponencial del tamao de la entrada, por lo tanto el tiempo para encontrar la mejor solucin a un problema no es asumible en problemas reales. La manera de conseguir reducir este tiempo de bsqueda a algo ms razonable es intentar hacer intervenir conocimiento sobre el problema que queremos resolver dentro del funcionamiento del algoritmo de bsqueda. El problema que tendremos es que este conocimiento ser particular para cada problema, por lo tanto no ser exportable a otros. Perderemos en generalidad, pero podremos ganar en eciencia temporal. En este captulo nos centraremos en los algoritmos que buscan la solucin ptima. Este objetivo solo es abordable hasta cierto tamao de problemas, existir todo un conjunto de problemas en los que la bsqueda del ptimo ser imposible por el tamao de su espacio de bsqueda o por la imposibilidad de encontrar informacin que ayude en la bsqueda.
3.2 El ptimo est en el camino

Para poder plantear la bsqueda del ptimo siempre hemos que tener alguna medida del coste de obtener una solucin. Este coste lo mediremos sobre el camino que nos lleva desde el estado inicial del problema hasta el estado nal. No todos los problemas se pueden plantear de esta forma tal y como veremos en el prximo captulo. Por lo tanto, supondremos que podemos plantear nuestra bsqueda como la bsqueda de un camino y que de alguna manera somos capaces de saber o estimar cul es la longitud o coste de ste. Por lo general, tendremos un coste asociado a los operadores que nos permiten pasar de un estado a otro, por lo que ese coste tendr un papel fundamental en el clculo del coste del camino. Los algoritmos que veremos utilizarn el clculo del coste de los caminos explorados para saber que nodos merece la pena explorar antes. De esta manera, perderemos la sistematicidad de los algoritmos de bsqueda no informada, y el orden de visita de los estados de bsqueda no vendr determinado por su posicin en el grafo de bsqueda, sino por su coste. Dado que el grafo va siendo generado a medida que lo exploramos, podemos ver que tenemos dos elementos que intervienen en el coste del camino hasta la solucin que buscamos. En primer lugar, tendremos el coste del camino recorrido, que podremos calcular simplemente sumando los costes de los operadores aplicados desde el estado inicial hasta el nodo actual. En segundo lugar, tendremos el coste ms difcil, que es el del camino que nos queda por recorrer hasta el estado nal. Dado que lo desconocemos, tendremos que utilizar el conocimiento del que disponemos del problema para obtener una aproximacin. Evidentemente, la calidad de ese conocimiento que nos permite predecir el coste futuro, har ms o menos exitosa nuestra bsqueda. Si nuestro conocimiento fuera perfecto, podramos dirigirnos rpidamente hacia el objetivo descartando todos los caminos de mayor coste, en este extremo podramos 23
24
Captulo 3. Bsqueda heurstica
Algoritmo 3.1 Algoritmo Greedy Best First Algoritmo: Greedy Best First Est_abiertos.insertar(Estado inicial) Actual Est_abiertos.primero() mientras no es_nal?(Actual) y no Est_abiertos.vaca?() hacer Est_abiertos.borrar_primero() Est_cerrados.insertar(Actual) hos generar_sucesores (Actual) hos tratar_repetidos (Hos, Est_cerrados, Est_abiertos) Est_abiertos.insertar(Hos) Actual Est_abiertos.primero() n
encontrar nuestra solucin en tiempo lineal. En el otro extremo, si estuviramos en la total ignorancia, tendramos que explorar muchos caminos antes de hallar la solucin ptima, todos en el peor caso. Esta ltima situacin es en la que se encuentra la bsqueda no informada y desgraciadamente la primera situacin es rara. Quedar pues como labor fundamental en cada problema, obtener una funcin que nos haga el clculo del coste futuro desde un estado al estado solucin. Cuanto ms podamos ajustarlo al coste real, mejor funcionarn los algoritmos que veremos a continuacin.
3.3 T primero y t despus

El fundamento de los algoritmos de bsqueda heurstica ser el cmo elegir qu nodo explorar primero, para ello podemos utilizar diferentes estrategias que nos darn diferentes propiedades. Una primera estrategia que se nos puede ocurrir es utilizar la estimacin del coste futuro para decidir qu nodos explorar primero. De esta manera supondremos que los nodos que aparentemente estn ms cerca de la solucin formarn parte del camino hasta la solucin ptima y, por lo tanto, la encontraremos antes si los exploramos en primer lugar. Esta estrategia se traduce en el algoritmo primero el mejor avaricioso (greedy best rst). La nica diferencia respecto a los algoritmos que hemos visto es el utilizar como estructura para almacenar los nodos abiertos una cola con prioridad. La prioridad de los nodos la marca la estimacin del coste del camino del nodo hasta el nodo solucin. El algoritmo 3.1 es su implementacin. El explorar antes los nodos ms cercanos a la solucin probablemente nos har encontrarla antes, pero el no tener en cuenta el coste del camino recorrido hace que no se garantice la solucin ptima, ya que a pesar de guiarnos hacia el nodo aparentemente ms cercano a la solucin, estamos ignorando el coste del camino completo.
3.4 El algoritmo A
Dado que nuestro objetivo no es solo llegar lo mas rpidamente a la solucin, sino encontrar la de menor coste tendremos que tener en cuenta el coste de todo el camino y no solo el camino por recorrer. Para poder introducir el siguiente algoritmo y establecer sus propiedades tenemos primero que dar una serie de deniciones. Denominaremos el coste de un arco entre dos nodos ni y nj al coste del operador que nos
3.4 El algoritmo A Algoritmo 3.2 Algoritmo A Algoritmo: A* Est_abiertos.insertar(Estado inicial) Actual Est_abiertos.primero() mientras no es_nal?(Actual) y no Est_abiertos.vaca?() hacer Est_abiertos.borrar_primero() Est_cerrados.insertar(Actual) hos generar_sucesores (Actual) hos tratar_repetidos (Hos, Est_cerrados, Est_abiertos) Est_abiertos.insertar(Hos) Actual Est_abiertos.primero() n
25
permite pasar de un nodo al otro, y lo denotaremos como c(ni , nj ). Este coste siempre ser positivo. Denominaremos el coste de un camino entre dos nodos ni y nj a la suma de los costes de todos los arcos que llevan desde un nodo al otro y lo denotaremos como
j1
C(ni , nj ) =
x=i
c(nx , nx+1 )
Denominaremos el coste del camino mnimo entre dos nodos ni y nj al camino de menor coste de entre los que llevan desde un nodo al otro y lo denotaremos como
l
K(ni , nj ) = m Ck (ni , nj ) n
k=1
Si nj es un nodo terminal, llamaremos h (ni ) a K(ni , nj ), es decir, el coste del camino mnimo desde un estado cualquiera a un estado solucin. Si ni es un nodo inicial, llamaremos g (nj ) a K(ni , nj ), es decir, el coste del camino mnimo desde el estado inicial a un estado cualquiera. Esto nos permite denir el coste del camino mnimo que pasa por cualquier nodo como una combinacin del coste del camino mnimo desde el nodo inicial al nodo mas el coste del nodo hasta el nodo nal: f (n) = g (n) + h (n) Dado que desde un nodo especco n el valor de h (n) es desconocido, lo substituiremos por una funcin que nos lo aproximar, a esta funcin la denotaremos h(n) y le daremos el nombre de funcin heurstica. Esta funcin tendr siempre un valor mayor o igual que cero. Denominaremos g(n) al coste del camino desde el nodo inicial al nodo n, evidentemente ese coste es conocido ya que ese camino lo hemos recorrido en nuestra exploracin. De esta manera tendremos una estimacin del coste del camino mnimo que pasa por cierto nodo: f (n) = g(n) + h(n) Ser este valor el que utilicemos para decidir en nuestro algoritmo de bsqueda cul es el siguiente nodo a explorar de entre todos los nodos abiertos disponibles. Para realizar esa bsqueda utilizaremos el algoritmo que denominaremos A (algoritmo 3.2). Como se observar, el algoritmo es el mismo que el primero el mejor avaricioso, lo nico que cambia es que ahora la ordenacin de los nodos se realiza utilizando el valor de f . Como criterio de ordenacin, consideraremos que a igual valor de f los nodos con h ms pequea se explorarn antes
26
(simplemente porque si la h es ms pequea es que son nodos mas cerca de la solucin), a igual h se consideraran en el orden en el que se introdujeron en la cola. Nunca est de ms el remarcar que el algoritmo solo acaba cuando se extrae una solucin de la cola. Es posible que en cierto momento ya haya en la estructura de nodos abiertos nodos solucin, pero hasta que no se hayan explorado los nodos por delante de ellos, no podemos asegurar que realmente sean soluciones buenas. Siempre hay que tener en mente que los nodos estn ordenados por el coste estimado del camino total, si la estimacin es menor es que podran pertenecer a un camino con una solucin mejor. Hay que considerar que el coste de este algoritmo es tambin O(rp ) en el caso peor. Si por ejemplo, la funcin h(n) fuera siempre 0, el algoritmo se comportara como una bsqueda en anchura gobernada por el coste del camino recorrido. Lo que hace que este algoritmo pueda tener un coste temporal inferior es la bondad de la funcin h. De hecho, podemos interpretar las funciones g y h como las que gobiernan el comportamiento en anchura o profundidad del algoritmo. Cuanto ms cercana al coste real sea h, mayor ser el comportamiento en profundidad del algoritmo, pues los nodos que aparentemente estn ms cerca de la solucin se explorarn antes. En el momento en el que esa informacin deje de ser able, el coste del camino ya explorado har que otros nodos menos profundos tengan un coste total mejor y, por lo tanto, se abrir la bsqueda en anchura. Si pensamos un poco en el coste espacial que tendr el algoritmo podemos observar que como ste puede comportarse como un algoritmo de bsqueda en anchura, el coste espacial en el caso peor tambin ser O(rp ). Igual nos pasa con el coste temporal, no obstante, si la funcin heurstica es sucientemente buena no llegaremos a necesitar tanto tiempo, ni espacio antes de llegar a la solucin. Un resultado a tener en cuenta es que el coste del algoritmo A crece exponencialmente a no ser que se cumpla que: |h(n) h (n)| < O(log(h (n)) Esto pondr el lmite respecto a cuando podemos obtener una solucin ptima para un problema. Si no podemos encontrar una funcin heurstica sucientemente buena, deberemos usar algoritmos que no busquen el ptimo, pero que nos garanticen que nos acercaremos lo suciente a l para obtener una buena solucin. El tratamiento de nodos repetidos en este algoritmo se realiza de la siguiente forma: Si es un nodo repetido que est en la estructura de nodos abiertos Si su coste es menor substituimos el coste por el nuevo, esto podr variar su posicin en la estructura de abiertos Si su coste es igual o mayor nos olvidamos del nodo Si es un nodo repetido que est en la estructura de nodos cerrados Si su coste es menor reabrimos el nodo insertndolo en la estructura de abiertos con el nuevo coste, no hacemos nada con sus sucesores, ya se reabrirn si hace falta Si su coste es mayor o igual nos olvidamos del nodo Mas adelante veremos que si la funcin h cumple ciertas condiciones podemos evitar el tratamiento de repetidos. A continuacin podemos ver un pequeo ejemplo de ejecucin del algoritmo A
3.5 Pero, encontrar el ptimo?

1
0+2
27
2
1+1 1+1
3
1+3
4
2+1 2+1
5
2+2
6
3+1 3+1
7
3+2
10
4+1 4+1 3+1 4+1
11
5+0 Objetivo 4+0 Objetivo 5+0 Objetivo
Figura 3.1: Ejemplo de ejecucin del algoritmo A
Ejemplo 3.1 Si consideramos el rbol de bsqueda de la gura 3.1, donde en cada nodo tenemos descompuesto el coste en g y h y marcado el orden en el que el algoritmo ha visitado cada nodo. La numeracin en los nodos indica el orden en que el algoritmo A los ha expandido (y por lo tanto el orden en el que han sido extrados de la cola). Podemos observar tambin que hay un nodo abierto que es revisitado por otro camino con un coste inferior que substituye al encontrado con anterioridad.
3.5 Pero, encontrar el ptimo?

Hasta ahora no hemos hablado para nada sobre como garantizar la optimalidad de la solucin. Hemos visto que en el caso degenerado tenemos una bsqueda en anchura guiada por el coste del camino explorado, eso nos debera garantizar el ptimo en este caso. Pero como hemos comentado, la funcin h nos permite obtener un comportamiento de bsqueda en profundidad y sabemos que en este caso no se nos garantiza el ptimo. El saber si encontraremos o no el ptimo mediante el algoritmo A recae totalmente en las propiedades que cumple la funcin heurstica, si esta cumple ciertos criterios sabremos que encontraremos la solucin ptima, si no los cumple, no lo podremos saber.
3.5.1 Admisibilidad
La propiedad clave que nos garantizar el hallar la solucin ptima es la que denominaremos admisibilidad. Diremos que una funcin heurstica h es admisible siempre que se cumpla que su valor en cada nodo sea menor o igual que el valor del coste real del camino que nos falta por recorrer hasta la solucin: n 0 h(n) h (n) Esto quiere decir que la funcin heurstica ha de ser un estimador optimista del coste que falta para llegar a la solucin.
28
Ejemplo 3.2 En la gura 3.2 podemos ver en este ejemplo dos grafos de bsqueda, uno con una funcin admisible y otra que no lo es. En este primer caso, la funcin heurstica siempre es admisible, pero en la primera rama el coste es ms pequeo que el real, por lo que pierde cierto tiempo explorndola (el efecto en profundidad que hemos comentado), pero al nal el algoritmo pasa a la segunda rama hallando la solucin. En el segundo caso el algoritmo acabara al encontrar la solucin en G, a pesar de que haya una solucin con un coste ms pequeo en H. Esto es as porque el coste estimado que da en el nodo D es superior al real y eso le relega en la cola de nodos abiertos.
1 A 2 B
(1+2)
1 A
5 C
(1+3)
D
(1+5)
2 B
(1+2)
C
(1+4)
D
(1+5)
3
(2+2)
6 E
(2+2)
3
(2+2)
H
(2+0) Objetivo
7 F 8
4
(3+1)
(3+1)
(3+1)
I
(4+1)
(4+0) Objetivo
(4+0) Objetivo
Figura 3.2: Efecto de la admisibilidad del heurstico Esta propiedad implica que, si podemos demostrar que la funcin de estimacin h que utilizamos en nuestro problema la cumple, siempre encontraremos una solucin ptima. El problema radica en hacer esa demostracin, pues cada problema es diferente. Por ello, no podemos dar un mtodo general para demostrar la admisibilidad de una funcin heurstica. Lo que s podemos establecer, es que para demostrar que una funcin heurstica no es admisible basta con encontrar un nodo que incumpla la propiedad. Esto se puede observar simplemente comprobando si alguno de los nodos que estn en el camino solucin tiene un coste mayor que el real, pues solo disponemos del coste real para los nodos de ese camino. Hay que remarcar tambin que la propiedad de admisibilidad es un propiedad de la funcin heurstica, y es independiente del algoritmo que la utiliza, por lo que si la funcin es admisible cualquier algoritmo de los que veamos que la utilice nos hallar la solucin ptima. Para una discusin sobre tcnicas para construir heursticos admisibles se puede consultar el captulo 4, seccin 4.2, del libro Inteligencia Articial: Un enfoque moderno de S. Russell y P. Norvig .
3.5.2 Consistencia
Podemos denir la propiedad de consistencia como una extensin de la propiedad de admisibilidad. Si tenemos el coste h (ni ) y el coste h (nj ) y el coste ptimo para ir de ni a nj , o sea K(ni , nj ), se ha de cumplir la desigualdad triangular: h (ni ) h (nj ) + K(ni , nj )
3.6 Mi memoria se acaba La condicin de consistencia exige pedir lo mismo al estimador h: h(ni ) h(nj ) K(ni , nj )
29
Es decir, que la diferencia de las estimaciones sea menor o igual que la distancia ptima entre nodos. Si esta propiedad se cumple esto quiere decir que h es un estimador uniforme de h . Es decir, la estimacin de la distancia que calcula h disminuye de manera uniforme. Si h es consistente adems se cumple que el valor de g(n) para cualquier nodo es g (n), por lo tanto, una vez hemos llegado a un nodo sabemos que hemos llegado a l por el camino ptimo desde el nodo inicial. Si esto es as, no es posible que nos encontremos el mismo nodo por un camino alternativo con un coste menor y esto hace que el tratamiento de nodos cerrados duplicados sea innecesario, lo que nos ahorra tener que guardarlos. Habitualmente las funciones heursticas admisibles suelen ser consisitentes y, de hecho, hay que esforzarse bastante para consequir que no sea as.
3.5.3 Heurstico ms informado

Otra propiedad interesante es la que nos permite comparar heursticos entre si y nos permite saber cul de ellos har que A encuentre ms rpido una solucin ptima. Diremos que el heurstico h1 es ms informado que el heurstico h2 si se cumple la propiedad: n 0 h2 (n) < h1 (n) h (n) Se ha de observar que esta propiedad incluye que los dos heursticos sean admisibles. Si un heurstico es mas informado que otro seguro que A expandir menos nodos durante la bsqueda, ya que su comportamiento ser ms en profundidad y habr ciertos nodos que no se explorarn. Esto nos podra hacer pensar que siempre tenemos que escoger el heurstico ms informado. Hemos de pensar tambin que la funcin heurstica tiene un tiempo de clculo que afecta al tiempo de cada iteracin. Evidentemente, cuanto ms informado sea el heurstico, mayor ser ese coste. Nos podemos imaginar por ejemplo, que si tenemos un heurstico que necesita por ejemplo 10 iteraciones para llegar a la solucin, pero tiene un coste de 100 unidades de tiempo por iteracin, tardar ms en llegar a la solucin que otro heurstico que necesite 100 iteraciones pero que solo necesite una unidad de tiempo por iteracin. Esto nos hace pensar en que tenemos que encontrar un equilibrio entre el coste del clculo de la funcin heurstica y el nmero de expansiones que nos ahorramos al utilizarla. Es posible que una funcin heurstica peor nos acabe dando mejor resultado. Todo esto es evidentemente dependiente del problema, incluso nos podemos encontrar con que una funcin no admisible nos permita hallar mas rpidamente la solucin, a pesar de que no nos garantice la optimalidad. Esto ha llevado a proponer variantes de A donde se utilizan heursticos cerca de la admisibilidad ( -admisibilidad) que garantizan una solucin dentro de un rango del valor del coste ptimo.
3.6 Mi memoria se acaba

El algoritmo A tiene sus limitaciones de espacio impuestas en primer lugar por poder acabar degenerando en una bsqueda en anchura si la funcin heurstica no es demasiado buena. Adems, si la solucin del problema est a mucha profundidad o el tamao del espacio de bsqueda es muy grande, no hace falta mucho para llegar a necesidades de espacio prohibitivas. Esto nos lleva a plantearnos algoritmos alternativos con menores necesidades de espacio.
30 Algoritmo 3.3 Algoritmo IDA
Algoritmo: IDA* (limite entero) prof f (Estado inicial) Actual Estado inicial mientras no es_nal?(Actual) y prof<limite hacer Est_abiertos.incializa() Est_abiertos.insertar(Estado inicial) Actual Est_abiertos.primero() mientras no es_nal?(Actual) y no Est_abiertos.vaca?() hacer Est_abiertos.borrar_primero() Est_cerrados.insertar(Actual) Hos generar_sucesores (Actual, prof) Hos tratar_repetidos (Hos, Est_cerrados, Est_abiertos) Est_abiertos.insertar(Hos) Actual Est_abiertos.primero() prof prof+1
3.6.1 El algoritmo IDA
La primera solucin viene de la mano del algoritmo en profundidad iterativa que hemos visto en el captulo anterior. En este caso lo replanteamos para utilizar la funcin f como el valor que controla la profundidad a la que llegamos en cada iteracin. Esto quiere decir que hacemos la bsqueda imponiendo un lmite al coste del camino que queremos hallar (en la primera iteracin, la f del nodo raz), explorando en profundidad todos los nodos con f igual o inferior a ese lmite y reiniciando la bsqueda con un coste mayor si no encontramos la solucin en la iteracin actual. Es el algoritmo 3.3. La funcin generar_sucesores solo retorna los nodos con un coste inferior o igual al de la iteracin actual.
Este algoritmo admite varias optimizaciones, como no aumentar el coste de uno en uno, sino averiguar cual es el coste ms pequeo de los nodos no expandidos en la iteracin actual y usarlo en la siguiente iteracin. El bucle interior es el que realiza la bsqueda en profundidad limitada y tambin se podra optimizar utilizando una implementacin recursiva. Este algoritmo, al necesitar solo una cantidad de espacio lineal, permite hallar soluciones a ms profundidad. El precio que hemos de pagar es el de las reexpansiones de nodos ya visitados. Este precio extra depender de la conectividad del grafo del espacio de estados, si existen muchos ciclos este puede ser relativamente alto ya que a cada iteracin la efectividad de la exploracin real se reduce con el nmero de nodos repetidos que aparecen.

(1,3,8)
31
0+2
(2,4,9)
1+1
1+2
(6,12)
(5,10)
2+1
2+1
(7,13)
(11)
3+1
3+1
(14)
4+1
4+0
Objetivo
(15)
5+0
Objetivo
Figura 3.3: Ejemplo de ejecucin del algoritmo IDA
Si consideramos el cociente entre los nodos nuevos que se expanden en un nivel y los nodos que se han reexpandido, podemos ver que este tiende a 0 al aumentar el factor de ramicacin, por lo que el trabajo de reexpandir los nodos es despreciable cuando el problema es complejo. Siendo r el factor de ramicacin del problema, si consideramos que rn+1 ser en nmero de nodos que visitaremos en el nivel n + 1 y n ri es la suma de nodos que revisitamos en ese i=1 nivel:
n i i=1 r rn+1
r + r2 + r3 + + rn 1 + r + r2 + r3 + + rn1 1 1 1 1 = = n + n1 + + = n+1 n r r r r r r1
Ejemplo 3.3 Si consideramos el rbol de bsqueda de la gura 3.3, donde en cada nodo tenemos descompuesto el coste en g y h y marcado el orden en el que el algoritmo ha visitado cada nodo. La numeracin en los nodos indica el orden en que el algoritmo IDA los ha expandido. Podemos observar que los nodos se reexpanden varias veces siguiendo la longitid del camino estimado impuesta en cada iteracin del algoritmo-
3.6.2 Otras alternativas

Las reexpansiones del IDA pueden llegar a ser un problema, e incrementar bastante el tiempo de bsqueda. Estas reexpansiones se deben fundamentalmente a que estamos imponiendo unas restricciones de espacio bastantes severas. Si relajramos esta restriccin mantenindola en lmites razonables podramos guardar informacin suciente para no tener que realizar tantas reexpansiones. Una primera alternativa es el algoritmo primero el mejor recursivo (recursive best rst). El elemento clave es la implementacin recursiva, que permite que el coste espacial se mantenga lineal (O(rp)) al no tener que guardar mas que los nodos que pertenecen al camino actual y sus hermanos en cada nivel. Este algoritmo intenta avanzar siempre por la rama ms prometedora (segn la funcin heurstica f ) hasta que alguno de los nodos alternativos del camino tiene un coste mejor. En este momento el
32 Algoritmo 3.4 Algoritmo Best First Recursivo
Procedimento: BFS-recursivo (nodo,c_alternativo,ref nuevo_coste,ref solucion) si es_solucion?(nodo) entonces solucion.aadir(nodo) sino sucesores generar_sucesores (nodo) si sucesores.vacio?() entonces nuevo_coste +; solucion.vacio() sino n falso mientras no n hacer mejor sucesores.mejor_nodo() si mejor.coste() > c_alternativo entonces n cierto; solucion.vacio(); nuevo_coste mejor.coste() sino segundo sucesores.segundo_mejor_nodo() BFS-recursivo(mejor,min(c_alternativo,segundo.coste()),nuevo_coste, solucion) si solucion.vacio?() entonces mejor.coste(nuevo_coste) sino solucion.aadir(mejor); n cierto
camino del nodo actual es olvidado, pero modicando la estimacin de los ascendientes con la del nodo mas profundo al que se ha llegado. Se podra decir que con cada reexpansin estamos haciendo el heurstico ms informado. Manteniendo esta informacin sabremos si hemos de volver a regenerar esa rama olvidada, si pasa a ser la de mejor coste. El efecto que tiene esta exploracin es ir renando la estimacin que se tiene de la funcin heurstica en los nodos que se mantienen abiertos, de manera que el nmero de reexpansiones se ir reduciendo paulatinamente ya que el coste guardado ser cada vez ms cercano al coste real. Se puede ver en algoritmo 3.4. Ejemplo 3.4 En la gura 3.4 se puede ver como evoluciona la bsqueda en un ejemplo sencillo, en cada nodo aparece el valor de la funcin f : Podemos ver que cuando llega a la tercera iteracin el nodo con mejor coste es el de 12 y por lo tanto la recursividad vuelve hasta ese nodo borrando la rama explorada, pero actualizando cada padre con el mejor coste encontrado, en este caso 17. En la cuarta iteracin se encuentra que ahora es el nodo con coste 17 el de mejor coste, por lo que el camino vuelve a regenerarse. Por lo general, el nmero de reexpansiones de este algoritmo es menor que el de IDA , pero puede depender de las caractersticas del espacio de bsqueda como por ejemplo la longitud de los ciclos que pueda haber. Este algoritmo tambin impone un coste lineal al espacio, por lo que tambin se pueden generar bastantes reexpansiones. Otra alternativa diferente viene de una modicacin del A , es el algoritmo llamado A con memoria limitada (memory bound A ). Este algoritmo utiliza la estrategia de exploracin de A pero siguiendo una estrategia de memorizacin de caminos parecida al best rst recursivo. ste almacena todos los caminos que le caben en el tamao de memoria que se impone y no solo el actual, de manera que se ahorra regenerar ciertos caminos. Cuanta ms memoria permitamos, menos regeneraciones de caminos haremos ya que nos los encontraremos almacenados.

1 1 2
18 8 12 18 8 12 18 8
33
1 2
12
3
18 11 19 18 11 19
17
20
2
18 8 12 18 17
2
12
4
18 17
5
20
6
18 17 19 20 21 18 17 19
7
17 20
8
17
Figura 3.4: Ejemplo de ejecucin del algoritmo BF-recursivo El algoritmo elimina los caminos peores en el momento en el que ya no caben ms, guardando en los nodos la informacin suciente que le permita saber cuando se han de regenerar. El aporte extra de memoria permite reducir bastante las reexpansiones, con el consiguiente ahorro de tiempo. El algoritmo es capaz de hallar una solucin, si el camino completo cabe en la cantidad de memoria que hemos impuesto. Esto quiere decir que, si tenemos una idea aproximada de la longitud de la solucin podemos ajustar a priori la cantidad de memoria que permitiremos usar al algoritmo. Este algoritmo es mucho mas complejo que los anteriores y existen diferentes versiones. Principalmente la complejidad viene de como se han de reorganizar los caminos memorizados cuando se han de borrar la memoria y la propagacin de los costes a los nodos ascendientes que se mantienen.
34
4. Bsqueda local
4.1 El tamao importa, a veces

Los algoritmos que hemos visto en el capitulo anterior nos sirven siempre que podamos plantear el problema como la bsqueda de un camino en un espacio de estados. Pero nos podemos encontrar con problemas en los que: Este planteamiento es demasiado articial, ya que no tenemos realmente operadores de cambio de estado, o no hay realmente una nocin de coste asociada a los operadores del problema La posibilidad de hallar la solucin ptima est fuera de toda posibilidad, dado que el tamao del espacio de bsqueda es demasiado grande y nos conformamos con una solucin que podamos considerar buena. En este tipo de problemas puede ser relativamente fcil hallar una solucin inicial, aunque no sea demasiado buena. Esto hace que nos podamos plantear el problema como una bsqueda dentro del espacio de soluciones, en lugar de en el de caminos. Tambin es posible que sea muy difcil crear una solucin inicial (aunque sea mala) y podamos iniciar la bsqueda desde el espacio de no soluciones (soluciones no vlidas) suponiendo que la bsqueda nos llevar al nal al espacio de soluciones. El comenzar desde el espacio de soluciones o desde el de no soluciones depender de las caractersticas del problema. A veces el nmero de soluciones vlidas es muy reducido debido a que lo que exigimos para ser una solucin es muy estricto y es imposible generar una solucin inicial sin realizar una bsqueda. Si sabemos que partiendo desde una solucin invlida podremos alcanzar el espacio de soluciones, no habr problema, el algoritmo har esa bsqueda inicial guiado por la funcin heurstica. Si no es as, deberemos usar otros algoritmos ms exhaustivos que nos aseguren hallar una solucin. En este planteamiento lo que suponemos es que podemos navegar dentro del espacio de posibles soluciones realizando operaciones sobre ellas que nos pueden ayudar a mejorarlas. El coste de estas operaciones no ser relevante ya que lo que nos importa es la calidad de la solucin1 , en este caso lo que nos importar es esa la calidad. Deberemos disponer de una funcin que segn algn criterio (dependiente del dominio) nos permita ordenarlas. El planteamiento de los problemas es parecido al que consideramos al hablar del espacio de estados, tenemos los siguientes elementos: Un estado inicial, que en este caso ser una solucin completa. Esto nos plantear el problema adicional de como hallarla con un coste relativamente bajo y el evaluar desde donde emperaremos a buscar, si desde una solucin relativamente buena, desde la peor, desde una al azar, ... Unos operadores de cambio de la solucin, que en este caso manipularn soluciones completas y que no tendrn un coste asociado.
1 De hecho muchas veces estas operaciones no se reeren a operaciones reales en el problema, sino a formas de manipular la solucin.
35
36
Captulo 4. Bsqueda local Una funcin de calidad, que nos medir lo buena que es una solucin y nos permitir guiar la bsqueda, pero teniendo en cuenta que este valor no nos indica cuanto nos falta para encontrar la solucin que buscamos. Ya que no representa un coste, es una manera de comparar la calidad entre las soluciones vecinas e indicarnos cual es la direccin que lleva a soluciones mejores.
El saber cuando hemos acabado la bsqueda depender totalmente del algoritmo, que tendr que decidir cuando ya no es posible encontrar una solucin mejor. Por lo tanto no tendremos un estado nal denido. Para buscar una analoga con un tema conocido, se puede asimilar la bsqueda local con la bsqueda de ptimos en funciones. En este caso la funcin a optimizar2 ser la funcin de calidad de la solucin, la funcin se denir en el espacio de soluciones generado por la conectividad que inducen los operadores entre ellas. Desafortunadamente, las funciones que aparecern no tendrn una expresin analtica global, ni tendrn las propiedades que nos permitiran aplicar los algoritmos de bsqueda de ptimos en funciones. Estas funciones pueden ser de cualquier tipo, y no estn limitadas de la manera que lo estn las funciones usadas por los algoritmos de bsqueda heurstica. Sus valores pueden ser tanto positivos, como negativos y, obviamente, su valor en la solucin no tiene por que ser cero. El planteamiento ser pues bastante diferente. Ya que no tenemos una expresin analtica global, deberemos explorar la funcin de calidad utilizando solamente lo que podamos obtener de los vecinos de una solucin, sta deber permitir decidir por donde seguir buscando el ptimo. El nombre de bsqueda local viene precisamente de que solo utilizamos informacin local durante el proceso de hallar la mejor solucin.
4.2 Tu s, vosotros no
Enfrentados a problemas con tamaos de espacio de bsqueda inabordables de manera exhaustiva, nos hemos de plantear estrategias diferentes a las utilizadas hasta ahora. En primer lugar, tendremos pocas posibilidades de guardar informacin para recuperar caminos alternativos dado el gran nmero de alternativas que habr. Esto nos obligar a imponer unas restricciones de espacio limitadas, lo que nos llevar a tener que decidir que nodos debemos explorar y cuales descartar sin volver a considerarlos. Esto nos lleva a la familia de algoritmos conocida como de ramicacin y poda (branch and bound). Esta familia de algoritmos limita el nmero de elementos que guardamos como pendientes de explotar olvidando los que no parecen prometedores. Estos algoritmos permiten mantener una memoria limitada, ya que desprecian parte del espacio de bsqueda, pero se arriesgan a no hallar la mejor solucin, ya que esta puede estar en el espacio de bsqueda que no se explora. De entre los algoritmos de ramicacin y poda, los ms utilizados son los denominados de ascenso de colinas (Hill-climbing). Existen diferentes variantes que tienen sus ventajas e inconvenientes. Por ejemplo, el denominado ascenso de colinas simple, que consiste en elegir siempre el primer operador que suponga una mejora respecto al nodo actual, de manera que no exploramos todas las posibilidades accesibles, ahorrndonos el explorar cierto nmero de descendientes. La ventaja es que es ms rpido que explorar todas las posibilidades, la desventaja es que hay ms probabilidad de no alcanzar las soluciones mejores. El ms utilizado es el ascenso de colinas por mxima pendiente (steepest ascent hill climbing). Esta variante expande todos los posibles descendientes de un nodo y elige el que suponga la mxima mejora respecto al nodo actual. Con esta estrategia suponemos que la mejor solucin la
2 Hablamos de optimizar, y no de minimizar o maximizar, ya que la diferencia entre ellas es simplemente un cambio de signo en la funcin a optimizar.
4.2 Tu s, vosotros no Algoritmo 4.1 Algoritmo Steepest Ascent Hill Climbing Algoritmo: Hill Climbing Actual Estado_inicial n falso mientras no n hacer Hos generar_sucesores(Actual) Hos ordenar_y_eliminar_peores(Hos, Actual) si no vacio?(Hos) entonces Actual Escoger_mejor(Hos) sino n cierto n n
max max
37
Figura 4.1: El ptimo depende del punto de inicio
encontraremos a travs del sucesor que mayor diferencia tenga respecto a la solucin actual, siguiendo una poltica avariciosa. Como veremos ms adelante esta estrategia puede ser arriesgada. El algoritmo que implementa este ltimo es el algoritmo 4.1. En este algoritmo la utilizacin de memoria es nula, ya que solo tenemos en cuenta el nodo mejor3 . Se pueden hacer versiones que guarden caminos alternativos que permitan una vuelta atrs en el caso de que consideremos que la solucin a la que hemos llegado no es sucientemente buena, pero hemos de imponer ciertas restricciones de memoria, si no queremos tener un coste espacial demasiado grande. Comentaremos estos algoritmos ms adelante. La estrategia de este algoritmo hace que los problemas que tiene, vengan principalmente derivados por las caractersticas de las funciones heursticas que se utilizan. Por un lado, hemos de considerar que el algoritmo parar la exploracin en el momento en el que no se encuentra ningn nodo accesible mejor que el actual. Dado que no mantenemos memoria del camino recorrido nos ser imposible reconsiderar nuestras decisiones, de modo que si nos hemos equivocado, la solucin a la que llegaremos ser la ptima. Esta circunstancia es probable, ya que seguramente la funcin heurstica que utilicemos tendr ptimos locales y, dependiendo de por donde empecemos a buscar, acabaremos encontrando uno u otro, como se puede ver en la gura 4.1. Si iniciamos la bsqueda desde el punto A o el B, el mximo que alcanzaremos ser diferente. Esta circunstancia se puede mejorar mediante la ejecucin del algoritmo cierto nmero de veces desde distintos puntos escogidos aleatoriamente y quedndonos con la mejor exploracin. A esta
3 Hay que recordar que en este tipo de bsqueda el camino no nos importa, por lo que el gasto en espacio es constante.
38
Captulo 4. Bsqueda local
Figura 4.2: Mesetas y escalones en bsqueda local estrategia se la denomina bsqueda por ascenso con reinicio aleatorio (random restarting hill climbing). Muchas veces esta estrategia es ms efectiva que mtodos ms complejos que veremos a continuacin y resulta bastante barata. La nica complicacin est en poder generar los distintos puntos iniciales de bsqueda, ya que en ocasiones el problema no permite hallar soluciones iniciales con facilidad. Otro problema con el que se encuentran estos algoritmos son zonas del espacio de bsqueda en las que la funcin heurstica no es informativa. Un ejemplo son las denominadas mesetas y las funciones en escaln (gura 4.2), en las que los valores de los nodos vecinos al actual tienen valores iguales, y por lo tanto una eleccin local no nos permite decidir el camino a seguir. Evitar estos problemas requiere extender la bsqueda a ms all de los vecinos inmediatos para obtener la informacin suciente para encaminar la bsqueda. Desgraciadamente esto supone un coste adicional en cada iteracin. Una alternativa es permitir que el algoritmo guarde parte de los nodos visitados para proseguir la bsqueda por ellos en el caso de que el algoritmo se que de atascado en un ptimo local. El algoritmo ms utilizado es el denominado bsqueda en haces (beam search). En este algoritmo se van guardando un nmero N de las mejores soluciones, expandiendo siempre la mejor de ellas. De esta manera no se sigue un solo camino sino N . Las variantes del algoritmo estn en cmo se escogen esas N soluciones que se mantienen. Si siempre se substituyen las peores soluciones de las N por los mejores sucesores del nodo actual, caemos en el peligro de que todas acaben estando en el mismo camino, reduciendo la capacidad de volver hacia atrs, as que el poder mantener la variedad de las soluciones guardadas es importante. Est claro que cuantas mas soluciones guardemos ms posibilidad tendremos de encontrar una buena solucin, pero tendremos un coste adicional tanto en memoria como en tiempo, ya que tendremos que calcular con que sucesores nos quedamos y que soluciones guardadas substituimos. Su implementacin se puede ver en el algoritmo 4.2. El algoritmo acaba cuando ninguno de los sucesores mejora a las soluciones guardadas, esto quiere decir que todas las soluciones son un ptimo local. Como veremos ms adelante esta tcnica de bsqueda tiene puntos en comn con los algoritmos genticos.
4.3 Un mundo de posibilidades

La estrategia de bsqueda del algoritmo hill climbing y sus variantes es la ms simple que se puede utilizar. El mayor problema es que es demasiado optimista y asume que hay un camino ms o menos directo (siempre ascendente) a los ptimos locales. En problemas difciles esto no tiene por que ser as, y hacen falta estrategias un poco ms exhaustiva, explorando ms nodos que solo el camino directo y que sepan aprovechar la informacin que vamos encontrando por el camino. Varias son las estrategias que podemos aadir a la estrategia bsica del hill climbing que pueden mejorar sustancialmente sus resultados. La primera es explorar no solo los vecinos mejores, sino tambin otros que pueden se peores, pero que pueden ocultar un camino que es mejor que el que
4.3 Un mundo de posibilidades Algoritmo 4.2 Algoritmo Beam Search Algoritmo: Beam Search Actual Estado_inicial Soluciones_actuales.aadir(Estado_inicial) n falso mientras no n hacer Hos generar_sucesores(Actual) soluciones_actuales.actualizar_mejores(Hos) si soluciones_actuales.algun_cambio?() entonces Actual soluciones_actuales.escoger_mejor() sino n cierto n n
39
podemos encontrar si seguimos directamente la pendiente ascendente de la funcin heurstica. Para decidir qu nodos peores visitar necesitamos una estrategia de decisin, una posibilidad es la que plantea el algoritmo simulated annealing que veremos en la siguiente seccin. Otra posibilidad es usar informacin de ms alto nivel que podamos ir encontrando durante la bsqueda, como por ejemplo, qu operaciones son las que consiguen mejorar ms las soluciones (o no lo consiguen) de manera que podamos concentrarnos ms en algunas operaciones que en otras (reduciendo as el espacio de bsqueda, o que partes de la descripcin de la solucin aportan ms a la calidad de la solucin o qu partes nunca la mejoran, de manera que nos podamos concentrar en operaciones que se centren en esos elementos de la solucin. Estas y otras estrategias parecidas son las que utiliza el algoritmo tab search, este algoritmo puede prohibir o permitir operaciones sobre la solucin en funcin de la informacin que se vaya obteniendo durante la bsqueda. Una ltima posibilidad que ha dado lugar a muchos algoritmos es el uso de una poblacin de soluciones en lugar de una sola solucin, siguiendo la idea del algoritmo beam search. El tener una poblacin de soluciones nos permite ver ms parte del espacio de bsqueda, siendo ms exhaustivos y, ademas, obtener ms informacin que nos permitir concentrarnos ms en soluciones con ciertas caractersticas o el evitar parte del espacio de bsqueda que no tenga soluciones buenas. Muchos de los mtodos que siguen esta estrategia estn inspirados en analogas biolgicas o fsicas. Los ms conocidos son los algoritmos evolutivos, que incluyen a los algoritmos genticos que veremos en la ltima seccin, pero que tambin incluyen a otros algoritmos que se basan en conceptos inspirados en la evolucin de las especies y ecologa. Otra familia de algoritmos que usan tambin una estrategia de poblacin es la denominada swarm intelligence, incluye algoritmos que estn inspirados en biologa como el algoritmo Particle Swarm Optimization, que se inspira en el comportamiento de las bandadas de pjaros y los bancos de peces, el Ant Colony Optimization que se inspira en la forma que usan las hormigas de solucionar problemas (son buenos para la resolucin de problemas que se pueden representar como caminos en grafos), ademas de algoritmos inspirados en el comportamiento de abejas, lucirnagas, cucos, monos, el sistema inmunitario... Tambin hay algoritmos inspirados en fenmenos fsicos como Intelligent Water Drops que simula la interaccin de las gotas de agua, River formation dynamics, que usa la estrategia de formacin de los ros, Gravitational search algorithm, que usa la interaccin de la fuerza de gravedad entre partculas, ... La aplicacin de todos estos algoritmos se ha ido extendiendo ms all de los problemas de inteligencia articial y se aplican a cualquier problema que involucre la optimizacin de una funcin y que no se pueda resolver por mtodos clsicos. De hecho, todos estos algoritmos se incluyen en un
40 rea de computacin conocida como metaheursticas
4.4 Demasiado calor, demasiado fro

Se han planteado algoritmos alternativos de bsqueda local que se han mostrado efectivos en algunos dominios en los que los algoritmos de bsqueda por ascenso se quedan atascados enseguida en ptimos no demasiado buenos. El primero que veremos es el denominado templado simulado (simulated annealing). Este algoritmo est inspirado en un fenmeno fsico que se observa en el templado de metales y en la cristalizacin de disoluciones. Todo conjunto de tomos o molculas tiene un estado de energa que depende de cierta funcin de la temperatura del sistema. A medida que lo vamos enfriando, el sistema va perdiendo energa hasta que se estabiliza. El fenmeno fsico que se observa es que dependiendo de como se realiza el enfriamiento, el estado de energa nal es muy diferente. Por ejemplo, si una barra de metal se enfra demasiado rpido la estructura cristalina a la que se llega al nal est poco cohesionada (un nmero bajo de enlaces entre tomos) y sta se rompe con facilidad. Si el enfriamiento se realiza ms lentamente, el resultado nal es totalmente diferente, el nmero de enlaces entre los tomos es mayor y se obtiene una barra mucho ms difcil de romper. Durante este enfriamiento controlado, se observa que la energa del conjunto de tomos no disminuye de manera constante, sino que a veces la energa total puede ser mayor que en un momento inmediatamente anterior. Esta circunstancia hace que el estado de energa nal que se alcanza sea mejor que cuando el enfriamiento se hace rpidamente. A partir de este fenmeno fsico, podemos derivar un algoritmo que permitir en ciertos problema hallar soluciones mejores que los algoritmos de bsqueda por ascenso. En este algoritmo el nodo siguiente a explorar no ser siempre el mejor descendiente, sino que lo elegiremos aleatoriamente en funcin de los valores de unos parmetros entre todos los descendientes (los buenos y los malos). Una ventaja de este algoritmo es que no tenemos por que generar todos los sucesores de un nodo, basta elegir un sucesor al azar y decidir si continuamos por l o no. El algoritmo de templado simulado se puede ver como una versin estocstica del algoritmo de bsqueda por ascenso. El algoritmo de templado simulado intenta transportar la analoga fsica al problema que queremos solucionar. En primer lugar denominaremos funcin de energa a la funcin heurstica que nos mide la calidad de una solucin. Tendremos un parmetro de control que denominaremos temperatura, que nos permitir controlar el funcionamiento del algoritmo. Tendremos una funcin que depender de la temperatura y de la diferencia de calidad entre el nodo actual y un sucesor. sta gobernar la eleccin de los sucesores, su comportamiento ser el siguiente: Cuanta mayor sea la temperatura, ms probabilidad habr de que al generar como sucesor un estado peor ste sea elegido La eleccin de un estado peor estar en funcin de su diferencia de calidad con el estado actual, cuanta ms diferencia, menos probabilidad de elegirlo. El ltimo elemento es la estrategia de enfriamiento. El algoritmo realizar un nmero total de iteraciones jo y cada cierto nmero de ellas el valor de la temperatura disminuir en cierta cantidad, partiendo desde una temperatura inicial y llegando a cero en la ltima fase. De manera que, la eleccin de estos dos parmetros (nmero total de iteraciones y nmero de iteraciones entre cada bajada de temperatura) determinarn el comportamiento del algoritmo. Habr que decidir
4.5 Cada oveja con su pareja Algoritmo 4.3 Algoritmo Simulated Annealing Algoritmo: Simulated Annealing Partimos de una temperatura inicial mientras la temperatura no sea cero hacer // Paseo aleatorio por el espacio de soluciones para un numero prejado de iteraciones hacer Enuevo Genera_sucesor_al_azar(Eactual) E f (Eactual) f (Enuevo) si E > 0 entonces Eactual Enuevo sino con probabilidad eE/T : Eactual Enuevo n n Disminuimos la temperatura n
41
experimentalmente cual es la temperatura inicial ms adecuada y forma ms adecuada de hacer que vaya disminuyendo. Como en la analoga fsica, si el nmero de pasos es muy pequeo, la temperatura bajar muy rpidamente, y el camino explorado ser relativamente aleatorio. Si el nmero de pasos es ms grande, la bajada de temperatura ser ms suave y la bsqueda ser mejor. El algoritmo que implementa esta estrategia es el algoritmo 4.3. En la gura 4.3 podemos ver el comportamiento que tendra el simulated annealing comparado con el de hill climbing. Este algoritmo se adapta muy bien a problemas de optimizacin combinatoria (conguracin ptima de elementos) y continua (punto ptimo en un espacio N-dimensional). Est indicado para problemas con un espacio de bsqueda grande en los que el ptimo est rodeado de muchos ptimos locales4 , ya que a este algoritmo le ser ms fcil escapar de ellos. Se puede utilizar tambin para problemas en los que encontrar una heurstica discriminante es difcil (una eleccin aleatoria es tan buena como otra cualquiera), ya que el algoritmo de ascenso de colinas no tendr mucha informacin con la que trabajar y se quedar atascado enseguida. En cambio el templado simulado podr explorar ms espacio de soluciones y tendr mayor probabilidad de encontrar una solucin buena. El mayor problema de este algoritmo ser determinar los valores de los parmetros, y requerir una importante labor de experimentacin que depender de cada problema. Estos parmetros variarn con el dominio del problema e incluso con el tamao de la instancia del problema.
4.5 Cada oveja con su pareja

Otra analoga que ha dado lugar un conjunto de algoritmos de bsqueda local bastante efectivos es la seleccin natural como mecanismo de adaptacin de los seres vivos. Esta analoga se ja en que los seres vivos se adaptan al entorno gracias a las caractersticas heredadas de sus progenitores, en que las posibilidades de supervivencia y reproduccin son proporcionales a la bondad de esas caractersticas y en que la combinacin de buenos individuos puede dar lugar a individuos mejor adaptados.
4
Un rea en la que estos algoritmos han sido muy utilizados es la del diseo de circuitos VLSI.
42
Hill Climbing Simulated Annealing
Funcin Objetivo
Espacio de Soluciones
Figura 4.3: Estrategia de exploracin del simulated annealing Podemos trasladar estos elementos a la bsqueda local identicando las soluciones con individuos y donde una funcin de calidad indicar la bondad de la solucin, es decir, su adaptacin a las caractersticas del problema. Dispondremos de unos operadores de bsqueda que combinarn buenas soluciones con el objetivo de obtener soluciones mejores como resultado. El ejemplo que veremos de algoritmos que utilizan esta analoga es el de los algoritmos genticos5 . Se trata de una familia bastante amplia de algoritmos, nosotros solo veremos el esquema bsico. Estos algoritmos son bastante ms complejos que los algoritmos que hemos visto hasta ahora y requieren ms elementos y parmetros, por lo que su utilizacin requiere cierta experiencia y mucha experimentacin. Los requisitos bsicos para usarlos son: Dar una codicacin a las caractersticas de las soluciones. Las soluciones se representan de una manera especial para que despus se puedan combinar. Por lo general se utilizan cadenas binarias que codican los elementos de la solucin, por analoga a esta codicacin se la denomina gen6 . Tener una funcin que mida la calidad de la solucin. Se tratar de la funcin heurstica que se utiliza en todos los algoritmos que hemos visto. En el rea de algoritmos genticos a esta funcin se la denomina funcin de adaptacin (tness). Disponer de operadores que combinen las soluciones para obtener nuevas soluciones. Los operadores que utilizan los algoritmos genticos son bastante jos y estn inspirados en las formas de reproduccin celular. Decidir el nmero de individuos inicial. Un algoritmo gentico no trata un solo individuo, sino una poblacin, se ha de decidir cuan numerosa ha de ser. Decidir una estrategia para hacer la combinacin de individuos. Siguiendo la analoga de la seleccin natural, solo se reproducen los individuos ms aptos, hemos de decidir un criterio para emparejar a los individuos de la poblacin en funcin de su calidad.
5 Existen tambin los denominados algoritmos evolutivos, son menos conocidos, pero suelen ser bastante efectivos en ciertas aplicaciones. 6 Esta no tiene por que ser siempre la representacin ms adecuada y de hecho a veces una representacin binaria hace que el problema no se pueda solucionar ecientemente.
4.5 Cada oveja con su pareja Vamos a detallar un poco ms cada uno de estos elementos.
43
El uso de los algoritmos genticos presenta ciertas ventajas prcticas respecto a los algoritmos anteriores. Estamos redeniendo como se representan los problemas, todos tendrn una representacin comn independientemente de su naturaleza, por lo que solo nos deberemos de preocupar de como codicar el estado, su implementacin viene determinada por esa codicacin. Tampoco tendremos que preocuparnos de los operadores ya que esa representacin comn nos determina los posibles operadores que podremos usar y sern comunes para todos los problemas.
4.5.1 Codicacin
Como hemos mencionado, la forma ms habitual de codicar los individuos para utilizar un algoritmo gentico es transformarlos a una cadena de bits. Cada bit o grupo de bits codicar una caracterstica de la solucin. Evidentemente, no existe un criterio preestablecido sobre como realizarla. La ventaja de esta codicacin es que los operadores de modicacin de la solucin son muy sencillos de implementar. En la siguiente gura se puede ver un ejemplo de codicacin para el problema de las N reinas siendo N igual a 4:
0 1 2 3 [0,3,2,1] [00 11 10 01]
En la codicacin binaria se ha asignado una pareja de bits a cada una de las reinas, representando la la en la que estn colocadas y se han concatenado. Alternativamente se podra utilizar una representacin no binaria utilizando simplemente el nmero de la y haciendo una lista con los valores. Como se ha comentado, no siempre la codicacin binaria es la ms adecuada, ya que las caractersticas del problema pueden hacer que el cambio de representacin haga ms complicado el problema. Una ventaja de la codicacin binaria es que nos da una aproximacin del tamao del espacio de bsqueda, ya que el nmero de soluciones posibles corresponder al mayor nmero binario que podamos representar con la codicacin. A veces es importante pensar bien como codicamos los estados, hay que tener en cuenta que la codicacin binaria impone la conectividad entre los estados y que, al hacer la transformacin, estados que antes eran vecinos ahora no lo sern. Puede ser interesante hacer que la codicacin mantenga esa vecindad para obligar a que el algoritmo haga la exploracin del espacio de bsqueda de cierta manera. Tambin a veces nos interesa que diferentes partes de la codicaciones correspondan a partes especcas del estado y as obtener patrones que puedan mantenerse y propagarse de manera ms sencilla.
4.5.2 Operadores
Los operadores que utilizan estos algoritmos para la exploracin del espacio de bsqueda se pueden agrupar en dos tipos bsicos. Los operadores de cruce (crossover) y los de mutacin (mutation).
44
Los operadores de cruce se aplican a una pareja de individuos, su efecto consiste en intercambiar parte de la informacin de la codicacin entre los individuos. Existe una gran variedad de formas en las que se puede realizar este intercambio. La ms sencilla es la denominada cruce por un punto (one point crossover). Se aplica solo a codicaciones binarias, este operador consiste en elegir un punto al azar en la codicacin e intercambiar los bits de los dos individuos a partir de ese punto. En la siguiente gura hay un ejemplo de cruce por un punto en el problema de las N reinas:
[000 101 010 001 100 100]
[010 001 100 000 011 101]
[000 101 100 000 011 101]
Otra variante muy utilizada es el cruce por dos puntos (two points cross over), en el que el intercambio se realiza eligiendo dos puntos en la codicacin e intercambiando los bits entre esos dos puntos. Aparte de estos dos operadores existen muchos otros que tienen efectos especcos y que funcionan mejor en ciertas circunstancias (uniform crossover, random crossover, ...). Si la codicacin no es binaria, los operadores se han de disear de manera especca para la representacin escogida. Tambin hay que pensar a veces en la eciencia de la aplicacin de los operadores, cuando tenemos que procesar muchas soluciones nos puede interesar operadores que puedan traducirse a operacioens aritmticas simples entre tiras de bits (or, and, xor, shifts, ...). Los operadores de mutacin se aplican a un solo individuo y consisten en cambiar parte de la codicacin de manera aleatoria. El ms sencillo es elegir un bit al azar y cambiar su signo. Estos operadores tienen una probabilidad de aplicacin asociada que ser un parmetro del algoritmo. Tendremos una probabilidad de cruce que indicar cuando una pareja elegida de individuos intercambia su informacin y una probabilidad de mutacin. Por lo general la probabilidad de mutacin es mucho ms pequea que la probabilidad de cruce. La eleccin de estos valores es crtica para el correcto funcionamiento del algoritmo y muchas veces depende del problema. La probabilidad de aplicacin de los operadores puede ser algo muy delicado, ya que cambia la forma en la que se hace la exploracin al cambiar las caractersticas de la poblacin. Si la probabilidad de cruce es muy alta, cada generacin tendr muchos individuos nuevos, esto puede hacer que la exploracin vaya ms deprisa, pero tambin puede hacer que los patrones que llevan a soluciones mejores no puedan estabilizarse. Si la probabilidad es muy pequea, la exploracin ser mas lenta y puede tardar mucho en converger. Con al mutacin pasa algo parecido. Esta es esencial para que el algortimo pueda explorar en partes del espacio de bsqueda que no son alcanzables con la combinacin de las soluciones iniciales, pero una probabilidad muy alta puede hacer que la exploracin no converja al introducir demasiado ruido en la poblacin.
4.5.3 Combinacin de individuos

Estos algoritmos no tratan las soluciones de manera individual, sino en grupo. Denominaremos poblacin al conjunto de soluciones que tenemos en un momento especco. El efecto de mantener un conjunto de soluciones a la vez es hacer una exploracin en paralelo del espacio de bsqueda desde diferentes puntos.
4.5 Cada oveja con su pareja
45
Un parmetro ms que deberemos decidir es el tamao de la poblacin de soluciones. Este es crtico respecto a la capacidad de exploracin. Si el nmero de individuos es demasiado grande, el coste por iteracin puede ser prohibitivo, pero si el tamao es demasiado pequeo, es posible que no lleguemos a una solucin demasiado buena, al no poder ver suciente espacio de bsqueda. Cada iteracin de un algoritmo gentico es denominada una generacin, a cada generacin los individuos se emparejan y dan lugar a la siguiente generacin de individuos. Es clave la manera en la que decidimos como se emparejan los individuos. La forma habitual de pasar de una generacin a otra, es crear lo que se denomina una generacin intermedia que estar compuesta por las parejas que se van a combinar. El nmero de individuos de esta poblacin es igual al del tamao original de la poblacin. La eleccin de los individuos que forman parte de esta generacin intermedia se puede hacer de muchas maneras, por ejemplo: Escoger un individuo de manera proporcional a su valor de evaluacin de la funcin de tness, de manera que los individuos mejores tendrn ms probabilidad de ser elegidos. Esto puede tener el peligro de que unos pocos individuos pueden ser elegidos muchas veces. Se establecen N torneos entre parejas de individuos escogidas al azar, el ganador de cada emparejamiento es el individuo con mejor valor en la funcin de tness. Esta opcin equilibra mejor la aparicin de los mejores individuos. Se dene un ranking lineal entre individuos segn su funcin de calidad, estableciendo un mximo de posibles apariciones de un individuo, de esta manera que la probabilidad de aparicin de los individuos no est sesgada por los individuos mejores. Con estos mecanismos de eleccin habr individuos que aparezcan ms de una vez e individuos que no aparezcan7 . Cada mecanismo de seleccin de individuos tiene sus ventajas e inconvenientes. El primero es el ms simple, pero corre el peligro de degenerar en pocas generaciones a una poblacin homognea, acabando en un ptimo local. Los otros dos son algo ms complejos, pero aseguran cierta diversidad de individuos en la poblacin. Se ha visto experimentalmente que el asegurar la variedad en la poblacin permite encontrar mejores soluciones8 .
4.5.4 El algoritmo gentico cannico

Existe una gran variedad de algoritmos genticos, pero todos parten de un funcionamiento bsico que llamaremos el algoritmo gentico cannico, los pasos que realiza este algoritmo bsico son estos: 1. Se parte de una poblacin de N individuos generada aleatoriamente 2. Se escogen N individuos de la generacin actual para la generacin intermedia (segn el criterio escogido) 3. Se emparejan los individuos y para cada pareja a) Con una probabilidad Pcruce se aplica el operador de cruce a cada pareja de individuos y se obtienen dos nuevos individuos que pasarn a la nueva generacin. Con una probabilidad 1 Pcruce se mantienen la pareja original en la siguiente generacin b) Con una probabilidad Pmutacion se mutan los individuos cruzados
7 Esto reeja lo que sucede en la seleccin natural, los ms aptos tienen una mayor probabilidad de tener descendencia y los menos aptos pueden no llegar a reproducirse. 8 Tambin es algo que se observa en la naturaleza, las poblaciones aisladas o las especies muy especializadas tienen un pobre acervo gentico y no pueden adaptarse a cambios en su entorno.
46
Captulo 4. Bsqueda local 4. Se substituye la poblacin actual con los nuevos individuos, que forman la nueva generacin 5. Se itera desde el segundo paso hasta que la poblacin converge (la funcin de tness de la poblacin no mejora) o pasa un nmero especco de generaciones
La probabilidad de cruce inuir en la variedad de la nueva generacin, cuanto ms baja sea, ms parecida ser a la generacin anterior y harn falta ms iteraciones para converger. Si sta es muy alta, cada generacin ser muy diferente, por lo que puede degenerar en una bsqueda aleatoria. La mutacin es un mecanismo para forzar la variedad en la poblacin, pero una probabilidad de mutacin demasiado alta puede dicultar la convergencia.
4.5.5 Cuando usarlos

Los algoritmos genticos han demostrado su ecacia en mltiples aplicaciones, pero es difcil decir si sern efectivos o no en una aplicacin concreta. Por lo general suelen funcionar mejor que los algoritmos de bsqueda por ascenso cuando no se tiene una buena funcin heurstica para guiar el proceso. Pero si se dispone de una buena heurstica, estos algoritmos no nos obtendrn mejores resultados y el coste de congurarlos adecuadamente no har rentable su uso. Su mayor inconveniente es la gran cantidad de elementos que hemos de ajustar para poder aplicarlos, la codicacin del problema, el tamao de la poblacin, la eleccin de los operadores, las probabilidades de cruce y mutacin, la forma de construir la siguiente generacin, ... Siempre nos encontraremos con la duda de si el algoritmo no funciona porque el problema no se adapta al funcionamiento de estos algoritmos, o es que no hemos encontrado los parmetros adecuados para hacer que funcionen bien.
5. Bsqueda con adversario
5.1 T contra mi o yo contra ti

Hasta ahora habamos supuesto problemas en los que un solo agente intenta obtener un objetivo, en nuestro caso la resolucin de un problema. Pero existen casos en los que diferentes agentes compiten por un objetivo que solamente uno de ellos puede alcanzar. Este tipo de problemas los englobaremos dentro de la categora de juegos1 . No veremos algoritmos para cualquier tipo de juego, sino que nos restringiremos a los que cumplen un conjunto de propiedades: Son bipersonales, es decir, solo hay dos agentes involucrados, y estos juegan alternativamente. Todos los participantes tienen conocimiento perfecto, no hay ocultacin de informacin por parte de ninguno de ellos. El juego es determinista, no interviene el azar en ninguno de sus elementos. Los elementos que intervienen en este tipo de problemas se pueden representar de manera parecida a la bsqueda en espacio de estados, tendremos: Un estado, que indica las caractersticas del juego en un instante especco Un estado inicial, que determinar desde donde se empieza a jugar y quin inicia el juego Un estado nal, o unas caractersticas que debe cumplir, que determinarn quin es el ganador Unos operadores de transformacin de estado que determinarn las jugadas que puede hacer un agente desde el estado actual. Supondremos que los dos jugadores disponen de los mismos operadores Identicaremos a cada jugador como el jugador MAX y el jugador MIN. MAX ser el jugador que inicia el juego, nos marcaremos como objetivo el encontrar el conjunto de movimientos que ha de hacer el jugador MAX para que llegue al objetivo (ganar) independientemente de lo que haga el jugador MIN2 . Se puede observar que este escenario es bastante diferente del que se plantean los algoritmos de los captulos anteriores. Nos veremos obligados a revisar el concepto de solucin y de ptimo. De hecho estamos pasando de un escenario en el que poseemos todo el conocimiento necesario para resolver un problema desde el principio hasta el n sin tener que observar la reaccin del entorno, a un escenario donde nuestras decisiones se ven inuidas por el entorno. En los algoritmos que veremos supondremos que podemos prever hasta cierto punto como reaccionar ese entorno, pero evidentemente no siempre tendr por que ser ese el caso.
1 La competicin no solamente aparece en el caso de los juegos, pero los algoritmos que veremos tambin son aplicables. 2 No es que nos caiga mal el jugador MIN, lo que pasa es que los algoritmos sern los mismos para los dos, ya que desde la perspectiva de MIN, l es MAX y su oponente es MIN.
47
48
Captulo 5. Bsqueda con adversario
5.2 Una aproximacin trivial

Para poder obtener el camino que permite a MAX llegar a un estado ganador, no tenemos ms que explorar todas las posibles jugadas que puede hacer cada jugador, hasta encontrar un camino que lleve a un estado nal. Para poder obtenerlo podemos utilizar un algoritmo de bsqueda en profundidad que explore exhaustivamente todas las posibilidades. Usamos un algoritmo de bsqueda en profundidad ya que sus restricciones de espacio son lineales. El algoritmo explorar hasta llegar a una solucin evalundola a +1 si es un estado en el que gana MAX, o a -1 si es un estado en el que gana MIN, este valor se propagar hasta el nivel superior. A medida que se acaben de explorar los descendientes de un nivel el valor resultante de su exploracin se seguir propagando a los niveles superiores. Cada nivel elegir el valor que propaga a su ascendiente dependiendo de si corresponde a un nivel del jugador MAX o del jugador MIN. En los niveles de MAX se elegir el valor mayor de todos los descendientes, en los niveles de MIN se elegir el mnimo. En el momento en el que se propague un +1 a la raz signicar que hemos encontrado el camino que permite ganar a MAX independientemente de las jugadas de MIN. En este momento podemos parar la exploracin ya que hemos cubierto su objetivo, encontrar una secuencia de pasos ganadora. En la gura 5.1 podemos ver el espacio de bsqueda que generara un juego hipottico (los cuadrados corresponden a niveles de MAX y los crculos a niveles de MIN), se han marcado con +1 las jugadas en las que gana el jugador MAX y con 1 las jugadas en la que gana el jugador MIN Si hacemos el recorrido en profundidad propagando los valores de las jugadas terminales, tendramos el resultado que se muestra en la gura 5.2. En ella podemos ver marcado el camino que permite ganar a MAX. Desgraciadamente este algoritmo solo lo podemos aplicar a juegos triviales, ya que el tiempo que necesitaramos para hacer la exploracin completa sera exponencial respecto al nmero de posibles jugadas en cada nivel (r) y la profundidad de la solucin (p) (O(rp )). En cualquier juego real este valor es una cifra astronmica, por ejemplo, el factor de ramicacin del ajedrez es aproximadamente de 35 y el del go esta alrededor de 300.
5.3 Seamos un poco ms inteligentes

Es evidente que no podemos explorar todo el espacio de bsqueda para obtener el mejor conjunto de jugadas, as que debemos de echar mano del conocimiento que tenemos del juego para reducir la exploracin. Tendremos que introducir una funcin heurstica que en este caso no medir la bondad de un estado respecto a su distancia hasta una jugada ganadora. La losofa de esta funcin heurstica es diferente de las que hemos visto hasta ahora, ya que no existe ninguna nocin de coste, ni tampoco de optimalidad, pues todas las jugadas ganadoras son igual de buenas. Esto har que construir esta funcin sea todava mas difcil que en las ocasiones anteriores, habr que determinar cul es la ventaja de cada jugador en cada estado3 y esto puede ser bastante difcil de determinar. Tambin hemos de tener en cuenta que el coste de calcular la funcin heurstica tambin inuir en el coste de la exploracin. Para este tipo de problemas, esta funcin nos podr dar valores positivos y negativos, indicndonos qu jugador es el que tiene la ventaja. Consideraremos que si el valor es positivo la jugada es ventajosa para el jugador MAX, y si es negativo la ventaja es para MIN. Por convenio, las jugadas ganadoras de MAX tienen un valor de + y las ganadoras de MIN de .
3
Ntese que la funcin heurstica no solo evaluar los estados ganadores.
5.3 Seamos un poco ms inteligentes
49
+1
+1
+1
+1
Figura 5.1: Ejemplo de rbol de jugadas
+1
+1
+1
+1
+1
+1
+1
+1
+1
+1
Figura 5.2: Propagacin de los valores del rbol de la gura 5.1
50
Adems de utilizar una funcin heurstica para guiar la bsqueda, usaremos una estrategia distinta para explorar el conjunto de jugadas. Ya que es imposible hacer una exploracin exhaustiva, haremos una bsqueda en profundidad limitada, esto reducir lo que podremos ver del espacio de bsqueda. Decidiremos un nivel de profundidad mximo para la bsqueda, evaluaremos los estados que estn en ese nivel y averiguaremos cul es la mejor jugada a la que podemos acceder desde el estado actual. Hay que tener claro que con este procedimiento solo decidimos una jugada, y que repetimos la bsqueda en cada movimiento que tenemos que decidir. A pesar de que repitamos la bsqueda a cada paso, el nmero de nodos explorados es mucho menor que si explorramos todo el rbol de bsqueda completo. La calidad del juego vendr determinada por la profundidad a la que llegamos en cada exploracin. Cuanto ms profunda sea la exploracin mejor jugaremos, ya que veremos ms porcin del espacio de bsqueda. Evidentemente, cuanto ms exploremos, ms coste tendr la bsqueda. El algoritmo que realiza esta exploracin recibe el nombre de minimax4 y es un recorrido en profundidad recursivo. El que sea un recorrido en profundidad hace que el coste espacial sea lineal, pero evidentemente el coste temporal ser exponencial (depender de la profundidad mxima de exploracin). El algoritmo 5.1 es su implementacin. El algoritmo tiene una funcin principal (MiniMax) que es la que retorna la mejor jugada que se puede realizar, y dos funciones recursivas mutuas (valorMax y valorMin) que determinan el valor de las jugadas dependiendo de si el nivel es de MAX o de MIN. La funcin estado_terminal(g) determina si el estado actual es una solucin o pertenece al nivel mximo de exploracin. La funcin evaluacion(g) calcula el valor de la funcin heurstica para el estado actual.
5.4 Seamos an ms inteligentes

Un punto clave que hemos de tener en cuenta es que cuanto ms profunda sea la exploracin, mejor podremos tomar la decisin sobre qu jugada debemos escoger. Para juegos en los que el factor de ramicacin sea muy grande, no podremos llegar a mucha profundidad, ya que el tiempo que necesitaremos para cada decisin ser prohibitivo. Para reducir este tiempo de exploracin se han estudiado las propiedades que tienen estos rboles de bsqueda y se han desarrollado heursticas que permiten no explorarlos en su totalidad y obtener el mismo resultado que obtendramos con la exploracin completa. La heurstica que veremos se denomina poda alfa-beta ( pruning). Esta heurstica aprovecha que el algoritmo del minimax hace una exploracin en profundidad para guardar informacin sobre cul es el valor de las mejores jugadas encontradas hasta cierto punto de la bsqueda para el jugador MAX y para el jugador MIN. Lo que hace esta heurstica es evitar seguir explorando nodos que sabemos que no van a variar la decisin que se va a tomar en niveles superiores, eliminndolos de la bsqueda y ahorrando tiempo. Podemos ver por ejemplo el siguiente rbol de exploracin:
8
12
16
13
10
4 El nombre minimax proviene del teorema del Minimax del rea de teora de juegos enunciado por John von Neumann en 1928.
51
Algoritmo 5.1 Algoritmo minimax Funcin: MiniMax (g) movr:movimiento; max,maxc:entero max para cada mov movs_posibles(g) hacer cmax valor_min(aplicar(mov,g)) si cmax > max entonces max cmax movr mov n n retorna movr Funcin: valorMax (g) vmax:entero si estado_terminal(g) entonces retorna valor(g) sino vmax para cada mov movs_posibles(g) hacer vmax max(vmax, valorMin(aplicar(mov,g)) n retorna vmax n Funcin: valorMin (g) vmin:entero si estado_terminal(g) entonces retorna value(g) sino vmin + para cada mov movs_posibles hacer vmin min(vmin, valorMax(aplicar(mov,g)) n retorna vmin n
52 Algoritmo 5.2 Algoritmo minimax con poda Funcin: valorMax (g,,) si estado_terminal(g) entonces retorna valor(g) sino para cada mov movs_posibles(g) hacer max(,valoeMin(aplicar(mov,g) ,,)) si entonces retorna n n retorna n Funcin: valorMin (g,,) si estado_terminal(g) entonces retorna valor(g) sino para cada mov movs_posibles(g) hacer min(,valorMax(apply(mov,g) ,,)) si entonces retorna n n retorna n
Podemos ver que el valor que propagara el algoritmo del minimax a nodo raz sera 8. Pero si nos jamos en el nodo marcado, el segundo descendiente de la raz ya sabe que el mejor nodo del primer descendiente tiene valor 8, y su primer descendiente vale 6. Dado que la raz es un nodo MAX, este preferir el valor 8 al 6. Dado que el segundo descendiente es un nodo MIN, ste siempre escoger un valor que como mximo ser 6. Esto nos hace pensar que, una vez hemos visto que el valor del nodo marcado es 6, el valor que salga de esa exploracin no se elegir (ya que tenemos un valor mejor de la exploracin anterior). Esto lleva a la conclusin de que seguir explorando los nodos del segundo descendiente de la raz no merece la pena, ya que el valor resultante ya no es elegible. Podemos observar tambin que esta circunstancia se repite en el tercer descendiente al explorar su ltimo nodo, pero al no quedar ms descendientes esta heurstica no nos ahorra nada. Esto querr decir que la efectividad de esta heurstica depender del orden de exploracin de los nodos, pero desgraciadamente es algo que no se puede establecer a priori. En el caso medio, el coste asinttico p del tiempo de exploracin pasa de ser O(rp ) a ser O(r 2 ). Esta heurstica modica el algoritmo del minimax introduciendo dos parmetros en las llamadas de las funciones, y , y representarn el lmite del valor que pueden tomar las jugadas que exploramos. Una vez superado ese lmite sabremos que podemos parar la exploracin porque ya tenemos el valor de la mejor jugada accesible. La funcin minimax se mantiene igual, solo varan las funciones que hacen la exploracin de cada nivel, su cdigo el el del algoritmo 5.2. La llamada que har la funcin MiniMax a la funcin valorMax le pasar como valor de alfa y + como valor de beta. En la funcin valorMax, alfa es el valor que se actualiza y beta se mantiene constante represen-
53
tando el valor de la mejor jugada encontrada hasta ahora. En la funcin valorMin, beta es el valor que se actualiza y alfa se mantiene constante representando el valor de la mejor jugada encontrada hasta ahora. En la siguiente gura se ve como explorara el algoritmo de minimax con poda alfa beta el ejemplo anterior:
=inf,8 =+inf =inf =+inf,8
=8 =+inf,6
=8 =+inf,10,9,7
12
16
13
10
La ventaja de utilizar la poda alfa beta es que podemos permitirnos ampliar el lmite de profundidad de exploracin, ya que nos ahorramos la exploracin de parte del rbol de bsqueda, y as podemos conseguir mejores resultados. Dado que la ordenacin de los descendientes es crucial para obtener una poda efectiva se suelen utilizar heursticas adicionales que permiten aproximar esa ordenacin con el objetivo de aumentar las podas. Obviamente esto no es gratis, a veces es necesario repetir expansiones y memorizar nodos para obtenerlo. Una estrategia habitual es utilizar un algoritmo de profundidad iterativa en lugar del de profundidad limitada para hacer una exploracin por niveles. A cada nivel se pueden memorizar las evaluaciones que se obtienen para cada nodo y utilizar esa evaluacin en la siguiente iteracin. Esto permitir que en la siguiente iteracin se puedan ordenar los descendientes conocidos y explorar primero la rama ms prometedora y poder podar con mayor probabilidad el resto de descendientes. Como ya hemos visto el ratio de reexpansiones respecto a nodos nuevos para la profundidad iterativa tiende a cero con el aumento del factor de ramicacin (en estos problemas suele ser muy grande), por lo que el precio que hay que pagar en nodos extras explorados es reducido, si p tenemos ms posibilidades de llegar a alcanzar la complejidad media de O(r 2 ).
54
6. Satisfaccin de restricciones
6.1 De variables y valores

Existen problemas especcos que, por sus propiedades, se pueden resolver ms fcilmente utilizando algoritmos adaptados a ellos que utilizando algoritmos generales. Este es el caso de los problemas denominados de satisfaccin de restricciones (constraint satisfaction1 ). Las caractersticas de un problema de satisfaccin de restricciones son las siguientes: El problema se puede representar mediante un conjunto de variables. Cada variable tiene un dominio de valores (un conjunto nito de valores discretos o intervalos de valores continuos) Existen restricciones de consistencia entre las variables (binarias, n-arias) Una solucin es una asignacin de valores a esas variables Esto quiere decir que todo problema de satisfaccin de restricciones se puede denir a partir de una tripleta de elementos P = X, D, R , donde X es una lista de variables, D es una lista de los dominios que corresponden a las variable y R es una lista de relaciones entre conjuntos de variables que denen las restricciones que debe cumplir el problema. A partir de esta formulacin genrica se pueden denir especializaciones y generalizaciones. Por ejemplo, si restringimos los dominios de las variables a valores binarios y las relaciones entre variables son disyunciones lgicas, tenemos problemas de satisfactibilidad (si restringimos el nmero de variables por relacin a como mucho 3, tenemos el problema 3-SAT, un ejemplo tpico de problema NP-completo). Tambin podemos generalizar el problema admitiendo por ejemplo la posibilidad de aadir costes a las variables de manera que tengamos como objetivo optimizar su valor. El inters de este tipo de problemas viene de su estrecha relacin con otras reas, como satisfactibilidad, lgebra relacional, teora de base de datos, visin o grcos y de que muchos problemas reales se pueden plantear como problemas de satisfaccin de restricciones, como por ejemplo la planicacin de tareas, logstica (localizacin o asignacin de recursos, personas, vehculos, ...), gestin de redes (electricidad, comunicaciones, ...), diseo/conguracin, reconocimiento de formas en imgenes, razonamiento (temporal, espacial, ...), ... Estas aplicaciones hacen que sea un rea bastante interesante desde un punto de vista prctico. Todos los algoritmos de resolucin de problemas de satisfaccin de restricciones que veremos estn pensados para el caso de que las restricciones sean binarias ya que se pueden representar mediante grafos (grafos de restricciones) en los que los nodos son las variables, las restricciones son los arcos, y los dominios de las variables son los diferentes valores que pueden tomar los nodos. Esto no supone ninguna limitacin, dado que la mayor parte de los problemas con restricciones no binarias se pueden convertir en problemas con restricciones binarias introduciendo variables articiales o transformando el grafo en un hipergrafo. Ejemplo 6.1 Un ejemplo clsico de problema de satisfaccin de restricciones es el de coloreado de mapas (gura 6.1). El problema consiste en asignar colores a los pases de un mapa de manera que dos pases adyacentes no tengan el mismo color.
1
En la literatura los encontrareis abreviados como CSP (constraint satisfaction problems).
55
56
Captulo 6. Satisfaccin de restricciones

Dominios={Rojo,Verde,Azul,Amarillo} Restriccin := Desigualdad
Figura 6.1: Problema de coloreado de mapas y su grafo de restricciones
El problema se puede representar como un grafo donde cada nodo es un pas y los arcos entre nodos representan las fronteras comunes. Los nodos del grafo seran las variables del problema, los arcos representaran las restricciones entre pares de variables (sus valores han de ser diferentes) y los colores disponibles seran los dominios de las variables.
6.2 Buscando de manera diferente

Se puede plantear un problema de satisfaccin de restricciones como un problema de bsqueda general. Dado que una solucin es una asignacin de valores a las variables del problema, solo hara falta enumerar de alguna manera todas las posibilidades hasta encontrar alguna que satisfaga las restricciones. Evidentemente, esta aproximacin es irrealizable ya que el conjunto de posibles asignaciones a explorar es muy grande. Suponiendo n variables y m posibles valores, tendramos un espacio de bsqueda de O(mn ). Un problema adicional es que no hay ninguna nocin de calidad de solucin, ya que todas las asignaciones son igual de buenas y lo nico que las diferencia es si satisfacen las restricciones o no, por lo que no podemos conar en una funcin heurstica que nos indique que combinaciones debemos mirar primero, o como modicar una asignacin para acercarla a la solucin. Esto nos deja con que los nicos algoritmos que podremos utilizar son los de bsqueda no informada, lo que har que tengamos que estudiar con ms profundidad el problema para poder solucionarlo de una manera eciente. Esto no es completamente cierto, ya que siempre podemos utilizar el nmero de restricciones que no se cumplen como funcin heurstica. Desgraciadamente este nmero no suele ser muy informativo respecto a lo buenos o malos que pueden ser los vecinos de una no solucin, ya que habr no soluciones con pocas restricciones incumplidas, pero que hagan falta muchas modicaciones para hacerlas solucin y al revs, soluciones que a pesar de inclumplir varias restricciones, con unas pocas modicaciones se conviertan en solucin. Una ventaja con la que nos encontraremos es que, las propiedades que tienen estos problemas permiten derivar heursticas que reducen el espacio de bsqueda de manera considerable. Veremos tres aproximaciones a la resolucin de problemas de satisfaccin de restricciones, la primera se basar en bsqueda no informada, la segunda se basar en la reduccin de espacio de bsqueda del problema y la tercera intentar combinar ambas.
6.2 Buscando de manera diferente
57
6.2.1 Bsqueda con backtracking

La primera aproximacin se basar en un algoritmo de bsqueda no informada. Plantearemos el problema de manera que podamos explorar el conjunto de posibles asignaciones de valores a las variables como una bsqueda en profundidad. Podemos observar que, dada una asignacin parcial de valores a las variables de un problema, sta podra formar parte de una solucin completa si no viola ninguna restriccin, por lo tanto solo tendramos que encontrar el resto de valores necesarios para completarla. Esto nos hace pensar que podemos plantear la bsqueda ms fcilmente si exploramos en el espacio de las soluciones parciales, que si lo planteamos como una bsqueda en el espacio de las soluciones completas como habamos comentado antes. Esto nos puede indicar un algoritmo para hacer la exploracin. Podemos establecer un orden jo para las variables y explorar de manera sistemtica el espacio de soluciones parciales, asignando valores a las variables de manera consecutiva en el orden que hemos jado. En el momento en el que una solucin parcial viole alguna de las restricciones del problema, sabremos que no formar parte de ninguna solucin completa, por lo que replantearemos las asignaciones que hemos realizado. A este tipo de bsqueda se la denomina bsqueda con bactracking cronolgico. Se puede ver su implementacin en el algoritmo 6.1. Deniremos tres conjuntos con las variables del problema. Por un lado tendremos las variables pasadas, que sern las que ya tienen un valor asignado y forman parte de la solucin parcial. Tendremos la variable actual, que ser a la que debemos asignarle un valor. Y por ltimo tendremos las variables futuras, que sern las que an no tienen valor. El algoritmo hace un recorrido en profundidad de manera recursiva por todas las asignaciones posibles de valores a cada una de las variables del problema. El parmetro vfuturas contiene todas las variables del problema en orden, el parmetro solucin ir guardando las soluciones parciales. El hacer el recorrido en profundidad hace que el coste espacial de la bsqueda sea lineal. El caso base de la recursividad es que el conjunto de variables futuras se haya agotado, el caso recursivo es iterar para todos los valores de la variable actual. El algoritmo continua las llamadas recursivas cuando consigue una asignacin de valor a la variable actual que cumpla las restricciones del problema (solucion.vlida()). En el caso de que ninguna asignacin d una solucin parcial vlida, el algoritmo permite que se cambie el valor de la variable anterior retornando la solucin en un estado de fallo. Ejemplo 6.2 Otro problema clsico de satisfaccin de restricciones es el de la N reinas que ya hemos comentado en el primer captulo. ste se puede plantear como un problema de satisfaccin de restricciones en el que las reinas seran las variables, el dominio de valores sera la columna en la que se coloca la reina y las restricciones seran que las posiciones en las que colocamos las reinas no hagan que se maten entre si. En la gura 6.2 podemos ver como explorara el algoritmo de backtracking cronolgico el problema en el caso de 4 reinas. En el ejemplo se puede ver como el algoritmo va probando asignaciones para cada una de las reinas, avanzando en el momento que encuentra una asignacin compatible con las asignaciones previas. En el caso de no haber ninguna asignacin compatible, el algoritmo retrocede hasta la primera variable a la que le quedan valores por probar. El algoritmo de backtracking cronolgico puede hacer bastante trabajo innecesario a veces si la variable que provoca la vuelta atrs del algoritmo no es precisamente la ltima asignada, haciendo que se tengan que probar todas las combinaciones posibles de las variables que hay entre el primer punto donde se encuentra la violacin de la restriccin y la variable que la provoca. Esto ha hecho desarrollar variantes ms inteligentes del backtracking cronolgico, la mas sencilla es la denominada backjumping, que intenta que el backtracking no sea a la variable anterior, sino que, teniendo en
58
Algoritmo 6.1 Algoritmo de backtracking cronolgico Funcin: backtracking_cronologico(vfuturas, solucion) si vfuturas.es_vacio?() entonces retorna solucion sino vactual vfuturas.primero() vfuturas.borrar_primero() para cada v vactual.valores() hacer vactual.asignar(v) solucion.anadir(vactual) si solucion.valida() entonces solucion backtracking_cronologico(vfuturas,solucion) si no solucion.es_fallo?() entonces retorna solucion sino solucion.borrar(vactual) sino solucion.borrar(vactual) retorna solucion.fallo()
R1=1
R1=2
R2=1 NO R2=2 NO R2=3
R2=4
R2=1 NO R2=2 NO R2=3 NO R2=4
R3=1 NO R3=2 NO R3=3 NO R3=4 NO
R3=1 NO R3=2 NO R3=3 NO R3=4 NO R4=1 NO R4=2 NO R4=3 NO R4=4 NO Backtracking a R3
R3=1
Backtracking a R2
R4=1 NO R4=2 NO R4=3
Solucion (R1=2,R2=4,R3=1,R4=3)
Figura 6.2: 4 reinas mediante backtracking cronolgico
6.2 Buscando de manera diferente Algoritmo 6.2 Algoritmo de arco-consistencia Algoritmo: Arco consistencia R conjunto de arcos del problema /* ambos sentidos mientras se modiquen los dominios de las variables hacer r extraer_arco(R) /* ri es la variable del origen del arco /* rj es la variable del destino del arco para cada v en el dominio de ri hacer si v no tiene ningn valor en el dominio de rj que cumpla r entonces borrar v del dominio de ri aadir todos los arcos que tengan como destino ri menos el (rj ri ) n n n
59
*/
*/ */
cuenta las restricciones involucradas, vuelva a la variable que tiene alguna restriccin con la variable actual. Esto consigue evitar todas las pruebas de valores entre la variable actual y esa variable.
6.2.2 Propagacin de restricciones

Otras vas a travs de las que atacar este tipo de problemas son las denominadas tcnicas de propagacin de restricciones. Mediante stas se pretende reducir el nmero de combinaciones que hay que probar, descartando todas aquellas que contengan asignaciones de valores que sabemos a priori que no pueden aparecer en ninguna solucin. Esta tcnicas tambin sirven para reducir el nmero de vueltas atrs intiles que realiza el algoritmo de backtracking cronolgico como veremos en la siguiente seccin, eliminando el mayor nmero posible de incompatibilidades entre los valores de las variables, de manera que no tengan que ser exploradas. Estas tcnicas se han desarrollado a partir de heursticas derivadas de propiedades que tienen los grafos de restricciones. Las ms utilizadas son las que se derivan de la propiedad denominada k-consistencia. Se dice que un grafo de restricciones es k-consistente si para cada variable Xi del grafo, cada conjunto de k variables que la incluya y cada valor del dominio de Xi , podemos encontrar una combinacin de k valores de estas variables que no viola las restricciones entre ellas. La ventaja de estas propiedades es que se pueden comprobar con algoritmos de coste polinmico. Esta propiedad la podemos denir para cualquier valor de k, pero tpicamente se utiliza el caso de k igual a 2, al que se denomina arco-consistencia. Diremos que un grafo de restricciones es arco-consistente, si para cada pareja de variables del grafo, para cada uno de los valores de una de las variables, podemos encontrar otro valor de la otra variable que no viola las restricciones entre ellas. Esta propiedad permite eliminar valores del dominio de una variable. Si dado un valor de una variable y dada otra variable con la que tenga una restriccin, no podemos encontrar algn valor en la otra variable que no viole esa restriccin, entonces podemos eliminar el valor, ya que no puede formar parte de una solucin. El objetivo ser pues, a partir de un grafo de restricciones, eliminar todos aquellos valores que no hagan arco consistente el grafo, de manera que reduzcamos el nmero de posibles valores que pueden tener las variables del problema y por lo tanto el nmero de combinaciones a explorar. El algoritmo 6.2 que convierte un grafo de restricciones en arco-consistente. Este algoritmo es
60

X1
{Azul,Rojo}
X2
{Azul}
X3
{Azul,Rojo,Verde} {Azul,Verde}
X4
Figura 6.3: Ejemplo de coloreado de grafos conocido como AC3, su coste temporal es O(rd3 ) y su coste espacial es O(r), siendo r el nmero de restricciones del problema (contando los dos sentidos) y d es el tamao de los dominios, existen algoritmos ms ecientes, a costa de usar ms espacio que tienen complejidad temporal O(rd2 ) y complejidad espacial O(rd) . Ejemplo 6.3 En la gura 6.3 tenemos un problema de coloreado de grafos donde en cada uno de los nodos se indica el dominio de cada variable. El objetivo ser colorear el grafo de manera que ningn nodo adyacente tenga el mismo color, por lo que cada arco es una restriccin de desigualdad. El conjunto de arcos con los que comenzara el algoritmo son: {X1 X2 , X2 X1 , X2 X3 , X3 X2 , X2 X4 , X4 X2 , X3 X4 , X4 X3 } La ejecucin del algoritmo sera la siguiente: 1. Seleccionamos X1 X2 Eliminamos Azul del dominio de X1 2. Seleccionamos X2 X1 Todos los valores son consistentes 3. Seleccionamos X2 X3 Todos los valores son consistentes 4. Seleccionamos X3 X2 Eliminamos Azul del dominio de X3 Tendramos que aadir el arco X4 X3 pero ya est 5. Seleccionamos X2 X4 Todos los valores son consistentes 6. Seleccionamos X4 X2 Eliminamos Azul del dominio de X4 Tendramos que aadir el arco X3 X4 pero ya est 7. Seleccionamos X3 X4 Eliminamos Verde del dominio de X3 Aadimos el arco X2 X3 8. Seleccionamos X4 X3 Todos los valores son consistentes 9. Seleccionamos X2 X3 Todos los valores son consistentes Casualmente, al hacer arco-consistente el grafo hemos hallado la solucin, pero no siempre tiene por que ser as. La arco-consistencia no siempre nos asegura una reduccin en los dominios del problema, por ejemplo, si consideramos el grafo del problema de las 4 reinas que hemos visto en el ejemplo 6.2, ste es arco-consistente, por lo que no se puede eliminar ninguno de los valores de las variables. La k-consistencia para el caso de k igual a 3 se denomina camino consistencia, y permite eliminar ms combinaciones, pero con un coste mayor. Existe la propiedad que se denomina kconsistencia fuerte, que se cumple cuando un grafo cumple la propiedad de consistencia desde 2 hasta k. Esta propiedad asegura que si el grafo tiene anchura2 k y es k-consistente fuerte, encontraremos una solucin sin necesidad de hacer backtracking, desgraciadamente probar esto necesita un tiempo muy elevado (O(rk dk )). Un resultado interesante es que, si el grafo de restricciones es un rbol, este se puede resolver sin backtracking si se convierte en arco consistente.
2
Se puede calcular la anchura de un grafo en coste cuadrtico.
6.2 Buscando de manera diferente Algoritmo 6.3 Algoritmo de forward checking Funcin: forward checking (vfuturas, solucion) si vfuturas.es_vacio?() entonces retorna solucion sino vactual vfuturas.primero() vfuturas.borrar_primero() para cada v vactual.valores() hacer vactual.asignar(v) solucion.anadir(vactual) vfuturas.propagar_restricciones(vactual) /* forward checking si no vfuturas.algun_dominio_vacio?() entonces solucion forward_checking(vfuturas, solucion) si no solucion.es_fallo?() entonces retorna solucion sino solucion.borrar(vactual) sino solucion.borrar(vactual) retorna solucion.fallo()
61
*/
6.2.3 Combinando bsqueda y propagacin

La combinacin de la bsqueda con backtracking y la propagacin de restricciones es la que da resultados ms exitosos en estos problemas. La idea consiste en que cada vez que asignemos un valor a una variable realicemos la propagacin de las restricciones que induce esa asignacin, eliminando de esta manera valores de las variables que quedan por asignar. Si con esta propagacin, alguna de las variables se queda sin valores, deberemos hacer backtracking. La ventaja de este mtodo es que podremos hacer backtracking antes de que lleguemos a la variable que acabar provocndolo. De esta manera nos ahorraremos todos los pasos intermedios. Existen diferentes algoritmos que combinan bsqueda y propagacin, dependiendo de que tipo de consistencia se evale en cada paso de bsqueda. El algoritmo ms sencillo es el denominado de forward checking. Este algoritmo aade a cada paso de asignacin de variables una prueba de arco-consistencia entre las variables futuras y la variable actual. Esta prueba de arco consistencia consigue que todos los valores de las variables futuras que no sean consistentes con la asignacin a la variable actual sean eliminados, de manera que si algn dominio de alguna variable futura queda vaco podemos reconsiderar la asignacin actual o hacer backtracking. El algoritmo es muy parecido al que hemos visto para el backtracking cronolgico, ahora incluiramos la reduccin de dominios mediante la prueba de arco consistencia tras hacer la asignacin de valor a la variable actual (vfuturas.propagar_restricciones(vactual)) y la comprobacin de la validez de la solucin parcial se hara mediante la comprobacin de que todas las variables futuras tienen an valores (vfuturas.algun_dominio_vacio?()). La implementacin se puede ver en el algoritmo 6.3. Ejemplo 6.4 En la gura 6.4 podemos ver de nuevo el ejemplo 6.2 utilizando el algoritmo de forward checking. Se puede comprobar que el nmero de asignaciones que se realizan es menor, ya que los
62
R1=1
R1=2 R2={3,4} R3={2,4} R4={2,3} Back a R1 R2={4} R3={1,3} R4={1,3,4}
R2=3 R3={} R4={2,3}
R2=4
R3={2} R4={3}
R2=4 R3={1} R4={1,3}
R3=2 R4={}
R3=1 R4={3}
Backtracking a R2
R4=3
Solucion (R1=2,R2=4,R3=1,R4=3)
Figura 6.4: 4 reinas mediante forward checking valores no compatibles son eliminados por las pruebas de consistencia. Ahora el coste ha pasado a las pruebas de consistencia que se realizan en cada iteracin. En este caso a cada paso el algoritmo asigna un valor a la reina actual y elimina de los dominios de las reinas futuras las asignaciones que son incompatibles con la actual. Esto nos permite hacer backtracking antes que en el ejemplo previo, reduciendo el nmero de asignaciones exploradas. Hay que tener en cuenta que la prueba de arco consistencia de cada iteracin incluye la comprobacin de los valores que quedan en las variables futuras, por lo que dependiendo del problema el ahorro puede no existir. Existen algoritmos que realizan pruebas de consistencia mas fuertes, como por ejemplo el algoritmo RFL (Real Full Lookahead) que adems comprueba la arco-consistencia entre todas las variables futuras, o el algoritmo MAC (Maintaining Arc Consistency) que convierte el problema en arco consistente a cada paso. Evidentemente, esta reduccin de los dominios de las variables no sale gratis, el nmero de comprobaciones a cada paso incrementa el coste por iteracin del algoritmo. Dependiendo del problema, el coste de propagacin puede hacer que el coste de hallar una solucin sea mayor que utilizar el algoritmo de backtracking cronolgico.
6.3 Otra vuelta de tuerca

Muchas veces estas heursticas no son sucientes para reducir el coste de encontrar una solucin, por lo que se combinan con otras que tambin se han mostrado efectivas en este tipo de problemas. Hasta ahora siempre hemos mantenido un orden jo en la asignacin de las variables, pero este puede no ser el ms adecuado a la hora de realizar la exploracin. Se utilizan diferentes heursticas de ordenacin dinmica de variables de manera que siempre se escoja la que tenga ms probabilidad de llevarnos antes a darnos cuenta de si una solucin parcial no nos llevar a una solucin. Las heursticas ms utilizadas son:
6.4 Ejemplo: El Sudoku
63
1 4 7 2 5 8 3 6 9
2 5 8 3 6 9 1 4 7
3 6 9 1 4 7 2 5 8
4 7 1 5 8 2 9 3 6
5 8 2 6 9 3 7 1 4
6 9 3 4 7 1 8 2 5
7 1 4 8 2 5 6 9 3
8 2 5 9 3 6 4 7 1
9 3 6 7 1 4 5 8 2
Figura 6.5: Una solucin al juego del sudoku Dominios mnimos (Dynamic value ordering), escogemos la variable con el menor nmero de valores. Min width ordering, escogemos la variable conectada al menor nmero de variables no instanciadas. Max degree ordering, escogemos la variable ms conectada en el grafo original. No es despreciable el ahorro que se puede obtener mediante este tipo de heursticas, por ejemplo, para el problema de las 20 reinas, hallar la primera solucin con backtracking cronolgico necesita alrededor de 2.5 107 asignaciones, utilizando forward checking se reduce a alrededor de 2.4 106 asignaciones, y si utilizamos la heurstica de dominios mnimos combinada con el forward checking hacen falta alrededor de 4 103 asignaciones.
6.4 Ejemplo: El Sudoku

Muchos de los rompecabezas que aparecen habitualmente en la seccin de pasatiempos son problemas de satisfaccin de restricciones. Esto quiere decir que se pueden formular como un conjunto de variables a las que les corresponde un dominio de valores y un conjunto de restricciones sobre ellas. Uno de estos rompecabezas es el sudoku (gura 6.5) para este problema el espacio de bsqueda es de 9!9 2.3 1033 posibles tableros, de los que aproximadamente 6.7 1024 son solucin. En este caso tenemos una matriz de 9 9, lo que nos da un total de 81 variables, cada variable puede contener un nmero del 1 a 9. Las restricciones aparecen primero entre las variables segn las las y columnas, de manera que para una la o columna un nmero puede aparecer solamente una vez y ademas hay una restriccin adicional entre las variables de las nueve submatrices que forman el problema, dentro de cada submatriz no puede haber dos variables con el mismo nmero. En el caso de este problema, el entretenimiento no viene de encontrar una solucin, sino de obtener una solucin dado que hemos dado ya ciertos valores a algunas de las variables. La dicultad de encontrar la solucin se puede variar estableciendo el nmero de variables a las que damos el valor.
64
Parte II Representacin del conocimiento
65
7. Introduccin a la representacin del conocimiento
7.1 Introduccin
Acabamos de ver un conjunto de algoritmos que son capaces de resolver problemas mediante la exploracin del espacio de soluciones. Estos algoritmos se basan en una informacin mnima para su resolucin. No solo en lo que respecta a las caractersticas que representan al problema, sino al conocimiento involucrado en las tomas de decisin durante la exploracin. Las funciones heursticas que se utilizan en la exploracin tienen en cuenta informacin global que evala el problema en cada paso de la misma manera. Evidentemente, durante la resolucin de un problema no tiene por que verse su estado siempre de la misma manera, ni tiene por que tener la misma importancia toda la informacin de la que disponemos. Si observamos como nosotros mismos resolvemos problemas, podemos jarnos en que la informacin que vamos teniendo en cuenta a medida que lo resolvemos va cambiando. No usamos, por ejemplo, la misma informacin cuando iniciamos la resolucin de un problema que cuando estamos en medio de la resolucin, ya que nuestra incertidumbre sobre donde est la solucin va cambiando, y parte de la informacin puede pasar a ser crucial o irrelevante. Esta capacidad de tomar mejores decisiones puede hacer que un problema se pueda resolver de manera ms eciente. Estas decisiones no las podemos tomar si no tenemos un conocimiento profundo de las caractersticas del problema y de como nos pueden ayudar a tomar decisiones. Esto nos lleva a pensar que en todo problema complejo en IA se debe plantear qu cocimiento nos puede ser necesario para resolverlo y como deberemos utilizarlo para hacer ms eciente la resolucin. El conocimiento que podemos usar puede ser tanto general como dependiente del dominio, pero teniendo en cuenta que el conocimiento especco del problema ser el que con ms probabilidad nos permitir hacer eciente la resolucin. Esta necesidad de introducir ms conocimiento en la resolucin de un problema nos lleva a plantearnos dos cuestiones. Primero, el cmo escoger el formalismo de representacin que nos permita hacer una traduccin fcil del mundo real a la representacin. El conocimiento necesario es por lo general bastante complejo, hacer la traslacin de los elementos del dominio a una representacin es una tarea costosa. Segundo, el cmo ha de ser esa representacin para que pueda ser utilizada de forma eciente. Este conocimiento tendr que utilizarse en el proceso de toma de decisiones, deberemos evaluar cuando es necesario usarlo y qu podemos obtener a partir de l. Sin un mecanismo eciente para su uso no conseguiremos ninguna ganancia. En este punto debemos distinguir entre informacin y conocimiento. Denominaremos informacin al conjunto de datos bsicos, sin interpretar, que se obtienen como entrada del sistema. Por ejemplo los datos numricos que aparecen en una analtica de sangre o los datos de los sensores de una planta qumica. Estos datos no nos dicen nada si no los asociamos a su signicado en el problema. Denominaremos conocimiento al conjunto de datos de primer orden, que modelan de forma estructurada la experiencia que se tiene sobre un cierto dominio o que surgen de interpretar los datos bsicos. Por ejemplo, la interpretacin de los valores de la analtica de sangre o de los sensores de la planta qumica para decir si son normales, altos o bajos, preocupantes, peligrosos, ..., el conjunto de estructuras de datos y mtodos para diagnosticar a pacientes a partir de la interpretacin del anlisis de sangre, o para ayudar en la toma de decisiones de que hacer en la planta qumica Los sistemas de IA necesitan diferentes tipos de conocimiento que no suelen estar disponibles en bases de datos y otras fuentes de informacin: 67
68
Captulo 7. Introduccin a la representacin del conocimiento Conocimiento sobre los objetos en un entorno y las posibles relaciones entre ellos Conocimiento sobre los procesos en los que interviene o que le son tiles Conocimiento difcil de representar como datos bsicos, como la intensionalidad, la causalidad, los objetivos, informacin temporal, conocimiento que para los humanos es de sentido comn, etc.
Podramos decir para un programa de inteligencia articial el conocimiento es la combinacin entre la informacin y la forma en la que se debe interpretar1 .
7.2 Esquema de representacin

Para poder representar algo necesitamos saber entre otras cosas sus caractersticas o su estructura, que uso le dan los seres inteligentes, como adquirirlo y traspasarlo a un sistema computacional, qu estructuras de datos son adecuadas para almacenarlo y qu algoritmos y mtodos permiten manipularlo. Una posibilidad sera jarnos en como los seres humanos representamos y manipulamos el conocimiento que poseemos. Por desgracia no hay respuestas completas para todas estas preguntas desde el punto de vista biolgico o neurosiolgico, no tenemos una idea clara de como nuestro cerebro es capaz de adquirir, manipular y usar el conocimiento que utilizamos para manejarnos en nuestro entorno y resolver los problemas que este nos plantea. Afortunadamente podemos buscar respuestas en otras reas, principalmente la lgica. A partir de ella construiremos modelos que simulen la adquisicin, estructuracin y manipulacin del conocimiento y que nos permitan crear sistemas articiales inteligentes. Como sistema para representar el conocimiento hablaremos de esquema de representacin que para nosotros ser un instrumento para codicar la realidad en un ordenador. Desde un punto de vista informtico un esquema de representacin puede ser descrito como una combinacin de: Estructuras de datos que codican el problema en curso con el que se enfrenta el agente Parte esttica Estructuras de datos que almacenan conocimiento referente al entorno en el que se desarrolla el problema y procedimientos que manipulan las estructuras de forma consistente con una interpretacin plausible de las mismas Parte dinmica La parte esttica estar formada por: Estructura de datos que codica el problema Operaciones que permiten crear, modicar y destruir elementos en la estructura Predicados que dan un mecanismo para consultar esta estructura de datos Semntica de la estructura, se denir una funcin que establezca una relacin entre los elementos de la realidad y los elementos de la representacin. Esta funcin es la que nos permitir interpretar lo que hagamos en el representacin en trminos del mundo real. La parte dinmica estar formada por:
1 Se suele dar la ecuacin Conocimiento = Informacin + Interpretacin como visin intuitiva de este concepto parafraseando el libro de N. Wirth Algorithms + Data Structures = Programs
7.3 Propiedades de un esquema de representacin
69
Estructuras de datos que almacenan conocimiento referente al entorno/dominio en el que se desarrolla el problema Procedimientos que permiten Interpretar los datos del problema (de la parte esttica) a partir del conocimiento del dominio (de la parte dinmica) Controlar el uso de los datos: estrategias de control, mtodos que nos permiten decidir cuando usamos el conocimiento y como ste gua los procesos de decisin. Adquirir nuevo conocimiento: mecanismos que nos permiten introducir nuevo conocimiento en la representacin, ya sea por observacin del mundo real o como deduccin a partir de la manipulacin del conocimiento del problema. Es importante tener en mente que la realidad no es el esquema de representacin. De hecho, podemos representar la realidad utilizando diferentes esquemas de representacin. La representacin es simplemente una abstraccin que nos permite resolver los problemas del dominio en un entorno computacional. Se ha de tener siempre en cuenta que nuestra representacin siempre es incompleta, debido a: Modicaciones: el mundo es cambiante, pero nuestras representaciones son de un instante Volumen: mucho (demasiado) conocimiento a representar, siempre tendremos una representacin parcial de la realidad Complejidad: La realidad tiene una gran riqueza en detalles y es imposible representarlos todos El problema de la codicacin del mundo esta ligado a los procedimientos de adquisicin y mantenimiento de la representacin. Deberamos poder introducir en la representacin toda aquella informacin que es consecuencia del cambio de la realidad, esto requiere poder representar todo lo que observamos en la realidad y obtener todas las consecuencias lgicas de ese cambio2 . La eciencia de los mtodos de adquisicin es clave, el problema es que no existe ningn mecanismo lo sucientemente eciente como para que sea plausible desde el punto de vista computacional mantener una representacin completa de la realidad. Los problemas de volumen y complejidad de la realidad estn relacionados con la granularidad de la representacin. Cuanto mayor sea el nivel de detalle con el que queramos representar la realidad, mayor ser el volumen de informacin que tendremos que representar y manipular. Esto hace que el coste computacional de manejar la representacin crezca de manera exponencial, haciendo poco plausible llegar a ciertos niveles de detalle y obligando a que la representacin sea una simplicacin de la realidad.
7.3 Propiedades de un esquema de representacin

Un buen formalismo de representacin de un dominio particular debe poseer las siguientes propiedades: Ligadas a la representacin
2
A este problema se le ha denominado el problema del marco de referencia (frame problem).
70
Captulo 7. Introduccin a la representacin del conocimiento Adecuacin Representacional: Habilidad para representar todas las clases de conocimiento que son necesarias en el dominio. Se puede necesitar representar diferentes tipos de conocimiento, cada tipo necesita que el esquema de representacin sea capaz de describirlo, por ejemplo conocimiento general, negaciones, relaciones estructurales, conocimiento causal, ... Cada esquema de representacin tendr un lenguaje que permitir expresar algunos de estos tipos de conocimiento, pero probablemente no todos. Adecuacin Inferencial: Habilidad para manipular estructuras de representacin de tal manera que devengan o generen nuevas estructuras que correspondan a nuevos conocimientos inferidos de los anteriores. El esquema de representacin debe denir los algoritmos que permitan inferir nuevo conocimiento. Estos algoritmos pueden ser especcos del esquema de representacin o puede ser genricos. Ligadas al uso de la representacin Eciencia Inferencial: Capacidad del sistema para incorporar conocimiento adicional a la estructura de representacin, llamado metaconocimiento, que puede emplearse para focalizar la atencin de los mecanismos de inferencia con el n de optimizar los cmputos. El esquema de representacin puede utilizar mecanismos especcos que aprovechen el conocimiento para reducir el espacio de bsqueda del problema. Eciencia en la Adquisicin: Capacidad de incorporar fcilmente nueva informacin. Idealmente el sistema por s mismo deber ser capaz de controlar la adquisicin de nueva informacin y su posterior representacin.
Desafortunadamente no existe un esquema de representacin que sea ptimo en todas estas caractersticas a la vez. Esto llevar a la necesidad de escoger la representacin en funcin de la caracterstica que necesitemos en el dominio de aplicacin especco, o a utilizar diferentes esquemas de representacin a la vez.
7.4 Tipos de conocimiento

El conocimiento que podemos representar en un dominio de aplicacin lo podemos dividir en dos tipos. Por un lado esta el conocimiento declarativo que es un conocimiento que se representa de manera independiente a su uso, es decir, no impone un mecanismo especco de razonamiento, por lo tanto podemos decidir como usarlo dependiendo del problema que vayamos a resolver con l. Los mecanismos de razonamiento empleados en este tipo de conocimiento son de tipo general (por ejemplo resolucin lineal) y la eciencia en su uso depender de la incorporacin de conocimiento de control que permita dirigir su utilizacin. Tipos de conocimiento declarativo son el conocimiento relacional, que nos indica como diferentes conceptos se relacionan entre si y las propiedades que se pueden obtener a travs de esas relaciones, conocimiento heredable, que establece las relaciones estructurales entre conceptos de manera que podamos saber propiedades de generalizacin/especializacin, inclusin o herencia de propiedades y el conocimiento inferible, que establece como se pueden derivar propiedades y hechos de otros mediante relaciones de deduccin. El segundo tipo de conocimiento es el conocimiento procedimental. Este indica explcitamente la manera de usarlo, por lo que el mecanismo de razonamiento est ligado a la representacin, con la ventaja de que es ms eciente de utilizar.
7.4 Tipos de conocimiento
71
7.4.1 Conocimiento Relacional simple

La forma ms simple de representar hechos declarativos es mediante un conjunto de relaciones expresables mediante tablas (como en una base de datos). La denicin de cada tabla establece la descripcin de un concepto y la tabla contiene todas sus instanciaciones. Por ejemplo, podemos tener la coleccin de informacin sobre los clientes de una empresa Cliente A. Perez J. Lopez .J. Garca .. Direccin Av. Diagonal c/ Industria c/ Villaroel Vol Compras ... 5643832 430955 12734
El principal problema es que tal cual no aporta conocimiento, solo es una coleccin de datos que necesita de una interpretacin y procedimientos que permitan utilizarlo. Podramos obtener nuevo conocimiento a partir de esta informacin con procedimientos que calcularan por ejemplo la media de compras en una poblacin o el mejor cliente o la tipologa de clientes. Las bases de datos pueden proporcionar informacin en un dominio, pero es necesaria una denicin explcita de las propiedades que se denen, las relaciones que se pueden establecer entre las diferentes tablas y las propiedades de esas relaciones.
7.4.2 Conocimiento Heredable

De entre el conocimiento que podemos expresar en un dominio suele ser muy habitual hacer una estructuracin jerrquica del conocimiento (taxonoma jerrquica), de manera que se puedan establecer relaciones entre los diferentes conceptos. En este caso estamos representando mediante un rbol o grafo las relaciones entre conceptos que se basan en el principio de generalizacin y/o especializacin (clase/subclase, clase/instancia, todo/parte, unin/interseccin). Este conocimiento pretende representar deniciones de conceptos aprovechando las relaciones estructurales entre ellos. Como se puede ver en la gura 7.1 los nodos son los conceptos/clases, y los arcos las relaciones jerrquicas. El mecanismo de inferencia se basa en la herencia de propiedades y valores (herencia simple/mltiple, valores por defecto) y en la subsumcin de clases (determinar si una clase est incluida en otra).
7.4.3 Conocimiento Inferible

Es conocimiento descrito mediante el lenguaje de la lgica. En este caso las expresiones describen hechos que son ciertos en el dominio. La riqueza del lenguaje de la lgica nos permite representar multitud de hechos, estableciendo por ejemplo propiedades universales sobre los predicados del dominio, la existencia de elementos que cumplan unas propiedades o establecer relaciones de inferencia entre predicados. Podemos decir por ejemplo: x, y : persona(x) menor(x) ocupacion(x, y) parado(x) El mecanismo de deduccin en el caso de la lgica de primer orden se obtiene eligiendo de entre los mtodos generales de deduccin automtica que existen, como por ejemplo la resolucin lineal.
7.4.4 Conocimiento Procedimental
72
Captulo 7. Introduccin a la representacin del conocimiento
Ser vivo
Respira
esun
esun Tiene pelo
Reptil
Tiene escamas
Mamifero
esun instde
esun
Felino
Roedor
Godzilla instde Silvestre instde instde
Jinx
Pixie
Figura 7.1: Jerarquia de conceptos
Este conocimiento incluye la especicacin de los procesos para su uso. En este tipo se incluyen los procedimientos que permiten obtener conocimiento a partir de informacin o nuevo conocimiento que ya se tiene. Por ejemplo, si se tiene la informacin Fecha_nacimiento= DD-MM-AAAA, se puede calcular la edad como una funcin que combine esta informacin con la fecha actual. Tambin se incluyen en este conocimiento las denominadas reglas de produccin. Estas son expresiones condicionales que indican las condiciones en las que se deben realizar ciertas acciones al estilo SI condicin ENTONCES accin. La combinacin de estas expresiones condicionales pueden permitir resolver problemas descomponindolos en una cadena de acciones guiada por las condiciones de las reglas. Este tipo de conocimiento suele ser ms eciente computacionalmente, pero hace ms difcil la inferencia y la adquisicin/modicacin ya que se apoyan en mecanismos especcos.
8. Lgica
8.1 Introduccin
Una gran parte de los formalismos de representacin del conocimiento que se utilizan en inteligencia articial se fundamentan directamente en la lgica. De hecho la lgica es el lenguaje utilizado por todas las disciplinas cientcas para describir su conocimiento de manera que pueda ser compartido sin ambigedad y poder utilizar mtodos formales para probar sus armaciones y obtener sus consecuencias Es por tanto interesante ver la lgica como lenguaje de representacin. La lgica provee un lenguaje formal a travs de cual podemos expresar sentencias que modelan la realidad. Es un lenguaje declarativo que establece una serie de elementos sintcticos a partir de los cuales podemos representar conceptos, propiedades, relaciones, constantes y la forma de conectar todos ellos. A partir de este lenguaje podemos relacionar la semntica de las sentencias que expresamos con la semntica de la realidad que queremos representar. Como la lgica es un lenguaje declarativo, se establecen una serie de procedimientos que permiten ejecutar la representacin y obtener nuevo conocimiento a partir de ella. Nos centraremos en la lgica clsica y en particular en la lgica proposicional y la lgica de predicados. Los conceptos que se explican en este captulo los conocis de la asignatura Introduccin a la lgica, as que podis consultar sus apuntes para tener una descripcin ms detallada. Este captulo solo servir para refrescar la memoria y no como descripcin exhaustiva del formalismo de la lgica.
8.2 Lgica proposicional

Es el lenguaje lgico ms simple y nos permite denir relaciones entre frases declarativas atmicas (no se pueden descomponer en elementos ms simples). El lenguaje se dene a partir de tomos y conectivas, siendo estas la conjuncin (), la disyuncin (), la negacin () y el condicional (). Las frmulas vlidas de lgica de enunciados son las que se pueden derivar a partir de esta gramtica: 1. Si P es una sentencia atmica entonces P es una frmula. 2. Si A y B son frmulas entonces (A B) es una frmula 3. Si A y B son frmulas entonces (A B) es una frmula 4. Si A y B son frmulas entonces (A B) es una frmula 5. Si A es una frmula entonces A es una frmula Por convencin, se consideran sentencias atmicas todas las letras maysculas a partir de la P y frmulas todas las letras maysculas a partir de la A. Mediante este lenguaje podemos expresar sentencias que relacionan cualquier frase declarativa atmica mediante las cuatro conectivas bsicas y su semntica asociada. Esta semntica viene denida 73
74
Captulo 8. Lgica
por lo que se denomina teora de modelos, que establece la relacin entre las frmulas y los valores de verdad y falsedad, es lo que se denomina una interpretacin. Cada conectiva tiene su tabla de verdad1 que establece como se combinan los valores de verdad de los tomos para obtener el valor de verdad de la frmula. A partir de los enunciados expresados mediante este lenguaje se pueden obtener nuevos enunciados que se deduzcan de ellos o se pueden plantear enunciados y comprobar si se derivan de ellos. Para ello existen diferentes metodologas de validacin de razonamientos que establecen los pasos para resolver esas preguntas. Metodologas de validacin de razonamientos hay bastantes y se pueden dividir en dos grupos. Las que se basan en la semntica, buscan demostrar que los modelos que hacen verdad un conjunto de enunciados incluyen los modelos que hacen verdad la conclusin que queremos probar. Las que se basan en sintaxis aprovechan la estructura algebraica del lenguaje de la lgica de enunciados (lgebra de boole) para demostrar que el enunciado satisfactible/insatisfactible es accesible utilizando los enunciados premisa y la conclusin. El mtodo ms sencillo para la validacin de enunciados es el mtodo de resolucin. Es un mtodo que funciona por refutacin, es decir, podemos saber si un enunciado se deriva de un conjunto de enunciado probando que al aadir su negacin podemos obtener el enunciado insatisfactible. Este mtodo se basa en la aplicacin de la regla de resolucin: A B, A C BC
al conjunto de clausulas que se obtienen de transformar las premisas y la negacin de la conclusin a forma normal conjuntiva. Existen diferentes variantes del algoritmo, la mas comn es la que utiliza la denominada estrategia de conjunto de soporte, que inicia el algoritmo escogiendo alguna de las clusulas de la negacin de la conclusin. Este mtodo es slido y completo2 si se demuestra la satisfactibilidad de las clusulas de las premisas. Ejemplo 8.1 Podemos plantearnos un problema de lgica proposicional donde tengamos los enunciados Est lloviendo y Me mojo. Asignamos a los enunciados las letras de tomo P y Q respectivamente. Podemos escribir la frmula P Q, que se puede leer como Si esta lloviendo entonces me mojo y plantearnos el siguiente razonamiento: P Q, P Q
Podemos utilizar el mtodo de resolucin para validar este razonamiento obteniendo el siguiente conjunto de clusulas con el razonamiento C = {P Q, P, Q}. Con estas clusulas podemos obtener el siguiente rbol de resolucin validando el razonamiento: Q P Q
Es algo que ya conocis de la asignatura de lgica. Las propiedades de solidez y completitud (soundness, completness) son las que se piden a cualquier mtodo de validacin. La propiedad de solidez nos garantiza que el mtodo solo nos dar conclusiones vlidas y la completitud nos garantiza que podremos obtener todas las conclusiones derivables.
2
8.3 Lgica de predicados
75
8.3 Lgica de predicados

La capacidad expresiva de la lgica de enunciados no es demasiado grande, por lo que habitualmente se utiliza como mtodo de representacin la lgica de predicados. Esta ampla el vocabulario de la lgica de enunciados aadiendo parmetros a los tomos, que pasan a representar propiedades o relaciones, tambin aade lo que denominaremos trminos que son de tres tipos: variables (elementos sobre los que podremos cuanticar o substituir por valores), constantes (elementos identicables del dominio) y funciones (expresiones que pueden aplicarse a variables y constantes que denotan el valor resultante de aplicar la funcin a sus parmetros). A estos elementos se les aaden los cuanticadores universal () y existencial () que son extensiones innitas de las conectivas conjuncin y disyuncin. Esto ampla la gramtica de frmulas que podemos expresar, ser una frmula vlida de lgica de predicados toda aquella que cumpla: 1. Si P es un predicado atmico y t1 , t2 , ..., tn son trminos, entonces P (t1 , t2 , ..., tn ) es una frmula. 2. Si A y B son frmulas entonces (A B) es una frmula 3. Si A y B son frmulas entonces (A B) es una frmula 4. Si A y B son frmulas entonces (A B) es una frmula 5. Si A es una frmula y v es una variable, entonces (vA) y (vA) son una frmula 6. Si A es una frmula entonces A es una frmula Por convencin, se consideran sentencias atmicas todas las letras maysculas a partir de la P y frmulas todas las letras maysculas a partir de la A. Para los trminos, las constantes se denotan por letras minsculas a partir de la a, las variables son letras minsculas a partir de la x y las funciones letras minsculas a partir de la f . Mediante este lenguaje podemos expresar propiedades y relaciones entre objetos constantes de un dominio o establecer propiedades universales o existenciales entre los elementos del dominio. La visin que tenemos de la realidad est compuesta de elementos (las constantes) que podemos ligar mediante propiedades y relaciones. Podramos asociar esta visin a una nocin conjuntista de la realidad, los predicados unarios corresponderan a los conjuntos en los que podemos tener las constantes, los predicados con mayor aridad corresponderan a las relaciones que podemos establecer entre los elementos de esos conjuntos. En este caso la cuanticacin nos permite establecer enunciados que pueden cumplir todos los elementos de un conjunto o enunciar la existencia en el conjunto de elementos que cumplen cierta propiedad o relacin. El mtodo de resolucin tambin se puede aplicar como mtodo de validacin en lgica de predicados, pero necesita de un conjunto de procedimientos adicionales para tener en cuenta las extensiones que hemos hecho en el lenguaje. En este caso las frmulas son transformadas a la forma normal de skolem, que permite substituir todas las cuanticaciones existenciales por constantes y expresiones funcionales3 . El mtodo exige que para la aplicacin de la regla de resolucin los tomos que se quieran resolver permitan la unicacin de los trminos de los parmetros. La unicacin lo que busca es la substitucin de los valores de las variables de los trminos de los tomos que permitan que las dos expresiones sean iguales. Ejemplo 8.2 Podemos plantearnos el problema de lgica de predicados con los siguientes predicados ser un hombre, ser mortal y una constante Socrates. Asignamos a los predicados las letras P y Q respectivamente y a la constante la letra a . Podemos escribir la frmula x(P (x) Q(x)) (todos
3
Tenis los detalles en los apuntes de la asignatura de lgica.
76
Captulo 8. Lgica
los hombres son mortales) y la frmula P (a) (Scrates es un hombre) y podemos intentar validar la frmula Q(a) (Scrates es mortal). Podemos utilizar el mtodo de resolucin para validar este razonamiento obteniendo el siguiente conjunto de clusulas con el razonamiento C = {P (x)) Q(x), P (a), Q(a)}. Con estas clusulas podemos obtener el siguiente rbol de resolucin validando el razonamiento: Q(a) P (x) Q(x) {x = a}
P (a)
P (a)
8.4 Lgica y representacin del conocimiento

El lenguaje de lgica de predicados puede ser bastante incmodo para expresar cierto tipo de conocimiento y existen extensiones o modicaciones que intentan facilitar su uso. Por ejemplo, extensiones que hacen algo ms cmodo el uso de lgica de predicados es incluir la igualdad como un predicado especial o permitir el utilizar tipos en las variables que se cuantican. Existen otros aspectos que son difciles de tratar directamente en lgica de predicados, como por ejemplo: Representacin del tiempo: En lgica de predicados toda frmula se reere al presente. Existen diferentes lgicas para el tratamiento del tiempo que permiten expresar relaciones temporales entre los elementos del dominio. El conocimiento entre agentes, razonamiento sobre otros: Las frmulas que expresamos son el conocimiento propio, pero no tratamos nuestra creencia sobre el conocimiento que puedan tener otros. Las diferentes lgicas de creencias intentan establecer mtodos que permiten obtener deducciones sobre lo que creemos que otros agentes creen. El conocimiento incierto e impreciso: La lgica de predicados supone que podemos evaluar con total certidumbre el valor de verdad de cualquier formula, pero en la realidad eso no es siempre as. Las lgicas probabilstica y posibilstica intentan trabajar con esa circunstancia y permitir obtener deducciones a partir de la certidumbre que tenemos sobre nuestro conocimiento.
9. Sistemas de reglas de produccin
9.1 Introduccin
La lgica de predicados tambin se puede ver como un mecanismo para describir procedimientos. Con este tipo de visin lo que hacemos es describir un problema como si fuera un proceso de razonamiento. Los predicados que utilizamos descomponen el problema en problemas ms sencillos e indican un orden total o parcial que permitir al sistema que ejecute esta descripcin resolverlo. En este tipo de descripcin utilizamos un conjunto restringido de las expresiones que se pueden representar mediante el lenguaje de la lgica. La restriccin fundamental que se impone es que solo se pueden utilizar frmulas lgicas cuanticadas universalmente que se puedan transformar a clusulas disyuntivas1 en las que solo haya como mximo un tomo armado. Este tipo de clusulas se denominan clusulas de Horn. La justicacin de esta limitacin es que la representacin tendr que ser ejecutada como una demostracin y el coste computacional de los procedimientos para realizarla est ligado a la expresividad empleada en su descripcin. A pesar de esta restriccin del lenguaje podremos describir un gran nmero de problemas. Este tipo de frmulas se corresponde con lo que denominaremos reglas de produccin. Las reglas son frmulas condicionales en las que puede haber cualquier nmero de tomos en el antecedente y solo un tomo en el consecuente, por ejemplo: xy(P ersona(x) Edad(x, y) M ayor(y, 18) M ayor_de_edad(x)) En la prctica los lenguajes de programacin que permiten describir problemas mediante reglas son ms exibles en su sintaxis y permitir cosas mas complejas. De hecho el consecuente de una regla puede ser una accin sobre la descripcin del estado (modicacin de los predicados actuales), un nuevo hecho del estado, un hecho que usamos como elemento de control de la bsqueda, una interaccin con el usuario, ...
9.2 Elementos de un sistema de produccin

Mediante este formalismo podremos ser capaces de describir como solucionar un problema, declarando el conjunto de reglas a partir del cual se puede obtener una solucin mediante un proceso de demostracin. La diferencia de las reglas respecto a otros formalismos procedimentales (como un programa implementado en un lenguaje imperativo) es que no explicitamos directamente el algoritmo a utilizar para encontrar la solucin del problema, sino que se indican las condiciones que esta ha de cumplir la solucin. Es un mecanismo de demostracin el que se encarga de encontrarla combinando los pasos indicados por las reglas, ya que lo que estamos haciendo es validar un razonamiento que se fundamenta en las reglas descritas. Esta forma de describir procedimientos se encuadra dentro de los denominados lenguajes declarativos (a diferencia de los lenguajes imperativos, que son los ms comunes). La ventaja de declarar las condiciones que cumplen las soluciones es que no estamos limitados a una nica secuencia de ejecucin, un conjunto de reglas pueden describir muchos algoritmos distintos que comparten parte
1
Una clusula disyuntiva es una frmula en la que solo se usa la conectiva disyuncin.
77
78
Captulo 9. Sistemas de reglas de produccin
de su especicacin. Este tipo de lenguajes permiten adems expresar programas a un mayor nivel de abstraccin ya que no tenemos que expresar exactamente como se debe conseguir la solucin, solo sus condiciones, ya que hallar la solucin que cumple las condiciones es labor del mecanismo de demostracin que utilizaremos. Para poner este formalismo en perspectiva, podemos hacer la analoga con los algoritmos de bsqueda que hemos visto en los primeros captulos. Las reglas son equivalentes a los operadores de bsqueda, y el algoritmo de bsqueda utilizado es un mecanismo de validacin de demostraciones. Un nmero relativamente reducido de operadores puede permitir hallar soluciones a problemas muy diferentes y todos ellos se generan a partir de la combinacin de los operadores. Al conjunto de reglas se le denomina la base de conocimiento (o de reglas). Estas reglas pueden describir la resolucin de mltiples problemas, ser la labor del mecanismo que resuelva el problema concreto planteado el que decida qu reglas se han de utilizar. El planteamiento del problema se realiza mediante hechos. Estos hechos sern la descripcin de las condiciones del problema mediante predicados primitivos, funciones, relaciones y constantes denidas en el problema. Por ejemplo: Persona(juan) Edad(juan,25) Al conjunto de hechos que describen un problema se denomina base de hechos. Con una base de reglas y una base de hechos podemos plantear preguntas cuya respuesta permita obtener la solucin del problema. Ejemplo 9.1 Podemos crear un conjunto de reglas que nos permitan saber cuando se puede servir una bebida a una persona en un bar. Podramos describir el problema de la siguiente manera: Toda persona mayor de 18 aos es mayor de edad. Toda bebida que contenga alcohol es una bebida restringida a mayores de edad. Se puede servir a una persona una bebida restringida a mayores de edad si es mayor de edad. Y lo podramos describir mediante reglas de como la siguiente base de reglas: si Persona(X) y Edad(X,Y) y Mayor(Y,18) entonces Mayor_de_edad(X) si Bebida(X) y Contiene(X,alcohol) entonces Restringida_a_mayores(X) si Mayor_de_edad(X) y Restringida_a_mayores(Y) entonces Servir(X,Y) Podramos entonces plantear un problema con un conjunto de hechos: Persona(juan) Edad(juan,25) Bebida(cubata) Contiene(cubata,alcohol) Y entonces preguntarnos si le podemos servir un cubata a juan Servir(juan,cubata). La forma en la que determinamos si existe y cual es la respuesta al problema planteado depender del mtodo de demostracin de razonamientos que utilicemos para validar el razonamiento que describen la base de conocimiento, la base de hechos y la pregunta que realizamos. Este mecanismo estar implementado mediante lo que denominaremos el motor de inferencias.
9.3 El motor de inferencias
79
Base de Conocimiento
A(x) & B(x,y) & C(x) &D(z) -> E(x,y,z) C(x) & E(x,y,z) & I(y,z) -> H(z)
Hechos
A(a) A(b) A(d) B(a,c) B(b,c) . . . L(a,c)
. . .
P(x,y) & B(y,x) & Q(z) -> R(x,z)
Conjunto de conflicto
A(a)&B(a,c)&C(a)&D(c)->E(a,b,c) C(a)&E(a,b,c)&I(b,c)->H(c)
Intrprete de reglas
P(a,b)&B(b,c)&Q(c)->R(a,c) P(a,b)&B(b,c)&Q(c)->R(a,c)
. . .
Estrategia de control
Motor de Inferencia
Figura 9.1: Sistema de produccin
9.3 El motor de inferencias

La labor de un motor de inferencias es ejecutar la representacin del problema descrita mediante la base de reglas y la base de hechos. Deber ser por tanto capaz de demostrar razonamientos buscando la manera ms eciente de hacerlo. Para ello el motor de inferencias constar de dos elementos: El intrprete de reglas: Deber ser capaz de ejecutar las reglas. Esto incluye interpretar el antecedente de la regla, buscar las instanciaciones adecuadas para que el antecedente se cumpla con los hechos/objetivos conocidos y generar la deduccin que representa el consecuente de la regla. Una de las labores mas importantes de este componente ser generar lo que se conoce como el conjunto de conicto. ste contiene todas las reglas u objetivos que se pueden utilizar en un momento dado de la resolucin de un problema. En los lenguajes de reglas, el intrprete de reglas puede ser bastante complejo, permitiendo lo que se podra encontrar en cualquier lenguaje de programacin, como por ejemplo la interaccin con el usuario. Tambin podra permitir el uso de otras lgicas mas all de la lgica de predicados como lgicas para informacin incompleta o para informacin con incertidumbre. La estrategia de control: Ser el mecanismo que permitir al motor de inferencia elegir la regla u objetivo que deber resolver en primer lugar y se basar en lo que denominaremos estrategia de resolucin de conictos. Dependiendo de la ecacia de esta estrategia, el coste nal en tiempo de la resolucin de un problema puede variar enormemente. En la gura 9.1 se puede ver una representacin de los elementos de un sistema de produccin. Respecto a la estrategia de resolucin de conictos, esta puede ser de muy diversas naturalezas, pudiendo utilizar informacin sintctica local de las reglas o estrategias mas complejas. Por ejemplo se podra utilizar como criterio de eleccin:
80
Captulo 9. Sistemas de reglas de produccin La primera regla segn el orden establecido en la base de conocimiento. El experto conoce en que orden se deben ejecutar las reglas en caso de conicto y lo indica en la base de reglas. La regla mas/menos utilizada. La regla ms utilizada puede ser la correcta en la mayora de los casos y eso le dara preferencia. Tambin se podra dar preferencia al criterio contrario si por ejemplo las reglas menos usadas tratan excepciones y precisamente estamos resolviendo un caso excepcional. La regla ms especca/ms general. Las reglas ms generales suelen utilizarse al comienzo de la resolucin para plantear el problema y dirigir la bsqueda. Las reglas ms especcas suelen ser tiles una vez ya hemos encaminado la resolucin hacia un problema concreto. La regla con la instanciacin de hechos mas prioritarios. Podemos indicar que hechos son mas importantes en la resolucin y utilizar primero las reglas que los instancien. La regla con la instanciacin de hechos mas antiguos/mas nuevos. Es lgico pensar que los ltimos hechos deducidos deberan ser los primeros en utilizarse, pero tambin es posible que los hechos mas nuevos sean errneos y que la manera mejor para redirigir la bsqueda es utilizar hechos antiguos de una manera diferente. Ordenadamente en anchura/en profundidad Aleatoriamente
Ninguno de estos criterios (en ocasiones contradictorios) garantiza por si solo hallar la solucin siguiendo el camino ms eciente, por lo que por lo general se suele utilizar una combinacin de criterios. Habitualmente se utiliza metaconocimiento en forma de metareglas (reglas sobre el uso de las reglas) para hacer mas eciente la resolucin y para cambiar la estrategia de resolucin de conictos dinmicamente.
9.3.1 Ciclo de ejecucin

El motor de inferencias ejecuta un conjunto de fases que denen su funcionamiento. Estas fases son las siguientes: 1. Fase de deteccin: En esta fase el intrprete de reglas determinar todas las instanciaciones posibles entre los hechos u objetivos del problema y las reglas de la base de reglas. El objetivo de esta fase es calcular el conjunto de conicto. Esta ser la fase ms costosa del ciclo de ejecucin ya que el nmero de posibles instanciaciones de las reglas puede ser elevado. 2. Fase de seleccin: Se elegir la regla a utilizar en este paso del ciclo de ejecucin, utilizando como criterio la estrategia de resolucin de conictos. La eleccin que se realice determinar la forma en la que se haga la exploracin de las posibles soluciones del problema. 3. Fase de aplicacin: El intrprete de reglas propagar las instanciaciones de las condiciones de la regla a la conclusin ejecutndola y cambiando el estado del problema. Esto puede signicar la obtencin de nuevos hechos o el planteamiento de nuevos objetivos. El ciclo de ejecucin del motor de inferencias se acabar en el momento en el que se haya obtenido el objetivo deseado, ya no haya ms reglas que aplicar o se hayan cubierto todos los objetivos que se hayan planteado durante la resolucin del problema.
9.4 Tipos de razonamiento

Hechos
Persona(juan) Edad(juan,18) Bebida(cubata) Contiene(cubata,alcohol)
81
Bebida(X) y Contiene(X,alcohol) > Restringida_a_mayores(X)
Persona(X) y Edad(X,Y) y Mayor(X,18) > Mayor_de_Edad(X)
Mayor_de_Edad(X) y Restringida_a_mayores(X,Y) > Servir(X,Y)
Servir(juan,cubata)?
Objetivo
Figura 9.2: Le servimos a Juan un cubata?
9.4 Tipos de razonamiento

La forma de resolver el razonamiento que plantea un conjunto de reglas y hechos depende del punto de vista que adoptemos. Si vemos el problema desde un punto de vista global, lo que se hace al validar el razonamiento es ligar lo hechos que hay en la base de hechos con el objetivo que tenemos que probar mediante las reglas de las que disponemos. La forma en la que ligamos hechos y objetivos es simplemente encadenando las reglas una detrs de otra adecuadamente, de manera que las instanciaciones de las condiciones del antecedente y conclusiones del consecuente cuadren. Si pensamos que estamos hablando de un mtodo de representacin procedimental, de hecho lo que estamos haciendo es ensamblar el algoritmo que resuelve el problema. Podemos ver en la gura 9.2 el planteamiento del ejemplo que vimos anteriormente. Ligamos los hechos de la base de hechos con el objetivo planteado instanciando las reglas que tenemos. En principio no hay una direccin preferente en la que debamos ligar hechos y objetivos. El problema lo podemos resolver partiendo de los hechos y deduciendo nuevos hechos a partir de las reglas hasta llegar al objetivo, este es el sentido en el que estamos habituados a utilizar las reglas. Pero tambin lo podramos resolver mirando las reglas en el sentido contrario, una regla descompondra un problema (el consecuente) en problemas ms pequeos (antecedente) y podramos iniciar la bsqueda de la solucin en el objetivo nal hasta descomponerlo en los hechos de la base de hechos. Estas dos estrategias se conocen como razonamiento guiado por los datos o razonamiento hacia adelante (forward chaining) y razonamiento guiado por los objetivos o razonamiento hacia atrs (backward chaining). Los explicaremos con detalle en las siguientes secciones. Como complemento a estas estrategias existen mtodos de razonamiento que utilizan una combinacin de las dos (estrategias hbridas) para intentar obtener las ventajas de cada una y reducir sus inconvenientes.
82
Algoritmo 9.1 Razonamiento hacia adelante Procedimento: Razonamiento Hacia Adelante Entrada: Base de hechos, Base de reglas, Objetivos Alternativas cierto mientras o(o Objetivos o Base_de_hechos) Alternativas hacer Conjunto_Conicto Interprete.Antecedentes_satisfactibles(Base_de_hechos, Base_de_reglas) si Conjunto_Conicto = entonces Regla Estrategia_Control.Resolucion_Conictos(Conjunto_Conicto) Interprete.Aplicar(Base_de_hechos, Regla) sino Alternativas falso
9.4.1 Razonamiento guiado por los datos

Este tipo de razonamiento supone que son los hechos los que dirigen el ciclo de ejecucin del motor de inferencias. Por lo tanto, cada vez que hacemos la fase de seleccin, buscamos todas aquellas reglas cuyas condiciones podamos hacer vlidas con cualquier posible combinacin de los hechos que tenemos en ese momento. Tras la seleccin de la regla ms adecuada se aade a la base de hechos el consecuente de la regla. La ejecucin acaba cuando el objetivo es deducido. Este tipo de razonamiento se denomina deductivo o progresivo y se fundamenta en la aplicacin de la regla denominada de la eliminacin del condicional o modus ponens. Esta regla se puede formalizar de la siguiente manera: A, A B B
Parafraseando, esta regla nos dice que cuando tenemos un conjunto de hechos y estos hechos forman parte del antedecente de una expresin condicional, podemos deducir el consecuente como un hecho mas de nuestro razonamiento. El algoritmo 9.1 es una implementacin de su funcionamiento. El mayor inconveniente de esta estrategia de razonamiento es que el razonamiento no se gua por el objetivo a conseguir, sino que se obtienen todas las deducciones posibles ya sean relevantes o no para conseguirlo. Esto implica un gran coste computacional a la hora de resolver un problema ya que se hace mas trabajo del necesario para obtener el objetivo. Esto signica que la estrategia de resolucin de conictos es bastante importante a la hora de dirigir la exploracin del problema. De hecho, para hacer eciente este mtodo es necesario metaconocimiento y la capacidad para dirigir el ujo de razonamiento mediante las propias reglas. Otro problema computacional es el detectar las reglas que se pueden disparar en un momento dado, pues requiere computar todas la coincidencias posibles entre hechos y antecedentes de reglas. Este problema se puede resolver de manera eciente mediante el denominado algoritmo de Rete. Este algoritmo permite mantener y actualizar todas las coincidencias entre hechos y antecedentes, de manera que se puede saber ecientemente si una regla se cumple o no. Las ventajas de este tipo de razonamiento, vienen del hecho de que, es ms natural en muchos dominios expresar el razonamiento de esta manera y, por lo tanto, es ms fcil plantear reglas que resuelvan problemas mediante esta estrategia. Este tipo de razonamiento tambin es adecuado en problemas en los que no exista un objetivo claro a alcanzar y lo que se busque sea explorar el espacio de posibles soluciones a un problema.
9.5 Las reglas como lenguaje de programacin Algoritmo 9.2 Razonamiento hacia atrs Procedimento: Razonamiento Hacia Atrs Entrada: Base de hechos, Base de reglas, Objetivos Alternativas cierto mientras Objetivos = Alternativas hacer Objetivo Estrategia_Control.Escoger_Objetivo(Objetivos) Objetivos.Quitar(Objetivo) Conjunto_Conicto Interprete.Consecuentes_satisfactibles(Objetivo, Base_de_reglas) si Conjunto_Conicto = entonces Regla Estrategia_Control.Resolucion_Conictos(Conjunto_Conicto) Objetivos.Aadir(Regla.Extraer_antecedente_como_objetivos()) sino Alternativas falso
83
9.4.2 Razonamiento guiado por los objetivos

Este tipo de razonamiento supone que es el objetivo el que dirige el ciclo del motor de inferencias. En este caso lo que hacemos es mantener una lista de objetivos pendientes de demostrar que se inicializa con el objetivo del problema. En la fase de seleccin miramos si entre los hechos est el objetivo actual, si es as lo eliminamos y pasamos al objetivo siguiente. Si no es as, se seleccionan todas aquellas reglas que permitan obtener el objetivo como conclusin. Una vez elegida la regla ms adecuada, los predicados del antecedente de la regla pasan a aadirse a la lista de objetivos a cubrir. La ejecucin acaba cuando todos los objetivos que han aparecido acaban siendo cubiertos mediante hechos del problema. Este tipo de razonamiento se denomina inductivo o regresivo e invierte la utilizacin que hace el razonamiento hacia adelante de la regla del modus ponens. Esta visin puede tomarse como una forma de descomposicin de problemas, en la que se parte del objetivo inicial y se va reduciendo en problemas cada vez ms simples hasta llegar a problemas primitivos (los hechos). El algoritmo 9.2 es una implementacin de su funcionamiento. La ventaja principal de este mtodo de razonamiento es el que al estar guiado por el objetivo, todo el trabajo que se realiza se encamina a la resolucin del problema y no se hace trabajo extra. Esto hace que este tipo de razonamiento sea mas eciente. Como desventaja, nos encontramos con que plantear un conjunto de reglas que resuelva problema de esta manera es menos intuitivo. El problema debe pensarse para poder resolverse mediante una descomposicin jerrquica de subproblemas. Tambin tenemos el inconveniente de que solo se puede aplicar a problemas en los que el objetivo sea conocido, lo cual reduce los dominios en los que puede ser aplicado.
9.5 Las reglas como lenguaje de programacin

El usar reglas como mecanismo de resolucin de problemas ha llevado a verlas como el fundamento de diferentes lenguajes de programacin generales. Estos lenguajes entran dentro de los paradigmas de programacin declarativa y programacin lgica. En estos lenguajes los programas solamente denen las condiciones que debe cumplir una solucin mediante un formalismo lgico y es el mecanismo de demostracin el que se encarga de buscarla explorando las posibilidades. La mayora de estos lenguajes no son lenguajes declarativos puros e incluyen mecanismos y es-
84
tructuras que pueden encontrarse en otros paradigmas, pero an as la losofa de programacin es bastante diferente y requiere un cambio en la manera de pensar. En este tipo de lenguajes la asignacin no existe y la comunicacin entre reglas se realiza mediante la unicacin de las variables que se utilizan. Estas variables no se pueden ver como las que se usan en programacin imperativa ya que su valor lo toman durante el proceso de prueba de deduccin al comparar hechos y condiciones y realizar su unicacin. Por lo tanto no son lugares donde nosotros vayamos poniendo valores, los toman cuando es adecuado para demostrar el problema. En estos lenguajes la recursividad tiene un papel fundamental a la hora de programar. Todas estas caractersticas pueden parecer una limitacin expresiva, pero en realidad no lo son y la potencia expresiva de estos lenguajes es la misma que la de los lenguajes imperativos. Existen dominios de aplicacin en los que estos estilos de programacin son ms adecuados que los lenguajes imperativos, la inteligencia articial es uno de ellos. Ejemplo 9.2 El clculo del factorial es un ejemplo clsico, podemos denir cuales son las condiciones que debe cumplir un nmero para ser el factorial de otro. Sabemos que hay un caso trivial que es el factorial de 1. Podemos declarar el predicado que asocie a 1 con su factorial fact(1,1). Para calcular que un nmero es el factorial de otro lo nico que tenemos que hacer es especicar las condiciones para que han de cumplirse. Por ejemplo: si =(X, X1+1) y fact(X1,Y1) y =(Y,Y1*X) entonces fact(X,Y) Parafraseando podramos leer esta regla como que si hay un X que sea X1 + 1 y el factorial de X1 es Y1 y hay un Y que sea Y1*X entonces el factorial del X ser Y. Supondremos que el predicado = es un predicado especial que unica el primer parmetro con el segundo. Podemos plantearnos la pregunta de cual es el factorial de 3, o sea si existe un valor Z asociado al predicado fact(3,Z). Mediante el mecanismo de razonamiento hacia atrs podremos averiguar cual es el valor de Z. Renombraremos las variables cada vez que usemos la regla para evitar confusiones. fact(3,Z) segn la regla se puede descomponer en tres subobjetivos =(3,X1+1), fact(X1,Y1),=(Z,Y1*3) Evidentemente X1 se unicar con 2 en la primera condicin quedndonos fact(2,Y1),=(Z,Y1*3) Volveremos a descomponer el problema segn la regla =(2,X1+1), fact(X1,Y1),=(Y1,Y1*2),=(Z,Y1*3) Ahora X1 se unicar con 1 fact(1,Y1),=(Y,Y1*2),=(Y,Y1*3) Sabemos por los hechos que fact(1,1) =(Y1,1*2),=(Z,Y1*3) Y1 se unicar con 2 =(Z,2*3) Z se unicar con 6 obteniendo la respuesta Z=6 Esto puede parecer la manera habitual con la que calculamos el factorial en un lenguaje imperativo, pero el paradigma declarativo tiene mayor versatilidad, porque sin cambiar el programa podramos preguntar por ejemplo cual es el nmero que tiene como factorial 6 (fact(X,6)) o incluso que nos calcule todos los factoriales que existen (fact(X,Y)). El mecanismo de deduccin nos hallar la respuesta a todas estas preguntas. En un lenguaje imperativo deberamos escribir un programa para responder a cada una de ellas. Utilizando un mecanismo de razonamiento hacia adelante tambin podramos obtener el mismo clculo, en este caso ni siquiera necesitamos de un objetivo, si ponemos en marcha el motor de inferencias obtendremos tantos factoriales como queramos:
9.6 Las reglas como parte de aplicaciones generales =(X,X1+1), fact(X1,Y1),=(Y,Y1*X) Instanciando X1 a 1 e Y1 a 1 con el hecho fact(1,1) obtendremos el nuevo hecho fact(2,2) =(X,X1+1), fact(X1,Y1),=(Y,Y1*X) Instanciando X1 a 2 e Y1 a 2 con el hecho fact(2,2) obtendremos el nuevo hecho fact(3,6) ...
85
El lenguaje de programacin lgica por excelencia es PROLOG. Es un lenguaje en el que el mecanismo de razonamiento que se sigue es hacia atrs. Esto hace que cuando se programa en este lenguaje se deba pensar que se ha de descomponer el problema mediante el formalismo de reglas en problemas mas simples que estarn declarados como hechos. Existen otros lenguajes de reglas que utilizan motores de inferencia hacia adelante como por ejemplo CLIPS. En este caso la losofa de programacin es diferente, ya que estamos explorando para encontrar la solucin. Las reglas se ven como elementos reactivos que se disparan en funcin del estado del problema y que van construyendo los pasos que llevan a la solucin. Esto obliga a que, si se quiere seguir un camino especco de resolucin, haya que forzarlo aadiendo hechos que lleven el control de la ejecucin.
9.6 Las reglas como parte de aplicaciones generales

Los sistemas de produccin y los motores de inferencia estn adquiriendo en la actualidad bastante relevancia como mtodo adicional para desarrollar aplicaciones fuera del mbito de la inteligencia articial. En muchas ocasiones las decisiones que se toman dentro de una aplicacin pueden variar con el tiempo (a veces bastante rpido) y no tiene mucho sentido programarlas dentro del cdigo del resto de la aplicacin, ya que eso implicara tener que cambiarlo cada vez que se cambia la forma de tomar esas decisines. En la terminologa de este tipo de aplicaciones, las reglas implementaran lo que se denominan las reglas de negocio, que no son mas que algoritmos de decisin invocados a partir de un conjunto de datos, algo que concuerda de manera natural con el funcionamiento de los sistemas de produccin. Las reglas son tiles en este tipo de escenarios, ya que pueden mantenerse aparte del resto de procedimientos de la aplicacin y ser ejecutadas mediante un motor de inferencia. El cambio de un mecanismo de decisin solo implicar cambiar las reglas adecuadamente, manteniendo intacta el resto de la aplicacin. Este tipo de soluciones estn tomando cada vez mas relevancia sobre todo con la tendencia a hacer aplicaciones distribuidas y basadas en componentes, como por ejemplo las que entran dentro del mbito de las arquitectura orientadas a servicio (Service Oriented Arquiectures). Estas ltimas estn bastante ligadas a las tecnologas basadas en agentes del mbito de la inteligencia articial. El uso de motores de inferencia en lenguajes de programacin imperativos como por ejemplo java est estandarizado (Java Rule Engine API,JSR 94). Ejemplos de sistemas que incluyen motores de inferencia como parte de sus herramientas de desarrollo son por ejemplo SAP NetWeaver, IBM WebSphere, Oracle Business Rules, JBoss Rules o Microsoft Business Rule Engine.
86
10. Representaciones estructuradas
10.1 Introduccin
El lenguaje de la lgica debera permitir representar cualquier conocimiento que quisiramos utilizar en un problema. No obstante su capacidad para expresar conocimiento se ve entorpecida por la dicultad que supone utilizar su lenguaje para formalizar conocimiento. Esta dicultad la podramos comparar con la diferencia que existe entre programar en lenguaje mquina o usar un lenguaje de programacin de alto nivel. El lenguaje de la lgica se encuentra a demasiado bajo nivel como para permitir representar de manera sencilla las grandes cantidades de conocimiento necesarias para una aplicacin prctica. Es por ello que se crearon las representaciones estructuradas como lenguajes que se acercan ms a como estamos nosotros acostumbrados a utilizar y describir el conocimiento. Estas representaciones solucionan muchos problemas de representacin y hacen mas fcil la adquisicin de conocimiento. No obstante son restricciones del lenguaje de la lgica de predicados, por lo que no pueden representar cualquier conocimiento.
10.2 Redes semnticas

Podemos denir de forma genrica a una red semntica como un formalismo de representacin del conocimiento donde ste es representado como un grafo donde los nodos corresponden a conceptos y los arcos a relaciones entre conceptos. En la gura 10.1 se puede ver un ejemplo. La justicacin del uso de este tipo de representacin para formalizar conocimiento viene desde la psicologa cognitiva, que es el rea donde se denieron por primera vez las redes semnticas. Segn esta, la representacin que utilizamos las personas para almacenar y recuperar nuestro conocimiento se basa en la asociacin entre conceptos mediante sus relaciones. Este formalismo ha ido evolucionando desde su denicin para permitir por un lado, una formalizacin de su semntica y sus capacidades (a partir de lgica de predicados), y por otro, la denicin de lenguajes y formalismos que permitan su uso computacional. A lo largo de su historia han aparecido muchos formalismos de redes semnticas, ampliando sus capacidades permitiendo formalizar diferentes aspectos del conocimiento o especializndolas para dominios concretos1 . De hecho, hay muchos lenguajes de representacin que se usan habitualmente, tanto dentro del mbito de la inteligencia articial, como en otros mbitos, que caen bajo la denicin de las redes semnticas. Por ejemplo, el UML o los diagramas de entidad relacin puede verse como una notacin de red semntica especializada que permiten describir entidades especializadas, ya sea qu elementos componen una aplicacin y como se relaciones entre ellos, o como se describe una base de datos. Sobre estas notaciones se dene de manera precisa el signicado de cada uno de los elementos para permitirnos hacer diferentes inferencias a partir del diagrama.
1 Un ejemplo de esta especializacin son los mltiples formalismos de redes semnticas aparecidos para el tratamiento del lenguaje natural.
87
88
Captulo 10. Representaciones estructuradas
posee
Perro
es_una
Persona
vive_en
Mascota
Casa
Figura 10.1: Ejemplo de red semntica
Sobre la representacin bsica (grafo de conceptos y relaciones) se pueden denir mecanismos de razonamiento que permiten responder a cierto tipo de preguntas, como por ejemplo: Cierta pareja de conceptos estn relacionados entre si? Qu relaciona dos conceptos? Cual es el concepto ms cercano que relaciona dos conceptos? La evolucin de las redes semnticas ha ido aadindoles nuevas caractersticas que permiten una mejor estructuracin del conocimiento, distinguiendo, por ejemplo, entre conceptos/instancias/valores o entre relaciones/propiedades. Tambin han enriquecido la semntica de las relaciones para poder hacer inferencias ms complejas, como, por ejemplo, creando relaciones que indiquen taxonoma (clase/subclase/instancia). Veremos todas estas caractersticas en la siguiente seccin.
10.3 Frames
Los frames evolucionaron a partir de las redes semnticas y se introdujeron a partir de 1970. Estructuran el formalismo de las redes semnticas y permiten una denicin detallada del comportamiento de los elementos que se denen. Por un lado un concepto (frame) es una coleccin de atributos (slots) que lo denen y estos tienen una serie de caractersticas y restricciones que establecen su semntica (facets). Una relacin conecta conceptos entre s y tambin tiene una serie de caractersticas que denen su comportamiento. De entre las relaciones que se pueden denir se establecen como especiales las relaciones de naturaleza taxonmica (clase/subclase, clase/instancia, parte/subparte, ...). Estas permiten establecer una estructura entre los conceptos (Clases/subclases/instancias) permitiendo utilizar relaciones de generalizacin/especializacin y herencia de atributos como sistema bsico de razonamiento2 . Estos elementos denen la parte declarativa de la representacin. A partir de ellos se puede razonar sobre lo representado y hacer preguntas sobre los conceptos. El mecanismo de razonamiento se basa en la denominada lgica de la descripcin (Description Logics). Esta lgica3 es una restriccin de la lgica de predicados que permite describir y trabajar con descripciones de conceptos. Su
2 El sistema de representacin es muy parecido al que se utiliza en orientacin a objetos, de hecho se crearon en la misma poca, aunque los elementos esenciales provienen de las redes semnticas, que son una dcada anteriores. 3 De hecho son mltiples lgicas que se diferencian por el nivel de expresividad que se permite.
10.3 Frames
Persona
Slots:
Nombre
Dominio: ... Rango: ...
89
Lugar Habitable es_un
Ser Vivo
es_un es_un
Mascota
es_un
F.Nacimiento:
Dominio: ... Rango: ...
Casa
instancia_de
Persona
instancia_de
Perro
instancia_de
Metodos:
funcion edad() retorna entero
vive_en
icasa33 ipersona18
posee
iperro14
Figura 10.2: Ejemplo de frame
Figura 10.3: Ejemplo de red de frames
principal inters es que dene algoritmos ecientes de razonamiento sobre deniciones y propiedades. Su principal hndicap es que esta eciencia se obtiene a costa de no permitir formalizar ciertos tipos de conceptos como por ejemplo negaciones o conceptos existenciales. Este hndicap hace que muchas implementaciones de este formalismo de representacin incluyan mecanismos procedimentales que permitan obtener de manera eciente deducciones que no se pueden obtener mediante razonamiento. Estos procedimientos permiten resolver problemas concretos en la representacin de manera ad-hoc. Bajo estos mecanismos procedimentales caen lo que se denominan mtodos que son procedimientos o funciones que pueden invocar los conceptos o las instancias (al estilo de la orientacin a objetos) y los demons que son procedimientos reactivos que se ejecutan cuando se dan ciertas circunstancias en la representacin. En la gura 10.2 se puede ver un ejemplo de frame. En la gura 10.3 se puede ver una red de frames representando conceptos, instancias y diferentes relaciones. La herencia es el principal mecanismo de razonamiento sobre valores y propiedades que se utiliza en los frames. La herencia es un mecanismo que puede resultar problemtico por la circunstancia de que un atributo o valor podra ser heredado por diferentes caminos si permitimos que un concepto pueda ser subclase de varias superclases. Esta herencia mltiple puede hacer que no sepamos que valor o denicin de una propiedad es la correcta4 . Este problema a veces se puede resolver razonado sobre la representacin e identicando qu deniciones de una propiedad ocultan a otras y cul es la ms cercana a donde queremos obtener el atributo o su valor. Para ello se dene el algoritmo de distancia inferencial que permite saber si existe o no una denicin que oculta a las dems. El algoritmo es el siguiente: 1. Buscar el conjunto de frames que permiten heredar el valor del slot Candidatos 2. Eliminar de Candidatos todo frame que sea padre de otro de la lista 3. Si el nmero de candidatos es: a) 0 No se puede heredar el slot b) 1 Ese es el valor que buscamos c) > 1 Problema de herencia mltiple si la cardinalidad del slot no es N En ocasiones un problema de herencia mltiple se puede resolver ad-hoc usando los mecanismos procedimentales de la representacin.
4
Estos problemas hacen que por ejemplo lenguajes como java no permitan la herencia mltiple.
90
Vuela=si Ave
esun esun
Vuela=no Gallina
Ave Domstica
instanciade
instanciade
Gertrudis
Figura 10.4: Ejemplo de frames Ejemplo 10.1 Podemos observar el problema de la herencia mltiple en la gura 10.4. La instancia podra tener simultneamente el valor si y no para el atributo vuela ya que puede encontrar un camino de herencia para cada uno de ellos. En este caso el algoritmo de distancia inferencial empezara con la lista que contendra {Gallina, Ave} como frames candidatos a dar el valor del slot. El frame Ave se eliminara al ser ascendiente de Gallina, lo cual nos dejara con el frame del que debemos heredar el slot. La mayora de los entorno para desarrollo de aplicaciones en inteligencia articial poseen como parte del lenguaje una parte que permite representar conocimiento utilizando un mecanismo similar a los frames, aunque muchas veces aparece directamente como un lenguaje orientado a objetos con caractersticas adicionales. Veremos uno de estos lenguajes dentro del entorno de CLIPS. Tambin hay lenguajes de frames que no tienen parte procedimental incorporada y por lo tanto son implementaciones del lenguaje de la lgica de descripcin. Un ejemplo de este tipo de lenguajes son los utilizados en la web semntica. Estos lenguajes se construyen sobre XML y denen los elementos bsicos para crear conceptos, caractersticas y relaciones, el lenguaje que actualmente se utiliza es OWL (Ontology Web Language)5 .
10.3.1 Una sintaxis

Frames Las sintaxis de los lenguajes de frames son muy variadas, en lugar de escoger una concreta, en esta seccin vamos a denir un lenguaje de frames genrico que utilizaremos en la asignatura para resolver problemas. Los conceptos se formarn a partir de propiedades y mtodos, y se denirn a partir de la construccin frame, que tendr la siguiente sintaxis: Frame <nombre> slot <nombre-slot> slot <nombre-slot> ... slot <nombre-slot>
5 Los lenguajes para la web semntica han tenido una larga evolucin, el primero fue RDF, que an se sigue usando mpliamente a pesar de sus limitaciones. Proyectos Europeos y Norteamericanos denieron sobre este lenguajes mas potentes (OIL,DAML) que acabaron fusionndose hasta llegar a OWL que es un estndar del W3C.
10.3 Frames mtodos accin <nombre-mtodo> (parmetros) [H/noH] ... funcin <nombre-mtodo> (parmetros) devuelve <tipo> [H/noH]
91
Slots Un slot es un atributo que describe un concepto. Cada slot puede ir acompaado de modicadores (facets) que denirn las caractersticas del slot. Un slot puede ser redenido en un subconcepto, por lo que puede volver a aparecer con caractersticas distintas que ocultan la denicin anterior. Estos modicadores permiten denir la semntica y el comportamiento del atributo e incluyen: Dominio: Conceptos que pueden poseer este slot Rango: Valores que puede tener el slot Cardinalidad: si se admite un nico valor o mltiples valores Valor por omisin: Valor que tiene el slot si no se le ha asignado ninguno Uso de demons: Procedimientos que se ejecutarn si sucede un evento en el slot, estos procedimiento no tiene parmetros ya que no se pueden llamar explcitamente. Deniremos cuatro tipos de eventos que pueden suceder: If-needed (al consultar el slot) if-added (al asignar valor al slot), if-removed (al borrar el valor) if-modified (al modicar el valor) Comportamiento en la herencia: Si el slot se puede heredar a travs de las relaciones. La sintaxis que utilizaremos para denir un slot ser la siguiente: Slot <nombre> ++ dominio (lista de frames) ++ rango <tipo-simple> ++ cardinalidad (1 o N) valor (valor o lista de valores) demons <tipo-demon> accion <nombre-accion> / funcin<nombre-funcion> devuelve <tipo>* herencia (por rels. taxonmicas: SI/NO; por rels. usuario: SI/NO) Los facets (propiedades) marcados con ++ son obligatorios en toda descripcin de slot. Las acciones/funciones asociadas a los demons de los slots no tienen parmetros. Usan la variable F como referencia implcita al frame al cual pertenece el slot que activa el demon. Los demons de tipo if-needed solo pueden estar asociados a funciones. Para la herencia, distinguiremos dos tipos de relaciones, las taxonmicas, que son las que denen la estructura entre los conceptos y estarn predenidas y las relaciones de usuario que son las que podremos denir nosotros. La herencia a travs de cada tipo se comporta de manera diferente. La herencia a travs de las relaciones taxonmicas es de denicin, de manera que si un concepto hereda un slot ste se encontrar fsicamente en las instancias que creemos. La herencia a travs de las relaciones de usuario es de valor, de manera que si un concepto hereda un slot solo podremos obtener
92
su valor en una instancia del concepto, si existe una relacin con una instancia que posea ese slot y la relacin nos permite heredarlo. Consideraremos que por omisin tendremos herencia a travs de la relaciones taxonmicas y no la tendremos a travs de las de usuario. Mtodos Los mtodos sern procedimientos o funciones que permitirn realizar un clculo concreto a partir de una clase o una instancia. Estos mtodos de clase podrn hacer clculos a partir de todas las instancias a las que tenga acceso a travs de sus relaciones. Pueden ser heredables o no, ya que algunos casos podra tener sentido la herencia del mtodo en sus subclases o instancias como una especializacin de este. Los mtodos se invocan de manera explcita, por lo que podrn tener parmetros. Las acciones/funciones que describen los mtodos usarn la variable F como referencia implcita al frame en el que se activa el mtodo, y por ello no se ha de pasar como parmetro6 . Relaciones Las relaciones permiten conectar conceptos entre si, deniremos su comportamiento a partir de un conjunto de propiedades: Dominio: Conceptos que pueden ser origen de la relacin. Rango: Conceptos que pueden ser destino de la relacin. Cardinalidad: Nmero de instancias del rango con las que podemos relacionar una instancia del dominio. Inversa: Nombre de la relacin inversa y su cardinalidad. Transitividad: Si es transitiva entre instancias. Composicin: Como se puede obtener con la composicin de otras relaciones. Uso de demons: Procedimientos que se ejecutarn si sucede un evento en la relacin, estos procedimiento no tiene parmetros ya que no se pueden llamar explcitamente. Deniremos dos tipos de eventos que pueden suceder: If-added: Si establecemos la relacin entre instancias If-removed: Si eliminamos la relacin entre instancias Slots heredables: Slots que se pueden heredar a travs de esta relacin (solo el valor). Dado que las relaciones se denen bidireccionales, asumiremos que los slots se heredan en el sentido que corresponda, o sea, del frame en el que esta denido el slot al que lo debe heredar. La sintaxis para denir relaciones es la siguiente: Relacin <nombre> ++ dominio (lista de frames) ++ rango (lista de frames) ++ cardinalidad (1 o N) ++ inversa <nombre> (cardinalidad: 1 o N)
6
Es equivalente por ejemplo a la variable de autoreferencia this de java o C++.
10.3 Frames Cosas
93
Animal
Vegetal
Mineral
Figura 10.5: Subclasicacin completa de un concepto transitiva SI/NO [por defecto es NO] compuesta NO/<descripcin de la composicin> [por defecto es NO] demons (<tipo-demon> accin <nombre-accin> herencia (lista de slots) [por defecto es lista vaca]
Los descriptores marcados con ++ son obligatorios en toda descripcin de relacin. Las acciones asociadas a los demons de las relaciones no tienen parmetros. stos usan las variables D y R como referencia implcita al frame origen y destino de la conexin que se est intentando aadir o eliminar entre los dos frames. Respecto a la transitividad, para que podamos tener una relacin transitiva su dominio y rango han de poder ser transportables entre instancias. Esto quiere decir que o el dominio y el rango de la relacin estn denidos sobre instancias de un mismo frame, o que en el rango y el dominio de la relacin aparecen frames comunes. Por supuesto esto no es suciente para que una relacin sea transitiva, es necesario que la semntica de la relacin lo permita. Respecto a la composicin, para que una relacin sea compuesta la semntica de la relacin ha de corresponder al resultado de la aplicacin de dos o mas relaciones. Esto quiere decir que no es suciente con que encontremos una cadena de relaciones entre una pareja de frames, esta cadena ha de signicar lo mismo que la relacin que estamos deniendo. Como se ha comentado en el apartado sobre los slots, se distinguen dos tipos de relaciones. Por un lado estn las taxonmicas, que estn predenidas y se limitan a es-un e instancia-de. La primera de ellas es una relacin entre clases y la segunda entre instancias y clases. Por otro lado estn las relaciones de usuario, que solo podrn ser entre instancias. Sintaxis y elementos predenidos La expresin <nombre-frame>.<nombre-relacin> nos dar el frame (si la cardinalidad es 1) o la lista de frames (si la cardinalidad es N) con los cuales esta conectado a travs de la relacin <nombre-relacin>. Para consultar la cardinalidad se puede usar una funcion predenida card(<nombre-frame>.<nombre-relacin>). Tendremos predenidas las siguientes relaciones taxonmicas: Relacin es-un (inversa: tiene-por-subclase) transitiva SI Relacin instancia-de (inversa: tiene-por-instancia) composicin: instancia-de es-un Usaremos un arco para unir todas las relaciones es-un de un conjunto de subclases (ver gura 10.5) para indicar que las subclases son una particin completa del dominio, es decir, que no existen otras subclases que las denidas y que toda instancia debe pertenecer a una de esas subclases. Tambin supondremos que disponemos de las siguientes funciones booleanas predenidas: <slot>?(<frame>) Nos dice si <frame> posee este slot o no (activando la herencia si hace falta)
94 <relacin>?(<frame>)
Nos dice si <frame> esta conectado con algn otro frame a travs de la relacin indicada por la funcin <relacin>?(<frame-o>,<frame-d>) Nos dice si existe una conexin entre <frame-o> y <frame-d> etiquetada con la relacin indicada por la funcin
11. Ontologas
11.1 Introduccin
El estudio de la representacin del conocimiento no es exclusivo de la inteligencia articial, sino que es un tema que se origina desde el primer momento en el que el hombre se plante el entender y describir el mundo en el que se encuentra. A este rea estudio se la encuadra dentro de la losofa y fue Aristteles quien acu el trmino Categora como la palabra para describir las diferentes clases en las que se dividan las cosas del mundo. A este rea de la losofa se la conoce actualmente como ontologa, trmino relativamente moderno (s. XIX) que proviene del griego Ontos (Ser) y Logos (Palabra), literalmente las palabras para hablar de las cosas. Este trmino se empez a utilizar para distinguir el estudio de la categorizacin del ser de la categorizacin que se hacia por ejemplo en biologa. De hecho el trabajo de categorizacin surge en muchas reas de la ciencia (losofa, biologa, medicina, lingstica, ...). La inteligencia articial es una ms de las reas interesadas en este tema. El objeto de estudio de la ontologa son las entidades que existen en general o en un dominio y como se pueden agrupar de manera jerrquica en una categoras segn sus diferencias y similaridades. El resultado de este estudio es lo que denominamos una ontologa. Una ontologa se puede denir formalmente como: Una ontologa es un catlogo de los tipos de cosas que asumimos que existen en un dominio D desde la perspectiva de alguien que usa un lenguaje L con el propsito de hablar de D. Los elementos de una ontologa representan predicados, constantes, conceptos y relaciones pertenecientes a un lenguaje L cuando se usa para comunicar informacin sobre D. (Sowa, 1999) Otras deniciones menos formales podran ser: Una ontologa es la denicin de los trminos bsicos y relaciones que comprenden el vocabulario de un dominio y las reglas para poder combinarlos y denir extensiones a ese vocabulario. (Neches, 1991) Una ontologa es una especicacin formal de una conceptualizacin compartida. (Borst, 1997) Una ontologa es pues un vocabulario, un conjunto de trminos y expresiones que escogemos para representar una realidad, a travs del cual comunicarnos con otras entidades que la compartan. 95
96
Captulo 11. Ontologas
Un ejemplo evidente de ontologa es el diccionario de una lengua. Un diccionario es la recopilacin de todas las palabras que usan los hablantes de un idioma para comunicarse. El diccionario es el conjunto de los trminos que comparten los hablantes al referirse a la realidad. Cada palabra en el diccionario tiene descritas sus diferentes caractersticas de manera que los hablantes sepan como deben utilizarse y su signicado. De hecho los diccionarios como descripcin del conocimiento del dominio lingstico son un elemento clave en la construccin de sistemas de tratamiento de lenguaje natural y habitualmente tienen una organizacin ms estructurada de la que estamos acostumbrados a ver. Lo que queda denido en una ontologa se puede ver como una representacin declarativa de un dominio. El uso, las maneras de combinar estos elementos y la obtencin de informacin a partir de las expresiones formadas con los elementos de las ontologas pasa a travs de la lgica. La lgica se puede ver como un mecanismo de manipulacin/ejecucin que por s misma no habla explcitamente sobre un dominio especco. Podemos ver que sus expresiones son neutras respecto al signicado de sus tomos y predicados, es su combinacin con una ontologa lo que le da a un formalismo lgico la capacidad de expresar signicados, por ejemplo: P Q P Q Este razonamiento no habla sobre nada en concreto salvo que asignemos signicados a los tomos (P = llueve, Q = me mojo). A partir del momento en el que ligamos los tomos con los conceptos de la ontologa estamos diciendo cosas y razonando sobre el dominio de esa ontologa. El mismo razonamiento hablara de algo distinto si cambiramos la ontologa que dene el signicado de los tomos.
11.2 Necesidad de las ontologas

Existen varios motivos por los que las ontologas son de utilidad en el mbito de la inteligencia articial: 1. Permiten compartir la interpretacin de la estructura de la informacin entre personas/agentes Una ontologa ja un conjunto de trminos que denotan elementos de la realidad, el establecer una ontologa sobre un dominio especco permite que dos agentes puedan entenderse sin ambigedad y sepan a que se reeren. Eliminamos de esta manera la ambigedad en la comunicacin (al menos en lo que se reere a los trminos que se utilizan y su signicado). Por ejemplo, un idioma es una ontologa que comparten todos sus hablantes. El signicado de cada trmino est recogido en un diccionario y cuando dos hablantes se comunican entre si, saben que tienen ese conjunto de trminos y signicados en comn y asumen que cada uno entiende lo que el otro dice. 2. Permiten reusar el conocimiento Hacer una descripcin de un dominio permite que esta pueda ser usada por otras aplicaciones que necesiten tratar con ese conocimiento. La descripcin del conocimiento se puede hacer independiente de su uso y una ontologa sucientemente rica puede ser utilizada en mltiples aplicaciones.
11.3 Desarrollo de una ontologa 3. Hacen que nuestras suposiciones sobre el dominio se hagan explcitas
97
Escribir una ontologa exige la formalizacin al mximo detalle de todos los elementos del dominio y su signicado y hacer explcitas todas las suposiciones que se van a utilizar. Esto facilita reexionar sobre l y poder analizar las suposiciones realizadas para poder cambiarlas y actualizarlas de manera ms sencilla. Tambin ayuda a que otros puedan analizar y entender su descripcin. 4. Separan el conocimiento del dominio del conocimiento operacional Permite hacer independientes las tcnicas y algoritmos para solucionar un problema del conocimiento concreto del problema. De hecho una ontologa es una descripcin declarativa del dominio, de manera que no asume una metodologa especca de utilizacin del conocimiento. 5. Permiten analizar el conocimiento del dominio Una vez tenemos una especicacin del conocimiento podemos analizarlo utilizando mtodos formales (para comprobar si es correcto, completo, consistente, ...)
11.3 Desarrollo de una ontologa

En Inteligencia Articial una ontologa ser una descripcin formal explcita de los conceptos de un dominio (Clases). Estas clases se describirn a partir de propiedades que representarn las caractersticas, atributos y relaciones de las clases. Adicionalmente estas caractersticas tendrn restricciones (tipo, cardinalidad, ...). Finalmente tendremos instancias (elementos identicables) que constituirn los individuos concretos que representa la ontologa. Eso quiere decir que el desarrollo de una ontologa requerir denir las clases que forman el dominio, organizar las clases en una jerarqua taxonmica segn sus anidades, denir las propiedades de cada clase e indicar las restricciones de sus valores y asignar valores a las propiedades para crear instancias. El cmo se realiza esto se puede encontrar en las diferentes metodologas de desarrollo de ontologas que hay descritas en la literatura de representacin del conocimiento. Estas metodologas son bastante complejas, dado que en s el desarrollo de una ontologa para un dominio real es una labor compleja. Para poder desarrollar ontologas pequeas describiremos una metodologa informal que permitir analizar los elementos de un dominio y obtener un resultado que se puede utilizar en aplicaciones de complejidad media1 . Antes de empezar con la metodologa es necesario tener presente que: 1. No existe un modo correcto de modelar un dominio. La mejor solucin depender de la aplicacin/problema concreto. 2. El desarrollo de una ontologa es un proceso iterativo. 3. Los objetos de la ontologa deberan ser cercanos a los objetos y relaciones que se usan para describir el dominio (generalmente se corresponden a nombres y verbos que aparecen en frases que describen el dominio).
1 Una descripcin algo mas detallada de esta metodologa y un ejemplo sencillo lo podis encontrar en el artculo Ontology Development 101: A Guide to Creating Your First Ontology, Noy & McGuinness, (2000) que encontrareis en la web de la asignatura.
98 Fases de desarrollo 1. Determinar el dominio y la cobertura de la ontologa
Deberemos saber qu elementos queremos que aparezcan en la ontologa que vamos a desarrollar, por lo que debemos identicar qu parte del dominio nos interesa describir. Dependiendo del objetivo de uso de la ontologa los trminos que debern aparecer pueden ser muy diferentes, por lo que es importante tenerlo claro. Una forma adecuada de saber qu elementos debemos representar es plantearnos que tipo de preguntas y respuestas deseamos de la ontologa. Es lo que se denomina preguntas de competencia. Tambin es interesante plantearse quin va a usar y mantener la ontologa. No ser lo mimo desarrollar una ontologa restringida que vamos a utilizar en nuestra aplicacin, que desarrollar una ontologa de un dominio amplio que pretendemos reusar o que reusen otros. Ejemplo 11.1 Supongamos que necesitamos una ontologa para representar el funcionamiento de una facultad y todos los elementos que estn relacionados con ella. Dependiendo del uso que vayamos a darle a la ontologa necesitaremos unos conceptos u otros. Si queremos utilizar la ontologa para recomendar a un alumno de qu nuevas asignaturas se puede matricular el prximo cuatrimestre, seguramente necesitaremos describir que es una asignatura, como se organizan el plan de estudios y en los ciclos del plan de estudio, que temas tratan, cual es su carga de trabajo, posiblemente tambin nos interese guardar informacin histrica sobre ella. Adems necesitaremos representar que es un expediente, que es una convocatoria, que es un horario, ... Si en cambio nos interesa hacer un programa que permita dialogar con un estudiante de bachillerato para responder sus dudas sobre como funciona la facultad tendremos que poner nfasis en otras caractersticas, como cual es la organizacin del plan de estudios, que rganos componen la facultad, que normativas se aplican, que temas se tratan en la carrera, que departamentos hay y cual es su funcin, que trmites tiene que realizar para matricularse, cual es el proceso de ese trmite, de que equipamientos dispone la facultad, ... Podemos formular un conjunto de cuestiones de competencia que queremos que nuestra ontologa sea capaz de responder, para el primer dominio de aplicacin, por ejemplo: Qu asignaturas son prerrequisito de otra? Cul es la carga de laboratorio de la asignatura Criptografa? De qu asignaturas optativas me puedo matricular despus de hacer Inteligencia Articial? Que horarios de maana tiene la asignatura Compiladores? De qu asignaturas de libre eleccin se puede matricular un alumno de fase de seleccin? Cuantas asignaturas del perl Tcniques avanades de programaci me quedan por hacer? A partir de estas preguntas podemos, por ejemplo, ver qu necesitamos denir el concepto asignatura, que tendr diferentes especializaciones por varios criterios, estas tendrn relaciones de precedencia, estarn asociadas a perles, una asignatura tendr diferentes tipos de carga de trabajo que se medir en crditos, ...
11.3 Desarrollo de una ontologa 2. Considerar la reutilizacin de ontologas existentes
99
Las ontologas se construyen para comunicar conocimiento en dominios, por lo que se construyen con la idea de comparticin y reutilizacin. Se supone que una ontologa establece un vocabulario comn, por lo que no es nada extrao que ya alguien haya estudiado el dominio y creado ese vocabulario. Por lo tanto, no es necesario rehacer un trabajo que ya esta hecho, si existe una ontologa sobre el dominio en el que trabajamos, podemos incorporarla. En la ltima seccin de este captulo enumeraremos proyectos de ontologas que pueden ser el punto de partida desde el que podemos desarrollar una ontologa para nuestro dominio en particular. 3. Enumerar los trminos importantes en la ontologa Escribir una lista de trminos que podemos usar para referirnos a nuestro dominio, elaborando frases que podramos utilizar para preguntarnos cosas sobre l o para explicar a alguien informacin sobre l. Deberemos pensar en: Qu propiedades tiene esos trminos? Qu nos gustara decir sobre ellos? El objetivo de esta fase es tener una visin informal de los conceptos y elementos que necesitaremos tener en cuenta para formalizar el dominio. Ejemplo 11.2 Siguiendo con el ejemplo de la ontologa de la facultad, tendramos que recolectar todos los trminos que vamos a usar en la ontologa: asignatura, horario, aula, prerrequisito, perl, crdito, tema, departamento, convocatoria, ... 4. Denir las clases y su jerarqua Los conceptos no aparecen desvinculados entre s y de hecho un conjunto desorganizado de conceptos no es til, por lo que deberemos descubrir su estructura y sus relaciones de generalizacin y especializacin. Podemos tomar diferentes aproximaciones De arriba a abajo: Denimos los conceptos mas generales y vamos especializndolos De abajo a arriba: Denimos las clases ms especcas y vamos agrupndolas segn propiedades comunes, generalizando Combinacin de ambas: Denimos los conceptos mas importantes y especializamos y generalizamos para completar la ontologa Ninguno de estos mtodos es esencialmente mejor y depende en gran medida del dominio. Existen dominios en los que es fcil descubrir los conceptos generales y se ha de trabajar para obtener las especializaciones ms tiles o adecuadas. Hay dominios en los que es ms fcil razonar a partir de conceptos especcos y hay que buscar una manera coherente y til de organizarlos. Muchas veces es la experiencia en la construccin de ontologas la que nos hace decidirnos por una metodologa u otra. Este paso y el siguiente estn estrechamente relacionados y es muy difcil hacer primero uno y luego el otro. Por lo general se realizan iterativamente en varios ciclos. Ejemplo 11.3 Por ejemplo podemos denir una clasicacin para el concepto asignatura como el que aparece en la gura 11.1
100
Captulo 11. Ontologas As. Obligatoria 1er ciclo As. Obligatoria As. Obligatoria 2o ciclo Asignatura As. Optativa
As. Libre Eleccin Figura 11.1: Jerarqua del concepto asignatura 5. Denir las propiedades de las clases Debemos describir la estructura interna de las clases, esta depender de la semntica que queremos que tenga. Deberemos determinar una lista de caractersticas que describen esa semntica y en que clases concretas debemos poner esas caractersticas. La eleccin de estas propiedades puede depender del dominio de aplicacin, restringindolas a solo las necesarias o podemos desarrollar la ontologa con una visin ms amplia para que esta pueda ser utilizada en otros dominios de aplicacin. En la descripcin de los conceptos nos podemos encontrar muchos tipos de propiedades Propiedades descriptivas, cualidades Propiedades identicadoras, nombres Partes u otras relaciones taxonmicas Relaciones con instancias de otras clases Desde un punto de vista de la descripcin de clases, las relaciones se pueden ver al mismo nivel que las propiedades y de hecho muchos lenguajes de descripcin de ontologas no hacen la distincin. Bsicamente, podramos considerar una propiedad a aquel atributo cuyo valor es un tipo predenido (booleano, numrico, carcter, ...) y una relacin sera una propiedad en la que los elementos son de la ontologa. Junto con la determinacin de cuales son las propiedades necesarias, estas deberan asignarse a clases de la jerarqua de conceptos. Lo normal es asignar las propiedades a la clase mas general, dejando que el resto las obtengan va herencia. Ejemplo 11.4 Siguiendo con el ejemplo, podramos denir las caractersticas y relaciones que representan una asignatura incluyendo: Nombre, Crditos_Totales, Crditos_de_Teora, ..., con_tema, impartida_por_departamento, perteneciente_al_perl, ... 6. Denir las caractersticas de las propiedades Para describir las propiedades deberemos identicar tambin sus caractersticas y restricciones, entre estas podemos tener: Cardinalidad (nmero de valores permitidos) Tipo, valores
11.3 Desarrollo de una ontologa Valores por defecto Obligatoriedad Si es una relacin hay que denir su cardinalidad y su rango y si tiene inversa.
101
Ejemplo 11.5 Podemos denir las caractersticas de las propiedades de asignatura, por ejemplo el Nombre es una cadena de caracteres y es un atributo obligatorio, los Crditos_Totales es un nmero real, impartida_por_departamento sera una relacin entre asignatura y el departamento que la imparte con cardinalidad 1 y con una relacin inversa con cardinalidad N, ... 7. Crear instancias La ontologa supone un lenguaje de denicin que utilizaremos para hablar de elementos concretos. En este caso los elementos concretos son las instancias. Es posible que una ontologa tenga como parte de su denicin un conjunto de instancias que aparecen en cualquier uso que podamos hacer de ella. En este caso este sera el momento de decidir cules son esos individuos y crearlos a partir de las deniciones que hemos determinado. En el momento de usar la ontologa tendremos que crear otras instancias especcas para el problema que vayamos a resolver. Para ello utilizaremos los trminos de la ontologa que hemos desarrollado para crear una representacin del problema. Obviamente, la ontologa nos impone los lmites de lo que podremos representar, pero si hemos desarrollado correctamente la ontologa tendremos el vocabulario necesario. Consejos prcticos Estos son unos consejos prcticos a tener en cuenta a la hora de desarrollar una ontologa: No incluir versiones singulares y plurales de un trmino (la mejor poltica es usar solamente nombres en singular o plural). Estamos creando una terminologa, por lo que es de sentido comn usar un criterio uniforme a la hora de dar nombres a los conceptos que utilizaremos. Es posible que queramos representar individuos y agrupaciones de individuos en nuestro problema, tenemos que tener en cuenta que semnticamente son cosas diferentes y no deberamos usar las mismas palabras. Los nombres no son las clases, debemos distinguir la clase del nombre que le damos. Podemos tener sinnimos, pero todos representan a la misma clase. Es a veces sencillo confundir el nombre de una cosa con la cosa en s. Estamos estableciendo los conceptos que existen en nuestro dominio, los nombres no son entidades independientes. Asegurarnos de que la jerarqua est correctamente construida. Una jerarqua incorrecta afecta a nuestra capacidad para deducir a partir de la ontologa y obtener respuestas correctas a nuestras preguntas. Hemos de pensar que la forma principal de razonamiento en esta representacin es la herencia. Observar las relaciones de transitividad y comprobar si son correctas. La transitividad es un mecanismo importante de deduccin y adems ahorra explicitar en la ontologa muchas relaciones que se pueden deducir va este mecanismo, establecer relaciones transitivas que no lo son solo puede dar problemas. Tambin es una relacin que puede hacer muy ineciente el razonamiento y puede dar lugar fcilmente a una explosin combinatoria, no conviene utilizarla ms de lo necesario.
102
Captulo 11. Ontologas Evitar ciclos en la jerarqua. Obviamente es algo difcil de hacer en una ontologa sencilla, pero si el nmero de clases es grande y permitimos herencia mltiple es algo que hay que vigilar. Todas las subclases de una clase deben estar al mismo nivel de generalidad. Cada especializacin debe llevar a conceptos que tengan el mismo nivel de descripcin. Mezclar conceptos generales y especcos en un mismo nivel hace la ontologa confusa y difcil de interpretar. Tambin puede llevar a deducciones incoherentes. No hay un criterio respecto al nmero de clases que debe tener un nivel de la jerarqua, la experiencia dice que un nmero entre dos y doce es habitual, ms clases indicara que tenemos que estructurarlas aadiendo ms niveles Cuando introducir nuevas clases? Suele ser incmodo navegar por jerarquas o muy planas o muy profundas, se debera elegir un punto intermedio, unas indicaciones seran: Las nuevas clases tienen propiedades adicionales que no tiene la superclase Tienen restricciones diferentes Participan en relaciones diferentes No obstante nos puede interesar crear clases porque existen en el dominio aunque no tengan atributos o relaciones distintas, o porque hacen ms clara la comprensin de la ontologa. Decidir si hemos de usar una propiedad o crear una clase. A veces un atributo es sucientemente importante como para considerar que sus valores diferentes corresponden a objetos diferentes. Decidir donde est el nivel de las instancias. Pensar cual es nivel mnimo de granularidad que necesitamos. Limitar el mbito de la ontologa a las necesidades de representacin. La ontologa no necesita incluir todas las clases posibles del dominio, solo las necesarias para la aplicacin que se va a desarrollar. Tampoco necesitamos incluir todos los atributos/restricciones/relaciones posibles.
11.4 Proyectos de ontologas

Como se coment al principio del captulo, una ontologa se crea con el propsito de que sea compartida y sirva como un lenguaje comn para que diferentes agentes puedan intercambiar conocimiento. Esto ha hecho que se hayan desarrollado mltiples proyectos de investigacin encaminados a escribir ontologas tanto en dominios especcos como generales. Uno de los proyectos de ontologas mas ambiciosos es CYC. Este proyecto comenz en los aos 1980 y su pretensin es crear una base de conocimiento que describa todo el conocimiento de sentido comn que puede ser necesario para escribir una aplicacin de inteligencia articial. Este proyecto ha dado lugar a una ontologa de dominio pblico OpenCYC que contiene aproximadamente cientos de miles de conceptos y millones de aserciones sobre ellos. El lenguaje en el que esta escrita esta ontologa es CYCL que esta basado en la lgica de predicados. Esta ontologa se puede utilizar tal cual para escribir aplicaciones o se pueden coger subconjuntos con conceptos para dominios especcos (microteoras). Se puede ver la estructura de conceptos ms generales en la gura 11.2. Como comentamos al principio de esta captulo, el diccionario de un idioma puede verse como una ontologa. Esto ha llevado al desarrollo de mltiples ontologa especializadas en el dominio del
11.4 Proyectos de ontologas
103
tratamiento del lenguaje natural. Un ejemplo de este tipo de ontologas es Wordnet que es una ontologa lxica para el idioma ingls. Esta ontologa est organizada segn categoras semnticas y etiquetado con las categoras sintcticas correspondientes a cada palabra. En la actualidad contiene 150.000 palabras inglesas organizadas en 115.000 sentidos. La ontologa est estructurada jerrquicamente mediante la relacin de hiperonimia/hiponimia. esta ontologa esta pensada para aplicaciones de lenguaje natural, pero tambin se pueden utilizar los conceptos y la estructuracin para otras aplicaciones. Se puede ver la estructura de conceptos ms generales en la gura 11.3. En la actualidad existen versiones de esta ontologa para muchos idiomas y se utiliza ampliamente en muchas aplicaciones que involucran la comprensin del lenguaje natural. Dentro de los proyectos de ontologas existen algunos que intentan crear una ontologa de los conceptos mas generales que se deberan utilizar en la construccin de ontologas. El objetivo de estas ontologas no es pues recolectar todos los conceptos de un dominio, sino dar los conceptos bajo los cuales estos deberan estar organizados. Este tipo de ontologas se denominan Upper Model y no existe de momento ninguna ontologa de este tipo que sea ampliamente aceptada. De hecho desde el punto de vista terico hay argumentos a favor y en contra de que exista o se pueda construir una ontologa de este tipo. Dentro de este tipo de proyectos cae Generalized Upper Model. Es una ontologa lxica pensada para tratamiento del lenguaje natural que posee alrededor de 250 conceptos. Se puede ver la estructura de conceptos en la gura 11.4. Tambin existen multitud de ontologas para dominios especcos. Por ejemplo, en comercio electrnico existen ontologas estndar denidas por organismos internacionales para la clasicacin y nomenclatura de productos y servicios que se utilizan para el intercambio de informacin. Otro dominio con mltiples ontologas es la medicina, rea que destaca por aplicaciones donde hay grandes necesidades de almacenamiento e intercambio de informacin, y que necesita nomenclaturas muy especcas. Otras reas con ontologas muy utilizadas incluyen la ingeniera, el mundo empresarial o la qumica. El inters por construir ontologas se ha visto impulsado en la actualidad por el proyecto Semantic Web. La ambicin de este proyecto es el desarrollo de un lenguaje de ontologas que permita describir el contenido de las pginas de web para que puedan ser procesadas de manera automtica. Actualmente el contenido de la web est pensado para ser accedido por personas, el contenido est poco estructurado, est en lenguaje natural y el lenguaje de representacin est mas pensado para el formato del contenido que para su descripcin. Los lenguajes de descripcin de contenido para la web se construyen a partir del lenguaje XML. El primero de ellos fue RDF/RDFS (Resource Description Format/Resource Description Format Schema) que permite denir categoras y relaciones aunque est bastante limitado como lenguaje de representacin. Sobre este lenguaje se construyeron DAML (Darpa Agent Markup Language) y OIL (Ontology Inference Layer), resultado de proyectos sobre web semntica en Estados Unidos y Europa respectivamente. Estos lenguajes denen las caractersticas necesarias para tener un lenguaje de descripcin de ontologas y, de hecho, se pueden ver como ontologas de dominio que denen el vocabulario necesario para representar conocimiento. Estos dos lenguajes se fusionaron y el lenguaje resultante se llama OWL (Ontology Web Language) que es un estndar del W3C. Este lenguaje se basa en lgica de descripcin y tiene diferentes versiones: OWL lite, OWL DL y OWL full. La primera es la menos expresiva, pero garantiza que se puede razonar sobre el en tiempo nito. La segunda se permite representar expresiones en lgica de descripcin sin limitaciones, pero no asegura poder resolver cualquier expresin en tiempo nito. Para la ltima versin no hay implementaciones de razonadores que puedan tratarla.
104
Figura 11.2: Ontologa de CYC
Figura 11.3: Ontologa de Wordnet
Figura 11.4: Ontologa de Generalized Upper Model
Parte III Sistemas basados en el conocimiento
105
12. Introduccin a los SBC
12.1 Introduccin
Un tema esencial en el rea de Inteligencia Articial es la resolucin de problemas. Ya hemos visto en temas anteriores de la asignatura mtodos generales que a partir de una representacin del problema basada por ejemplo en el espacio de estados o en el de soluciones y un conjunto de operadores especcos, se exploraba este espacio en busca de una solucin al problema. Este tipo de mtodos no utilizaban apenas conocimiento del dominio del problema que intentaban solucionar y se guiaban por funciones heursticas generales que se basaban en unas pocas caractersticas del problema. Estas funciones heursticas intentaban guiar la eleccin del camino solucin ordenando los pasos accesibles durante la exploracin. La capacidad para generar el orden adecuado en la exploracin es lo que permita reducir en la prctica su coste computacional. Evidentemente, las decisiones que se pueden tomar a partir de los valores de una funcin heurstica a veces no son sucientemente buenas para reducir sensiblemente el espacio de bsqueda o, simplemente, es imposible encontrar una funcin heurstica adecuada. Este tipo de mtodos generales se utilizaron como mtodos bsicos de resolucin de problemas en los primeros aos de la Inteligencia Articial ya que permitan su aplicacin de forma relativamente sencilla a cualquier dominio. Se pudo comprobar que el coste computacional de este tipo de mtodos era prohibitivo en muchos problemas reales y que hacan falta otras metodologas que mejoraran su eciencia. El elemento a introducir para conseguir esta eciencia es el conocimiento especco del dominio del problema a resolver. Este conocimiento puede acelerar el proceso de resolucin al mejorar las decisiones que se toman. Los mtodos generales son denominados mtodos dbiles frente a los que denominaremos mtodos fuertes, que explotarn el conocimiento del dominio. El uso de conocimiento particular har que estos mtodos necesiten ms trabajo de desarrollo a la hora de aplicarlos y que la experiencia de usarlos en un problema no sea exportable directamente a otros problemas, ya que estar orientada al problema concreto que se resuelve. El principal exponente de estos mtodos que se basan en conocimiento especco del dominio son los que se denominaron en su origen sistemas expertos (expert systems) y que actualmente son conocidos tambin como sistemas basados en el conocimiento (knowledge based systems). Originalmente, el trmino sistema experto intentaba reejar que el objetivo que se tena al construir este tipo de sistemas era emular la forma de resolver problemas de un experto humano en un rea especca de conocimiento. Todava se siguen utilizando de manera indistinta las dos denominaciones, pero el trmino sistemas expertos se suele asociar ms a sistemas construidos a partir de conocimiento de expertos humanos, basados fundamentalmente en sistemas de reglas de produccin y suelen ser sistemas cerrados donde, en el dominio del problema, el aprendizaje y la adaptacin no son prioritarios. El trmino sistemas basados en el conocimiento pretende ser mas general, incluyendo cualquier sistema en el que se utilice conocimiento independientemente de su procedencia (procesos de ingeniera del conocimiento, aprendizaje automtico) y la metodologa o arquitectura de diseo que se utilice (razonamiento basado en reglas, razonamiento basado en casos, modelos cualitativos, agentes inteligentes, redes neuronales, ...), las aplicaciones pueden incluir la necesidad de adaptacin y aprendizaje. 107
108
Captulo 12. Introduccin a los SBC
12.2 Caractersticas de los SBC

Los sistemas basados en el conocimiento estn pensados para la resolucin de problemas complejos en los que las tcnicas de software convencionales no son aplicables. Dado el tipo de problemas con los que se tendrn que enfrentar, hay un conjunto caractersticas que se considera que un sistema de este tipo debera tener y que le diferencian de los sistemas de software tradicionales. Estas caractersticas son: Flexibilidad, ya que los tipo de problemas que se pueden presentar en un dominio pueden ser bastante variados Emular un comportamiento racional, ya que uno de los objetivos es utilizar los mecanismos de resolucin que usan los expertos humanos tanto para elaborar la solucin como para explicar sus razones. Operar en un entorno rico y con mucha informacin, ya que este tipo de problemas involucra grandes cantidades de conocimiento, con naturaleza bastante diversa y con caractersticas especiales, como la incertidumbre o la incompletitud. Uso de informacin simblica, ya que las decisiones que toman los expertos humanos se basan principalmente en apreciaciones sobre la informacin descritas a partir de smbolos y no informacin numrica sin interpretar. Uso del lenguaje natural, ya que la forma de interactuar y de recibir respuesta del sistema debera ser lo mas cercana al experto que est emulando. Capacidad de aprender, ya que puede ser necesario incorporar nuevo conocimiento para extender las capacidades del sistema a partir de la observacin y la experiencia. Para obtener sistemas que tengan las caractersticas mencionadas se ha de tener en cuenta una serie de restricciones y caractersticas a la hora de disearlos, de manera que deberemos: 1. Separar el conocimiento y el control de la resolucin sta es una caracterstica inspirada en la forma en la que los expertos humanos trabajan y es importante sobre todo por la gran cantidad de conocimiento que interviene en la resolucin de un problema. Un experto tiene, por un lado, conocimiento especco sobre los elementos que forman parte de su dominio y, por otro, conocimiento sobre las estrategias de resolucin de problemas vlidas en el dominio que le permiten obtener soluciones a problemas. Esta separacin adems incluye un conjunto de ventajas: Naturalidad para expresar el conocimiento, ya que su representacin es independiente de los mtodos de resolucin. Modularizacin del conocimiento, ya que se puede agrupar por anidad, permitiendo un desarrollo ms sencillo y comprensible. Extensibilidad, ya que es ms sencillo ampliar el conocimiento del sistema si podemos estructurarlo de manera independiente. Modicabilidad, ya que es ms fcil detectar errores y modicar el conocimiento, permitiendo probar cada mdulo de manera independiente del mecanismo de resolucin. Independencia, ya que es posible utilizar diferentes estrategias de resolucin para un mismo conocimiento.
12.3 Necesidad de los SBC 2. Incorporar conocimiento heurstico
109
El conocimiento que se introduce en un SBC est basado en el conocimiento de un experto. Este conocimiento es de naturaleza heurstica (incompleto, aproximado, no sistemtico) en contraste con el conocimiento algortmico, en el que tenemos a priori determinado el curso de la resolucin y el resultado esperado. Esta resolucin basada en el conocimiento experto hace que se parezca ms a como los expertos humanos resuelven problemas. sta es tambin una diferencia fundamental respecto a los sistemas software convencionales en los que no existe esta componente heurstica. 3. Permitir Interactividad a diferentes niveles Este tipo de sistemas necesitarn interactuar tanco con los expertos humanos, como con otros sistemas basados en el conocimiento o como con su entorno. Esta interaccin ayudar en el curso de la resolucin, obteniendo la informacin que el sistema encuentre que es necesaria para continuar. A la vez, tambin deber ser capaz de explicar su lnea de razonamiento y revelar el porqu de las elecciones que realiza durante la resolucin. Esto ltimo juega un doble papel, primero el justicar las decisiones tomadas (permite dar conanza en los resultados) y segundo permitir el detectar problemas en el conocimiento que tiene el sistema. Todas estas caractersticas hacen de los sistemas basados en el conocimiento un paradigma de la combinacin de las diferentes reas de la Inteligencia Articial. En estos sistemas necesitaremos: Representacin del conocimiento: Este conocimiento incluir tanto la descripcin de las caractersticas del dominio, como el conocimiento de resolucin de problemas, la representacin del control de la resolucin, las heursticas, ... Razonamiento e inferencia: La combinacin de los datos del problema para llegar a la resolucin se realizar como un proceso de razonamiento. Este razonamiento no solo se basar en la lgica clsica, sino que tendr que utilizar otro tipo de lgicas que permitan, por ejemplo, el razonamiento bajo premisas incompletas, razonamiento ante incertidumbre en el conocimiento y en los pasos de resolucin, razonamiento temporal, sobre otros, ... Bsqueda y resolucin de problemas: Las tcnicas de resolucin basadas en razonamiento tendrn que complementarse con tcnicas de bsqueda heurstica. Interaccin con el usuario: Mediante lenguaje natural para preguntar, generar explicaciones. Aprendizaje: Para adquirir el conocimiento del dominio de forma automtica, adquisicin de nuevo conocimiento o capacidades, aprendizaje de los errores, ...
12.3 Necesidad de los SBC

La principal razn del desarrollo de sistemas basados en el conocimiento viene directamente del inters en automatizar la resolucin de problemas que requieren un conocimiento especializado. Este inters viene del alto coste que supone acceder a personal experto ya que por lo general es escaso y su formacin es cara. Detallando las razones, podemos decir que la necesidad proviene de: Poder disponer del conocimiento de expertos altamente cualicados. Los expertos son caros y no siempre los hay disponibles. La formacin de nuevos expertos solo sirve a largo plazo. Es vital disponer de un sistema que posea el conocimiento del experto y permita usarlo.
110
Captulo 12. Introduccin a los SBC Poder ayudar a otros expertos/no expertos. A veces es suciente con tener personas que puedan utilizar estos sistemas como soporte a sus decisiones o estos sistemas pueden servir para entrenar y completar la formacin de otros expertos. Poder preservar el conocimiento de los expertos. El poder preservar de alguna manera el conocimiento que han adquirido los expertos es importante. Por un lado por el conocimiento en si, ya que puede seguir utilizndose para tomar decisiones, por otro, por que ese conocimiento ayudar a otros expertos en su formacin. Poder combinar el conocimiento de varios expertos. En la construccin de estos sistemas se combina el conocimiento de diferentes fuentes de informacin, entre ellas, grupos de expertos. De esta manera el sistema tiene una visin ms amplia y se benecia de la combinacin de conocimientos. Poder disponer de sistemas que permitan dar soluciones rpidas y justicadas. La automatizacin del proceso de resolucin permite que la respuesta a los problemas pueda ser ms rpida. El proceso de razonamiento se puede estudiar y justicar de una manera ms able. Poder tratar grandes volmenes de informacin. En muchas reas el volumen de informacin involucrada en los problemas a solucionar supera la capacidad de los expertos, de manera que la automatizacin del proceso es necesaria para su resolucin efectiva. Poder disponer de sistemas que tomen decisiones autnomas. Ciertos problemas no necesitan constantemente una supervisin por parte de expertos y algunas decisiones se pueden dejar al sistema para reducir su dependencia.
12.4 Problemas que se pueden resolver mediante SBC

No cualquier problema es susceptible de ser resuelto mediante un SBC, antes de comenzar a trabajar nos hemos de plantear ciertas preguntas: La necesidad de la solucin justica el desarrollo? El desarrollo de un SBC tiene un coste importante tanto econmicamente, como en tiempo. Se ha de adquirir el conocimiento del experto, se ha de construir el sistema, se ha de validar. El problema ha de tener entidad suciente. Es posible acceder al experto necesario? Si es difcil acceder a un experto cuando es necesario, siempre es mas sencillo tener disponible un sistema capaz de ayudar a otras personas no tan expertas. El problema puede plantearse como un proceso de razonamiento simblico? Los SBC aplicarn mtodos de razonamiento simblico para solucionar el problema, si no puede plantearse en esos trminos no tiene sentido desarrollar un SBC para el problema. El problema est bien estructurado? Para que sea posible tratar el problema hemos de poder identicar sus elementos y hemos de poder formalizar tanto el conocimiento necesario, como los procedimientos de resolucin. De hecho, el proceso de construccin del SBC requerir una formalizacin de todos los elementos del problema. Puede resolverse el problema por mtodos tradicionales? Si el problema tiene una solucin algortmica o matemtica y no involucra ningn proceso de razonamiento cualitativo o heurstico es innecesario desarrollar un SBC para resolverlo.
12.5 Problemas de los SBC
111
Existen expertos disponibles y cooperativos? El construir este tipo de sistemas necesita la colaboracin completa de expertos en el problema. Estos han de comprender la tarea y el objetivo del SBC y cooperar en la labor de formalizacin del conocimiento. Al ser el conocimiento el elemento fundamental del sistema, la dicultad de acceder a l hace imposible la labor de desarrollo. Est el problema bien dimensionado? Esta restriccin es clave en cualquier proyecto informtico. La complejidad de la tarea no ha de ser tal que se necesiten formalizar grandes cantidades conocimiento para resolverlo, ha de ser sucientemente restringido para ser manejable y poderse terminar la tarea con xito.
12.5 Problemas de los SBC

Existen todo un conjunto de problemas asociados a los SBC, algunos son inherentes a sus caractersticas, otros pueden depender de las limitaciones que imponen el coste de su desarrollo. Podemos enumerar los siguientes: Fragilidad: Su capacidad se degrada bruscamente cuando los problemas que se le plantean estn fuera de su mbito de experiencia. En el caso de un experto humano, ste podra dar respuestas mas o menos ajustadas a pesar de que los problemas vayan saliendo de su mbito de conocimiento, estos sistemas simplemente sern incapaces de dar una respuesta. Dicultades con el control del razonamiento: Los expertos, adems del conocimiento del dominio, tienen conocimiento sobre como plantear y estructurar la resolucin de un problema. Este conocimiento, denominado metaconocimiento es difcil de explicitar y suele ir mezclado con el conocimiento del dominio. De la posibilidad de codicar este conocimiento en el sistema depender la eciencia a la hora de encontrar soluciones. Baja reusabilidad de las bases de conocimiento: Por lo general el conocimiento de un problema depende fuertemente del dominio, sobre todo la parte de resolucin. No obstante ciertas partes del conocimiento mas general puede ser reaprovechado como ontologas de dominio. Es difcil integrar el aprendizaje: Muchas veces estos sistemas no incluyen capacidad de aprendizaje por la complejidad de integrar nuevo conocimiento con el ya existente en el sistema. No obstante hay tareas en las que la capacidad de aprendizaje es esencial para la resolucin. Problemas en la adquisicin del conocimiento: Obtener tanto la descripcin del dominio, como el conocimiento de resolucin es el principal cuello de botella de los SBC. Esto es debido a la dicultad que tienen los expertos en explicitar su conocimiento. Se ha denominado paradoja del experto a la observacin de que, cuanta ms experiencia tiene una persona en un problema, ms difcil le es explicar como lo resuelve. Problemtica de la validacin: El proceso de validacin de una base de conocimiento es muy costoso. El mayor problema reside en la posibilidad de que haya inconsistencias en el sistema1 . Tambin es muy costoso probar la completitud del sistema.
1
Probar que un conjunto de axiomas es inconsistente es semidecidible.
112
12.6 reas de aplicacin de los SBC

Los sistemas basados en el conocimiento se aplican a gran variedad de reas. Se pueden encontrar en cualquier dominio en el que se necesite un conocimiento especializado. reas tan diferentes como la medicina, la biologa, el diseo, la concesin de crditos o la prediccin meteorolgica se cuentan entre sus aplicaciones. Su sosticacin depende del tipo de problema concreto que se desee resolver, pero bsicamente se aplican en dos tareas genricas, el anlisis de un problema para identicar su naturaleza o la construccin de una solucin a partir de sus elementos esenciales. Problemas que involucran identicacin pueden ser por ejemplo la interpretacin de los elementos de un problema, el diagnstico a partir de unos sntomas, la supervisin o control de un proceso para mantenerlo dentro de los parmetros correctos o la prediccin de resultados a partir de evidencias. Problemas que involucran la construccin de una solucin pueden ser por ejemplo la planicacin de un conjunto de tareas, el diseo a partir de un conjunto de elementos y restricciones o la conguracin de un conjunto de elementos.
12.7 Breve historia de los SBC

La historia de los SBC comienza con la construccin de los primeros sistemas expertos desarrollados durante la dcada de 1960. Estos sistemas intentaban resolver tareas medianamente complejas dentro de un mbito bastante especco. En esa poca los diferentes lenguajes y entornos para la construccin de estos sistemas estaban poco desarrollados, por lo que estos sistemas eran esfuerzos bastante individuales y muchos de ellos tenan la intencin de probar la viabilidad de la construccin de sistemas capaces de resolver problemas complejos. El primer sistema experto fue DENDRAL, desarrollado en 1965. El problema que se quera resolver era el de la identicacin de la estructura de molculas orgnicas a travs de espectrografa de masas. En esa poca este tipo de problema necesitaba a una persona con bastante experiencia y llevaba un tiempo considerable. Este sistema fue capaz de reducir drsticamente el tiempo necesario para resolver el problema permitiendo su automatizacin. Se puede considerar que la mayora de los sistemas que se construyeron en la siguiente dcada derivan de este trabajo. Otro hito en la historia de los sistemas expertos fue MYCIN (1970). Se encuadraba en el rea de la medicina y era capaz de identicar infecciones en sangre. Su principal aportacin fue la introduccin de tratamiento del conocimiento incierto mediante el sistema denominado de factores de certeza. De este trabajo surgi EMYCIN que es considerado el primer entorno de desarrollo de sistemas expertos. El sistema PROSPECTOR (1974) trataba el dominio de las prospecciones minerales. Su mrito consiste en haber introducido un nuevo mtodo para el tratamiento de la incertidumbre2 que es el origen de algunos de los mtodos actuales. El primer sistema experto de un tamao respetable que tuvo xito comercial fue XCON (1980), con alrededor de 2500 reglas de produccin. El sistema asista a la compra de sistemas de computacin VAX (de la desaparecida compaa Digital Equipment Corporation3 ) congurndolos segn las necesidades del cliente. Este sistema evitaba errores en los envos de los sistemas asegurndose de que todos los elementos requeridos fueran enviados reduciendo las posibilidades de error, lo cual ahorr una buena cantidad de dinero a la compaa. La dcada de 1980 marca el inicio de la carrera de la construccin de sistemas expertos en prcticamente cualquier dominio de aplicacin. Su capacidad para resolver problemas tanto de diagnstico,
Dice la leyenda que el sistema super a los expertos prediciendo vetas de mineral no descubiertas por los expertos. Digital Equipment Corporation fue una de las empresas pioneras en la fabricacin de ordenadores, fue absorbida por Compaq que posteriormente se fusion con HP.
3 2
12.7 Breve historia de los SBC
113
como de clasicacin, monitorizacin, supervisin, prediccin, diseo, ... han hecho que su construccin se cuente por miles. Durante la dcada de 1990 estos sistemas se han ido diversicando tambin en las metodologas aplicadas para su construccin pasando de ser construidos bsicamente mediante sistemas de produccin a utilizar tcnicas provenientes de la inteligencia articial distribuida como los agentes inteligentes, usar tcnicas de razonamiento basado en casos (Case Based Reasoning) o tcnicas de aprendizaje automtico como las redes neuronales. Esta diversicacin ha generalizado su concepcin y se ha rebautizado a estos sistemas como sistemas basados en el conocimiento (Knowledge Based Systems). Tambin se han desarrollado nuevas tcnicas para el tratamiento de la incertidumbre que se han incorporado en estos sistemas como por ejemplo las redes bayesianas y el razonamiento difuso. El aprendizaje est empezando a tener gran importancia como por ejemplo en la fase de adquisicin del conocimiento, de manera que se pueden construir sistemas que resuelvan problemas a partir de ejemplos presentados por los expertos y el sistema puede construir su programacin a partir de ellos. En la actualidad los sistemas basados en el conocimiento desempean multitud de tareas tanto especializadas, como cotidianas.
114
13. Arquitectura de los SBC
13.1 Introduccin
En este captulo vamos a describir los diferentes elementos de los que se compone la arquitectura de un sistema basado en el conocimiento. Esta arquitectura puede variar dependiendo de las tcnicas de inteligencia articial que se utilicen, pero existen un conjunto de bloques generales que aparecern siempre. La arquitectura de estos sistemas est pensada para poder cumplir las capacidades que se esperan de un sistema basado en el conocimiento, principalmente: Que sea capaz de resolver problemas a partir de informacin simblica Que aplique mtodos de razonamiento y resolucin heursticos Que sea capaz de explicar los resultados y el proceso de razonamiento Que sea capaz de interactuar con el entorno y pueda ser interrogado Para cumplir estas caractersticas necesitamos al menos los siguientes elementos en un SBC: Un subsistema de almacenamiento del conocimiento Un subsistema de uso e interpretacin del conocimiento Un subsistema de almacenamiento del estado del problema Un subsistema de justicacin e inspeccin de las soluciones Un interfaz de comunicacin con el entorno y/o el usuario Adicionalmente se puede incorporar capacidad de aprendizaje mediante observacin del entorno, que dara lugar a la necesidad de un subsistema de aprendizaje. En la gura 13.1 se puede ver una representacin de sus relaciones. Los tres primeros subsistemas se pueden agrupar en el subsistema de razonamiento, que ser el encargado de construir la solucin del problema. El conocimiento y la forma en la que funcionan estos subsistemas dependen bastante de las tcnicas que se usen para la representacin del conocimiento y la resolucin de problemas. Nosotros nos centraremos en dos tipos: Sistemas basados en reglas de produccin (Rule Based Reasoning) Sistemas basados en casos (Case Based Reasoning)
13.2 Arquitectura de los sistemas basados en reglas

Los sistemas basados en reglas utilizan como elemento principal a los sistemas de reglas de produccin. La resolucin de un problema se realiza mediante el proceso de razonamiento generado por el ciclo de funcionamiento de un motor de inferencia. El conocimiento del dominio est expresado como una ontologa de dominio y el conocimiento de resolucin est representado como un conjunto de reglas de produccin. 115
116
Captulo 13. Arquitectura de los SBC

Subsistema de Razonamiento Subsistema de aprendizaje Subsistema de almacenamiento del conocimiento
Subsistema de Justificacin e inspeccin
Subsistema de almacenamiento del estado
Subsistema de uso e interpretacion del conocimiento
Subsistema de comunicacion con el usuario
Figura 13.1: Arquitectura genrica de un SBC
13.2.1 Almacenamiento del conocimiento

Este subsistema contiene el conocimiento necesario para resolver problemas en el dominio del SBC y se habr construido a partir de un proceso previo de extraccin de conocimiento. Tambin se le conoce como base de conocimiento. El conocimiento almacenado es de naturalezas diferentes y puede por lo tanto estar representado utilizando distintos formalismos. Centrados en los sistemas basados en reglas de produccin tendremos tres tipos de conocimiento en una base de conocimiento: 1. Conocimiento factual (objetos del dominio y sus caractersticas) 2. Conocimiento relacional (relaciones entre los objetos del dominio, por ejemplo jerrquicas) 3. Conocimiento condicional (reglas de produccin que expresan conocimiento deductivo sobre el dominio) Los dos primeros conocimientos suelen estar integrados en una ontologa de dominio y habitualmente estn representados mediante formalismos estructurados como frames o redes semnticas. El tercer conocimiento es el ms voluminoso y mas importante desde el punto de vista de la resolucin de problemas. Est representado habitualmente mediante un formalismo de reglas de produccin, aunque existen otros formalismos. La complejidad y expresividad de estas reglas depender del dominio, ya que puede ser necesario trabajar con formalismos lgicos que traten sus caractersticas particulares. Puede ser suciente con un formalismo basado en lgica de primer orden, necesitar hacer tratamiento de la incertidumbre, trabajar con conocimiento incompleto, razonamiento temporal, ... La expresividad del formalismo de reglas de produccin nos permitir representar conocimiento de diferente naturaleza que puede ser necesario para un dominio, principalmente: Conocimiento deductivo (estructural): Este conocimiento nos permitir describir los procesos de resolucin de problemas del dominio a partir de cadenas de deduccin. Conocimiento sobre objetivos (estratgico): Este conocimiento orientar la resolucin del problema y permitir plantear la forma de resolver problemas a alto nivel.
13.2 Arquitectura de los sistemas basados en reglas
117
Conocimiento causal (de soporte): Este conocimiento permite aadir la posibilidad de realizar explicaciones sobre los procesos de deduccin llevados a cabo para solucionar un problema o interrogar al sistema sobre la consecuencia de suposiciones (what if) Habitualmente los lenguajes de reglas que se utilizan para implementar este conocimiento permiten organizarlo de manera estructurada para facilitar el desarrollo. Entre las facilidades mas comunes se encuentra la divisin del conocimiento en mdulos. Estos permiten agrupar las reglas en bloques de alto nivel que tengan sentido en el dominio del problema. Esta posibilidad de estructurar las reglas permite una mejor organizacin y encapsulamiento del conocimiento, facilitando el desarrollo, prueba y depuracin. Precisamente esta organizacin en mdulos de las reglas permite la expresin del conocimiento sobre objetivos ya mencionado. Este conocimiento se describe mediante reglas denominadas metareglas. Estas reglas describen conocimiento de alto nivel que no se reere a problemas especcos del dominio, sino a estrategias o metodologas de resolucin de problemas propias del dominio. Mediante las meta-reglas se pueden desarrollar mecanismos de resolucin mas potentes de lo que permiten las reglas que expresan conocimiento deductivo y reducir el coste computacional de la resolucin de problemas. El mayor problema de las meta-reglas es que son mas difciles de adquirir a partir del experto ya que representan conocimiento de un nivel mayor de abstraccin. Las meta-reglas se pueden clasicar dependiendo de su nivel de intervencin en el proceso de resolucin: Meta-reglas sobre reglas: Se usan para activar o desactivar reglas dentro de un mdulo o dar prioridad a las reglas que se activan Metarreglas sobre mdulos: Afectan a la forma en la que se hace la bsqueda dentro del mdulo, a la forma de tratamiento de la incertidumbre, al tipo de conclusiones, ... Metarreglas sobre estrategias: Deciden sobre la ordenacin de activacin de los mdulos de reglas, tratamiento de excepciones, ... Metarreglas sobre planes de actuacin: Cambian las diferentes estrategias de resolucin de problemas de alto nivel que pueda haber
13.2.2 Uso e interpretacin del conocimiento

Si la implementacin del SBC se realiza utilizando reglas de produccin este subsistema es habitualmente un motor de inferencia. Ya conocemos el funcionamiento de un motor de inferencia del tema de sistemas de reglas de produccin. Este subsistema utilizar la base de conocimiento y la informacin del problema particular a resolver, para obtener nuevas inferencias que lleven a plantear los pasos necesarios para llegar a la solucin. La complejidad del motor de inferencia depender de la expresividad de las reglas de la base de conocimiento. Este tendr que interpretar las condiciones de las reglas, realizar las instanciaciones adecuadas y escoger la regla a aplicar en cada paso de la resolucin. Esta eleccin depender directamente de la estrategia de resolucin de conictos que tenga implementada o del conocimiento de control expresado mediante las meta-reglas. Al ser el motor de inferencia el mecanismo bsico de resolucin del sistema la capacidad y eciencia en la resolucin de problemas depender totalmente de l.
118
13.2.3 Almacenamiento del estado del problema

A este subsistema se le conoce como memoria de trabajo. Su complejidad depender de la expresividad del mecanismo de resolucin. Habitualmente almacena los datos iniciales del problema descritos mediante los objetos de la ontologa del dominio y las deducciones intermedias que se van obteniendo durante el proceso de resolucin. En sistemas mas complejos la memoria de trabajo puede almacenar otras cosas, como informacin de control que apoye al mecanismo de resolucin (orden de deduccin de los hechos, preferencias sobre hechos, reglas, mdulos, reglas activadas recientemente, caminos alternativos, ...)
13.2.4 Justicacin e inspeccin de las soluciones

Para que un sistema sea creble ha de poder justicar y mostrar sus decisiones, para ello el experto ha de ser capaz de aadir a las reglas la justicacin de su aplicacin y de las condiciones que tienen. Tambin puede incluir reglas que permitan interrogar al sistema sobre las deducciones que se han obtenido y las cadenas de deduccin que han llevado a ellas. Esta justicacin se apoyar en la informacin incluida por el experto en el sistema y en la traza de la resolucin que deber almacenar el motor de inferencia en la memoria de trabajo para su posterior inspeccin. Dos preguntas tpicas que debera poder responder un SBC en cualquier punto de la resolucin son: Porqu: Que objetivos globales se desean resolver. Cmo: Que cadena de razonamiento ha llevado a ese punto. Podemos distinguir dos niveles de explicacin: Muestra: Traza que describe los pasos que se han realizado en la cadena de razonamiento, las reglas que se han utilizado y los hechos deducidos. Justicacin: Razones por las que se ha escogido una lnea de razonamiento, porqu se preguntan ciertas cosas al usuario, tipo de subproblema en el que se ha clasicado la solucin, razones de las preferencias utilizadas, ... Las explicaciones pueden consistir en textos prejados aadidos a las reglas o pueden generarse explicaciones en lenguaje natural que dependan del contexto.
13.2.5 Aprendizaje
Habitualmente las aplicaciones que se crean para solucionar problemas en un dominio estn acotadas y delimitan el conjunto de problemas que se pueden resolver. Esto es adecuado en muchos dominios, pero otros requieren que el sistema sea capaz de aprender a resolver nuevos problemas o adaptar su comportamiento al entorno. Hay diversas maneras de abordar el problema del aprendizaje en un SBC. Si partimos de un sistema basado en reglas, una posibilidad es el poder crear o corregir reglas del sistema cuando se detectan fallos en las soluciones. Para ello es necesario un proceso de razonamiento que detecte en que parte de la solucin aparece el problema. Otra posibilidad es que el sistema sea capaz de crear sus propias reglas de control analizando las trazas de las resoluciones que ha obtenido. En estas trazas se puede detectar en qu puntos el mecanismo de resolucin perdi el objetivo y fue necesario
13.3 Arquitectura de los sistemas basados en casos
119
replantear la estrategia de resolucin. Creando nuevas reglas de control se puede evitar esta prdida de tiempo en futuras resoluciones. Este tipo de aprendizaje se conoce como aprendizaje basado en explicaciones. Otras posibilidades de aprendizaje aparecen en dominios en los que es difcil obtener directamente reglas de produccin por la complejidad de la tarea a resolver. En estos dominios se intenta aprender un modelo de la tarea a resolver. Este modelo por lo general se construye por observacin de ejemplos de soluciones de la tarea. A partir de estos ejemplos se construye una generalizacin que permitir resolver los tipos de problemas que describen los ejemplos. Este modelo puede consistir en un conjunto de reglas que describe la tarea u otro formalismo equivalente. Las tcnicas utilizadas caen dentro de lo que se denomina aprendizaje inductivo
13.3 Arquitectura de los sistemas basados en casos

El razonamiento basado en casos (Case Based Reasoning) supone que la solucin de un problema se puede obtener identicando una solucin anterior similar y adaptndola a las caractersticas particulares del problema. Este mtodo de resolucin est apoyado por estudios en psicologa cognitiva que indican que muchas veces esa es la manera en la que personas expertas en un problema llegan a obtener sus soluciones. De este modo, la necesidad de extraer conocimiento encaminado a la resolucin se reducira en gran medida y esta se centrara en la identicacin y adaptacin de casos similares. Existen muchos problemas que pueden ser resueltos mediante esta metodologa, presentando algunas ventajas: Reducen en gran medida el proceso de explicitacin y extraccin del conocimiento y, sobre todo, reducen la necesidad de formalizarlo mediante un formalismo procedimental, por ejemplo, reglas de produccin. Mejoran la capacidad de mantenimiento del conocimiento al permitir aadir o corregir fcilmente los casos Hacen ms eciente la resolucin de problemas al reducir la necesidad de utilizar mecanismos de razonamiento Es cercano a la experiencia de los usuarios, ya que permite la explicacin de las soluciones a partir de casos conocidos El ciclo de resolucin de los sistemas basados en casos es diferente del de los sistemas de produccin. Estos se basan en un ciclo que incluye cuatro fases: 1. Fase de recuperacin: A partir del problema se deben identicar los casos almacenados que tengan mayor similaridad 2. Fase de reuso: Escogemos como solucin inicial la que aparece en el caso recuperado 3. Fase de revisin: Evaluamos la solucin recuperada y la adaptamos al caso particular, evaluando su resultado. Esta revisin puede necesitar un proceso de razonamiento. 4. Fase de retencin: Evaluamos si es til guardar la informacin de la nueva solucin obtenida para poder solucionar nuevos problemas. La gura 13.2 muestra las fases grcamente. Este ciclo de resolucin encaja con los elementos de la arquitectura general que hemos visto.
120
Re
Caso Aprendido Nuevo Caso
cu
pe ra
ci n
ten
Caso Nuevo Recupe Caso rado Casos
Re
ci
Revi
sin
Caso Resuelto
Figura 13.2: Ciclo de ejecucin del razonamiento basado en casos
13.3.1 Almacenamiento del conocimiento

En esta arquitectura el sistema de almacenamiento del conocimiento tendr dos elementos. Por un lado tendremos el sistema que almacenar los casos, denominado base de casos. Esta almacenar un conjunto de soluciones que se hayan escogido como representativas y que se podrn usar en resoluciones de nuevos problemas. Por otro lado estar el conocimiento especco del dominio que por lo general se expresa a partir de reglas o procedimientos. Estos representarn la informacin necesaria para determinar la similaridad de los casos, la adaptacin de la solucin recuperada al caso actual y la evaluacin de la solucin. La informacin que describe un caso puede ser bastante compleja. Ser no solo necesaria informacin descriptiva que permita la recuperacin de los casos almacenados a partir de casos nuevos, sino tambin informacin sobre la solucin o justicaciones que permitan explicar la solucin. Otro punto importante ser la organizacin de la base de casos para la recuperacin de los casos similares. La eciencia computacional exige que exista alguna organizacin que ayude a la recuperacin. Por lo general esta organizacin es jerrquica y tiene algn tipo de indexacin. Hay que tener en cuenta que la recuperacin no tiene por que basarse directamente en las caractersticas que describen el caso, sino que puede ser necesario cierto tipo de clculo o razonamiento para evaluar la similaridad. Tambin puede haber cierta nocin de distancia que determine cmo de similares son los casos que se recuperan.
13.3.2 Uso e interpretacin del conocimiento

El mecanismo de uso del conocimiento se basa directamente en el ciclo de funcionamiento de un sistema basado en casos. El sistema ser capaz de identicar el conjunto de casos ms similares al problema actual utilizando la base de casos. Este proceso de recuperacin depender de la informacin que contengan los casos y la estructura en la que est organizada la base de casos. Se recorrer esta estructura evaluando la similaridad de los casos con el caso actual de la manera que est denida. Por lo general
eu
so
Caso Revisado
Conocimiento del dominio
13.4 Comunicacin con el entorno y/o el usuario
121
se utilizar una funcin de similaridad o un proceso de razonamiento sencillo para puntuar los casos. La solucin se construir a partir del caso mas similar o la combinacin de soluciones de los casos ms similares. El sistema deber instanciar la solucin obtenida para el caso actual y comprobar si es vlida tal como est. Esto puede requerir otro proceso de razonamiento. Si la solucin no es vlida se puede utilizar el conocimiento del dominio del que se dispone para intentar adaptar la solucin. Durante esta adaptacin el conocimiento del dominio deber determinar que elementos son incorrectos en la solucin y proponer alternativas. El resultado de este proceso ser una solucin completa.
13.3.3 Almacenamiento del estado del problema

En este caso el estado del problema est formado nicamente por el caso actual, el caso recuperado y la informacin que se inera en los procesos de recuperacin del caso mas similar, la evaluacin de la solucin y su adaptacin.
13.3.4 Justicacin e inspeccin de las soluciones

La justicacin en los sistemas de razonamiento basado en casos est almacenada en los propios casos. Esta informacin deber ser complementada por el proceso de razonamiento de la adaptacin cuando se necesite adaptar la solucin. En estos sistemas la justicacin es ms natural ya que la solucin se ha denido a priori a partir de un caso concreto que es mas sencillo de entender por un usuario.
13.3.5 Aprendizaje
El proceso de aprendizaje en estos sistemas es mas sencillo y natural, ya que simplemente se ha de aadir a la base de casos el nuevo caso y su solucin. La ventaja respecto a los sistemas basados en reglas es que no se ha de tocar el conocimiento que ya tiene el sistema. La decisin de aadir un nuevo caso debe ser evaluada por el sistema teniendo en cuenta lo similar que sea a casos ya existentes. El objetivo es completar la visin que se tiene del dominio, as que nuevos casos sucientemente diferentes de los conocidos son importantes. Tambin es posible plantearse la posibilidad de olvidar casos que tengan poca utilidad eliminndolos de la base de casos.
13.4 Comunicacin con el entorno y/o el usuario

Dada la necesidad de interaccin del sistema con el usuario y/o el entorno deber existir un interfaz de comunicacin. Este puede ser relativamente simple (preguntas cerradas, mens) o permitir una interaccin mas natural con el usuario (interfaz en lenguaje natural). Debera permitir: Introducir los datos del problema a resolver Preguntar sobre el estado interno: Sobre la resolucin (explicaciones, reglas utilizadas, hechos), sobre suposiciones alternativas (what if), sobre el estado de la memoria de trabajo Preguntar al usuario: sobre hechos, peticin de conrmaciones, ...
122
ent1 peso1 peso2 f(ent1,...,peso1,...)
ent2
peso3 ent3 Combinacion Activacion
Figura 13.3: Esquema de una neuronal articial
En sistemas complejos un SBC no tiene por que interactuar solamente con usuarios humanos sino que puede colaborar con otros SBC para realizar su tarea. Esto hace necesario establecer primitivas de comunicacin a travs de las cuales se puedan hacer preguntas. Existen lenguajes de comunicacin entre SBC estandarizados que denen las comunicaciones que se pueden realizar y su semntica. Estos lenguajes suponen que existe una ontologa de dominio comn entre los SBC que interactan que permiten que el contenido de las comunicaciones sea comprendido por ambas partes.
13.5 Otras Metodologas

Los sistemas basados en reglas y el razonamiento basado en casos son arquitecturas habituales sistemas basados en el conocimiento. No obstante existen otras aproximaciones que a veces se adaptan mejor a los problemas que se pretenden resolver. Comentaremos sucintamente algunas de ellas.
13.5.1 Redes neuronales

Las redes neuronales (o redes de neuronas articiales) forman parte de una visin no simblica de la inteligencia articial y entran dentro del denominado modelo conexionista. Las arquitecturas descritas hasta ahora basan su funcionamiento en una descripcin explcita del conocimiento y de sus mecanismos de resolucin. El modelo conexionista se basa en la utilizacin de conjuntos de elementos simples de computacin denominados neuronas (ver gura 13.3). Las neuronas se describen a partir de unas entradas, una salida, un estado y un conjunto de funciones que se encargan de combinar las entradas, cambiar el estado de la neurona y dar el valor de salida. El funcionamiento de una neurona es muy sencillo, los valores de la entrada y el estado de la neurona se combinan y se obtiene un valor de salida, esta salida sera la respuesta de la neurona a los estmulos de entrada. La interconexin de estos elementos entre si permite realizar clculos complejos. Las neuronas se agrupan en lo que se denomina redes de neuronas (ver gura 13.4). Estas redes estn organizadas en capas interconectadas. Por lo general se distingue la capa de entrada, que es la que recibe la informacin del exterior, la capa de salida, que es la que da la respuesta y las capas ocultas, que son las que realizan los clculos. Las redes neuronales asocian un conjunto de entradas con un conjunto de respuestas. Por lo general las entradas correspondientes a la capa de entrada suelen corresponder con la informacin del problema y los valores que corresponden a las salidas de la capa de salida codican la respuesta al problema. En este caso para construir un sistema basado en el conocimiento a partir de redes neuronales
13.5 Otras Metodologas

Capa de Entrada Capas Ocultas Capa de Salida
123
Figura 13.4: Red neuronal se debe decidir como se han de codicar los datos de entrada y la salida, el nmero de neuronas en cada una de las capas, el nmero de capas ocultas y la interconexin entre cada capa de neuronas. La asociacin entre entradas y salidas se realiza mediante tcnicas de aprendizaje automtico. A la red de neuronas se le van presentando ejemplos solucionados y, mediante algoritmos adecuados, las neuronas de la red van quedando en un estado que describe la asociacin entre problemas y soluciones. Este periodo de aprendizaje, tambin llamado entrenamiento es la parte mas compleja y requiere escoger adecuadamente el conjunto de ejemplos y el nmero de veces que se presentan a la red. Los principales inconvenientes de las redes neuronales son el no disponer de una descripcin explcita de la resolucin y en consecuencia no poder dar una justicacin en trminos que pueda comprender un experto. No obstante, los mtodos conexionistas se usan con gran xito en muchas aplicaciones.
13.5.2 Razonamiento basado en modelos

El razonamiento basado en modelos, junto al razonamiento cualitativo, pretende resolver problemas a partir de construir un modelo del sistema sobre el que se ha de trabajar. A diferencia de los modelos utilizados en simulacin, que se basan fundamentalmente en informacin y mtodos numricos, estos modelos seran adecuados para problemas en los que estos mtodos no son aplicables por la complejidad del sistema. La descripcin del sistema se realizara a partir de informacin cualitativa y reglas y ecuaciones cualitativas que describiran sus relaciones. Este modelo permitira obtener deducciones sobre las consecuencias de las acciones que se pueden realizar en el problema y razonar sobre el comportamiento del sistema. Este tipo de modelado se acercara a lo que se considera razonamiento del sentido comn y que permitira obtener soluciones a problemas sin tener que entrar la complejidad del funcionamiento real del problema. Un ejemplo de este tipo de metodologa es la denominada fsica naf (nave physics), en la que se pretende incluir informacin del sentido comn en el razonamiento sobre los fenmenos fsicos.
124
Agente
Estado
Sensores
Percepcin
Entorno
Mecanismo de decisin
Actuadores
Accin
Figura 13.5: Agente inteligente
13.5.3 Agentes Inteligentes/Sistemas multiagente

La visin de todas las metodologas mencionadas de los sistemas basados en el conocimiento es una visin monoltica. La tarea a realizar es muy compleja y existe un nico sistema que tiene todo el conocimiento y realiza todas las acciones. El rea de agentes inteligentes intenta ampliar esta visin, considerando que tener mltiples agentes que resuelve problemas ms sencillos y que se encuentran en un entorno en colaboracin/competicin entre s, permite tambin resolver esos problemas complejos. Podramos decir que las otras arquitecturas tendra una visin de agente nico y el rea de agentes inteligentes tendra una visin de colectividad. Un agente sera un sistema que obtiene informacin del entorno (percepcin) elabora una decisin basada en estas percepciones y su representacin interna del estado (razonamiento) y realiza una accin mediante sus actuadores (actuacin) (ver gura 13.5). El mecanismo de decisin es el elemento ms complejo y se puede resolver de mltiples maneras, dando as ms o menos capacidades al agente. Los agentes inteligentes pueden considerarse ms como un paradigma de desarrollo de sistemas basados en el conocimiento que una arquitectura en s, ya que las metodologas utilizadas para construir los agentes individuales son las que ya se han descrito. La diferencia esencial es la divisin de un trabajo complejo entre pequeos sistemas que tienen capacidad de razonamiento y que para resolver el problema global deben comunicarse y coordinarse. Es una visin social de la inteligencia que podemos ver en la resolucin de muchos problemas. Ejemplo 13.1 Un ejemplo evidente de sociedad de agentes es el comportamiento de los insectos sociales. Cada individuo es relativamente simple y tiene una serie de capacidades que le permite resolver un conjunto de tareas, la organizacin de estos y su divisin del trabajo les permite llegar a resolver problemas complejos. Esta visin social hace necesario incluir tcnicas que no estn presentes en las otras metodologas, entre ellas: Organizacin y estructura de la comunidad de agentes (reglas, normas, prohibiciones) Asignacin y comparticin de recursos, resolucin de conictos y negociacin Cooperacin, divisin del trabajo, planicacin multiagente Lenguajes de comunicacin
13.5 Otras Metodologas Razonamiento sobre los otros agentes, introspeccin
125
Los agentes inteligentes aportan una exibilidad al desarrollo de sistemas basados en el conocimiento que no permiten otras metodologas. Cada uno de los elementos que forma parte de la comunidad se puede reorganizar para resolver otros problemas, de manera que se puede reaprovechar lo desarrollado a la manera de la programacin a partir de componentes, pero con la ventaja de la capacidad de razonamiento que incluye cada agente. Esto se puede llevar todava mas all si es el propio agente el que busca y recluta a otros agentes que le permitan resolver partes de su problema que l por s solo no puede resolver. El desarrollo de internet est ntimamente relacionado con los agentes inteligentes y tiene reas de inters comn con por ejemplo los sistemas Grid o los servicios web.
126
14. Desarrollo de los SBC
14.1 Ingeniera de sistemas basados en el conocimiento

El punto clave del desarrollo de un sistema basado en el conocimiento es el momento de traspasar el conocimiento que posee el experto a un sistema real. En este proceso no slo se han de captar los elementos que componen el dominio del experto, sino que tambin se han de adquirir las metodologas de resolucin que utilizan stos. Este trabajo de extraccin del conocimiento se realiza durante la interaccin entre dos personajes, el ingeniero del conocimiento (persona que conoce el formalismo de representacin que utilizar el SBC) y el experto (persona que posee el conocimiento, pero que no tiene por que usar un formalismo para representarlo). Todo este proceso ha de encajarse en las metodologas de desarrollo de software y adaptarse a las caractersticas especcas que tienen los sistemas basados en el conocimiento. Como cualquier otro desarrollo de software el desarrollo de sistemas basados en el conocimiento puede hacerse siguiendo las metodologas existentes de ingeniera de software, adaptndolas a las diferentes particularidades que estos tienen. En las siguientes secciones describiremos brevemente diferentes metodologas de ingeniera de software que se pueden utilizar.
14.1.1 Modelo en cascada

Esta metodologa es utilizable en desarrollos de tamao pequeo o mediano. Se divide en seis fases que describiremos brevemente: Anlisis del problema: Se determina la factibilidad de resolver el problema a partir de la informacin disponible y su viabilidad econmica. Especicacin de requerimientos: Se redacta un documento de especicacin que describe los objetivos y los elementos que deber poseer el sistema. Diseo: Se determina la arquitectura del sistema desde el nivel de mayor abstraccin hasta el nivel ms especco, describiendo las interacciones entre los diferentes elementos que formarn el sistema Implementacin: Se programar cada uno de los mdulos del sistema, integrndolos en un nico sistema. Prueba: Se determinar si el sistema implementado cumple con las especicaciones iniciales Mantenimiento: Se corregirn los posibles errores que se descubran durante el funcionamiento del sistema y se aadirn las modicaciones necesarias para cumplir nuevas capacidades que se pidan al sistema Las desventajas de esta metodologa son que ni el desarrollador, ni el usuario nal pueden hacerse una idea del resultado nal hasta que el sistema sea completado y que el usuario nal no puede utilizar ningn elemento del sistema hasta el nal de proyecto. 127
128
Captulo 14. Desarrollo de los SBC
tif en Id
al
ua c
Anlisis Especificacin Diseo

Implementacin
io
ac ic
Ev
io n
Prueba Mantenimiento
(a) Ciclo de vida en cascada
(b) Ciclo de vida en espiral
Figura 14.4: Metodologas de ingeniera de software
14.1.2 Modelo en espiral

Este modelo combina las ideas del modelo en cascada con las de prototipado y anlisis de riesgos, viendo el desarrollo como la repeticin de un ciclo de pasos. Estos pasos son: Identicacin: Se determinan los objetivos del ciclo, las alternativas para cumplirlos y las diferentes restricciones de estas alternativas. Evaluacin: Se examinan los objetivos y restricciones para descubrir posibles incertidumbres y riesgos. Formulacin: Se desarrolla una estrategia para resolver las incertidumbres y riesgos. Anlisis: Se evala lo realizado para determinar los riesgos remanentes y se decide si se debe continuar con el elemento actual o se puede pasar al siguiente elemento o paso de desarrollo. El punto clave de esta metodologa es saber identicar lo antes posible los riesgos involucrados en el desarrollo para que estos no tengan un impacto negativo en el proceso.
14.1.3 Diferencias de los sistemas basados en el conocimiento

Al igual que otros sistemas software, los sistemas basados en el conocimiento tiene el objetivo de crear soluciones computacionales a problemas, por ello el desarrollo de estos sistemas es parecido al del software convencional. Sin embargo, hay diferencias que hay que tener en cuenta. La primera de ellas es el tipo de conocimiento que se representa. En los sistemas software habituales se implementan procedimientos algortmicos bien conocidos y de uso comn, al contrario que en los sistemas basados en el conocimiento, que involucran conocimiento incompleto, impreciso y de naturaleza heurstica que es conocido nicamente por un limitado conjunto de expertos. Este conocimiento debe ser transferido de estos expertos a una solucin software, este proceso es denominado adquisicin del conocimiento (Knowledge Elicitation).
na
lis n io
rm Fo ul ac
is
129
Por lo general, el sistema que utiliza el ingeniero del conocimiento para obtener el conocimiento del experto es el de entrevistas. Durante estas entrevistas el ingeniero ha de ayudar al experto a sistematizarlo, consiguiendo que vaya explicitando el conocimiento del dominio y las diferentes tcnicas que utiliza para resolver los problemas que deberamos incluir en nuestro sistema. Con esto pretendemos transformar este conocimiento de manera que se puedan representar en un formalismo computable. Este proceso de extraccin del conocimiento es bastante lento y costoso. Varias son las dicultades que hacen que este proceso sea tan costoso: La naturaleza especializada del dominio hace que el ingeniero del conocimiento deba aprender unas nociones bsicas de ste para que pueda establecerse una comunicacin efectiva con el experto (vocabulario bsico, elementos que intervienen en el dominio, formalismos que utilizan los expertos, etc.). La bsqueda de un formalismo de representacin que se adapte adecuadamente al problema y que sea fcil de interpretar y adoptar por el experto. Este formalismo ha de ser susceptible de ser transformado en algo computable. Los expertos se encuentran ms cmodos pensando en trminos de ejemplos tpicos que razonando en trminos generales, que son de los que realmente se podra hacer una mejor abstraccin. Por lo general, a los expertos les es muy difcil explicitar los pasos que utilizan para resolver los problemas. Es lo que se ha denominado paradoja del experto. Cuanta ms experiencia, menos explcitos son los razonamientos del experto y ms ocultos los mtodos de resolucin. Si observamos como un experto resuelve un problema, ste omite muchas cadenas de razonamiento e informacin que da por supuestas, y a las que no asigna importancia dentro de la resolucin, pero que son necesarias si se quiere abordar el problema de manera sistemtica. Con todas estas circunstancias, podemos observar que la autntica dicultad de la extraccin del conocimiento estriba en descubrir los mtodos mediante los que se usa el conocimiento en la resolucin y no tanto en la adquisicin del conocimiento esttico del problema (elementos del problema y relaciones) Sobre la adquisicin de los elementos bsicos del dominio, existen bastantes herramientas automticas, encuadradas dentro del rea del aprendizaje automtico (Machine Learning), que permiten reducir el esfuerzo. La segunda diferencia es la naturaleza y la cantidad del conocimiento. En los sistemas software tradicionales es posible estimar estas dos cualidades de manera sencilla, en los sistemas basados en el conocimiento sto es mucho ms difcil. Incluso para los expertos en el dominio es difcil hacer esta evaluacin, lo que complica el calcular el esfuerzo necesario para desarrollar el sistema. Esta dicultad puede hacer que sea complicado obtener un diseo adecuado en las fases iniciales del proyecto pudiendo suceder que durante el proceso de desarrollo se descubra que alguno de los elementos decididos no son realmente adecuados para resolver el problema. Esto puede llevar a tener que decidir entre continuar el desarrollo sabiendo que ese problema tendr consecuencias en las fases restante o empezar de nuevo el proyecto. La manera mas adecuada para minimizar este problema es el uso de tcnicas de desarrollo incremental y de prototipado rpido (rapid prototyping). Ests tcnicas son bastante populares en el desarrollo de sistemas basados en el conocimiento y estn favorecidas por los lenguajes utilizados en este tipo de problemas (PROLOG, LISP, CLIPS, ...) que permiten la construccin rpida de un prototipo funcional del sistema nal. Este prototipo recoger un subconjunto de las funcionalidades del sistema y permitir observar la idoneidad de las decisiones. En el ciclo de vida de este tipo de desarrollo, las fases de anlisis y especicacin deben realizarse teniendo en cuenta el sistema completo, pero el diseo e implementacin se realizan de una manera
130
Analisis Especificacion Diseo Preliminar Prototipo inicial
Evaluacion
Diseo Final
Ajustes Implementacion Validacion Verificacion Mantenimiento

Figura 14.5: Ciclo de vida de un SBC
mas preliminar y reduciendo las necesidades. Esto permite disponer de un sistema funcional que puede ser evaluado para obtener una valoracin de las decisiones tomadas. A partir del prototipo inicial se puede aplicar la metodologa de desarrollo incremental. Esta metodologa se basa en la divisin de problemas y el desarrollo iterativo, de manera que se va completando el sistema aadiendo nuevos mdulos y funcionalidades. Esto permite tener un sistema funcional durante todo el desarrollo.
14.1.4 Ciclo de vida de un sistema basado en el conocimiento

Podemos modicar el ciclo de vida convencional del desarrollo de software para adaptarlo a las necesidades del desarrollo de sistemas basados en el conocimiento, estas seran las fases en las que dividiramos el proceso (ver gura 14.5): 1. Anlisis del problema: Se han de evaluar el problema y los recursos disponibles para determinar si es necesario y viable el desarrollo de un sistema basado en el conocimiento para resolverlo. 2. Especicacin de requerimientos: Formalizar lo que se ha obtenido en la fase de anlisis, jando los objetivos y los medios necesarios para su cumplimiento. 3. Diseo preliminar: Se toman decisiones a alto nivel para crear el prototipo inicial. Estas decisiones deben incluir la forma de representar el conocimiento y las herramientas que se van a utilizar para el desarrollo del prototipo. En esta fase se har necesario obtener informacin general sobre el problema a partir de las fuentes disponibles para poder tomar las decisiones adecuadas. 4. Prototipo inicial y evaluacin: El prototipo inicial debe tener las caractersticas de la aplicacin completa pero su cobertura del problema debe estar limitada. Este prototipo debe permitirnos poder evaluar las decisiones tomadas. Esto hace necesario obtener una cantidad de conocimiento suciente para evaluar la forma escogida de representarlo y utilizarlo. El objetivo es poder detectar los errores que hayamos podido cometer en el diseo preliminar para poder corregirlos en esta fase.
131
5. Diseo nal: En esta fase debemos tomar las decisiones nales con las que vamos a continuar el desarrollo del sistema, las herramientas y recursos a usar y, sobre todo, la forma de representar el conocimiento. Se debe tambin hacer un diseo de la estructura de la aplicacin que nos permita un desarrollo incremental. 6. Implementacin: En esta fase debemos completar la adquisicin del conocimiento necesaria para desarrollar el sistema completo. En esta fase debemos aplicar la metodologa de desarrollo incremental implementando cada uno de los mdulos de la aplicacin. 7. Validacin y vericacin: Se ha de validar el sistema construido y vericar que cumpla las especicaciones del problema. La validacin de estos sistemas es mas compleja que en los sistemas software convencionales dada la naturaleza de los problemas que se resuelven. 8. Ajustes de diseo: Puede ser necesaria cierta realimentacin del proceso y la revisin y ajuste de algunas decisiones tomadas en sus fases anteriores, pero no debera suponer grandes cambios de diseo, ya que el prototipo inicial nos debera haber permitido eliminar los posibles errores en el diseo inicial. 9. Mantenimiento: Esta fase es similar a la que se realizara en el desarrollo de un sistema de software convencional.
14.1.5 Metodologas especializadas

Se han desarrollado bastantes metodologas para el desarrollo de sistemas basados en el conocimiento, algunas genricas, otras ms especializadas, stas son un ejemplo: CommonKADS Una de las metodologas mas conocidas es KADS (Knowledge Acquisition and Documentation Structuring), cuya evolucin se denomina CommonKADS. CommonKADS utiliza un ciclo de vida en espiral y aborda el desarrollo de sistemas basados en el conocimiento como un proceso de modelado utilizando tcnicas y notacin parecidas a UML. El desarrollo se basa en la creacin de un conjunto de seis modelos: organizacin, tareas, agentes, comunicacin, conocimiento y diseo. Estos seis modelos estn interrelacionados y se desarrollan a partir de un conjunto de plantillas que provee la metodologa. Los tres primeros modelos permiten determinar si el problema puede ser resuelto mediante sistemas basados en el conocimiento. Modelan la estructura de la aplicacin, las capacidades que ha de tener y los elementos que son necesarios para la resolucin. En el modelo de conocimiento se ha de representar el conocimiento que es necesario para resolver el problema, tanto la descomposicin en subproblemas, el conocimiento del dominio (ontologa), como los procesos de inferencia involucrados. El modelo de comunicacin se encarga de describir la interaccin entre los elementos de la aplicacin y la informacin que se intercambia. El ltimo modelo describe el diseo de la aplicacin. MIKE MIKE (Model-Based and Incremental Knowledge Engineering) es otra metodologa tambin basada en el ciclo de vida en espiral. Este ciclo esta compuesto por cuatro fases que se repiten: adquisicin del conocimiento, diseo, implementacin y evaluacin. La fase de adquisicin del conocimiento comienza con un proceso de extraccin del conocimiento del que se obtiene un modelo semiformal del conocimiento necesario a partir de entrevistas con los expertos, este modelo es denominado modelo de adquisicin. A partir de esta descripcin semiformal
132
del conocimiento se crea un modelo formal que describe todos los aspectos funcionales y no funcionales del sistema, este modelo es denominado modelo de estructura. A partir de este modelo se realiza un proceso de formalizacin y operacionalizacin que utiliza un lenguaje especializado (KARL, Knowledge acquisition representation language) que combina una descripcin conceptual del sistema con una especicacin formal. Este ltimo modelo es la entrada de la fase de diseo en la que se tienen en cuenta los requisitos no funcionales y se genera un nuevo modelo mediante otro lenguaje especializado (DesignKARL) en el que se describe el sistema de manera mas detallada. Este diseo es el que pasar a la fase de implementacin en el que se plasmar el sistema. Finalmente se realizar la fase de evaluacin.
14.2 Una Metodologa sencilla para el desarrollo de SBC

En esta seccin describiremos una metodologa sencilla para el desarrollo de SBC de tamao pequeo o mediano, basada en un conjunto de fases en las que realizaremos un conjunto de tareas especcas. Est basado en un ciclo de vida en cascada, pero podramos fcilmente encajarlo en una metodologa basada en prototipado rpido y diseo incremental como el descrito en la seccin 14.1.4. Las fases que consideraremos sern las siguientes: 1. Identicacin del problema: Determinar la viabilidad de la construccin de un SBC para solucionar el problema y la disponibilidad de fuentes de conocimiento. 2. Conceptualizacin: Descripcin semiformal del conocimiento del dominio del problema, descomposicin del problema en subproblemas. 3. Formalizacin: Formalizacin del conocimiento y construccin de las ontologas necesarias, identicacin de las metodologas de resolucin de problemas adecuadas. Decisin sobre las tcnicas de representacin y herramientas adecuadas. 4. Implementacin: Construccin del sistema 5. Prueba: Validacin del sistema respecto a las especicaciones.
14.2.1 Identicacin
En esta fase se ha de determinar, en primer lugar, si el problema se puede o se debe abordar mediante las tcnicas de los SBC. Para que un problema sea adecuado no ha de poder solucionarse de manera algortmica, ya que si se pudiera hacer de ese modo, no tendra sentido iniciar una labor tan costosa. Tambin ha de ser necesario tener acceso a las fuentes de conocimiento sucientes para completar la tarea. Por ltimo, el problema a tratar ha de tener un tamao adecuado para que no constituya una tarea inabordable por su complejidad. El siguiente paso consiste en buscar las fuentes de conocimiento que sern necesarias para el desarrollo del sistema, las ms comunes son: Expertos humanos en el dominio del problema. Libros y manuales que expliciten el problema y tcnicas de resolucin. Ejemplos de casos resueltos.
14.2 Una Metodologa sencilla para el desarrollo de SBC
133
Estos ltimos sern importantes sobre todo en la ltima fase de validacin, pero se pueden usar tambin para utilizar tcnicas de adquisicin automtica del conocimiento y obtener de esta manera los elementos bsicos que intervienen y sus relaciones. Con estas fuentes de informacin se podrn determinar los datos necesarios para la resolucin del problema y los criterios que determinen la solucin, tanto los pasos que permiten la resolucin como su posterior evaluacin. En este momento el ingeniero del conocimiento y el experto podrn realizar una primera descripcin del problema, en sta se especicarn: Los objetivos Las motivaciones Las estrategias de resolucin y su justicacin Las fuentes de conocimiento Los tipos de tareas que son necesarias Este esquema ser el punto de partida para plantear las siguientes fases.
14.2.2 Conceptualizacin
Esta fase pretende obtener una visin del problema desde el punto de vista del experto. Ha de poder permitirnos decidir el conocimiento que es necesario para resolver el sistema y las tareas involucradas para obtener una idea informal del alcance del sistema. Necesitamos conocer cuales son los conceptos que ha de manejar el sistema y sus caractersticas de cara a poder elaborar en la fase siguiente una ontologa que los formalice. Hemos de identicar tambin sus caractersticas y necesidades de inferencia para poder elegir el mtodo de representacin del conocimiento mas adecuado. Esto signica que deberemos aplicar tcnicas de desarrollo de ontologas como un proceso paralelo al desarrollo del sistema basado en el conocimiento. Hay tambin que obtener una descomposicin del problema en subproblemas, realizando un anlisis por renamientos sucesivos hasta que nos podamos hacer una idea de la relacin jerrquica de las diferentes fases de resolucin hasta los operadores de razonamiento ms elementales. Otro elemento necesario es descubrir el ujo del razonamiento en la resolucin del problema y especicar cuando y como son necesarios los elementos de conocimiento. Con esta descomposicin jerrquica y el ujo del razonamiento se pueden caracterizar los bloques de razonamiento superiores y los principales conceptos que denen el problema. Har falta distinguir entre evidencias, hiptesis y acciones necesarias en cada uno de los bloques y determinar la dicultad de cada una de las subtareas de resolucin. De esta manera se conseguir captar la estructura del dominio y las diferentes relaciones entre sus elementos. La manera habitual de realizar estas tareas es la interaccin con el experto. En particular, es necesario observar como resuelve problemas tpicos y abstrae de ellos principios generales que pueden ser aplicados en diferentes contextos. Toda esta labor debera darnos un modelo semiformal del dominio y de los problemas y mtodos de resolucin que se debern incluir en el sistema.
14.2.3 Formalizacin
Esta fase ha de darnos una visin del problema desde el punto de vista del ingeniero del conocimiento. Se han de considerar los diferentes esquemas de razonamiento que se pueden utilizar para
134
modelizar las diferentes necesidades de representacin del conocimiento y de resolucin de problemas identicadas en las fases anteriores. Se deber decidir el mecanismo de representacin adecuado y formalizar el conocimiento de manera que podamos crear la ontologa que represente el conocimiento del dominio. En esta fase se detallarn los elementos que forman parte de la ontologa y se iniciar el proceso de su formalizacin. Deberemos decidir tambin la manera ms adecuada de representar los procesos de resolucin identicados. En este punto, se ha de poder comprender la naturaleza del espacio de bsqueda y el tipo de bsqueda que habr que hacer. En este momento se pueden comparar los mtodos de resolucin que aplica el experto en un problema con diferentes mecanismos prototpicos de resolucin de problemas como la clasicacin, abstraccin de datos, razonamiento temporal, estructuras causales, etc. De esta manera decidiremos cuales son los mas adecuados en nuestras circunstancias. En esta etapa tambin tendr que analizarse la certidumbre y completitud de la informacin disponible, dependencias temporales, o la abilidad y consistencia de la informacin. Se deber descubrir qu partes del conocimiento constituyen hechos seguros y cuales no. Para estos ltimos deber elegirse alguna metodologa de tratamiento de la incertidumbre, de manera que sta pueda ser modelizada dentro del sistema.
14.2.4 Implementacin
En esta fase ya se conocern la formas ms adecuadas para la representacin del conocimiento y los mtodos que se adaptan a los mecanismos de resolucin de problemas. Ahora se podrn decidir las herramientas y lenguajes ms adecuados para llevar a cabo la implementacin. Durante esta fase se implementar la ontologa que ha de servir de base para la resolucin del problema el el formalismo de representacin del conocimiento elegido. Decidiremos tambin como encajar la descomposicin de subproblemas de las tareas involucradas en el sistema con las metodologas de resolucin de problemas genricas que habremos identicado en la fase anterior. Una vez validadas o corregidas las decisiones que se han tomado continuaremos con la construccin del sistema aadiendo incrementalmente nuevos mdulos y nuevas funcionalidades. Si procedemos con una metodologa basada en prototipado rpido y desarrollo incremental, deberemos construir un prototipo inicial a partir de una restriccin de las capacidades del sistema. Con las decisiones iniciales podremos construir el conjunto de mdulos necesarios para obtener un prototipo inicial capaz de resolver un subconjunto de problemas y plantearnos las fases del desarrollo incremental.
14.2.5 Prueba
Se ha de elegir un conjunto de casos resueltos representativos y se ha de comprobar el funcionamiento del sistema con estos. Estos casos deberan incluir los utilizados para el diseo del sistema, pero tambin casos nuevos. La validacin de un sistema basado en el conocimiento es ms compleja que en otros sistemas software, dado que estamos implementado resoluciones de problemas de naturaleza heurstica, por lo que es muy difcil determinar la completitud y correctitud del sistema. Esto obligar a realizar futuros mantenimientos o ampliaciones de la aplicacin a medida que se descubran casos en los que el sistema no funcione correctamente. Estos fallos pueden deberse no solo a errores en la implementacin o el diseo, sino tambin a problemas en la formalizacin del conocimiento y de los mtodos de resolucin.
15. Resolucin de problemas en los SBC
15.1 Clasicacin de los SBC

El abordar la construccin de un SBC en cualquier dominio es una tarea difcil, y sera deseable disponer de un conjunto de metodologas de resolucin de problemas que permitieran aproximar soluciones a diferentes tipos de SBC segn sus caractersticas. Con esta idea en mente se han realizado clasicaciones de los SBC segn las tareas que realizan, para intentar descubrir metodologas comunes y as extraer directrices de anlisis en los distintos tipos de dominios. De esta manera, dada una clase de problema dispondramos de: 1. Un conjunto de tareas usuales para cada tipo fciles de identicar. 2. Un conjunto de metodologas de resolucin de problemas especcas para cada tipo. 3. Mtodos de representacin del conocimiento e inferencia adecuados para cada tipo. Originalmente se realiz una primera clasicacin de los SBC atendiendo a las tareas que realizan1 , sta es: Sistemas de Interpretacin: Ineren descripciones de situaciones a partir de observaciones. Sistemas de prediccin: Ineren consecuencias previsibles de situaciones o eventos. Sistemas de diagnstico: Ineren fallos a partir de sntomas. Sistemas de diseo: Desarrollan conguraciones de objetos que satisfacen ciertas restricciones. Sistemas de planicacin: Generan secuencias de acciones que obtienen un objetivo. Sistemas de monitorizacin: Estudian el comportamiento de un sistema en el tiempo y procuran que siga unas especicaciones. Sistemas de correccin: Genera soluciones para fallos en un sistema. Sistemas de control: Gobiernan el comportamiento de un sistema anticipando problemas, planeando soluciones. Esta primera clasicacin, que es la que se utiliz como punto de partida para la identicacin de necesidades para el desarrollo de SBC, plantea varios problemas ya que varias categoras se superponen o estn incluidas en otras. No obstante, da una idea inicial de los rasgos comunes que aparecen entre los distintos dominios en los que tratan los sistemas. Un anlisis alternativo, posterior a ste, permite un tratamiento ms sistemtico de las necesidades de un SBC, ste se basa en las operaciones genricas que puede hacer un SBC respecto al entorno. Se distinguen dos operaciones genricas:
1 Esta clasicacin apareci en: F. Hayes-Roth, D. A. Waterman, D. B. Lenat, Building Expert Systems, Addison Wesley, Reading, MA, 1983.
135
136
Captulo 15. Resolucin de problemas en los SBC Operaciones de anlisis, que interpretan un sistema. Operaciones de sntesis, que construyen un sistema.
Estas operaciones se pueden especializar en otras ms concretas dando lugar a una jerarqua de operaciones. Para el caso del anlisis tenemos:
Interpretacin
Identificacin
Prediccin
Control
Monitorizacin
Diagnstico
En este caso, la interpretacin se podra especializar segn la relacin entre los elementos de entrada/salida de un sistema: Identicacin, nos dice que tipo de sistema tenemos. Prediccin, nos dice que tipo de resultado podemos esperar. Control, determina que entradas permiten conseguir la salida deseada. La identicacin se puede especializar para sistemas con fallos en: Monitorizacin, detecta discrepancias de comportamiento. Diagnstico, explica discrepancias. Para el caso de las operaciones de sntesis tenemos:
Construccin
Especificacin
Diseo
Ensamblaje
Configuracin
Planificacin
La especializacin de la construccin se puede realizar en: Especicacin, busca que restricciones debe satisfacer un sistema.
15.2 Mtodos de resolucin de problemas Diseo, genera una conguracin de elementos que satisfacen las restricciones. Conguracin, como es la estructura actual del sistema. Planicacin, pasos a realizar para ensamblar la estructura. Ensamblaje, construye un sistema juntando las diferentes piezas.
137
Obteniendo una clasicacin de las diferentes tareas y operaciones que realiza un SBC podemos establecer una correspondencia entre estos y los mtodos de resolucin, y de esta manera facilitar la tarea de anlisis de los dominios.
15.2 Mtodos de resolucin de problemas

Diferentes son las tcnicas de resolucin de problemas que se pueden utilizar para las tareas que debe realizar un SBC. Existen ciertas tcnicas generales que se pueden aplicar a diferentes tipos de dominios y tareas. De ellas destacaremos las dos ms utilizadas: Clasicacin Heurstica (Heuristic Classication) Resolucin Constructiva (Constructive Problem Solving)
15.2.1 Clasicacin Heurstica

La clasicacin es un mtodo utilizado en muchos dominios. El elemento esencial de sta consiste en que el experto escoge una categora de un conjunto de soluciones previamente enumerado. En dominios simples, el disponer de las caractersticas esenciales de cada una de las categoras es suciente para establecer la clase del problema y su solucin. Esto no ocurre as cuando la complejidad del problema aumenta, pues las caractersticas esenciales son cada vez ms difciles de identicar. El objetivo de la tcnica de clasicacin heurstica ser obtener y representar el conocimiento necesario para que la asociacin problema-solucin se pueda realizar. Se dene como clasicacin heurstica a toda asociacin no jerrquica entre datos y categoras que requiere de inferencias intermedias. Es decir, el establecer la clase de un problema requiere realizar inferencias y transformaciones sobre ste, para poder asociarlo con la descripcin de la clase. El esquema de razonamiento para hacer estas inferencias se ha de adquirir del experto. La clasicacin heurstica se divide en tres etapas: 1. Abstraccin de los datos Por lo general, se hace una abstraccin del caso concreto para acercarlo a las soluciones que se poseen. 2. Asociacin heurstica Se busca la mayor coincidencia entre el caso abstrado y las soluciones. Esta asociacin es de naturaleza heurstica, es decir, depende de conocimiento basado en la experiencia, y, por lo general, la correspondencia entre caso y soluciones no ser uno a uno, existirn excepciones, y las coincidencias no sern exactas. La solucin corresponder con la que mejor coincida con la abstraccin de los datos.
138
Captulo 15. Resolucin de problemas en los SBC

Asociacin heurstica
Problema Abstracto
Solucin Abstracta
Refinamiento/ Adaptacin
Abstraccin de datos
Problema Concreto
Solucin Concreta
Figura 15.1: Pasos de la clasicacin heurstica 3. Renamiento de la solucin Haber identicado la abstraccin de la solucin reducir el espacio de bsqueda, ahora ser necesario buscar la mejor solucin determinada por la solucin abstracta. Esto puede necesitar de ms deducciones, o de la utilizacin de ms informacin. De esta manera se debe reducir el espacio de bsqueda hasta encontrar la mejor solucin. En la gura 15.1 se puede ver un esquema del proceso. Dentro de este proceso, un punto importante es la abstraccin de los datos. Tres son las ms utilizadas: Abstraccin denicional: Se deben extraer las caractersticas denitorias del problema y focalizar la bsqueda con stas. Le corresponde al experto decidir cuales son esas caractersticas. Cualitativa: Supone abstraer sobre valores cuantitativos, convirtindolos en cualitativos (e.g.: Fiebre = 39o C = Fiebre = alta). Generalizacin: Se realiza abstraccin sobre una jerarqua de conceptos (e.g.: forma = pentgono = forma = polgono). Se puede ver que esta metodologa de resolucin de problemas capta una gran cantidad de dominios, siendo adecuada para cualquier problema en el que se pueda hacer una enumeracin del espacio de soluciones. Es vlida para todas las tareas de anlisis. Clasicacin heurstica en los sistemas de reglas Por lo general, la construccin de un sistema mediante clasicacin heurstica basado en reglas es una labor iterativa. A los expertos a veces les es difcil dar las reglas que son capaces de realizar la labor de clasicacin, y adems encuentran difcil el formalismo de las reglas. Es proceso de renamiento del sistema ha de hacerse paso a paso, aadiendo nuevas reglas que cubran nuevos casos y vigilando las interacciones. La metodologa que se suele seguir es la siguiente: 1. El experto da las nuevas reglas al IC. 2. El IC cambia la base de conocimiento. 3. El IC prueba casos ya resueltos para comprobar inconsistencias. 4. Si aparecen errores, se comprueba el nuevo conocimiento con el experto y se empieza de nuevo.
15.2 Mtodos de resolucin de problemas 5. Se prueban nuevos casos. 6. Si no hay problemas se para, sino se retorna al principio.
139
Esta labor iterativa se puede realizar de manera independiente para cada uno de los mdulos que componen el sistema, reduciendo de esta manera las interacciones entre diferentes partes del conocimiento. Estrategias de adquisicin del conocimiento con clasicacin heurstica La aplicacin de la clasicacin heurstica a diferentes problemas ha llevado a mtodos que permiten dirigir la explicitacin del conocimiento por parte del experto de una manera ms sistemtica, enfocando la labor de extraccin en cada uno de los elementos que componen las reglas (hiptesis, sntomas, causas, cadenas de inferencia, hechos intermedios, conanza en las evidencias y las asociaciones evidencia-conclusin). El conjunto de conceptos del problema se puede dividir en tres: Las hiptesis: Soluciones posibles a nuestro problema. Los sntomas: Caractersticas que describen las hiptesis Las causas originales: Informacin del problema que lleva a los sntomas Las causas y los sntomas se relacionarn mediante las reglas de abstraccin. De los datos originales obtendremos los valores para el conjunto de caractersticas que describen a los problemas. Los sntomas y las hiptesis se relacionarn mediante las reglas de asociacin heurstica. De las caractersticas que tiene el problema a solucionar deberemos identicar las hiptesis ms probables. En cada conjunto de reglas (reglas de abstraccin, reglas de asociacin heurstica) deberemos observar qu antecedentes estn asociados con que consecuentes. El objetivo es escoger aquellos antecedentes que permitan distinguir mejor los consecuentes, ya que estos pueden tener caractersticas comunes. El objetivo es escribir las reglas que permitan diferenciar mejor a los consecuentes. En este proceso es posible que sea necesario introducir conceptos nuevos (conceptos intermedios) que pueden determinar una cadena de deducciones entre las premisas originales y las conclusiones. Estas cadenas de deducciones pueden ser complejas, dependiendo del problema. Durante el proceso de construccin de las reglas podemos observar tambin la certidumbre de esas asociaciones (conanza con la que los antecedentes permiten deducir los consecuentes), de manera que podamos hacer el tratamiento adecuado. En el caso de las soluciones, si estas corresponden a abstracciones ser necesario determinar las reglas que permiten especializarlas en soluciones concretas. Aplicacin de la clasicacin heurstica Como ejemplo de la tcnica de clasicacin heurstica, vamos a plantear un pequeo SBC para la concesin de crditos bancarios para creacin de empresas. El propsito de este sistema ser examinar las solicitudes de crditos de clientes con pretensiones de crear una empresa, para determinar si se les debe conceder y que cuanta es la recomendable respecto a la que solicitan. El problema que se nos plantea tiene por lo tanto una labor de anlisis que nos ha de predecir la abilidad de si cierta persona, en ciertas condiciones, ser capaz de devolver un crdito si se lo concedemos. El nmero de soluciones a las que podemos llegar es evidentemente nito, el crdito se concede, o no se concede, y en el caso de que se conceda, se decidir si la cuanta solicitada es adecuada o si slo se puede llegar hasta cierto lmite. Todas estas caractersticas indican que la metodologa de resolucin que mejor encaja es la clasicacin heurstica, por lo tanto dirigiremos el planteamiento con las fases que necesita.
140
Deberemos plantear cuatro tipos de elementos que denen el proceso de clasicacin heurstica y los mecanismos para transformar unos en otros. Primero deniremos como se plantearn los problemas al sistema, es decir, qu elementos se correspondern con los datos especcos, las solicitudes de crdito. Esta informacin ha de denir el estado nanciero del solicitante, el motivo por el que pide el crdito, cuanto dinero solicita, etc. Supongamos que una solicitud contiene la siguiente informacin: Si tiene avales bancarios. Si tiene familiares que puedan responder por l. Si tiene cuentas corrientes, casas, coches, ncas, etc. y su valoracin. Si tiene antecedentes de morosidad. Si ha rmado cheques sin fondos. Si tiene crditos anteriores concedidos. Tipo de empresa que quiere crear. Cantidad de dinero que solicita. Esta informacin deber convertirse mediante el proceso de abstraccin de datos en los problemas abstractos a partir de los cuales se har el razonamiento. Podramos decidir que nuestras soluciones abstractas quedan denidas por los siguientes atributos: Apoyo nanciero: Valoracin de la capacidad econmica para responder al valor del crdito que solicita. Este apoyo se puede evaluar con la informacin sobre avales y personas allegadas que puedan responder por l. Bienes: Dinero o propiedades que puedan usarse para responder por el crdito o que se puedan embargar en caso de no devolucin. Fiabilidad de devolucin: Informacin sobre si el cliente tiene antecedentes econmicos positivos o negativos. Compromiso: Informacin sobre si ya se tienen compromisos econmicos con esa persona o si se tienen intereses especiales con ella. Viabilidad de la empresa: Tipo de empresa que se quiere crear y su posible futuro. Supondremos que estos cinco atributos pueden tomar valores cualitativos que estarn dentro de este conjunto: muy bueno, bueno, normal, regular, malo, muy malo. Para realizar la abstraccin de datos se podran dar un conjunto de reglas que haran la transformacin, como por ejemplo: si avales > un milln euros o to rico entonces apoyo nanciero bueno si avales entre 100000 euros y un milln entonces apoyo nanciero normal si avales < 100000 euros entonces apoyo nanciero malo si suma bienes < un milln entonces bienes malo si suma bienes entre uno y dos millones entonces bienes normal
15.2 Mtodos de resolucin de problemas si suma bienes > dos millones entonces bienes bien si cheques sin fondos o moroso entonces abilidad muy mala si fbrica de agujeros entonces viabilidad muy mala si hamburguesera o heladera entonces viabilidad normal si grandes almacenes o proveedor de internet entonces viabilidad muy buena si concedido crdito < 100000 euros entonces compromiso regular si concedido crdito > un milln o hermano del director entonces compromiso bueno
141
El conjunto de soluciones abstractas a las que podra dar el anlisis de las solicitudes podra ser el siguiente: Denegacin, no hay crdito para el cliente. Aceptacin, se acepta el crdito tal como se solicita. Aceptacin con rebaja, se acepta el crdito, pero se rebaja la cantidad solicitada, harn falta reglas para crear la solucin concreta indicando la cantidad nal que se concede. Aceptacin con inters preferente, se concede la cantidad solicitada, pero adems se rebaja el inters que normalmente se pone al crdito, en este caso tambin har falta generar una solucin concreta. Ahora nos faltan las reglas que nos harn la asociacin heurstica entre los problemas abstractos y las soluciones abstractas. Un conjunto de reglas que cubre una pequea parte del espacio de soluciones podra ser: si apoyo nanciero=regular y bienes=malo entonces denegar si abilidad={mala, muy mala} entonces denegar si apoyo nanciero=normal y bienes=normal y viabilidad=buena entonces aceptar con rebaja si apoyo nanciero=bueno y bienes=normal y compromiso=normal y viabilidad=buena entonces aceptar si apoyo nanciero=bueno y bienes=bueno y compromiso=muy bueno y viabilidad=muy buena entonces aceptar con inters preferente Por ltimo, nos hacen falta reglas para poder generar soluciones concretas en los casos que son necesarias, algunas reglas podran ser: si aceptacin con rebaja y peticin > 500000 euros y bienes = 500000 euros entonces rebaja a 500000 euros si aceptacin con inters preferente y peticin > un milln y bienes > un milln entonces rebaja de un 1 % de inters si aceptacin con inters preferente y hermano del director entonces rebaja de un 2 % de inters
142
15.2.2 Resolucin Constructiva

En contraste con la clasicacin heurstica, hay dominios en los que las soluciones no se pueden enumerar a priori, sino que la solucin ha de construirse. Por ejemplo, en problemas de diseo, de planicacin, y, por lo general, en todos los problemas que incluyen tareas de sntesis. Este tipo de problemas se pueden atacar mediante mtodos no guiados por conocimiento, pero obtener una solucin satisfactoria es computacionalmente prohibitivo. Construir una solucin necesita que exista un modelo de la estructura y el comportamiento del objeto que se desea construir, modelo que debe contener conocimiento acerca de las restricciones que se deben satisfacer. Este conocimiento debe incluir: 1. Restricciones en la conguracin de los componentes (fsicas, temporales, ...). 2. Restricciones respecto a las entradas y salidas/precondiciones y postcondiciones de los operadores de construccin. 3. Interacciones entre estos dos tipos de restricciones. Es necesario tambin conocimiento que permita evaluar las decisiones que se toman y la solucin actual (total o parcial). Este conocimiento es ms elaborado que el que se utiliza en los algoritmos de bsqueda heurstica o bsqueda local. En estos algoritmos la informacin heurstica es de carcter ms general. En la resolucin constructiva se debe poder evaluar la bondad de cada paso en las circunstancias particulares de su aplicacin. Dos son las estrategias generales que se siguen para la resolucin de este tipo de problemas: Proponer y aplicar (Propose and apply). Mnimo compromiso (Least commitment). Proponer y aplicar En principio, el experto debe tener una idea clara de la descomposicin en tareas del problema y de las relaciones espacio temporales entre stas para, de esta manera, plantear las restricciones que se tienen que cumplir. Se han de denir tambin las operaciones que se pueden efectuar en cada estado de la resolucin, cundo se pueden aplicar y cules son sus efectos. Los pasos que se siguen en esta metodologa son los siguientes: 1. Inicializar el objetivo: Se crea el elemento que dene la solucin actual 2. Proponer un operador: Se seleccionan operaciones plausibles sobre la solucin actual. 3. Podar operadores: Se eliminan operadores de acuerdo con criterios globales. Estos criterios globales consistirn en criterios de consistencia generales que permiten descartar operadores que, aun siendo aplicables, se ve claramente que no mejorarn la solucin (e.g.: no tiene sentido escoger el operador que deshaga el efecto del ltimo operador aplicado). 4. Evaluar operadores: Se comparan los efectos de los operadores sobre la solucin y se evala su resultado. Es en este punto donde interviene el conocimiento del experto para realizar la evaluacin de los operadores. Si ninguno de los operadores es considerado adecuado se pasa a reconsiderar pasos anteriores. 5. Seleccionar un operador: Se escoge el operador mejor evaluado. 6. Aplicar el operador: Se aplica el operador al estado actual.
143
Resolucin
Solucin
Resolucin
Solucin
Figura 15.2: Resolucin secuencial/resolucin por descomposicin de tareas
7. Evaluar el objetivo: Se para si se ha llegado al objetivo nal o se reinicia el proceso. La forma de plantear la solucin del problema puede ser esencial para la eciencia del proceso de resolucin. El planteamiento ms sencillo es denir el problema como una bsqueda en el espacio de soluciones parciales construyendo la solucin paso a paso (secuencialmente). Esta aproximacin puede ser viable si se dispone de un conocimiento exhaustivo sobre como evaluar cada uno de los pasos de la resolucin y se puede dirigir la exploracin rpidamente hacia el camino solucin. Esta aproximacin puede ser poco eciente si el conocimiento para la evaluacin de los pasos de resolucin no es sucientemente buena. Una alternativa es plantear el problema como una descomposicin jerrquica de tareas. El conjunto de operadores permite dividir el problema inicial en problemas de complejidad decreciente hasta llegar al nivel de operaciones primitivas. Esto signica que el conjunto de operadores que permiten solucionar el problema no se ha de limitar a las acciones primitivas, sino que debe incluir aquellos que permiten hacer la descomposicin del problema. Evidentemente esto aumenta el trabajo de adquisicin del conocimiento, pero redunda en un aumento considerable de la eciencia. Mnimo compromiso Un planteamiento alternativo consiste en partir de soluciones completas no ptimas e ir mejorndolas hasta llegar a una solucin mejor, aunque veces se puede partir de una no solucin y corregirla hasta llegar al espacio de soluciones. La bsqueda la realizaramos en el espacio de soluciones completas. Para poder aplicar esta estrategia el problema nos debera permitir hallar fcilmente una
144
Figura 15.3: Planicacin de la trayectoria de un robot solucin inicial completa. La eleccin del operador a aplicar en cada paso de la resolucin la dene la estrategia de mnimo compromiso: mnima modicacin que imponga menos restricciones futuras. La estrategia de resolucin sera la siguiente: 1. Partir de una solucin inicial no ptima, usualmente que satisface las restricciones. 2. Hacer una modicacin sobre la solucin. Esta modicacin ha de hacerse de acuerdo con la heurstica de mnimo compromiso, es decir, escoger la accin que menos restricciones imponga sobre la solucin y, por lo tanto, menos restricciones imponga sobre el prximo paso. 3. Si la modicacin viola alguna de las restricciones, se intenta deshacer alguno de los pasos anteriores, procurando que las modicaciones sean las mnimas. Esta modicacin no tiene por que ser precisamente deshacer el ltimo paso que se realiz. El conocimiento del experto ha de aparecer en la evaluacin de los efectos de los operadores sobre las restricciones, de manera que se pueda escoger siempre el operador con menos efecto sobre stas y que permita ms libertad de movimientos. Aplicacin de la resolucin constructiva Queremos planicar la mejor trayectoria de un robot en una habitacin de manera que de un punto de salida llegue a la puerta de la habitacin sin colisionar sin ninguno de los obstculos que hay en la habitacin. Supondremos que el robot puede ver lo que tiene delante de l y con ello calcular la distancia a los objetos que tiene a su alrededor. Disponemos de un conjunto de operadores que le permiten: Moverse hacia adelante o hacia atrs cierta distancia a cierta velocidad Girar cierto nmero de grados En este caso las restricciones globales son que se debe llegar a la puerta de salida y que el recorrido de la trayectoria y el tiempo que se tarde debe ser el menor posible. Las restricciones que se aplican a la eleccin de los operadores sern que el robot no choque con ninguno de los obstculos o la pared, esto incluye que la distancia para pasar entre dos obstculos debe ser la adecuada para que el robot pueda maniobrar y no se quede atascado. La evaluacin de la bondad de los operadores depender de cada movimiento. El operador mover ser mejor cuando su aplicacin nos acerque ms al objetivo y ms rpidamente. El operador girar
145
ser mejor cuando la trayectoria en que nos deje el giro est ms libre y por lo tanto ms lejos tenga los obstculos ms prximos. Con estos operadores y restricciones, podemos resolver el problema utilizando los pasos de resolucin de la estrategia proponer y aplicar para encontrar la ruta.
146
16. Razonamiento aproximado e incertidumbre
16.1 Incertidumbre y falta de informacin

Por lo general, el conocimiento que se debe manejar dentro de la mayora de los dominios tratados por los sistemas basados en el conocimiento (SBC) no es de naturaleza exacta. En la prctica nos encontramos con problemas como: Representar el conocimiento para cubrir todos los hechos que son relevantes para un problema es difcil Existen dominios en los que se desconocen todos los hechos y reglas necesarias para resolver el problema Existen problemas en los que an teniendo las reglas para resolverlos no disponemos de toda la informacin necesaria para aplicarlas Esto signica que para poder razonar dentro de estos sistemas tendremos que utilizar herramientas ms potentes que las que nos brinda la lgica clsica, que slo nos permitira trabajar con conocimiento del que pudiramos establecer de manera efectiva su veracidad o falsedad. De hecho, este objetivo no es descabellado ya que podemos observar como toda persona esta acostumbrada a tomar decisiones ante informacin incompleta o imprecisa (Invertimos en bolsa, diagnosticamos enfermedades, ...) y esa imprecisin o falta de conocimiento no impide la toma de decisiones. Esta claro que si deseamos que los SBC emulen la capacidad de los expertos hemos de dotarlos de mecanismos que sean capaces de abordar este problema. La imprecisin o la falta de certeza en la informacin proviene de muchas fuentes, de entre ellas podemos citar: 1. Incompletitud de los datos debida a la no disponibilidad de stos. 2. Incertidumbre de los datos debida a las limitaciones de los aparatos de medida, o a apreciaciones subjetivas del observador. 3. Incertidumbre en las asociaciones realizadas entre datos y conclusiones. 4. Imprecisin en el lenguaje de descripcin debida al uso del lenguaje natural, ya que se presta a ambigedades y malas interpretaciones. El tratar con este problema ha llevado a desarrollar un conjunto de lgicas y modelos que intentan tratar el problema de la incompletitud e imprecisin del conocimiento desde diferentes perspectivas y modelizar de esta manera los procesos de razonamiento que aplican las personas. Muchas son las propuestas que se han desarrollado a lo largo de la evolucin de los SBC, nos centraremos nicamente en dos formalismos que provienen de dos visiones distintas de la incertidumbre: Modelo probabilista (Redes Bayesianas) Modelo posibilista (Lgica difusa)
147
148
Captulo 16. Razonamiento aproximado e incertidumbre
17. Modelo Probabilista
17.1 Introduccin
Los modelos probabilistas se fundamentan en la teora de la probabilidad. Las probabilidades se utilizan para modelizar nuestra creencia sobre la veracidad o falsedad de los hechos, de manera que podamos asignar valores de probabilidad a los diferentes hechos con los que tratamos y utilizar esas probabilidades para razonar sobre su certidumbre. Cada hecho tendr una probabilidad asociada de por si, o derivada de la probabilidad de aparicin de otros hechos. Estas probabilidades sern las que nos permitirn tomar decisiones. Esta toma de decisiones no es esttica, la probabilidad de un hecho podr ser modicada por la observacin y la modicacin de la creencia en otros hechos que estn relacionados. Podemos por ejemplo suponer que el hecho de decidir llevar o no un paraguas al salir de casa por la maana puede verse afectada por multiples circunstancias. En principio tendremos una decisin a priori que depender del clima donde nos encontremos. Si estamos en una zona donde no llueve apenas nuesta decisin por omisin ser no cogerlo. Si por ejemplo vemos la prediccin del tiempo el dia anterior esta decisin puede variar dependiendo de lo que nos cuenten, si nos dicen que al dia siguiente habr nubosidad la decisin se inclinar ms hacia coger el paraguas. Si adems obervamos al dia siguiente que el suelo est mojado esta decisin se reforzar an mas.
17.2 Teora de probabilidades

Antes de comenzar a hablar de como modelizar el razonamiento mediante probabilidades, debemos repasar algunos conceptos bsicos de la teora de probabilidades. El elemento fundamental de teora de probabilidades es la variable aleatoria. Una variable aleatoria tiene un dominio de valores (valores posibles que puede tomar y sobre los que establecemos una distribucin de probabilidad), podemos tener variables aleatorias booleanas, discretas o continuas. Para poder trasladar la teora de la probabilidad a un sistema basado en el conocimiento, deberemos crear una relacin entre la representacin del conocimiento que utilizamos y los elementos sobre los que establecemos las distribuciones de probabilidad. En la prctica, toda representacin del conocimiento que utilizamos se fundamenta en la lgica, de manera que la utilizaremos como lenguaje representacin y utilizaremos las frmulas lgicas como elemento bsico. De esta forma, deniremos una proposicin lgica como cualquier frmula en lgica de enunciados o predicados, siendo stas elementos primitivos de nuestra representacin. Una proposicin lgica tendr asociada una variable aleatoria que indicar nuestro grado de creencia en ella. Una variable aleatoria tendr asociada una distribucin de probabilidad. La forma de expresar esta distribucin de probabilidad depender del tipo de variable aleatoria (Discretas: Binomial, Multinomial, ...; Continuas: Normal, 2 , ...). El elegir un tipo de variable aleatoria u otro depende de como creamos que la informacin correspondiente a la proposicin lgica debe modelarse. Para simplicar, slo trabajaremos con variables aleatorias discretas, de manera que toda proposicin lgica 149
150
Captulo 17. Modelo Probabilista
tendr un conjunto enumerado de posibles respuestas. En cualquier problema, tendremos distintas proposiciones lgicas que intervendrn en una decisin, por lo tanto, tendremos que describir como son las variables aleatorias que describen estas proposiciones y como se debe calcular su inuencia sobre las deducciones que permiten realizar las proposiciones. La unin de variables aleatorias se puede describir mediante una distribucin de probabilidad conjunta. Este ser el mecanismo que nos va a permitir describir como se puede razonar mediante probabilidades. Denotaremos como P (a) la probabilidad de que la proposicin A tenga el valor a. Por ejemplo, la proposicin F umar puede tener los valores {f umar, f umar}, P (f umar) es la probabilidad de la proposicin F umar = f umar. Denotaremos como P (A) al vector de probabilidades de todos los posibles valores de la proposicin A Deniremos como probabilidad a priori (P (a)) asociada a una proposicin como el grado de creencia en ella a falta de otra informacin. Del conjunto de proposiciones que tengamos, algunas no tienen por que estar inuidas por otras, de estas dispondremos de una distribucin de probabilidad a priori que representar la probabilidad de que tomen cualquiera de sus valores. Deniremos como probabilidad a posteriori o condicional (P (a|b)) como el grado de creencia en una proposicin tras la observacin de proposiciones asociadas a ella. Esta probabilidad estar asociada a las proposiciones que se ven inuidas por la observacin de otras proposiciones, por lo que nuestra creencia en ellas variar segn la observacin de stas. La probabilidad a posteriori se puede denir a partir de probabilidades a priori como: P (a b) P (b) Esta frmula se puede transformar en lo que denominaremos la regla del producto: P (a|b) = P (a b) = P (a|b)P (b) = P (b|a)P (a) Podemos observar por esta regla que la teora de la probabilidad no asigna a priori una direccin a la causalidad y que se puede calcular la inuencia de una proposicin en otra y viceversa.
17.3 Inferencia probabilstica

El usar como base de un mecanismo de inferencia la teora de la probabilidad, restringe las cosas que podemos creer y deducir al marco de los axiomas en los que se fundamenta la probabilidad. Estos axiomas son: Toda probabilidad est en el intervalo [0, 1] 0 P (a) 1 La proposicin cierto tiene probabilidad 1 y la proposicin f also tiene probabilidad 0 P (cierto) = 1 P (f also) = 0
La probabilidad de la disyuncin se obtiene mediante la frmula P (a b) = P (a) + P (b) P (a b) Dadas estas reglas bsicas, podemos establecer una serie de mecanismos de inferencia, como por ejemplo:
17.3 Inferencia probabilstica
151
Marginalizacin: Probabilidad de una proposicin atmica con independencia de los valores del resto de proposiciones P (Y ) = P (Y, z)
z
Probabilidades condicionadas: Probabilidad de una proposicin dados unos valores para algunas proposiciones e independiente del resto de proposiciones (a partir de la regla del producto) P (X|e) = P (X, e, y)
y
El valor es un factor de normalizacin que corresponde a factores comunes que hacen que las probabilidades sumen 1. Ejemplo 17.1 Consideremos un problema en el que intervengan las proposiciones F umador = {f umador, f umador}, Sexo = {varon, mujer}, Enf isema = {enf isema, enf isema} La siguiente tabla nos describe las distribuciones de probabilidad conjunta de estas proposiciones enf isema varon mujer 0.2 0.1 0.02 0.02 enf isema varon mujer 0.05 0.05 0.23 0.33
f umador f umador
A partir de ella podemos hacer ciertas inferencias probabilsticas respecto a la combinacin de las diferentes proposiciones y su inuencia entre ellas P (enf isema varon) = 0.2 + 0.02 P (f umador mujer) = 0.2 + 0.1 + 0.05 + 0.05 + 0.02 + 0.33 P (F umador|enf isema) = P (f umador, enf isema, varon) +P (f umador, enf isema, mujer), P (f umador, enf isema, varon) +P (f umador, enf isema, mujer) = 0.3, 0.04 = 0.88, 0.12 Para poder realizar todos estos procesos de inferencia se requiere almacenar y recorrer la distribucin de probabilidad conjunta de todas las proposiciones. Esto supone un gasto en tiempo y espacio impracticable. Suponiendo proposiciones binarias el coste en espacio y tiempo es O(2n ) siendo n el nmero de proposiciones. Cualquier problema real tiene un nmero de proposiciones suciente para hacer que estos mecanismos de inferencia no sean tiles por su coste computacional. Se hace pues necesario crear mecanismos que nos simpliquen el coste del razonamiento
17.3.1 Probabilidades condicionadas y reglas de produccin

Hasta ahora podra parecer que los mtodos de inferencia probabilstica son mecanismos alejados de los sistemas de produccin, ya que no parece que existan los conceptos de premisas y conclusiones, ni de encadenamiento.
152
En el mundo probabilstico la realidad est compuesta por un conjunto de eventos (variables aleatorias) que estn ligados a travs de las distribuciones de probabilidad conjunta. Un suceso es la observacin de una combinacin de valores de esas variables. Al utilizar la formula de probabilidades condicionadas estamos imponiendo una relacin de causalidad entre las variables que componen esos sucesos, cuando escribimos: P (X|e) =
y
P (X, e, y)
estamos preguntando como inuyen el conjunto de variables conocidas e sobre el valor de verdad de la variable en la que estamos interesados X (es mas probable x o x?). Asumimos que X es consecuencia de e. La ventaja de la formalizacin probabilstica es que esta frmula nos permite evaluar todas las reglas posibles que podamos crear como combinacin de todas las variables de nuestro problema. Por ejemplo, supongamos que en un problema intervienen un conjunto de variables V = {A, B, C, D, E, F }, todas las variables estn ligadas mediante una distribucin de probabilidad conjunta P (A, B, C, D, E, F ). En el formalismo de reglas de produccin si consideramos que F se ve inuida por los valores del resto de variables escribiramos reglas como por ejemplo: A B C D E F A B C F
Pero si nos jamos en el signicado de la distribucin de probabilidad conjunta, sta precisamente nos representa todas las posibles reglas que podemos construir con esas variables. Esta distribucin nos permite calcular la inuencia que tiene cualquier subconjunto de variables respecto al valor de verdad de cualquier otro subconjunto. La forma de calcularla es aplicar frmula de probabilidades condicionadas. Evidentemente, supone una ventaja poder codicar todas estas reglas como una distribucin de probabilidad y poseer un mecanismo de razonamiento simple. Al ser este planteamiento exhaustivo (representamos todas las reglas posibles) el formalismo probabilstico tambin nos permite realizar inferencia ante la falta de premisas (en nuestro caso sern variables ocultas). La distribucin de probabilidad conjunta y la formula de probabilidades condicionadas nos permiten incluir la inuencia de estas variables a pesar de que no conozcamos su valor. Los problemas que tendremos sern obtener esa distribucin de probabilidad conjunta y que el mecanismo de inferencia es computacionalmente prohibitivo tal como est planteado hasta ahora.
17.4 Independencia probabilstica y la regla de Bayes

Por lo general, no todas las proposiciones que aparecen en un problema estn relacionadas entre si. De hecho para cada proposicin dependiente podemos identicar slo un subconjunto de proposiciones que las inuyen, siendo el resto irrelevantes para la inferencia de sus probabilidades. Llamaremos a esta propiedad independencia probabilstica Suponiendo que dos proposiciones X e Y no se inuyen entre si, podemos reescribir sus probabilidades como: P (X|Y ) = P (X); P (Y |X) = P (Y ); P (X, Y ) = P (X)P (Y )
17.5 Redes Bayesianas
153
Dadas estas propiedades podremos reescribir las probabilidades conjuntas de manera ms compacta reduciendo la complejidad Anteriormente hemos enunciado la regla del producto como: P (X, Y ) = P (X|Y )P (Y ) = P (Y |X)P (X) Esta regla nos lleva a lo que denominaremos la regla de Bayes P (Y |X) = P (X|Y )P (Y ) P (X)
Esta regla y la propiedad de independencia sern el fundamento del razonamiento probabilstico y nos permitir relacionar las probabilidades de unas evidencias con otras. Suponiendo que podemos estimar exhaustivamente todas las probabilidades que involucran la variable Y podemos prescindir de las probabilidades a priori de la variable X y reescribir la formula de Bayes como: P (Y |X) = P (X|Y )P (Y ) Esto es as porque las probabilidades P (Y = y1 |X) . . . P (Y = yn |X) han de sumar uno, ser un factor de normalizacin. Suponiendo independencia condicional entre dos variables X e Y podremos escribir la probabilidad condicional de otra variable Z respecto a estas como: P (X, Y |Z) = P (X|Z)P (Y |Z) De manera que si substituimos en la regla de Bayes: P (Z|X, Y ) = P (X|Z)P (Y |Z)P (Z)
17.5 Redes Bayesianas

Si determinamos la independencia entre variables podemos simplicar el clculo de la combinacin de sus probabilidades y su representacin, de manera que podremos razonar sobre la inuencia de las probabilidades de unas proposiciones lgicas sobre otras de una manera ms eciente Las redes bayesianas son un formalismo que permite la representacin de las relaciones de independencia entre un conjunto de variables aleatorias. Una red bayesiana es un grafo dirigido acclico que contiene informacin probabilstica en sus nodos, indicando cual es la inuencia que tienen sobre un nodo Xi sus padres en el grafo (P (Xi |padres(Xi ))). El signicado intuitivo de un enlace entre dos nodos X e Y es que la variable X tiene inuencia directa sobre Y . En cada uno de los nodos de la red aparece la distribucin de probabilidad del nodo respecto a sus padres, es decir, como estos inuyen la probabilidad del ho. Esta forma de representar las inuencias entre variables permite factorizar la distribucin de probabilidad conjunta, convirtindose en el producto de probabilidades condicionales independientes:
n
P (x1 , x2 , . . . , xn ) =
i=1
P (xi |padres(xi ))
El conjunto de probabilidades representadas en la red bayesiana describe la distribucin de probabilidad conjunta de todas las variables, esto hace que no sea necesaria una tabla completa que describa la inuencia entre todas ellas.
154
Intuitivamente podramos decir que con la red bayesiana estamos aadiendo suposiciones adicionales al modelo probabilstico puro (todo esta relacionado con todo) estableciendo que solamente algunas inuencias son posibles y que existe una direccin especca para la causalidad, que es la que indican los arcos la red. Las propiedades que tienen las redes bayesianas nos dan ciertas ideas sobre como debemos construirlas a partir de un conjunto de proposiciones. Si consideramos que (regla del producto): P (x1 , x2 , . . . , xn ) = P (xn |xn1 , . . . , x1 )P (xn1 , . . . , x1 ) Iterando el proceso tenemos que: P (x1 , . . . , xn ) = P (xn |xn1 , . . . , x1 )P (xn1 |xn2 , . . . , x1 ) P (x2 |x1 )P (x1 )
n
=
i=1
P (xi |xi1 , . . . , x1 )
Esta es la llamada regla de la cadena Dadas estas propiedades, podemos armar que si padres(Xi ) {Xi1 , . . . , X1 }, entonces: P (Xi |Xi1 , . . . , X1 ) = P (Xi |padres(Xi )) Esto quiere decir que una red bayesiana es una representacin correcta de un dominio slo si cada nodo es condicionalmente independiente de sus predecesores en orden, dados sus padres. Para lograr esto, se han de escoger como padres de una variable Xi aquellas de entre las variables X1 , . . . Xi1 que inuyan directamente en Xi . Es decir, para describir la inuencia que recibe una proposicin del resto de proposiciones de las que disponemos, slo es necesario utilizar las que inuyen ms directamente. La inuencia del resto de proposiciones (si es que existe) estar descrita por las relaciones que puedan tener estas con los padres inmediatos de la proposicin. El utilizar una red bayesiana como representacin de la distribucin de probabilidad conjunta de un grupo de proposiciones supone una gran reduccin en coste espacial. Como comentamos, el coste de representar la distribucin de probabilidad conjunta de n variables binarias es O(2n ). La representacin de redes bayesianas nos permite una representacin mas compacta gracias a la factorizacin de la distribucin conjunta. Suponiendo que cada nodo de la red tenga como mximo k padres (k n), k un nodo necesitar 2 para representar la inuencia de sus padres, por lo tanto el espacio necesario ser O(n2k ). Por ejemplo, con 10 variables y suponiendo 3 padres como mximo tenemos 80 frente a 1024, con 100 variables y suponiendo 5 padres tenemos 3200 frente a aproximadamente 1030 Ejemplo 17.2 La red bayesiana de la gura 17.1 muestra las relaciones de dependencia entre un conjunto de proposiciones lgicas y la distribucin de probabilidad que sigue cada una de esas inuencias. A partir de la red podemos calcular la probabilidad de una proposicin lgica utilizando las relaciones de dependencia entre las variables P (Inf arto = si P resion = alta F umador = si Deporte = si Alimentacion = equil) = P (Inf arto = si|P resion = alta, F umador = si) P (P resion = alta|Deporte = si, Alimentacion = equil) P (F umador = si)P (Deporte = si)P (Alimentacion = equil) = 0.8 0.01 0.4 0.1 0.4 = 0.000128
17.6 Inferencia probabilstica mediante redes bayesianas

Deporte Deporte Si No P(D) 0.1 0.9 Alimentacion Alimentacion equilibrada no equlibrada P(A) 0.4 0.6
155
Alim eq no eq eq no eq
Dep si si no no Pr Sang alta normal alta normal
P(P=alta) 0.01 0.2 0.25 0.7 Fum si si no no
P(P=normal) 0.99 0.8 0.75 0.3 P(I=si) 0.8 0.6 0.7 0.3 P(I=no) 0.2 0.4 0.3 0.7 Fumador Presion Sanguinea Fumador Si No P(F) 0.4 0.6
Infarto
Figura 17.1: Red bayesiana que describe la probabilidad de sufrir un infarto
17.6 Inferencia probabilstica mediante redes bayesianas

El objetivo de la inferencia probabilstica es calcular la distribucin de probabilidad a posteriori de un conjunto de variables dada la observacin de un evento (valores observados para un subconjunto de variables). Denotaremos como X la variable sobre la que queremos conocer la distribucin, E ser el conjunto de variables de las que conocemos su valor {E1 , . . . , En }, e Y ser el conjunto de variables que no hemos observado {Y1 , . . . , Yn } (variables ocultas). De esta manera X = {X} E Y ser el conjunto completo de variables. Nos plantearemos el clculo de P (X|e), es decir la distribucin de probabilidad de los valores de X a partir de la inuencia de los valores observados de las variables de E. Nosotros nos plantearemos lo que denominaremos la inferencia exacta, que es la que se realiza utilizando directamente la distribucin de probabilidad que describe la red bayesiana. Como veremos mas adelante sta slo es tratable computacionalmente si la topologa de la red tiene ciertas propiedades.
17.6.1 Inferencia por enumeracin

El primer algoritmo de inferencia exacta que veremos es el denominado de Inferencia por enumeracin. ste se basa en que cualquier probabilidad condicionada se puede calcular como la suma de todos los posibles casos a partir de la distribucin de probabilidad conjunta. P (X|e) = P (X, e) =
y
P (X, e, y)
La red bayesiana nos permite factorizar la distribucin de probabilidad conjunta y obtener una expresin mas fcil de evaluar. Eso no quita que el nmero de operaciones crezca de manera exponencial con el nmero de variables que tiene la expresin, adems de realizar parte de las operaciones mltiples veces dependiendo de la estructura de la red. Por esta causa este mtodo no es utilizado en la prctica. Ejemplo 17.3 Usando la red bayesiana ejemplo podemos calcular la probabilidad de ser
156
Deporte P(D=no)=0.9 Fumador P(F=no)=0.4
P(F=si)=0.6 Alimentacion P(A=e)=0.4 Presion P(A=no e)=0.6 Presion
Alimentacion P(A=e)=0.4 Presion P(A=no e)=0.6 Presion
P(S=a)=0.25 P(S=a)=0.7 P(S=n)=0.75 P(S=n)=0.3 Infarto Infarto Infarto Infarto P(I=s)=0.8 P(I=s)=0.8 P(I=s)=0.6 P(I=s)=0.6
P(S=a)=0.25 P(S=a)=0.7 P(S=n)=0.75 P(S=n)=0.3 Infarto Infarto Infarto Infarto P(I=s)=0.7 P(I=s)=0.3 P(I=s)=0.7 P(I=s)=0.3
Figura 17.2: rbol de enumeracin de probabilidades
fumador si se ha tenido un infarto y no se hace deporte P (F umador|Inf arto = si, Deporte = no) La distribucin de probabilidad conjunta de la red sera: P (D, A, S, F, I) = P (I|S, F )P (F )P (S|D, A)P (D)P (A) Debemos calcular P (F |I = si, D = no), por lo tanto tenemos P (F |I = s, D = n) = P (F, I = s, D = n) = P (D = n, A, S, F, I = s)
A{e,e} S{a,n}
= P (D = n)P (F )
A{e,e}
P (A)
S{a,n}
P (S|D = n, A)P (I = s|S, F )
Si enumeramos todas las posibilidades y las sumamos de acuerdo con la distribucin de probabilidad conjunta tenemos que:
P (F umador|Inf arto = si, Deporte = no) = 0.9 0.4 (0.4 (0.25 0.8 + 0.75 0, 6) + 0.6 (0.7 0.8 + 0.3 0.6)), 0.9 0.6 (0.4 (0.25 0.7 + 0, 75 0.3) + 0.6 (0.7 0.7 + 0.3 0.3) = 0.253, 0, 274 = 0, 48, 0.52 Podemos ver las operaciones que se realizan en el rbol de probabilidades que se calcula (gura 17.2). Cada una de las ramas del rbol corresponde a cada uno de los eventos posibles.
17.6 Inferencia probabilstica mediante redes bayesianas Algoritmo 17.1 Algoritmo de eliminacin de variables Funcin: Elimination de Variables (X, e, rb) factores [] vars REVERSE(VARS(rb)) para cada var vars hacer factores concatena(factores,CALCULA-FACTOR(var,e)) si var es variable oculta entonces factores PRODUCTO-Y-SUMA(var,factores) n n retorna NORMALIZA(PRODUCTO(factores))
157
17.6.2 Algoritmo de eliminacin de variables

La inferencia por enumeracin puede ser bastante ineciente dependiendo de la estructura de la red y dar lugar a muchos clculos repetidos, por lo que se han intentado hacer algoritmos ms ecientes. El algoritmo de eliminacin de variables intenta evitar esta repeticin de clculos. El algoritmo utiliza tcnicas de programacin dinmica (memorizacin) de manera que se guardan clculos intermedios para cada variable para poder reutilizarlos. A estos clculos intermedios los denominaremos factores El clculo de la probabilidad se realiza evaluando la expresin de la distribucin de probabilidad conjunta de izquierda a derecha, aprovechando ese orden para obtener los factores. Esta estrategia hace que los clculos que impliquen una variable se realicen una sola vez. Los factores correspondientes a cada variable se van acumulando y utilizndose segn se necesitan. Una ventaja adicional de este algoritmo es que las variables no relevantes desaparecen al ser factores constantes en las operaciones y por lo tanto permite eliminarlas del clculo (de ah el nombre de algoritmo de eliminacin de variables). Su implementacin se puede ver en el algoritmo 17.1. CALCULA_FACTOR genera el factor correspondiente a la variable en la funcin de distribucin de probabilidad conjunta, PRODUCTO_Y_SUMA multiplica los factores y suma respecto a la variable oculta, PRODUCTO multiplica un conjunto de factores. Un factor corresponde a la probabilidad de un conjunto de variables dadas las variables ocultas. Se representa por una tabla que para cada combinacin de variables ocultas da la probabilidad de las variables del factor, por ejemplo: Y Z C C 0.2 fX (Y, Z)= C F 0.4 F C 0.8 F F 0.6 Los factores tienen dos operaciones, la suma y producto de factores. La suma se aplica a un factor y sobre una variable oculta del factor. Como resultado obtenemos una matriz reducida en la que las las del mismo valor se han acumulado, por ejemplo Y fX (Y, Z)= C 0.6 Z F 1.4
fXZ (Y ) =
158
Es igual que una operacin de agregacin sobre una columna en bases de datos El producto de factores permite juntar varios factores entre ellos utilizando las variables ocultas comunes, por ejemplo: Y C C F F fX1 X2 (Y, W, Z) = fX1 (Y, Z) fX2 (Z, W )= Z W Y Z W Z C 0.2 C C 0.3 C C C 0.2 0.3 F 0.8 C F 0.7 C C F 0.2 0.7 C 0.4 F C 0.1 C F C 0.8 0.1 F 0.6 F F 0.9 C F F 0.8 0.9 F C C 0.4 0.3 F C F 0.4 0.7 F F C 0.6 0.1 F F F 0.6 0.9
Es igual que una operacin de join en una base de datos multiplicando los valores de las columnas de datos. Ejemplo 17.4 Volveremos a calcular P (F umador|Inf arto = si, Deporte = no) a partir de la distribucin de probabilidad conjunta: P (D, A, S, F, I) = P (I|S, F )P (F )P (S|D, A)P (D)P (A) Debemos calcular P (F |I = si, D = no), por lo tanto tenemos P (F |I = s, D = n) = P (I = s, F, D = n) = P (D = n, A, S, F, I = s)
A{e,e} S{a,n}
En esta ocasin no sacamos factores comunes para seguir el algoritmo P (D = n)

A{e,e}
P (A)
S{a,n}
P (S|D = n, A)P (F )P (I = s|S, F )
El algoritmo empieza calculando el factor para la variable Infarto (P (I = s|S, F )), esta tiene jo su valor a si, depende de las variables Presin Sanguinea y Fumador S a fI (S, F )= a n n F s n s n 0.8 0.7 0.6 0.3
La variable fumador (P (F )) no depende de ninguna otra variable, al ser la variable que preguntamos el factor incluye todos los valores F fF (F )= s n 0.4 0.6
La variable Presin Sanguinea (P (S|D = n, A)), depende de las variable Deporte que tiene jo su valor a no y Alimentacin. Esta es una variable oculta, por lo que se debe calcular para todos sus valores
17.6 Inferencia probabilstica mediante redes bayesianas S A a e fS (S, A)= a e n e n e
159
0.25 0.7 0.75 0.3
Al ser la variable Presin Sanguinea una variable oculta debemos acumular todos los factores que hemos calculado fS (S, A) fF (F ) fI (S, F ) S F a s 0.80.4 fF I (S, F ) = fF (F ) fI (S, F )= a n 0.70.6 n s 0.60.4 n n 0.30.6 S F A a s e 0.80.40.25 a s e 0.80.40.7 a n e 0.70.60.25 fF IS (S, F, A) = fF I (S, F ) fS (S, A)= a n e 0.70.60.7 0.60.40.75 n s e n s e 0.60.40.3 0.30.60.75 n n e n n e 0.30.60.3 Y ahora sumamos sobre todos los valores de la variable S para obtener el factor correspondiente a la variable Presin Sanguinea fF IS (F, A) = S{a,n} fF IS (S, F, A) = F A s e 0.80.40.25 + 0.60.40.75 = 0.26 s e 0.80.40.7 + 0.60.40.3 = 0.296 n e 0.70.60.25 + 0.30.60.75 = 0.24 n e 0.70.60.7 + 0.30.60.3 = 0.348 El factor de la variable Alimentacin (P (A)) no depende de ninguna variable, al ser una variable oculta generamos todas las posibilidades A fA (A)= e 0.4 e 0.6 Ahora debemos acumular todos los factores calculados F A s e fAF IS (F, A) = fA (A) fF IS (F, A)= s e n e n e 0.260.4 = 0.104 0.2960.6 = 0.177 0.240.4 = 0.096 0.3480.6 = 0.208
Y ahora sumamos sobre todos los valores de la variable A para obtener el factor correspondiente a la variable Alimentacin
160
Captulo 17. Modelo Probabilista F 0.104 + 0.177 = 0.281 A{e,e} fAF IS (F, A) = S n 0.096 + 0.208 = 0.304
fAF IS (F ) =
Y por ltimo la variable Deporte (P (D = n)) tiene el valor jado a no y dado que no depende de la variable fumador se puede obviar, ya que es un factor constante. Ahora, si normalizamos a 1 F P (F |I = s, D = n) = S n
0.48 0.52
La complejidad del algoritmo de eliminacin de variables depende del tamao del mayor factor, que depende del orden en el que se evalan las variables y la topologa de la red. El orden de evaluacin que escogeremos ser el topolgico segn el grafo, pero podramos utilizar cualquier orden. De hecho se podra escoger el orden que ms variables eliminara para hacer que el clculo sea ms eciente, el problema es que encontrar el orden ptimo es NP. La complejidad de la inferencia exacta es NP-hard en el caso general. En el caso particular en que la red bayesiana cumple que para cada par de nodos hay un nico camino no dirigido (polirbol), entonces se puede calcular en tiempo lineal. Por eso es interesante que cuando se construya una red bayesiana para un problema se construyan polirboles. Si podemos construir una red que cumpla esta propiedad podemos utilizar este algoritmo sin ningn problema. Para obtener resultados en el caso general se recurre a algoritmos aproximados basados en tcnicas de muestreo. Evidentemente el valor obtenido con estos algoritmos es una aproximacin del valor real, pero el coste temporal es razonable.
18. Modelo Posibilista
18.1 Introduccin
Un mtodo alternativo para representar la imprecisin es el que presenta el modelo posibilista. Este modelo surge de la llamada lgica posibilista, esta es una lgica no clsica especialmente diseada para el razonamiento con evidencias incompletas y conocimiento parcialmente inconsistente. Muchas veces los expertos utilizan trminos para hablar de los valores de las variables involucradas en su conocimiento en lugar de valores especcos. Estos trminos no representan un valor concreto, sino un conjunto de valores que no tiene por que coincidir con la idea clsica de conjunto. Habitualmente un conjunto tiene una denicin suciente y necesaria que permite establecer claramente la pertenencia de los diferentes elementos al conjunto. Pero podemos observar que el tipo de informacin que expresan los trminos de los expertos permite que ciertos valores puedan pertenecer a diferentes conjuntos con diferente grado. Por ejemplo, un experto puede referirse a la temperatura diciendo que es alta. La variable temperatura estar denida sobre un rango (por lo general continuo) de valores y el trmino alta no tiene por que tener unas fronteras denidas, ya que en un dominio real sera difcil pensar que a partir de un valor especco la temperatura se considera alta, pero que el valor inmediatamente anterior no lo es. Podramos decir que la expresin la temperatura es alta tiene diferentes grados de verdad dependiendo del valor exacto sobre el que la evaluramos. Desde el punto de vista del experto esta interpretacin es ms intuitiva que la interpretacin clsica y es la que usa habitualmente para describir ciertos dominios. Este tipo de imprecisin en el lenguaje es la que queremos modelar mediante la lgica posibilista. De hecho este modelo intenta acercarse ms a la forma que tiene el experto de modelar y expresar conocimiento sobre su dominio cuando la informacin de la que dispone no tiene por que evaluarse directamente a un valor concreto, por lo tanto tenemos no solo incertidumbre sobre la asociacion entre hechos y conclusiones, sino tambin sobre los propios hechos. Esto diere a lo que hemos visto en el modelo probabilstico en el que para las evidencias que observamos siempre lo hacemos con total seguridad. En este tipo de representacin trabajaremos con variables que estn denidas en un universo del discurso (conjunto de valores posibles) y que se denirn a partir de etiquetas lingsticas (trminos que podemos usar para referirnos a las variables).
18.2 Conjuntos difusos/Lgica difusa

La lgica posibilista se basa en la teora de los conjuntos difusos y, por extensin, en la lgica difusa. Los conjuntos difusos se han tomado como punto de partida para la representacin de la vaguedad del lenguaje, de esta manera, proposiciones como por ejemplo la temperatura de hoy es agradable supondra que existe un conjunto de temperaturas asignadas al trmino lingstico agradable que correspondera a un conjunto difuso, y el razonamiento se hara basndose en ste. Esto permitira utilizar estos conjuntos para representar los razonamientos cualitativos que suelen utilizar los expertos. 161
162
Captulo 18. Modelo Posibilista
FRIA
AGRADABLE
CALUROSA
10
15
20
25
30
Figura 18.1: Etiquetas lingsticas para la variable temperatura Los conjuntos difusos son una generalizacin de los conjuntos clsicos en los que la pertenencia no est restringida a s o no, sino que puede haber una gradacin de pertenencia en el intervalo [0, 1], determinada por una funcin de distribucin asignada al conjunto. Los hechos representables mediante conjuntos difusos siguen el esquema [X es A] donde X es una variable denida sobre un universo U de valores posibles y A es un trmino lingstico aplicable a X, que restringe los valores que puede tomar. Estos valores correspondern al conjunto difuso representado por A sobre el universo U . En el ejemplo anterior, X sera la temperatura, el universo U seran todos los posibles valores que puede tomar la temperatura y A sera agradable, este trmino indicara los valores posibles para X. En la gura 18.1 se pueden ver diferentes etiquetas aplicables al concepto temperatura y sus conjuntos difusos correspondientes. Todo conjunto difuso est representado por una funcin caracterstica A que dene la pertenencia de un elemento al conjunto. A travs de sta se puede denir la funcin de posibilidad de los valores de X al conjunto A. De este modo, la posibilidad de que X tenga un valor u U sabiendo que [X es A] viene denida por la funcin: A : U [0, 1] tal que A (u) = A (u) Es decir, la posibilidad para un valor se corresponde con su grado de pertenencia al conjunto difuso representado por la etiqueta lingstica. Un valor de posibilidad se puede interpretar como el grado con el que una proposicin es compatible con el conocimiento que se describe con la proposicin [X es A].
18.3 Conectivas lgicas en lgica difusa

Al igual que se puede interpretar la representacin de las proposiciones con una visin conjuntista, sta se puede tambin transformar en una visin lgica1 , que es en denitiva lo que se va a utilizar en la deduccin con las reglas de los expertos. Se puede ver la pertenencia total o la no pertenencia de un valor a un conjunto difuso como los valores de verdad cierto y falso para una proposicin (esta sera la nocin clsica de valores de verdad), a sto le aadimos el poder tener una gradacin de valor de verdad entre estos valores extremos, determinada por la funcin de posibilidad del conjunto difuso.Con esto tenemos una lgica que permite cualquier valor de verdad entre cierto y falso.
1 Los conjuntos difusos y la lgica difusa se pueden ver como una extensin continua de la teora de conjuntos y la lgica clsica. Por lo tanto si la teora de conjuntos se puede ver como una variante notacional de la lgica de predicados, su extensin continua tambin.
163
Siguiendo con esta visin de la lgica, podemos establecer las combinaciones que permiten las conectivas de la lgica clsica sobre sus dos valores de verdad se extiendan sobre la gradacin de valores de verdad que permite la funcin de posibilidad de un conjunto difuso. En lgica de proposiciones disponemos de tres conectivas para la combinacin de enunciados: , y . Sobre estas, la teora de modelos establece tres tablas de verdad que indican como se combinan los nicos dos valores de verdad permitidos. La lgica difusa establece tres tipos de funciones equivalentes a estas conectivas que dan la extensin continua de estas combinaciones. Conjuncin difusa La funcin que permite combinar en conjuncin dos funciones de posibilidad es denominada T-norma y se dene como T (x, y) : [0, 1] [0, 1] [0, 1] y ha de satisfacer las propiedades: 1. Conmutativa, T(a,b)=T(b,a) 2. Asociativa, T(a,T(b,c))=T(T(a,b),c) 3. T(0,a)=0 4. T(1,a)=a 5. Es una funcin creciente, T(a,b)T(c,d) si ac y bd Se puede observar que son las mismas propiedades que cumple la conectiva en lgica de proposiciones, lo mismo pasar con el resto de conectivas. Adems, estas propiedades imponen que el comportamiento de la funcin en sus extremos sea el mismo que los valores de la tabla de verdad de la conectiva . Ejemplos de funciones que cumplen estas propiedades son: T (x, y) = m n(x, y) T (x, y) = x y T (x, y) = mx(0, x + y 1) a Se puede ver la forma de estas funciones en la gura 18.2. Disyuncin difusa La funcin que permite combinar en disyuncin dos funciones de posibilidad es denominada Tconorma y se dene como S(x, y) : [0, 1] [0, 1] [0, 1] y ha de satisfacer las propiedades: 1. Conmutativa, S(a,b)=S(b,a) 2. Asociativa, S(a,S(b,c))=S(S(a,b),c) 3. S(0,a)=a 4. S(1,a)=1 5. Es una funcin creciente, S(a,b)S(c,d) si ac y bd Ejemplos de funciones que cumplen estas propiedades son: S(x, y) = mx(x, y) a
164 S(x, y) = x + y x y S(x, y) = m n(x + y, 1)
Se puede ver la forma de estas funciones en la gura 18.2. Estas tres funciones de T-conorma, junto a las tres anteriores T-normas, corresponden a tres pares de funciones duales respecto a las leyes de DeMorgan y son las ms utilizadas. El ser dual respecto a las leyes de DeMorgan es una caracterstica importante ya que permite preservar propiedades de la lgica de proposiciones en el comportamiento de las conectivas difusas. Negacin difusa La funcin que permite negar una funcin de posibilidad es denominada negacin fuerte y se dene como N (x) : [0, 1] [0, 1] y ha de satisfacer las propiedades: 1. N ((N (a)) = a 2. Es una funcin decreciente, N (a) N (b) si a b Ejemplos de funciones que cumplen estas propiedades son: N (x) = 1 x N (x) = Nt (x) = 1 x2 t>1
1x 1+tx
Se puede ver la forma de estas funciones en la gura 18.2. Modicadores difusos Algo que tambin nos permite la lgica difusa es aadir modicadores a los trminos lingsticos que utilizamos de la misma manera en que lo hara el experto. Por ejemplo, podramos decir que la temperatura es muy alta y utilizar una funcin que represente la semntica del modicador muy como una funcin que se combina con la etiqueta, donde el conjunto difuso muy alta sera el resultado de aplicar el modicador muy al conjunto difuso alta. Los modicadores est denidos como funciones [0, 1] [0, 1] y varan el valor de verdad del conjunto difuso original.
1 1 1
0 0 0 50 100 0 1 0 0 50 100
Muy
Alta
Muy Alta
165
1
1
1
1
1 0.8
1 0.5
0.1 0.2 0.4
0.9 0.8 0.7
0.9 0.8 0.7 0.6
0.9
max(0, x + y 1)
0.9
0.9
0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

0
min(x,y)
0.8
0.8
0.7
0.7
0.4 0.3 0.2 0.1 0

0 0.1 0.2
0.4 0.3 0.2 0.1 0

0 0.1 0.2
0.6
0.6
0.5
0.5
0.4
0.4
0.3
0.3
0.2
0.2
0.4
0.1
0.1
0.7
0.8
0.9
0.7
0.8
0.9
0.7
0.8
0.9
1
1
1
1
1 0.8
0.9 1 0.5
0.1 0.2 0.4
0.9 0.8 0.7
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

0 0.1 0.2
0.9 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0

0
0.9
0.1
0.5
0.4
0.6
0.5
0.6
0.5
0.6
0.2
0.3
0.3
0.3
0.3
0.4
Y Y
0.7 0.8 0.9
0.8
0.7
0.4 0.3 0.2 0.1 0

0 0.1 0.2
0.6
0.7
0.5
0.8
0.6
min(x + y, 1)
x+yxy
max(x, y)
0.5
0.5
0.4
0.6
0.3
0.4
0.2
0.4
0.1
0.7
0.1
0.8
0.9
0.7
0.8
0.9
0.7
0.8
0.9
1x
1.0 0.9 0.8 0.7 0.6 0.5 1.0 0.9 0.8 0.7 0.6 0.5
1 x2
1.0 0.9 0.8 0.7 0.6 0.5
1x 1tx
0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
0.4 0.3 0.2 0.1 0.0 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Figura 18.2: Funciones T-norma, T-conorma y negacin
0.1
0.5
0.4
0.2
0.6
0.5
0.6
0.5
0.6
0.2
0.3
0.3
0.3
0.3
0.3
0.4
0.6
0.6
0.7
0.5
xy
0.5
0.8
0.6
0.9
166
18.4 Condiciones difusas

Mediante las funciones de posibilidad podemos construir combinaciones de proposiciones que permiten crear condiciones a partir de proposiciones difusas simples. El conjunto difuso resultante de la condicin depender de los conjuntos que estemos combinando y su funcin caracterstica estar denida sobre uno o ms universos del discurso. De esta manera, si tenemos las proposiciones F =[X es A] y G=[X esB] y A y B estn denidas sobre el mismo universo U , entonces: F G = [X es A y B] con F G (u) = T (A (u), B (u)) F G = [X es A o B] con F G (u) = S(A (u), B (u)) Donde la T-norma y T-conorma se denen sobre una sola dimensin. En cambio, si tenemos F =[X es A] y G=[Y es B] con A denida sobre U y B denida sobre V , con U = V , tenemos: F G = [X es A] y [Y es B] con F G (u, v) = T (A (u), B (v)) F G = [X es A] o [Y es B] con F G (u, v) = S(A (u), B (v)) Donde la T-norma y T-conorma se denen sobre dos dimensiones. Podemos ver que las funciones de combinacin de funciones de posibilidad generan una nueva funcin de posibilidad. En denitiva, estamos deniendo un lgebra sobre funciones en las que las conectivas difusas nos sirven de operaciones de combinacin. Veamos dos ejemplos de combinacin de proposiciones en ambos casos. Ejemplo 18.1 Supongamos que tenemos las proposiciones [{La temperatura de hoy} es {agradable}] y [{La temperatura de hoy} es {calurosa}], proposiciones denidas sobre el mismo universo U (el de las temperaturas posibles) donde las funciones de posibilidad de las etiquetas agradable y calurosa se pueden ver en la gura 18.3. Podemos utilizar como funcin de T-norma T(x,y)= m n(x, y) y de T-conorma S(x,y)= mx(x, y) a y construir la funcin de posibilidad que dene la conjuncin y la disyuncin de ambas proposiciones, el resultado se puede ver en la gura 18.4. Tambin podemos denir la negacin de agradable mediante la funcin de negacin fuerte N(x)=1 x, el resultado se puede ver en la gura 18.5. Ejemplo 18.2 Supongamos que tenemos las proposiciones [{Juan} es {alto}] y [{Juan} es {joven}], proposiciones denidas sobre dos universos diferentes, el de las alturas, y el de las edades. Las funciones de posibilidad de las etiquetas lingsticas estn representadas en la gura 18.6 Podemos utilizar como funcin de T-norma T(x,y)= m n(x, y) y de T-conorma S(x,y)= mx(x, y) a y construir la funcin de posibilidad que dene la conjuncin y la disyuncin de ambas proposiciones, en este caso, denidas sobre dos dimensiones, ya que las proposiciones corresponden a universos diferentes. La gura 18.7 y 18.8 muestran un mapa de niveles de las etiquetas resultantes y una representacin tridimensional.
18.4 Condiciones difusas
167
AGRADABLE 1 1
CALUROSA
0 10 15 20 25 30 10 15 20 25 30
Figura 18.3: Conjuntos difusos agradable y calurosa
AGRADABLE
CALUROSA
AGRADABLE
CALUROSA
0 10 15 20 25 30 10 15 20 25 30
Figura 18.4: Combinacin de las etiquetas agradable y caluroso (conjuncin y disyuncin)
NO AGRADABLE
10
15
20
25
30
Figura 18.5: Negacin de la etiqueta agradable
168
ALTO 1 1
JOVEN
0 0.5 1.0 1.5 2.0 2.5
0 10 20 30 40 50
Figura 18.6: Etiquetas difusas alto y joven

ALTO Y JOVEN 2.5 1 Alto min(Alto,Joven) 1.5 ALTO Joven 0
conj(alto(x),joven(y)) 0.833 0.667 0.5 0.333 0.167 1
1.0
2.0
0.5
0.5
10
20
30
40
50
0 40 45 50
0
1 JOVEN
0.5
1.5
2.5
10
15
20
25
30
35
Figura 18.7: Representacin de la combinacin de las etiquetas alto y joven

ALTO O JOVEN 2.5 1 Alto max(Alto,Joven) 1.5 ALTO Joven 0
disy(alto(x),joven(y)) 0.833 0.667 0.5 0.333 0.167 1
1.0
2.0
0.5
0.5
10
20
30
40
50
0 40 45 50
0
1 JOVEN
0.5
1.5
2.5
10
15
20
25
30
35
Figura 18.8: Representacin de la combinacin de las etiquetas alto o joven
18.5 Inferencia difusa con datos precisos
169
18.5 Inferencia difusa con datos precisos

A partir del formalismo de la lgica difusa podemos establecer un modelo de razonamiento incluyendo el resto de operadores de la lgica clsica. El operador que nos permitir un razonamiento equivalente al que obtenemos con los sistemas de reglas clsicos ser el operador de implicacin. Con todos estos operadores podemos escribir reglas utilizando como elementos atmicos expresiones difusas, por ejemplo: [altura(X)=alto] [edad(X)=joven] [peso(X)=medio] En este escenario nos podemos plantear dos tipos de inferencias. Una primera posibilidad sera que nuestros hechos estn expresados tambin como hechos difusos, de manera que podramos utilizar las reglas como el mecanismo de razonamiento habitual. El resultado del razonamiento sera un conjunto difuso que combinara adecuadamente los conjuntos difusos que provienen de los hechos, los antecedentes de las reglas y sus consecuentes. Para ello, se denen las funciones de combinacin que corresponden a la implicacin y a la regla de deduccin del modus ponens2 . Otra posibilidad es que dispongamos de valores precisos para las variables de nuestro dominio, nuestro objetivo ser obtener el valor preciso que se obtiene a partir de las relaciones que nos indican las reglas difusas que tenemos. Este segundo caso es mas sencillo, supone que tenemos una variable respuesta y un conjunto de variables que inuyen directamente sobre esta variable respuesta. El conjunto de reglas difusas nos indica cual es la relacin entre los valores de unas variables con otras. Esta variable respuesta puede a su vez inuir en otras variables. Si observamos el formalismo que estamos utilizando, ste nos permite simplicar en gran manera como expresamos las relaciones entre evidencias y conclusiones. Dada una regla difusa, esta tiene en cuenta siempre todos los valores posibles de los antecedentes y se puede utilizar el valor de verdad de cada uno de ellos como un factor de inuencia sobre la conclusin, lo que nos permite obtener una respuesta gradual a todos los posibles casos que caen bajo el antecedente de la regla. Hay dos modelos de inferencia difusa que se utilizan habitualmente, el primero es el modelo de Mamdani. ste asume que la conclusin de la regla es un conjunto difuso y los antecedentes permiten obtener un valor que modica el conjunto segn el valor de verdad del antecedente. El segundo es el modelo de Sugeno, ste considera que la conclusin de la regla es una funcin (por lo general lineal) de los valores del antecedente modicada por el valor de verdad de ste. Nosotros solo nos preocuparemos del primer modelo.
18.5.1 Modelo de inferencia difusa de Mamdani

Dado que los antecedentes de las reglas corresponden a conjuntos difusos, un valor concreto puede disparar varias reglas a la vez, por lo que deberemos evaluarlas todas. Cada una de ellas nos dar un valor de posibilidad que ser la fuerza con la que cada regla implica el consecuente. El proceso de inferencia con datos precisos tendr los siguientes pasos: 1. Evaluacin de los antecedentes de las reglas: Esta evaluacin pasar por obtener el valor de posibilidad que nos indican los valores precisos para cada elemento del antecedente y su combinacin mediante los operadores difusos correspondientes 2. Evaluacin de los consecuentes de las reglas: Cada uno de los consecuentes se ponderar segn el valor de posibilidad indicado por su antecedente. El resultado de esta ponderacin ser la etiqueta de la conclusin recortada al valor de posibilidad del antecedente.
2
La conoceris de la asignatura de lgica como la eliminacin de la implicacin A, A B
170
3. Combinacin de las conclusiones: Todas las conclusiones de las reglas se combinarn en una etiqueta que representa la conclusin conjunta de las reglas 4. Obtencin del valor preciso (Nitidicacin3 ): Se calcula el valor preciso correspondiente a la etiqueta obtenida. Este clculo se puede hacer de diferentes maneras, una posibilidad es obtener el centro de gravedad de la etiqueta. El centro de gravedad se calcula como una integral denida sobre la funcin que describe la etiqueta resultante:
b
f (x) xdx CDG(f (x)) =

a b
f (x)dx
a
donde a y b son los extremos de la etiqueta. sto no es mas que una versin continua de una media ponderada. Existen otras posibilidades, con un coste computacional menor, para obtener un valor preciso de la etiqueta resultante de la composicin de reglas, como por ejemplo, escoger la media de los valores donde la etiqueta sea mxima. Ejemplo 18.3 Supongamos que tenemos dos variables de entrada E1 y E2 y una variable de salida S que pueden tomar valores en los conjuntos siguientes de etiquetas lingsticas: E1={bajo,medio,alto} E2={nada,algo,normal,mucho} S={cerrar,abrir} Estas etiquetas estn descritas mediante los siguientes conjuntos difusos
Bajo Medio Alto Nada Algo Normal Mucho
E1
5 10 15 20 25 30 35 40
E2
1 2 3 4 5 6 7 8
Cerrar
Abrir
S
25 50 75 100 125 150 175
Supongamos que tenemos el siguiente conjunto de reglas: R1. si ([E1=medio] o [E1=alto]) y [E2=mucho] entonces [S=cerrar]
3
Esta es una adaptacin del trmino ingles defuzzication
18.5 Inferencia difusa con datos precisos R2. si [E1=alto] y [E2=normal] entonces [S=cerrar] R3. si [E1=bajo] y no([E2=mucho]) entonces [S=abrir] R4. si ([E1=bajo] o [E1=medio]) y [E2=algo] entonces [S=abrir]
171
Las funciones de combinacin son el mnimo para la conjuncin, mximo para la disyuncin y 1 x para la negacin y los valores concretos que tenemos para las variables E1 y E2 son 17.5 y 6.5 respectivamente. Si trasladamos esos valores a los conjuntos difusos de las variables E1 y E2 obtenemos los siguientes valores de posibilidad
E1
0.75
Bajo
Medio
Alto
E2
0.5
Nada Algo Normal
Mucho
0.125
5 10 15 20 25 30 35 40
1 2 3 4 5 6 7 8
Si evaluamos la regla R1 tendramos: [E1=medio] = 0.75, [E1=alto] = 0, [E2=mucho] = 0.5 min(max(0.75,0),0.5) = 0.5 Por lo que tenemos 0.5 [S=cerrar] Si evaluamos la regla R2 tendramos: [E1=alto] = 0, [E2=normal] = 0.5 min(0,0.5) = 0 Por lo que tenemos 0 [S=cerrar] Si evaluamos la regla R3 tendramos: [E1=bajo] = 0.125, [E1=mucho] = 0.5, min(0.125,1-0.5) = 0.125 Por lo que tenemos 0.125 [S=abrir] Si evaluamos la regla R4 tendramos: [E1=bajo] = 0.125, [E1=medio] = 0.75, [E2=algo] = 0 min(max(0.125,0.75),0) = 0 Por lo que tenemos 0 [S=abrir] La etiqueta resultante de la combinacin de las conclusiones sera:
Cerrar
Abrir
S
25 50 75 100 125 150 175
Ahora debemos hallar el centro de gravedad de la etiqueta, sta se puede describir mediante la funcin:

f (x) =
0.5 x [0 75] (100 x)/50 x (75 93.75] 0.125 x (93.75 100]
Por lo que podemos calcular el CDG como:
172
75
93.75
175
0.5 x dx +
0 75 0
(100 x)/50 x dx +
75 93.75 93.75 175
0.125 x dx = 0.125 dx
0.5 dx +
75
(100 x)/50 dx +
93.75
0.25 x2 |75 + (x2 x3 /150)|93.75 + 0.0625 x2 |175 93.75 75 0 = 75 2 /100)|93.75 + 0.125 x|175 0.5 x|0 + (2 x x 93.75 75 (0.25 752 0) + ((93.752 93.753 /150) (752 753 /150)) + (0.0625 1752 0.0625 93.752 ) = (0.5 75 0) + ((2 93.75 93.752 /100) (2 75 752 /100)) + (0.125 175 0.125 93.75) 3254.39 = 60.79 53.53
Parte IV Tratamiento del lenguaje natural
173
19. Tratamiento del Lenguaje Natural
19.1 Introduccin. El Lenguaje Natural y su tratamiento

La capacidad de comunicarse a travs de un lenguaje es uno de los rasgos distintivos de la especie humana. Es por ello que el Tratamiento del Lenguaje Natural (TLN) ha constitudo desde sus mismos orgenes una parte importante de la Inteligencia Articial e, incluso, de la Informtica en general. Es absurdo pretender que el TLN est englobado en la inteligencia articial lo mismo que pretender que se pueda calicar de una parte de la Lingstica o, incluso, de la Lingstica Computacional. En realidad el TLN utiliza tcnicas y formalismos tomados de stas y otras disciplinas para conseguir sus nes que no son otros que la construccin de sistemas computacionales para la comprensin y la generacin de textos en lenguaje natural. Vamos a precisar estos conceptos: La primera consideracin que hemos de hacer es que al hablar de lenguaje natural nos estamos reriendo al Lenguaje Humano. Es decir, lenguaje natural se opone a Lenguaje Articial o a Lenguaje Formal. De ah proviene la primera, importante, dependencia. El lenguaje natural es, si no inabarcable, s mucho ms difcil de abarcar que cualquier Lenguaje Formal. El TLN se ha alimentado durante dcadas de las tcnicas diseadas para el tratamiento de los lenguajes articiales (especialmente de los Lenguajes de Programacin) provinientes de la Teora Formal de Lenguajes o de la Teora de la Compilacin. Por supuesto, el lenguaje natural no es un Lenguaje de programacin y de ah que el TLN se haya convertido en una disciplina diferenciada. Si el TLN se reere al Lenguaje Humano, otra disciplina con la que debe tener anidades es la Lingstica. La Lingstica es, quizs, la ms formalizada de las Ciencias Humansticas. La razn de ello es que el Lenguaje, objeto de su estudio, presenta unas caractersticas altamente estructuradas y, por lo tanto, es ms susceptible de formalizacin que otros aspectos de la actividad humana. La Lingstica trata del estudio del Lenguaje tanto en general como de las diferentes lenguas particulares que los seres humanos hablamos. E, incluso, trata de los Sublenguajes: Subconjuntos ms o menos cerrados de un lenguaje que permiten un tratamiento formal o computacional ms ecientes. Durante aos, el desarrollo de la Lingstica (evidentemente anterior) y el del TLN siguieron caminos casi paralelos con apenas transferencia de resultados de uno a otro. Los lingistas construan sus teoras, bsicamente sintcticas, sin tener en cuenta la posible realizacin computacional de las mismas y los informticos trataban las aplicaciones informticas del lenguaje natural como un problema ms de Ingeniera del Software. No se lleg muy lejos en ninguna de las disciplinas (a pesar de xitos inicialmente notables en ambas) y nalmente se impuso la sensatez. En la actualidad cualquier propuesta de Teora Lingstica lleva aparejado el estudio de su componente computacional (bsicamente expresada en cmo aplicarla al anlisis y/o a la generacin del Lenguaje y con qu coste computacional hacerlo). Cualquier aplicacin seria del Lenguaje Natural, descansa, por otra parte, en teoras o modelos lingsticos previamente establecidos. En cuanto el TLN adquiri un cierto nivel de utilizacin y las exigencias de calidad aumentaron, se hizo patente que una adaptacin pura y simple de los mtodos y tcnicas provinientes del Tratamiento de los Lenguajes Articiales no conduca a nada. Se vi que el proceso de Comprensin (y, ms adelante, de Generacin) del lenguaje natural implicaba el manejo de una cantidad ingente de Conocimiento de ndole diversa y la utilizacin de procesos inteligentes. La inteligencia articial proporcion la base para elevar decisivamente el nivel y las prestaciones de los sistemas de TLN Un ltimo punto a mencionar, a caballo entre la Psicologa y la Lingstica, es el de la Psicolingstica, que estudia los mecanismos humanos de comprensin y generacin del lenguaje. 175
176
Captulo 19. Tratamiento del Lenguaje Natural
LINGSTICA LINGSTICA COMPUTACIONAL PSICOLINGSTICA SOCIOLINGSTICA
INTELIGENCIA ARTIFICIAL
TRATAMIENTO DEL LENGUAJE NATURAL
INFORMTICA TEORA FORMAL DE LENGUAJES COMPILADORES
......
Figura 19.1: El entorno del TLN Aqu se reproduce el eterno dilema de la inteligencia articial, Debe modelizar formas humanas de tratamiento de los problemas o debe limitarse a obtener resultados similares a los que los seres humanos, enfrentados a los mismos problemas, obtendran? Cindonos a la comprensin o la generacin del lenguaje natural, deben las mquinas intentar reproducir las formas humanas de tratamiento, de acuerdo a lo que la Psicolingstica proponga, o deben explorar sus propios mtodos de procesamiento, ms adecuados a sus peculiaridades? Como es lgico podemos encontrar abundantes ejemplos de uno y otro signo. La gura 19.1 expresa grcamente estas consideraciones.
19.2 El problema de la comprensin del Lenguaje Natural

El principal problema que plantea la comprensin del lenguaje natural, es decir, el proceso por el cual la mquina es capaz de comprender lo que su interlocutor le dice (oralmente o por escrito), es precisamente su caracterstica de natural. El lenguaje natural es el hablado por las personas y, como tal, se rebela a ser apresado en trminos de una gramtica. Se han hecho esfuerzos considerables por construir gramticas de cobertura extensa que describan fragmentos importantes de lenguas naturales (casi todos los esfuerzos que se han llevado a cabo lo son sobre la lengua inglesa) y aunque hay resultados notables como LSP, Diagram, o ALVEY, el lenguaje natural acaba por desbordarlos: surgen, o se descubren, nuevas construcciones sintcticas no previstas inicialmente, se utilizan palabras nuevas y aparece una retahila de excepciones en cuanto se intenta tratar un nuevo dominio: que si los nombres propios y su tipologa, que si las siglas, frmulas o abreviaturas, que si las jergas, que si las diferencias entre lengua reglamentada y lengua real: faltas ortogrcas y gramaticales, usos restringidos de la lengua, barbarismos, etc Queda fuera de este trabajo hacer un sumario de los problemas que el TLN debe resolver para lograr un nivel aceptable de calidad pero es interesante presentar unos cuantos ejemplos: Ambigedad lxica: 1. Se sent en el banco 2. Entr en el banco y fue a la ventanilla 3. El avin localiz el banco y comunic su posicin. Qu tipo de conocimiento hay que utilizar y cmo debemos utilizarlo para conjeturar que (probablemente) la aparicin de banco en
19.3 Niveles de descripcin y tratamiento lingstico
177
(1) se reere a un mueble que eventualmente sirve para sentarse, mientras que la aparicin en (2) se reere a una ocina en la que una entidad nanciera realiza operaciones a travs de una ventanilla y la aparicin en (3) se reere, una vez examinado el contexto, a un banco de pesca...? Ambigedad sintctica: 4. La vendedora de peridicos del barrio Queremos indicar aqu que la vendedora es del barrio o bien son los peridicos los que son del barrio? 5. Pedro vi al hombre en lo alto de la montaa con unos prismticos Era el hombre o Pedro (o ambos) quien estaba en la montaa? Quin llevaba (o usaba) los prismticos? ... Ambigedad semntica: 6. Pedro di un pastel a los nios Uno para todos? Uno a cada uno? A lo mejor depende del tamao (del pastel, no de Pedro ni de los nios) ... Referencia: 7. le do, despus, que lo pusiera encima Quin do? A quin? Cundo, despus de qu? Que pusiera qu? Encima de dnde? ... Todos estos ejemplos son gramaticales, usan un vocabulario sencillo y no recurren a ninguna licencia especial.

Los ejemplos que hemos propuesto en la seccin anterior plantean problemas que aparecen en niveles diferentes de la descripcin lingstica y cuya solucin requiere conocimientos diversos, a menudo expresados en otros niveles. Conviene detallar un poco ms las caractersticas de los diferentes tipos de Conocimiento implicados. El reconocimiento y utilizacin de estos niveles lingsticos corre parejo con el desarrollo de la lingstica computacional como disciplina. Vamos, a continuacin, a hacer un breve recorrido por la evolucin de la lingstica computacional en los ltimos aos para, despus, denir con ms precisin esos niveles y los tratamientos que en cada uno de ellos se llevan a cabo.
178
REGLAS BSICAS

TRANSFORMACIONES
S INTERPRETACIN SEMNTICA
ESTRUCTURA PROFUNDA REGLAS FONOLGICAS ESTRUCTURA SEMNTICA
ESTRUCTURA SUPERFICIAL
ESTRUCTURA FONOLGICA
Figura 19.2: Teora estndar
19.3.1 Evolucin de la lingstica computacional

Hasta comienzos de este siglo el contenido de la Lingstica (que no reciba tal nombre) era bsicamente descriptivo o normativo (en tal lengua, las cosas se dicen de tal manera", en tal lengua, la forma correcta de decir las cosas es sta"). Se suele considerar el Estructuralismo (Saussure,1916) como el primer intento serio de introducir la Lingstica como disciplina con un contenido cientco. El Estructuralismo, por otra parte, trascenda de lo puramente lingstico para incorporar contenidos loscos y antropolgicos. El hito fundamental, sin embargo, en el nacimiento de la lingstica computacional fue la aportacin de Chomsky que en 1965 (Aspects) sent las bases de la Gramtica Transformacional Generativa. La Gramtica Generativa especica, en forma precisa, qu combinacin de los elementos bsicos son permisibles (gramaticales) para cada uno de los niveles de descripcin lingstica. La teora inicial de Chomsky (la llamada teora estndar) fue propuesta en 1965. Se basaba en la existencia de dos estructuras sintcticas: una profunda (universal en la nomenclatura chomskiana) y otra supercial. El paso de una a otra se lograba mediante la aplicacin de una serie de transformaciones. A partir de la estructura profunda, una serie de reglas de interpretacin semntica produciran la Estructura Semntica mientras que, a otro nivel, las reglas fonolgicas traduciran la estructura sintctica supercial a la Estructura Fonolgica, es decir a aquella en que se producan las expresiones del lenguaje (ver la gura 19.2). El punto fundamental del formalismo resida en la capacidad de, a travs de reescritura de trminos, generar los elementos de la estructura profunda a partir de un smbolo inicial (axioma) de la gramtica. El tipo de cobertura de estas reglas bsicas di lugar a la bien conocida clasicacin de las gramticas (y, a travs de ellas, de los lenguajes que aquellas eran capaces de reconocer o generar) en tipo 0, tipo 1 (gramticas sensitivas), tipo 2 (gramticas de contexto libre)1 y tipo 3 (gramticas regulares). Las limitaciones de la Teora Estndar en su aplicacin prctica, especialmente el limitar la interpretacin semntica a la estructura profunda, condujeron a Chomsky a una reformulacin de su teora y a proponer en 1970 la llamada Teora Estndar Extendida (ver gura 19.3). Tambin de principios de los 70 es la Semntica Generativa (Lako , Fillmore). El propio Fillmorecre las Gramticas de Casos, origen de las Redes Semnticas, que tanto xito han tenido en inteligencia articial como mecanismo de Representacin del Conocimiento. Aunque la semntica no ha tenido en ningn momento el mismo xito que la sintaxis en cuanto a proponer formalizaciones lingsticas (seguramente por la mayor dicultad que supone su manejo) hay que citar aqu la obra de Montague2 que se considera en la base de la mayora de los sistemas de interpretacin semntica de tipo compositivo.
1 2
Tambien llamadas gramticas incontextuales (Context-free grammars). PTQ: The proper treatment of quantiers in ordinary English")

REGLAS BSICAS INSERCIN LXICA
179
TRANSFORMACIONES
E. PROFUNDA
E.SUPERFICIAL
E. SEMANTICA
E.FONOLOGICA
Figura 19.3: Teora Estndar Extendida A partir de los aos 80 se producen nuevos avances, ya claramente identicados con los objetivos de la lingstica computacional En el campo de la Sintaxis hay que acudir nuevamente a Chomsky que en 1983 propuso su teora de la Reccin y Ligadura ( Government and Binding). sta teora ha supuesto el punto de partida de una polmica entre los partidarios de las formulaciones sintcticas basadas en la gramtica y los que dan ms importancia al lxico, reduciendo el papel de la gramtica a una serie de principios de buena formacin. Parece que los ltimos resultados en Teora Lingstica se inclinan hacia esta segunda opcin lexicalista. Las Gramticas de Estructura de Frase Generalizadas (GPSG), las Gramticas Lxico Funcionales" (LFG) o, ms recientemente, las Gramticas de Estructura de Frase Regidas por el Ncleo(HPSGHead Driven Phrase Structure Grammars) siguen esta lnea. Paralelamente se han desarrollado formalismos basados en Unicacin, a partir, bsicamente, de las Gramticas de Clusulas Denidas (DCG ) y se han recuperado otros que haban quedado arrinconados, como las Gramticas Categoriales (CG). En el campo de la semntica cabe resear los estudios sobre Semntica y Ontologa (Katz, Fodor), la Semntica Lxica, la Semntica de Prototipos y la Semntica de Situaciones (Perry, Barwise, 1983). Por ltimo cabe citar que se ha ampliado el campo de cobertura de la Lingstica para incluir, aunque en forma an incipiente, al menos desde la perspectiva del TLN campos como la Pragmtica, el estudio del nivel ilocutivo, la Lingstica textual y discursiva, la Teora de los dilogos, etc
19.3.2 Los niveles de la Descripcin Lingstica.

Depende del tipo de aplicacin el que deban utilizarse ms o menos niveles de descripcin y tratamiento lingsticos. En alguno de los niveles hay amplia coincidencia mientras que otros producen cierta controversia. Se suelen presentar los niveles de descripcin en forma estraticada, comenzando por los ms prximos a la realizacin supercial (voz, frases escritas) y acabando por los ms prximos a las capacidades cognitivas de quien produce el lenguaje. Veamos muy brevemente una posible clasicacin: Nivel fontico: Trata de los sonidos a nivel de sus caractersticas fsicas (frecuencia, intensidad, modulacin, etc) Nivel fonolgico: Trata de los sonidos desde el punto de vista de la realizacin de las palabras en forma de voz. Sus unidades son los fonemas. Nivel lxico: Trata de las palabras en cuanto depositarias de unidades de signicado. Sus unidades seran los lexemas. A este nivel se plantean los problemas de segmentacin del texto en palabras, la diferencia entre palabra ortogrca y lexema, las lexas, etc Nivel morfolgico: Trata de la formacin de las palabras a partir de fenmenos como la exin, la derivacin o la composicin. Sus unidades son los morfemas.
180
Captulo 19. Tratamiento del Lenguaje Natural Nivel sintctico: Trata de la forma en que las palabras se agrupan para formar frases. Las relaciones estructurales (sintcticas) entre los componentes de la frase son variadas. En los formalismos de tipo sintagmtico la estructura sintctica reeja la propia estructura de constituyentes de la frase (que se denominan sintagmas). Esta estructura se corresponde con el rbol de anlisis. Los sintagmas terminales (las hojas del rbol) se corresponden con los elementos de los niveles inferiores de la descripcin lingstica de la oracin (morfemas, palabras, cadenas de palabras, etc). Nivel lgico: Trata del signicado literal de la frase (sin tener en cuenta el contexto). A este nivel se introduce el concepto de forma lgica. Las unidades dependen del formalismo lgico empleado: predicados, funciones, constantes, variables, conectivos lgicos, cuanticadores, etc Nivel semntico: Se dota a la forma lgica de una interpretacin semntica, es decir, se conectan los elementos de la forma lgica con los elementos del mundo sobre el que la aplicacin informtica debe trabajar. Nivel pragmtico: Trata de la forma en que las oraciones se usan (y se interpretan) dentro del contexto en el que se expresan. Nivel ilocutivo: Trata de las intenciones que persigue quien produce la frase. Se pueden estudiar los actos de habla directos e indirectos. Otros fenmenos ligados a los objetivos, intenciones, planicacin de los dilogos, etc tambin se explican a este nivel.
19.4 Aportaciones de la inteligencia articial

Ya hemos indicado anteriormente que la razn bsica para incluir el TLN dentro de la inteligencia articial es el que la comprensin del lenguaje natural se considera una forma clara de comportamiento inteligente. Hemos de admitir, sin embargo, que buena parte de las tcnicas y mtodos que se aplican para tratar el lenguaje natural poco o nada tienen que ver con las propias de la inteligencia articial sino que se importan de disciplinas ligadas al tratamiento de los lenguajes formales. Sin embargo, y a medida que las exigencias de calidad en el TLN han aumentado, la necesidad de utilizar Fuentes de Conocimiento extensas y complejas y de emplear tratamientos no estrictamente algortmicos ha dado lugar a una utilizacin creciente de la inteligencia articial. Entre las herramientas de la inteligencia articial que se emplean extensamente en el TLN encontramos los siguientes: 1. Sistemas de Representacin del Conocimiento tanto basados en Lgica (usados en los niveles sintctico y lgico), como en Redes Semnticas (Modelos de actantes, Gramticas de casos) o en Modelos de Objetos Estructurados, Frames (Modelos de Representacin conceptual y lxica, formas complejas de inferencia, herencia, etc ). 2. Sistemas de Planicacin (Planicacin de dilogos, generacin en lenguaje natural a partir de planes, generacin de explicaciones, etc ). 3. Sistemas de Bsqueda Heurstica (Estrategias de anlisis sintctico, cooperacin sintaxis/semntica, etc ). 4. Sistemas de Razonamiento (Bsqueda de referentes, resolucin de anforas, determinacin del mbito de los cuanticadores, etc ). 5. Sistemas de representacin y razonamiento aproximado e incierto (cuanticadores difusos, informacin incierta, lgica de modalidades, analizadores probabilsticos, etc ).
19.4 Aportaciones de la inteligencia articial
181
Hemos de tener en cuenta, por otra parte, que buena parte de las aplicaciones del TLN actan como interfaz de Sistemas Inteligentes en los cuales se integran. Buena parte de los sistemas de representacin de conocimiento e informacin que se utilizan al tratar el lenguaje natural deben tener en cuenta esta doble funcin.
19.4.1 Aplicaciones del lenguaje natural

Dos son las grandes reas de aplicacin de los Sistemas de TLN: las aplicaciones basadas en dilogos y las basadas en el tratamiento masivo de informacin textual. La razn de ello es, obviamente, econmica. La interaccin persona/mquina se ha convertido en el punto fundamental de la mayora de las aplicaciones informticas. El desarrollo de formas cada vez ms sosticadas de dispositivos de interaccin (los llamados multimedia) y el acceso a la informtica de una gama cada vez mayor de usuarios abundan en este inters. Los volmenes de informacin textual que se manejan estn creciendo en forma exponencial planteando problemas cada vez mayores de tratamiento. Las necesidades de traduccin, formateo, resumen, indiciacin, correccin, etc de cantidades ingentes de textos, con niveles de exigencia de calidad crecientes, ha hecho que se haya vuelto la vista hacia el lenguaje natural como fuente (parcial) de soluciones.
19.4.2 Breve historia del Tratamiento del lenguaje natural

La historia del TLN se remonta a los orgenes de las aplicaciones informticas a nivel comercial. En 1946, Weaver y Booth presentaron el primer sistema de Traduccin Automtica , seguido poco despus por el GAT (Georgetown Automatic Translator") y, ya en 1961, por CETA (Centre d etudes pour la Traduction Automatique") en Grnoble. En 1964 el informe ALPAC, cancelando los fondos para los proyectos de taduccin automtica en los U.S.A. y negando su vialidad, supuso un freno para estos primeros intentos pero no impidi el nacimiento de programas tan importantes como METAL o SYSTRAN. Era la poca en que el TLN se apoyaba en mtodos bastante rudimentarios como los analizadores de pattern matching, utilizados en sistemas como ELIZA, SIR, STUDENT o BASEBALL. En los aos 70 continan los esfuerzos en traduccin automtica como SUSY, en Saarbrucken, GETA en Grenoble o TAUM-METEO en Montreal. Paralelamente comienzan a construirse las primeras interfaces en LN, primero con Bases de Datos y ms adelante con otras aplicaciones. LUNAR , Rendezvous o LADDER son algunos ejemplos. En paralelo aparecen sistemas ms evolucionados de TLN como las ATN, las Gramticas Procedurales (Winograd, SHRDLU, 1971) y una larga lista de analizadores de muy diversa ndole (GUS, MARGIE, SOPHIE, RUS, SAM, PLANNER, JETS, etc ). Ya en los 80 asistimos a la incorporacin de los nuevos formalismos sintcticos a los que antes nos referamos, a la aparicin de las gramticas lgicas y los formalismos de unicacin y a la construccin de sistemas cada vez ms evolucionados. Sistemas como Ariane-78, EUROTRA o ATLAS, en el campo de la traduccin automtica, Interfaces como TEAM, CHAT-80, FRED o DATALOG en el campo de las Interfaces con bases de datos y otras como XCALIBUR, XTRA, INKA en otras aplicaciones completan el panorama de estos aos. Qu cabe decir de los 90? En primer lugar que se han ido incorporando a los sistemas de TLN algunos de los formalismos, sobre todo sintcticos, que se introdujeron como novedad en los 80. Que, igualmente, han seguido desarrollndose algunos de estos formalismos (las HPSG, por ejemplo, se han convertido en una referencia ineludible y las gramticas de clusulas denidas han evolucionado para dar lugar a formalismos ms adecuados a la descripcin lingstica como las MLG, las
182
DCTG o las gramticas de rasgos (PATR-II, ALE). Se ha detectado la necesidad de adquisicin masiva de informacin lxica y gramatical y se han construdo sistemas para el aprovechamiento de fuentes de informacin lxica ya existentes, como los diccionarios para uso humano en soporte informtico o los crpora textuales. Se han perfeccionado las interfaces en las lneas de mejora de la calidad del dilogo, de las cualidades de transportabilidad de los productos, construccin de sistemas integrados (NAT, FRED) e interfaces multimodales (MMI2, XTRA). Se han establecido criterios de separacin clara entre la descripcin de la estructura de la lengua (Competence) y el tratamiento, usando esa descripcin, de los casos concretos (Performance). La descripcin debe estar orientada al usuario: lingista, lexicgrafo, usuario nal, etc y favorecer, por lo tanto las caractersticas de claridad, amplia cobertura, cohesin, reutilizacin, etc El tratamiento estar orientado a la mquina y debern, por lo tanto, privar los criterios de eciencia, tanto espacial como temporal. Los sistemas debern proveer mecanismos de transferencia entre uno y otro formalismo.
19.4.3 Aplicaciones basadas en Dilogos.

Quizs el sector del TLN que ha adquirido ms importancia es el de las Interfaces en lenguaje natural a diversos tipos de aplicacin. Lo que en principio se reduca a interfaces capaces de consultar en lenguaje natural a una base de datos se ha extendido, tanto en calidad: dilogos cooperativos, admisin (y recuperacin) de errores por parte del usuario, interfaces ergonmicas, etc como en cobertura: interaccin compleja con bases de datos, incluyendo su actualizacin, interfaz con Sistemas Expertos, tanto a nivel de la adquisicin del Conocimiento como de la Explotacin del Sistema, acceso a Sistemas Operativos, Sistemas tutores o de asesoramiento, etc Los mximos logros se estn produciendo ltimamente en el tema de la cooperacin inteligente entre formas diversas de interaccin (lenguaje natural con forma grca, por ejemplo) llegando a la construccin de interfaces multimodales que permiten una comunicacin multimedia (lenguaje natural escrito, voz, grcos, gesto, etc ) en un entorno cooperativo.
19.4.4 Aplicaciones basadas en el tratamiento masivo de la Informacin Textual.

La otra gran lnea de desarrollo del TLN se reere al tratamiento de la informacin textual. La necesidad de tratamiento de ingentes cantidades de informacin textual, a la que antes aludamos, ha llevado a intentar aplicar mtodos de tratamiento lingstico a lo que hasta el momento se consideraban simplemente textos formados por cadenas de caracteres. La traduccin automtica es, desde luego, la primera aplicacin en este campo (y la ms espectacular) pero junto a ella hemos de colocar los sistemas de formateo, resumen e indiciacin (semi) automticos de textos, los sistemas de correccin ortogrca, los de particin silbica, los de compaginacin, etc. El tratamiento de diccionarios, de crpora o, en general, la adquisicin (semi) automtica de informacin a partir de textos escritos (o hablados) constituyen aplicaciones en las que se trabaja intensamente.
19.5 Tcnicas de comprensin del Lenguaje Natural: Su integracin
19.5 Tcnicas de comprensin del Lenguaje Natural: Su integracin
183
Texto fuente en L. Intermed.
Transferencia
Texto objetivo en L. Intermedio
Anlisis
Generacin
Texto fuente
Texto objetivo
Figura 19.4: La tcnica de transferencia en traduccin automtica
El TLN tiene dos aspectos: la Comprensin del texto y la Generacin. Un dilogo en lenguaje natural entre dos interlocutores adopta, generalmente, la forma de un proceso de intervenciones alternadas de los interlocutores. En cada intervencin, el hablante genera una expresin en lenguaje natural, de acuerdo con las intenciones que persiga. El oyente, por su parte deber tratar de comprender la expresin para reaccionar de acuerdo a ella. La arquitectura ms empleada en traduccin automtica es la de Transferencia. En ella el texto expresado en la Lengua fuente (u origen) es analizado hasta un nivel de representacin interna predenido. En ese nivel la expresin es transferida al nivel correspondiente de la lengua objetivo (o destino). Desde all se producir, posteriormente la generacin de la expresin supercial en la lengua objetivo (ver la gura 19.4). Es decir, en dos aplicaciones paradigmticas del lenguaje natural encontramos con arquitecturas semejantes, basadas en los dos componentes que antes mencionbamos. La atencin que normalmente se presta a estos dos componentes es tremendamente desigual3 . Las razones son varias: una mayor visibilidad de la comprensin del lenguaje, formas alternativas a la generacin igualmente aceptables (partiendo de la base de la mayor capacidad de adaptacin del interlocutor humano que de la mquina), mayor integracin de la Generacin con la aplicacin informtica subyacente, etc. El resto del captulo se centrar en la comprensin del lenguaje. Qu implica comprender una expresin en lenguaje natural? Lo primero que debemos plantear es la extensin de lo que tratamos de comprender y el mbito (el contexto) en el que hacerlo. En los sistemas basados en dilogos la unidad suele ser la intervencin del interlocutor humano, una frase ms o menos compleja. En los sistemas de tratamiento textual la unidad es a veces la oracin y en otras ocasiones el prrafo. El contexto depende, asimismo, del tipo de aplicacin. En un dilogo, la propia historia del proceso de la conversacin, las diferentes intervenciones de los interlocutores va proporcionando la estructura en la que deben interpretarse las oraciones. Es imposible interpretar adecuadamente la expresin dmelo" si antes no se ha especicado, directa o indirectamente, algo susceptible de ser dicho por nuestro interlocutor. Por supuesto el establecimiento y organizacin de este contexto no es tarea sencilla. Temas como el Conocimiento de sentido comn, el Conocimiento general del mundo o el Conocimiento del dominio tienen aqu importancia decisiva. Una vez delimitada la unidad a analizar y el contexto en el que llevar a cabo el anlisis, tiene lugar el proceso de comprensin. La manera ms simple de llevarlo a cabo es en cascada, mediante
3 De hecho la mayora de los libros sobre TLN omiten el problema de la Generacin o le dedican una atencin marginal.
184
una serie de transductores que van pasando el texto a travs de los diferentes niveles de descripcin lingstica: anlisis morfolgico, anlisis lxico, anlisis sintctico, interpretacin semntica, etc La manera de representar estos niveles y los mecanismos de transduccin entre ellos puede estar ligada al propio nivel o ser homognea (es frecuente, por ejemplo, en los formalismos lgicos el empleo de notaciones homogneas). La ventaja de tal proceder es una mayor modularidad e independencia en los procesos. El inconveniente bsico es que, a menudo, la solucin de los problemas lingsticos de un nivel no se puede realizar en dicho nivel o slo con el conocimiento que dicho nivel posee sino que precisa de otros (el caso ms claro es la resolucin de ambigedades sintcticas mediante la utilizacin de informacin semntica). Una alternativa es el uso de mecanismos de cooperacin entre los diferentes niveles. Otra es el empleo de procedimientos de comprensin globales (no estraticados). Especial inters presentan los sistemas en los que se mantiene una diferencia formal en la expresin del Conocimiento Lingstico en los diferentes niveles, pero en los que toda esta informacin es compilada y tratada internamente de un modo uniforme.
20. El Conocimiento Lxico
20.1 Introduccin
El componente lxico es fundamental en cualquier sistema de TLN En ltima instancia las frases que el sistema debe comprender estn formadas por palabras y en ellas se deposita la informacin (morfolgica, sintctica, semntica) que se precisar en procesos posteriores. El tratamiento lxico no es sencillo, a pesar de lo que en una primera aproximacin pudiera parecer (de hecho, y en esto el TLN no se diferencia de otras disciplinas, construir un pequeo lexicn para una aplicacin de juguete es trivial, construir uno real para una aplicacin real no lo es). La razn de ello es doble: 1. Por una parte tenemos los problemas intrnsecos al propio lxico: segmentacin (e identicacin) de las palabras, homonimia (multiplicidad de acepciones), polisemia, desplazamientos de signicado (por ejemplo, los usos metafricos de las palabras), lexas, locuciones, etc 2. Por otra parte los problemas ligados al volumen de la informacin lxica necesaria: representacin, compacidad, redundancia, acceso eciente, adquisicin, etc Dividiremos esta seccin en tres subsecciones que tratarn, respectivamente, de la informacin lxica, los diccionarios (principales depositarios de dicha informacin) y la morfologa.
20.2 Descripcin de la Informacin y el Conocimiento Lxicos

Si la funcin del nivel lxico en la descripcin lingstica de una oracin (de una secuencia de palabras) es la de asignar informacin a las unidades elementales de la frase, la Fuente de Conocimiento bsica ser el Lexicn. Un Lexicn es, simplemente, un repositorio de informacin lxica. El modelo de representacin ms sencillo es una tabla cuyo dominio esta constitudo por las unidades lxicas (lexemas) y cuyo rango consiste en la informacin necesaria asociadada a cada entrada lxica. El lexicn acta en: 1. Desplegado de la exin, composicin y derivacin morfolgicas. 2. La asignacin de la categora (simple o compleja) sintctica. 3. La asignacin de propiedades de diverso tipo (morfolgico, sintctico, semntico). 4. La invocacin del anlisis semntico de nivel lxico (el asociado a la semntica lxica).
20.2.1 La segmentacin de la oracin

El proceso de anlisis lxico comienza por la segmentacin del texto en unidades (palabras). Si identicramos las palabras ortogrcas con las unidades lxicas el proceso no planteara dicultad 185
186
"reconstrucciones" Anlisis Morfolgico RE Anlisis Lxico
Captulo 20. El Conocimiento Lxico
Repeticin + CONSTRUC +
Nombre CION +
Plural ES
CONSTRUIR construir ( , )
Dicc. Semntico
construir( , ) + repeticin + nombre + plural .....
Figura 20.1: Anlisis lxico alguna: Podemos denir, simplemente, la palabra ortogrca como una secuencia de caracteres delimitada por espacios o signos de puntuacin. Construir un segmentador, en este supuesto, es, pues, trivial. Ahora bien, esta simplicacin no es aceptable: Existen palabras gramaticales que se realizan ortogrcamente en ms de una palabra (por ejemplo, sin embargo, no obstante). Existen palabras ortogrcas que contienen ms de una palabra gramatical (por ejemplo, del = de el, dmelo = da me lo). Podemos discutir si am, amar, amara son palabras diferentes o formas lxicas diferentes que corresponden a la misma palabra (o lema, o lexema), amar. Se plantea el problema de la polisemia (palabras con varios signicados), el de la homonimia (palabras diferentes con la misma grafa): separado puede ser nombre, adjetivo o participio, banco, nombre, admite, como vimos en la seccin 19.1 de este captulo, varias acepciones, etc Una aproximacin aceptable es la de identicar el lexema con la unidad de informacin lxica no sintctica (es decir, bsicamente semntica) en tanto que los posibles ajos que modicaran al lexema para construir la forma lxica aportaran el resto de la informacin. La gura 20.1 nos muestra el proceso.
20.2.2 El contenido de la informacin lxica

Qu cabe incorporar a las unidades lxicas como resultado del Anlisis Lxico y, por lo tanto, qu informacin debe incluirse en el lexicn? 1. Categorizacin Sintctica. Se trata, por supuesto de un etiquetado dependiente del tipo de formalismo sintctico utilizado. Existen categoras cerradas (preposicin, determinante, etc ) y otras abiertas (nombre, adjetivo, etc ). A veces es importante subcategorizar (verbo transitivo, verbo pronominal, etc ). 2. Propiedades sintcticas de concordancia, como el gnero, el nmero, la persona, el caso, etc 3. Otras propiedades sintcticas, como las restricciones selectivas (tipo de argumentos que una palabra, normalmente un verbo, admite), el tipo de complementos que una palabra rige, las
20.2 Descripcin de la Informacin y el Conocimiento Lxicos preposiciones que acepta, etc 4. La informacin morfolgica, como el patrn de formacin de la palabra.
187
5. La informacin semntica, como la categora semntica, la forma lgica asociada, los rasgos semnticos, etc Por supuesto no todas las combinaciones ni el tipo de informacin ni los valores posibles son admisibles. Si, por ejemplo, la categora es un verbo, la concordancia no incluir seguramente el gnero (excepto para algunos tiempos); si la categora es una preposicin, no existirn restricciones selectivas, etc Por ejemplo, para los verbos podemos tener la siguiente informacin: 1. Aridad: Nmero de argumentos. 2. Argumentos internos y externos. 3. Opcionalidad de cada uno de ellos. 4. Restricciones selectivas sobre los argumentos: a) Sintcticas (p. ej. preposiciones regidas). b) Semnticas (caractersticas exigibles al argumento: animado, humano, contable, medible, etc 5. Casos de los argumentos. 6. Tipo aspectual del verbo (suceso, estado, proceso). 7. Categora (tipo) de la informacin. Una manera bastante expresiva de representar la informacin lxica la constituyen las matrices de rasgos. Las matrices de rasgos (Feature Structures (FSs)) son esencialmente listas de atributos a los que se asocian valores. Los valores pueden ser atmicos o nuevamente FSs. Normalmente la estructura resultante no es un rbol ya que podemos identicar los valores correspondientes a dos o ms atributos distintos. En este sentido se suele hablar de estructuras reentrantes o simplemente DAGs (Directed Acyclic Graphs). Veamos algn ejemplo:
pepe: sin: cat: n concordancia:
gen: masculino num: singular persona: 3 ...
... sem: pepe mor: ... ...
en un formalismo del estilo de PATR-II (Schieber) esta estructura se podra expresar como:
188 word pepe: <sin cat> = n <sin concordancia gen> = masculino <sin concordancia num> = singular <sin concordancia persona> = 3 <sem> = pepe ... Organizacin del Lexicn
Un formalismo de representacin lxica como las FSs proporciona un nivel de expresividad adecuado pero presenta limitaciones graves cuando se trata de aplicarlo a un lexicn real, y por lo tanto voluminoso). Conviene, pues, incorporar a los lexicones mecanismos para: 1. Reducir la redundancia 2. Capturar y expresar generalizaciones 3. Realizar con facilidad la interfaz con las aplicaciones Veamos, brevemente, alguno de estos mecanismos: Convenciones abreviatorias Suponen el uso de smbolos que se expanden, a la manera de las macros de algunos lenguajes de programacin, permitiendo una descripcin ms concisa. La mayora de los lexicones admiten mecanismos de este estilo. Podemos citar, por ejemplo, los clusters de rasgos del LSP de Sager (ver ), los alias de Gazdar en GPSG o las templetas de Shieber en PATR-II. Veamos un ejemplo de estas ltimas: let nombre-masc-sing be: <sin <sin <sin <sin cat> = n concordancia gen> = masculino concordancia num> = singular concordancia persona> = 3.
Con esta declaracin previa la denicin de "pepe" se reducira a: word pepe: nombre-masc-sing <sem> = pepe. Herencia Diferentes mecanismos de herencia se han venido utilizando en la construccin de lexicones: herencia simple, herencia mltiple, herencia monotnica, herencia por omisin e incluso combinaciones entre ellas o formas ms complejas de herencia. Shieber, en PATR-II, permite la herencia simple de propiedades: let verbo be: <sin cat> = v <sin suj cat> = gn <sin suj caso> = nominativo.
20.2 Descripcin de la Informacin y el Conocimiento Lxicos let vt be: verbo <sin obj1 cat> = gn <sin obj1 caso> = acusativo. let vdat be: vt <sin obj2 cat> = gprep <sin obj2 prep> = a.
189
De forma que vdat heredara las propiedades de vt, que, a su vez, lo habra hecho de verbo. Haciendo uso de estas declaraciones previas podramos denir, en forma ms concisa, las entradas lxicas de tipo verbal: word reir: verbo <sem pred> = reir <sem arg1> = humano. (alguien re) word dar: vdat <sem pred> = dar <sem arg1> = humano <sem arg2> = cosa <sem arg3> = humano. (alguien da algo a alguien). Un sistema parecido al anterior es el de los Feature Networks de Flickinger, del que presentamos un ejemplo. En este caso la herencia es mltiple. $VERB $FINITE $THIRD-SING
ISA ISA ISA ISA $MAIN-VERB ISA $TRANSITIVE ISA eats
$VERB $FINITE $SINGULAR $THIRDPPERSON $VERB $MAIN-VERB
ISA $TRANSITIVE ISA $THIRD-SING
Transformaciones Lxicas Se trata de reglas que permiten derivar entradas lxicas no presentes explcitamente en el lexicn a partir de las si existentes mediante la aplicacin de determinados procedimientos (normalmente reglas de produccin). La aplicacin de la regla permite modicar parte del contenido de la entrada lxica fuente para incorporarlo al resultado. La utilizacin de reglas lxicas permite obviar la presencia de un mdulo especco de Anlisis Morfolgico para las lenguas (como el ingls) en las que la exin o derivacin morfolgicas no plantean problemas graves.
190
Captulo 20. El Conocimiento Lxico Son numerosos los sistemas de tratamiento lxico que incorporan reglas lxicas (Kaplan, Bresnan, Ritchie, Jackendo, Copestake, etc ). Ms adelante se describe brevemente uno de tales sistemas. Mecanismos ligados al formalismo sintctico utilizado Dependiendo del formalismo sintctico utilizado se pueden incorporar al Tratamiento Lxico mecanismos de simplicacin especcos. Suele tratarse de mecanismos ligados a formalismos sintcticos fuertemente lexicalistas. En el caso de las GPSG, por ejemplo, algunos de los principios de buena formacin se aplican sobre la informacin lxica restringindola o amplindola. El FSD (Feature Specication Default), que asigna valores por defecto a algunas construcciones, o el FCR (Feature Coocurrence Restriction), que establece restricciones de coocurrencia de determinados atributos son alguno de ellos. Otros mecanismos Existen, nalmente, mecanismos ligados a la propia aplicacin informtica de la que el sistema de TLN es componente.
20.2.3 Lexicones Computacionales

Toda aplicacin de TLN incorpora el uso de algn lexicn. En la mayora de los casos el lexicn se desarrolla expresamente para la aplicacin que lo utiliza. Se han desarrollado, sin embargo, algunos lexicones computacionales de uso general. Entre otros podemos citar el BBN-CFG de R.Ingria, el IRUS de M. Bates o el incorporado al programa ALVEY. Uno de los ms conocidos es debido a Ritchie. Vamos a describirlo brevemente: El sistema de Ritchie se basa en la existencia de un lexicn bsico y una coleccin de reglas. El efecto de la aplicacin de las reglas es el de combinar la informacin (posiblemente nula) que el lexicn asocia a la entrada lxica con la aportada por las reglas aplicadas. El efecto es incremental de forma que las sucesivas reglas que se aplican con xito van enriqueciendo la informacin asociada a la entrada1 . El lexicn contiene entradas diferentes para los diferentes morfemas (raiz, ajos) que constituyen la palabra. La representacin utilizada es la de listas de pares <atributo-valor>. El sistema soporta dos tipos de reglas: las Lxicas y las Morfolgicas. Las primeras, como vimos arriba, derivan entradas lxicas a partir de otras. Las reglas morfolgicas establecen combinaciones vlidas de morfemas. La forma de las reglas lxicas es la siguiente: <precondicin> <operador> <accin> donde la <precondicin> establece el patrn a comparar con la informacin de que se dispone en un momento dado para permitir la ejecucin de la regla. La <accin> determina las operaciones que permitirn derivar la informacin de salida a partir de la de entrada y de la proporcionada por la propia regla. El <operador> establece el tipo de relacin entre estructura fuente (de entrada) y objeto (de salida). Ritchie incorpora los siguientes tipos de reglas lxicas: 1. Reglas de complecin. Se trata de reglas que modican, generalmente enriquecindolas, las estructuras de rasgos de entrada. 2. Reglas de multiplicacin. Se trata de reglas que permiten la creacin de nuevas estructuras de rasgos a partir de las ya existentes.
1
Este mecanismo recuerda el funcionamiento de los sistemas de produccin.
20.2 Descripcin de la Informacin y el Conocimiento Lxicos
191
3. Reglas de consistencia. Se trata de reglas que permiten vericar la consistencia de los rasgos presentes en una estructura. Es decir no crean ni aaden nada, simplemente validan que lo existente hasta el momento es consistente. La siguiente, por ejemplo, es una regla de complecin que permite aadir, a una estructura de rasgos que carezca de l, el atributo BAR", asignndole el valor 1. En el ejemplo, x y bar son constantes (literales), _x y _rest son variables, _ es la variable annima y ~ indica la negacin (la no aparicin de determinado smbolo). (_ ((fix _fix) ~(bar _) _rest) _) = (&& ((fix _fix) (bar 1) _rest) &&) La siguiente es una regla de multiplicacin: (_ ((V = (_ ((V (_ ((V (_ ((V +) (N -) (BAR 0) (VFORM BSE) (INFL +) _rest) _) +) (N P) (BAR 0) (PN PER1) (INFL P) _rest) _) +) (N P) (BAR 0) (PN PER2) (INFL P) _rest) _) +) (N P) (BAR 0) (PN PLUR) (INFL P) _rest) _)
La regla indica que (en ingls) una forma verbal, caracterizada por los rasgos (V +) (N -) (BAR 0), bsica y que admite exin, da lugar a tres otras formas que corresponden a la primera y segunda persona del singular y a cualquiera del plural. Las reglas morfolgicas, por su parte, pueden ser de deletreo (spelling), de asignacin de valores por defecto o de formacin (word grammar). La siguiente regla, por ejemplo, permite describir que boxes, como plural de box se forma a partir de esta ultima forma y del morfema s en un proceso que implica la inclusin lxica de la letra e. +:e <s:s c:c h:h> s:s x:x z:z _s:s
20.2.4 Lexicones Frasales

No es corriente el uso de lexicones cuya entrada sean frases, es decir, cadenas de palabras, y no palabras aisladas. La razn de ello es que aunque el empleo de tal tipo de lexicones resolvera alguno de los problemas planteados por algunas lexas o construcciones lxicas que implican a ms de una palabra ortogrca, dejara otros sin resolver, por ejemplo, la inclusin dentro de la lexa de palabras ajenas a ella o la existencia de exin interna en la misma. Por otra parte, el empleo de cadenas de palabras puede complicar la forma de representacin y acceso al lexicn. Ello no obstante podemos encontrar algunos ejemplos de uso de lexicones frasales. CarbonellHayes constituyen un ejemplo notable.
20.2.5 La adquisicin del Conocimiento Lxico

Uno de los puntos clave del tratamiento lxico es el problema de su adquisicin. Se han seguido bsicamente dos enfoques para abordar este problema: la adquisicin manual y la adquisicin (semi) automtica.
192
La adquisicin manual se basa en la existencia de entornos interactivos de ayuda al lexicgrafo que permiten a ste incorporar y estructurar la informacin lxica. Se trata del sistema ms utilizado ya que posibilita, en forma relativamente sencilla, crear lexicones de tamao medio/bajo, sucientes para muchas aplicaciones. Un ejemplo notable de este tipo de entornos de adquisicin lo proporciona S. Nirenburg. Nirenburg parte del lema World rst, words later para construir primero una organizacin ontolgica de los conceptos a representar (en forma de frames), con sus propiedades y relaciones mutuas, para, ms adelante incorporar las palabras en que estos conceptos se realizan lxicamente. El sistema, en cuanto el volumen aumenta, se vuelve bastante complejo y difcil de manejar. Un enfoque similar, aunque a una escala bastante mayor es el usado por EDR para la construccin de lexicones del japons y el ingls (incluyendo la traduccin entre lenguas). El volumen previsto por este sistema es de unas 50.000 entradas lxicas por lengua. Tambin podemos citar aqu, aunque el sistema tiene ms que ver con la informacin conceptual que con la lxica, a CYC, de D.Lenat. Se trata de un proyecto, de construccin de una Base de Conocimiento con un contenido equivalente al de una enciclopedia de uso general. La alternativa es la utilizacin de recursos lxicos ya existentes (diccionarios para uso humano, corpus textuales, etc ) para extraer de ellos de forma automtica la informacin lxica que se precisa. Especial inters han tenido en los ltimos aos las experiencias de extraccin de informacin lxica a partir de diccionarios de uso humano en soporte magntico (MRD, Machine Readable Dictionaries). A partir de los trabajos iniciales de Amsler, se han desarrollado varios proyectos (Chodorov, Calzolari, Briscoe, Boguraev, Byrd, etc ). Uno de los proyectos ms ambiciosos es Acquilex. Este proyecto condujo, en una primera etapa a la construccin de Bases de Datos Lxicas (BDL) multilinges a partir de diccionarios del ingls, italiano, holands y espaol. La BDL contena, estructurada, la informacin presente en los distintos diccionarios. En una segunda etapa se desarrollaron mtodos de extraccin de la informacin semntica contenida en la BDL (especialmente a partir de las deniciones de las diferentes entradas). Ello condujo a la construccin de una Base de Conocimientos Lxica Multilinge (BCL).
20.3 Implementaciones de los Diccionarios

Un problema importante, en relacin con el tratamiento lxico, es el de la implementacin de los diccionarios o lexicones. En cuanto el volumen se hace importante las exigencias de eciencia en el acceso obligan a una implementacin cuidadosa. Es importante precisar las caractersticas funcionales y operativas en cada caso: volumen, acceso slo para consultas o tambin para actualizacin, diccionario de palabras o de lexemas (o incluso de frases), acceso incremental o global, tipo de informacin asociada, mecanismos de expansin presentes (herencia, reglas, morfologa, etc ). En cuanto a organizaciones en memoria, se han utilizado listas (para lexicones de juguete) de varios tipos, rboles, tablas, rboles de bsqueda, etc ... Especial inters tienen la utizacin de TRIES, rboles binarios con bsqueda digital o BTREES. En cuanto a implementaciones en disco, se han utilizado toda la gama de cheros indexados o Bases de datos. Un punto importante se reere a la implementacin del rango, es decir, de las propiedades o de la informacin correspondientes a cada entrada. Suelen utilizarse notaciones externas, de tipo simblico, accesibles al usuario, y representaciones internas, ms compactas. Se han utilizado listas, rboles de propiedades y representaciones compactas del tipo de los mapas de bits. Un inters especial tienen los problemas de implementacin de las estructuras de rasgos. La
20.4 Morfologa
193
utilizacin de FSs en formalismos de unicacin hace que, a menudo, las FS se implementen en forma de trminos de PROLOG (se suele hablar de compilacin de FSs a trminos). La presencia de estructuras reentrantes hace que surjan problemas tanto de representacin como de unicacin de las FSss.
20.4 Morfologa
Se ha prestado poca importancia a la Morfologa en el TLN debido, bsicamente, a la poca complejidad de los problemas morfolgicos en la lengua inglesa. Otras lenguas, sin embargo, con gran capacidad aglutinante, exiva o derivativa, presentan graves problemas en cuanto a la identicacin de las formas lxicas y por ello es importante el empleo de Analizadores Morfolgicos. El tratamiento morfolgico puede afectar a la adquisicin del Conocimiento Lxico, al almacenamiento del mismo, o a ambos. El tratamiento morfolgico se basa en los mecanismos de formacin de las palabras. En cierto modo un analizador morfolgico trata de realizar el proceso inverso al que condujo a la formacin de la palabra ortogrca que se examina. Las palabras pueden formarse por concatenacin o composicin de formas ms simples (rascacielos) o por adjuncin. La adjuncin supone que a una raiz se le adjunten uno o varios ajos. Los ajos, de acuerdo con el punto de adjuncin, pueden ser prejos, injos o sujos. Estos ltimos pueden ser exivos o derivativos. As por ejemplo, adormecedoras presenta la adjuncin del prejo a, de la raiz dorm, del sujo derivativo ecedor y de los sujos exivos a y s. No todos estos fenmenos tienen la misma importancia en la formacin de las palabras en las distintas lenguas y, por lo tanto no todos se tratan en un analizador morfolgico concreto. En castellano, por ejemplo, es bastante complicada la casustica de la exin verbal y la de los derivados (nominalizaciones verbales, por ejemplo), mientras que no tiene demasiada importancia la composicin. El punto bsico en un analizador morfolgico es la obtencin de la descomposicin (pattern) de la palabra en una cadena de morfemas. A menudo se trata, adems, de obtener el lexema asociado a la forma lxica para, a travs de l, acceder a la informacin semntica. Existen dos tipos bsicos de analizadores morfolgico, los analizadores de dos niveles y los analizadores de un nivel. Los analizadores de dos niveles (Ritchie, Koskeniemi) funcionan como transductores (normalmente de estados nitos) de forma que existe un nivel de entrada (supercial) y otro de salida (lxico). La entrada correspondera a la palabra que se analiza y la salida al lexema correspondiente. Las reglas morfolgicas establecen las condiciones sobre las letras que se van consumiendo y las que se van produciendo. Los analizadores de un solo nivel trabajan slamente a nivel supercial. Las reglas, en este caso, establecen condiciones vlidas de concatenacin entre los diferentes morfemas. Existen abundantes ejemplos que utilizan tcnicas muy variadas. MARS, por ejemplo, utiliza una red de transicin (TN) para denir las transiciones posibles. SIPA utiliza autmatas de estados nitos con condiciones ligadas a las transiciones entre estados. Ben Hamadou, por su parte, utiliza matrices para denir las combinaciones vlidas de ajos. Un sistema interesante es SEGWORD. En este sistema, tambin de un solo nivel, se permite no slo la concatenacin de ajos sino tambin la eliminacin de ajos de la forma lxica. El resultado es que el sistema no consta de raiz y ajos concatenados a ella sino de forma base y de ajos concatenados o eliminados de la misma. El inters reside en que entonces es posible sustituir el posible diccionario de raices por un diccionario de formas base (o formas cannicas) que puede ser un diccionario de uso humano.
194
21. La dimensin sintctica
21.1 Introduccin
El anlisis sintctico constituye el ncleo de cualquier sistema de TLN El objetivo del Analizador Sintctico es doble: 1. Determinar si una frase es correcta (es gramatical) 2. Proporcionar una estructura de la frase que reeje sus relaciones sintcticas y que pueda ser usada como base de los tratamientos posteriores. En general, lo que pretende el anlisis sintctico es determinar si una frase pertenece o no al lenguaje que se trata de analizar. Si los elementos de la frase son palabras, podemos decir que una frase est constituda por una cadena de palabras, es decir, w V*, donde V nota al vocabulario terminal de la gramtica o lo que es lo mismo, al conjunto de palabras vlidas. Por supuesto, no toda concatenacin de elementos de V se puede considerar como una frase correcta (es decir, perteneciente al lenguaje). En general tendremos que el lenguaje es un subconjunto estricto de las cadenas posibles, L V*. La manera de denir el lenguaje L puede ser a travs de una lista de frases correctas, a travs de procedimientos interpretativos, o constructivos, o a travs de una gramtica.
21.2 Las redes de transicin

Los primeros procedimientos que se emplearon para realizar el anlisis (o mejor dicho, el reconocimiento) sintctico fueron las,Redes de Transicin RT (o Autmatas de Estados Finitos). Consideremos la red de la gura 21.1. La red consta de una serie de nodos y una serie de arcos. El nodo origen (algn formalismo admite ms de uno) aparece sealado con una echa mientras que los nodos nales aparecen sealados con un doble crculo. Los nodos representan estados y los arcos transiciones entre estados. Los arcos estn etiquetados con nombres de categoras (elementos del vocabulario terminal de la gramtica). Cada transicin es aceptable si la palabra de la cadena de entrada tiene una categora igual a la etiqueta del arco. El trnsito de un estado a otro hace que paralelamente se consuma una palabra en la cadena a analizar (es frecuente utilizar el smil de una cadena de palabras y una ventana abierta sobre la palabra actual que se desplaza al realizarse la transicin). El proceso de reconocimiento comienza situndose la ventana sobre la primera palabra y arrancando en el estado de inicio. El proceso contina, realizndose transiciones vlidas entre estados y desplazndose paralelamente la ventana sobre la cadena de entrada. Si al consumir completamente la cadena a analizar estamos en un estado nal, entonces la frase es correcta. Si no fuera as, o bien si en el curso del recorrido nos encontramos en una situacin en que ninguna transicin es posible, entonces la frase es incorrecta. Podemos admitir no-determinismo, bien porque exista ms de un estado de inicio, bien porque de un estado a otro salgan varios arcos con la misma etiqueta o bien por que alguna de las palabras de la cadena de entrada sea ambigua (tenga ms de una categora). En este caso el algoritmo de anlisis debera incluir un sencillo mecanismo de backtracking que gestionara el no-determinismo. 195
196
det q1
Captulo 21. La dimensin sintctica
n v
det n
q4
q0
q2
q3
q5
np
adj
adj
Figura 21.1: Ejemplo de R.T. Supongamos que, con el autmata de la gura 21.1, tratamos de analizar la frase el gato come pescado. Un anlisis lxico previo nos ha proporcionado la informacin siguiente:
el: cat: det gato: cat: n come: cat: v pescado: cat: n La aplicacin del algoritmo nos conducira desde el estado q0 (inicio) al q1 consumiendo el, al q2 consumiendo gato, al q3 consumiendo come y al q4 consumiendo pescado. Hemos acabado la frase y estamos en un estado nal, por lo tanto la frase es correcta. Es fcil comprobar que la capacidad expresiva de las RT no iba mucho ms all de lo conseguido mediante analizadores de pattern-matching u otros artilugios. El siguiente hito lo supusieron las textbfRedes de Transicin Recursivasindexredes de transicin recursivas (RTN). Una RTN consiste en una coleccin de RT etiquetadas con un nombre. Los arcos de cualquiera de las RT pueden estar etiquetados con categoras (como en el caso precedente) o con identicadores de las RT. El procedimiento de reconocimiento se complica algo. Cuando la etiqueta del arco es de tipo categora se procede como hasta ahora; cuando es de tipo RT entonces se contina el reconocimiento situndose en el estado de inicio de la red referenciada. Cuando se alcanza un estado nal, si la red que estamos recorriendo no era la activada inicialmente lo que se hace es continuar el recorrido en el estado destino del arco cuya transicin motiv la llamada. En el fondo la transicin es una llamada recursiva a una nueva RT (de ah la denominacin) y el llegar a un estado nal implica el nal de la llamada recursiva y la continuacin dentro de la RT llamadora. El mecanismo de backtracking tambin se complica algo ya que se ha de gestionar una pila de estados de retorno o dejar que la recursividad se ocupe de ello. La gura 21.2 nos presenta una RTN compuesta de 4 redes: FRASE, GN, FV y GP. La primera analiza frases, la segunda grupos nominales, la tercera frases verbales y la cuarta grupos preposicionales. Fmonos en la gura 21.3 en las llamadas recursivas cruzadas que se producen a travs del ejemplo siguiente: el perro de Pepe come pescado. Dado que no hay estado de retorno, que estamos en un estado nal y que hemos agotado la cadena de entrada, podemos armar que la frase es correcta. Las RTN constituyeron una herramienta seria de TLN pero tenan varias limitaciones importantes. La primera era que al hacer depender la posibilidad de una transicin exclusivamente de la categora esperada el sistema era en exceso local y se dejaba de utilizar informacin no categorial. Por otra parte, las RTN eran reconocedoras y no analizadoras del lenguaje. La siguiente extensin la constituyeron las Redes de Transicin Aumentadas (ATN, propuestas por Woods en 1970). Las ATNs son, bsicamente, RTNs a las que se aaden operaciones en los arcos. Las operaciones son de dos tipos:
21.2 Las redes de transicin
197
GN FRASE: 1 2
FV 3
det GN: 1 2 n np vt FV: 1 2 vi prep
n 3 adj
GP
GN 3
GP:
GN
Figura 21.2: Ejemplo de RTN
Posicion el perro de ... el perro de ... perro de pepe... de pepe come ... de pepe come ... pepe come pescado pepe come pescado come pescado come pescado come pescado come pescado come pescado pescado pescado -
Red FRASE GN GN GN GP GP GN GN GP GN FRASE FV FV GN GN FV FRASE
Estado 1 1 2 3 1 2 1 3 3 3 2 1 2 1 3 3 3
Retorno FRASE:2 FRASE:2 FRASE:2 GN:3 GN:3 GP:3 GP:3 GN:3 FRASE:2 FRASE:3 FRASE:3 FV:3 FV:3 FRASE:3 -
arco GN det n GP prep GN np n GN n GP n GN FV vt GN n n GN n FV
Figura 21.3: Ejemplo de anlisis mediante una RTN
198
1. Condiciones, que permiten ltrar la transicin entre estados. 2. Acciones, que permiten construir estructuras de salida y convertir, de esta forma, el reconocedor en un verdadero analizador. Volveremos ms adelante con el tema de las ATNs. Los formalismos presentados, especialmente las ATNs, han sido y son ampliamente utilizados en el anlisis sintctico pero todos ellos presentan graves dicultades de expresividad notacional. Incluso incorporando mecanismos ms legibles para expresar las caractersticas de las redes: formas de denir las transiciones vlidas, formas de nombrar estados y arcos, etc e incluso facilitando medios interactivos, por ejemplo, editores sintcticos y/o grcos, difcilmente podemos considerar cmoda la forma de denir las condiciones de pertenencia al Lenguaje o las estructuras de salida. Por ello, la mayora de los sistemas actuales de anlisis sintctico se apoyan en dos componentes diferentes y diferenciados: la Gramtica y el Analizador, facilitando al lingsta la tarea de escribir la gramtica como componente separada. De ello nos ocuparemos en la seccin siguiente.
21.3 Los formalismos sintcticos: Las Gramticas

El concepto de Gramtica, o ms precisamente el de Gramtica de Estructura Sintagmtica, es bien conocido. Una gramtica G es una tupla de 4 elementos: G = <N,T,P,S> donde N es el vocabulario No Terminal, es decir, el conjunto de elementos no terminales de la Gramtica. T es el vocabulario Terminal, es decir, el conjunto de elementos terminales de la Gramtica. La interseccin de T y N ha de ser nula. La reunin de T y N es lo que llamamos Vocabulario (V) de la Gramtica. S, perteneciente a N es el axioma o smbolo de inicio. P es el conjunto de reglas de produccin de la gramtica. Segn las caractersticas de P, Chomsky propuso una clasicacin ya clsica de las gramticas en 4 tipos: tipo 0: En las cuales los elementos de P son reglas de reescritura del tipo uw donde u,w pertenecen a V*. tipo 1 (gramticas sensitivas): en las cuales se establece la limitacin de ser la longitud de la cadena de u menor o igual que la de w.
21.4 Gramticas de Estructura de Frase
199
tipo 2 (gramticas de contexto libre, GCL): que establecen la limitacin adicional de permitir slo reglas del tipo Aw donde A es un no terminal y w, como en el caso anterior pertenece a V* (de hecho la aceptacin o no de la cadena nula a la derecha de las producciones , es decir, la aceptacin de elementos opcionales, es un punto importante que conviene precisar en los diferentes formalismos). tipo 3 (gramticas regulares, GR): son aquellas que admiten nicamente reglas del tipo: Aa A aB donde A y B son elementos de N y a lo es de T. Se dene el concepto de derivacin directa = como la operacin de reescritura. G uxw = uyw (que podemos leer como uxw deriva directamente a uyw) si la cadena uxw G se reescribe en forma uyw a travs de la aplicacin de la produccin x y, que debe pertenecer a P. Podemos denir la relacin = como la clausura transitiva de la relacin = . Llamaremos G G derivacin a esta relacin. Diremos que una cadena de elementos de T (es decir, una frase), w, pertenece al lenguaje generado por la gramtica G (w L(G)) si es posible encontrar una derivacin de w a partir de S, es decir si S = w. G Se puede demostrar que las RTNs son equivalentes a las GCL, es decir que a cada RTN le podemos asociar una gramticas de contexto libre y viceversa, de forma que generen reconozcan el mismo lenguaje. Es preciso establecer un compromiso entre las capacidades expresivas de cada tipo de gramtica, las necesidades de expresin necesarias para el tratamiento del lenguaje natural y la existencia de mecanismos computacionales que hagan tratable el formalismo. En general se considera que el lenguaje natural es demasiado complejo para ser expresado mediante gramticas de contexto libre. Sin embargo, dado que stas son aquellas que permiten un tratamiento ms eciente (dejamos de lado las GR cuya cobertura es claramente insuciente) la aproximacin ms extendida en el TLN, a nivel sintctico, es la de proporcionar una gramtica de contexto libre nuclear y tratar los fenmenos sensitivos en forma de aadidos locales, ltros, etc (a menudo implementados ad-hoc).
21.4 Gramticas de Estructura de Frase

Hemos dicho anteriormente que el modelo ms extendido en el anlisis sintctico para el TLN consiste en un ncleo de gramticas de contexto libre y un conjunto de restricciones que incluyen de alguna forma la sensitividad. Precisemos un poco esta idea. Supongamos que deseamos construir una gramtica que cubra el mismo lenguaje que la RTN de la gura 21.2 (ya hemos dicho que las gramticas de contexto libre y las RTNs son equivalentes). Una posibilidad es la siguiente: (G1) G1= <N1,T1,P1,FRASE>
200 donde N1 = FRASE,GN,FV,RGN,GP T1 = det,n,np,adj,vi,vt,prep P1 = { 1 FRASE GN FV. 2 GN det n RGN. 3 GN n RGN. 4 GN np RGN. 5 RGN . 6 RGN GP RGN. 7 RGN adj RGN. 8 FV vi. 9 FV vt GN. 10 GP prep GN. }
La gramtica G1 es obviamente una gramticas de contexto libre que incluye categoras opcionales ( RGN). Es fcil ver que la cobertura es la misma que la de la RTN de la gura 21.2. La frase el gato come pescado ser, pues, correctamente analizada (es fcil comprobarlo). Ahora bien, qu ocurre si tratamos de analizar la gato come pescado o las gatas come pescado o el gato comen pescado? Todas estas frases, obviamente incorrectas, sern reconocidas como pertenecientes a L(G1). Cabe una solucin a este problema dentro del formalismo de las gramticas de contexto libre? Por supuesto podramos multiplicar los elementos de V incorporando a las categoras la informacin de gnero, nmero, persona, etc ... (nmassing,nmaspl , etc ... para indicar, respectivamente, un nombre, masculino, singular o un nombre masculino plural). Deberamos tambin aumentar el nmero de reglas de P (GN detmassing nmassing) pero esta multiplicacin se hara totalmente insoportable en cuanto el nmero de fenmenos a tratar, concordancia, dependencias a larga distancia, movimiento de constituyentes, conjuncin, etc y la informacin requerida para el tratamiento se incorporarn a los elementos de V para producir nuevas particiones. La solucin que antes sugeramos es la del enriquecimiento de las gramticas con componentes (a menudo de tipo procedural) que traten estos problemas. As, la segunda produccin de G1 podra sustituirse por la siguiente: GN det n RGN {concordancia_1} donde concordancia_1 sera algn ltro capaz de vericar la concordancia. Formalismos que siguen esta losofa son DIAGRAM y LSP. Veamos un ejemplo de este ltimo. *BNF <SENTENCE> <ENUNCIACION> <SUJETO> <LNR> <LN> <RN> <VERBO> <OD> *RESTR % %= % %= % %= % %= % %= % %= % %= % %= <ENUNCIACION> .. <SUJETO><VERBO><OD>. <LNR> /<*NULL>. <LN><*N><RN> / <*NULL>. <*ART> / <*NULL>. <*NULL>. <*TV>. <LNR>.
21.5 Analizadores Bsicos WCONC1 $SING $PLUR IN LNR % BOTH $SING AND $PLUR. = IF CORE OF LNR HAS ATTRIBUTE SG THEN CORE OF LN DOES NOT HAVE ATTRIBUTE PL. = IF CORE OF LNR HAS ATTRIBUTE PL THEN CORE OF LN DOES NOT HAVE ATTRIBUTE SG. =
201
En este ejemplo simplicado vemos que la gramtica incluye dos partes, identicadas por las claves *BNF y *RESTR, la primera correspondiente a la gramtica de contexto libre y la segunda a las restricciones. La primera parte admite, en el formalismo de LSP, algunas facilidades expresivas (del estilo del formato BNF). La gramtica del ejemplo se autoexplica. La parte de restricciones est escrita en un lenguaje, el RL (Restriction Language), prximo a Lisp. El RL trabaja sobre los fragmentos de rbol de anlisis que se estn construyendo. Las primitivas del lenguaje permiten hacer navegaciones sobre el rbol de anlisis, consultas sobre la informacin asociada a los nodos del rbol y anotaciones sobre los mismos. El ejemplo que presentamos establece que a todos los nodos LNR (grupo nominal) se les debe asociar un chequeo de la concordancia en nmero. Este chequeo se lleva a cabo a travs de dos operaciones $SING y $PLUR. La primera de ellas exige que, de existir el atributo SG en el ncleo de la componente, no debe aparecer el atributo PL en el adjunto izquierdo. La otra operacin es simtrica.
21.5 Analizadores Bsicos

Una vez denido un formalismo gramatical hemos de ocuparnos ahora del Analizador. Lo primero que cabe precisar es lo que esperamos del Analizador. Por supuesto no nos conformaremos con una variable booleana que nos informe sobre la gramaticalidad de la frase. Existen dos resultados bsicos a obtener: la estructura sintctica y la estructura lgica o semntica bsica. La forma habitual de estructura sintctica es el rbol de Derivacin, o rbol de Anlisis (a menudo decorado con fragmentos de estructuras semnticas). El rbol de derivacin nos reeja la estructura sintagmtica o de componentes de la oracin que analizamos. Una alternativa son las Estructuras Funcionales que permiten expresar relaciones sintcticas no estrictamente ligadas a la estructura de la frase. Los modelos que representan la frase en trminos de acciones, estados, situaciones y actantes, como las estructuras de casos, son un ejemplo conocido. Respecto a las estructuras semnticas producidas por el Anlisis Sintctico, las frmulas lgicas o las redes conceptuales son los ejemplos ms corrientes. El segundo punto de inters es el de la interaccin sintaxis/semntica. Ya indicamos anteriormente que existen dos modos bsicos de TLN: el secuencial o estraticado y el cooperativo. El nivel de tratamiento en el que ms se aprecian las diferencias entre estos dos modelos es, precisamente, en el sintctico/semntico. Se han seguido bsicamente las siguientes aproximaciones: 1. Ausencia de Semntica. Modelos exclusivamente sintcticos que producen un rbol de anlisis a partir del cual acta la aplicacin informtica. Muchos sistemas de traduccin automtica siguen este modelo. 2. Ausencia de Sintaxis. Modelos bsicamente lexicalistas que prescinden de la sintaxis obteniendo toda la informacin necesaria para el tratamiento de las palabras que forman la oracin. Modelos aplicados a dominios muy restringidos siguen esta aproximacin.
202 3. Sntesis de las dos aproximaciones anteriores.
La categorizacin es sintctico-semntica y el rbol de anlisis tiene en s mismo un etiquetado que incluye la semntica. Las gramticas semnticas son un ejemplo relevante. 4. Actuacin en secuencia. Elanlisis sintctico produce un rbol de anlisis y, a partir de l, el Intrprete Semntico (IS) produce la Estructura Semntica. Se trata del modelo ms sencillo. Permite una modularizacin del Conocimiento y de los Tratamientos implicados sin graves complicaciones. 5. Actuacin en paralelo. Modelos cooperativos. Existen formas diversas de realizar la cooperacin: Uso de interpretaciones semnticas parciales para validar algunas construcciones sintcticas, igualmente parciales. Normalmente estas interpretaciones se incorporan al rbol de anlisis (en lo que se suelen llamar decoraciones del rbol) para evitar la redundancia en los clculos. Uso de restricciones selectivas (informacin lxica de tipo semntico que determinadas componentes sintcticas deben poseer: el verbo reir, por ejemplo, exige un sujeto de tipo humano). Valencia sintctica adecuada a determinadas relaciones semnticas. El tercer punto se reere a las Fuentes de Conocimiento implicadas en el anlisis. La primera, por supuesto, es la Gramtica. No es la nica, sin embargo. El Lexicn juega, asimismo, un papel predominante no slo como fuente de categorizacin sintctica sino como fuente de asignacin de las diferentes propiedades que pueden ser utilizadas por la extensin de la gramtica de contexto libre. Son igualmente frecuentes sistemas que incorporan diferentes tipos de reglas de formacin al margen de las expresadas en la Gramtica: Sistemas basados en Principios, Transformaciones, Metarreglas, etc
21.5.1 La tcnica del Anlisis Sintctico

La tcnica bsica del Anlisis Sintctico es la habitual de cualquier sistema de reescritura. Se parte de un objetivo (por ejemplo, FRASE en la gramtica G1) y de unos hechos (la frase a analizar, por ejemplo, el gato come pescado) . El objetivo del analizador es lograr una derivacin que conduzca del objetivo a los hechos. Varios puntos conviene mencionar en este proceso: Estrategia del Anlisis Las estrategias bsicas son la Descendente (dirigida por objetivos, top-down) y la Ascendente (dirigida por hechos, bottom-up). Ambas tienen ventajas e inconvenientes y la eleccin de una u otra depender de las caractersticas de la Gramtica, del grado de ambigedad lxica y de la tcnica de anlisis a emplear. Existen mtodos que combinan ambas estrategias, esttica o dinmicamente. En ellos la dicultad estriba en dotar al mecanismo de control de suciente conocimiento para que la mejora de las prestaciones compense el overhead. Direccin del Anlisis La mayora de los analizadores operan de izquierda a derecha. Existen, sin embargo, excepciones. La ms conocida es la de los analizadores activados por islas en los cuales la localizacin de determinadas palabras (no ambiguas, muy denotativas, etc ) activa el proceso ascendente
203
en forma de capas concntricas alrededor de dichas islas. Otro ejemplo notable de bidireccionalidad lo constituyen los analizadores regidos por el ncleo (Head Driven) en los cuales la activacin se lleva a cabo, para cada regla , a partir del ncleo (head) o componente principal del sintagma correspondiente (el verbo para la frase, el nombre para el grupo nominal, etc ) Orden de aplicacin de las reglas. El azar o el orden de escritura de las reglas de la gramtica suele ser el criterio que se sigue al seleccionar las reglas a aplicar en cada caso. Existen, sin embargo, sistemas ms sosticados en los que las reglas se ponderan o en los que se incluyen formas de seleccin inteligentes. La ambigedad Dos tipos de ambigedad tienen importancia durante el anlisis sintctico, la ambigedad lxica, que hace que una palabra pueda poseer ms de una categora sintctica, y la ambigedad sintctica que hace que puedan producirse ms de un rbol de anlisis correcto para alguna de las componentes (incluyendo, por supuesto, el propio axioma). Lo nico que debemos sealar es que cualquier sistema de AS debe poseer mecanismos de gestin de estos tipos de ambigedad. Existen sistemas que asignan probabilidades a las categorizaciones y a las reglas de forma que los rboles de anlisis obtenidos pueden dotarse de alguna medida de probabilidad relativa y ordenarse de acuerdo ella. En la mayora de los casos la seleccin del rbol adecuado se deja a procesos posteriores. No determinismo El analizador sintctico presenta, como hemos visto, varias fuentes de indeterminismo. En cualquier caso, e incluso para analizadores calicados de deterministas, es necesario gestionar un mayor o menor grado de indeterminismo. Las herramientas que se emplean para ello son el backtracking y el (pseudo) paralelismo. Veamos, para acabar, como procedera un analizador sintctico para analizar la frase el gato come pescado usando la gramtica G1, con una estrategia descendente, unidireccional de izquierda a derecha y aplicando las reglas en el orden en el que estn escritas:
Objetivos 1 FRASE 2 GN FV 3 det n RGN FV 4 n RGN FV 5 RGN FV 6 FV 7 vi 8 vt GN 9 GN 10 det n RGN 11 n RGN 12 RGN 13 -
Hechos el gato come pescado el gato come pescado el gato come pescado gato come pescado come pescado come pescado come pescado come pescado pescado pescado pescado -
Regla aplicada 1 2 det = el n = gato 5 8 fallo (vuelta a 6) vt = come 2 fallo (vuelta a 9) n = pescado 5 xito
El enfoque alternativo, ascendente, dara lugar a:
204
Captulo 21. La dimensin sintctica Hechos Regla aplicada 1 el gato come pescado el = <det> 2 <det> gato come pescado gato = <n> 3 <det> <n> come pescado <e> 4 <det> <n> <e> come pescado 5 5 <det> <n> <RGN> come pescado 2 6 <GN> come pescado come = <vt> 7 <GN> <vt> pescado pescado = <n> 8 <GN> <vt> <n> <e> 9 <GN> <vt> <n> <e> 5 10 <GN> <vt> <n> <RGN> 3 11 <GN> <vt> <GN> 9 12 <GN> <FV> 1 13 <FRASE> xito
21.5.2 Las ATNs

Como antes sealbamos, las RTNs son equivalentes a las gramticas de contexto libre. Una de las maneras de analizar una gramtica de contexto libre es transformarla en una RTN e implementar esta ltima. El procedimiento es sencillo pero el mtodo presenta algn problema: El mecanismo de anlisis de las RTNs es puramente descendente. Intentar implementar estrategias ascendentes o hbridas es antinatural. Cualquier transformacin de una gramtica hace que la estructura resultante, sobre todo si se trata del rbol de anlisis, reeje no la estructura de la frase de acuerdo a la gramtica original (que es la escrita y prevista por el lingsta) sino de la transformada. Ello puede producir problemas no slo de depuracin de la gramtica sino a la hora de describir y llevar a cabo los procesos posteriores al AS. Por supuesto una alternativa es escribir directamente la RTN, con los inconvenientes que en su momento se sealaron. El ejemplo presentado en la gura 21.4 est tomado de Winograd. Se reproduce un fragmento de una gramtica de ATNs. Concretamente se trata de una red, llamada NP, que trata de reconocer grupos nominales. Existen 3 nodos, identicados con f, g y h. f es inicial y h es nal (de l sale un arco SEND, en la nomenclatura de Winograd). La red es capaz de reconocer pronombres, nombres propios y nombres, opcionalmente precedidos de un determinante. Un nmero indeterminado de grupos preposicionales se puede postponer al ncleo. Un nmero indeterminado de adjetivos se podran anteponer al nombre. A algunos de los arcos se les asocian Condiciones (notadas con C) y Acciones (notadas con A). Las acciones asocian valores a determinadas variables, llamadas aqu rasgos, mientras que las condiciones chequean el valor de dichos rasgos.
21.5.3 Los Charts

Un problema que presentan las ATNs (y las RTNs y, en general, todos los sistemas que utilizan el backtracking) es el de la redundancia en la ejecucin de determinadas operaciones. En general, el mecanismo del backtracking hace que al ejecutarlo se retorne al estado anterior y, por lo tanto, se pierdan todos los efectos producidos en la opcin ahora rechazada. Por supuesto,
205
6:Proper 5:Pronoun 8:Send 1:Det f 2: Jump g 3: Adjective 4: Noun h 7: PP
Feature Dimensions: Number: Singular, Plural: default empty Initializations, Conditions and Actions: NP1: f Determiner g A: Set Number to the Number of * NP4: g Nounh C: Number is empty or Number is the Number of * A: Set Number to the Number of * NP5: f Pronounh A: Set Number to the Number of * NP6: f Proper h A: Set Number to the Number of *
Figura 21.4: Ejemplo de ATN
206
alguno de estos efectos eran perniciosos (si no, no tendra sentido el volver atrs), pero otros no. Si los procesos realizados incluyen operaciones constructoras: fragmentos de rboles de anlisis o de estructuras semnticas, etc el problema es an ms grave. La tcnica de los Charts intenta solucionar estas insuciencias. La idea de los Charts proviene de las llamadas Tablas de Cadenas Bien Formadas (WFST: Well Formed String Tables). Se trata de tablas, construdas dinmicamente, que almacenan los resultados de los elementos no terminales reconocidos durante el proceso de anlisis. Estos resultados son accesibles globalmente, no se destruyen durante el proceso de backtracking y pueden ser consultados y utilizados por el analizador. Para utilizar una WFST debemos modicar el analizador de forma que, antes de abordar el reconocimiento y la construccin de cualquier componente, se compruebe que tal componente no hubiere ya sido construdo e incorporado a la tabla. El mecanismo no afecta a la estrategia del anlisis. El inconveniente, como es lgico, es que la tabla ocupa espacio, que construirla requiere tiempo y que una parte (potencialmente considerable) del almacenamiento puede corresponder a material intil. Una limitacin adicional de las WFST es que slo los componentes bien formados (completados) tienen acomodo. No se memorizan ni objetivos ni hiptesis a medio conrmar. Los Charts pretenden solucionar estos problemas. Un Chart es un grafo dirigido que se construye en forma dinmica e incremental a medida que se realiza el anlisis. Los nodos del grafo corresponden al inicio y n de la frase y a las separaciones entre palabras. Si la frase a analizar tiene n palabras tendremos n+1 nodos. Los arcos se crean en forma dinmica. Un arco que va desde el nodo i al j ( siempre j i) se entiende que subsume a todas las palabras comprendidas entre las posiciones i y j. Los arcos pueden ser de dos tipos, activos e inactivos. Los arcos inactivos corresponden a componentes completamente analizadas (las entradas de las WFSTs) mientras que los arcos activos son objetivos o hiptesis, es decir componentes an no completamente analizadas. Una manera clsica de notar y etiquetar los arcos es mediante las llamadas reglas punteadas (DR, dotted rules). Una DR es, simplemente, una de las reglas de P que contiene en algn lugar de su parte derecha un punto que separa la parte ya analizada de la pendiente. La regla A B C D podra, en varias etapas de su proceso, dar lugar a las siguientes DRs: A A A A . B C D B . C D B C . D B C D .
Esta ltima correspondera a un arco inactivo y las anteriores a arcos activos. La primera es una mera hiptesis sin ninguna conrmacin, ni an parcial. Notaremos los arcos del Chart de la siguiente manera: <i, j, A .> donde: i es el nodo origen j es el nodo destino A es un no terminal y son elementos de V*
21.5 Analizadores Bsicos A . es una DR A pertenece a P
207
La regla bsica que permite combinar dos arcos es que si el Chart contiene dos arcos contiguos, el primero activo y el segundo inactivo, tales que el segundo es una continuacin vlida del primero, se crea un nuevo arco con origen en el origen del primero, con destino en el destino del segundo y con una etiqueta igual a la del primer arco con el punto desplazado a la derecha. Ser un arco activo o inactivo dependiendo de si quedan o no elementos a la derecha del punto <i, j, A .B> (activo) <j, k, B .> (inactivo) produciran: <i, k, A B.> El Chart debe inicializarse aadiendo los arcos (inactivos) que corresponden a las categoras lxicas (terminales). Las dos estrategias bsicas de anlisi se pueden implementar de la siguiente forma: Estrategia Ascendente: Cada vez que se aade un arco inactivo al Chart, <i, j, A .> entonces se debe aadir a su extremo izquierdo un arco activo <i, i, B .A> por cada regla B A de P. Estrategia Descendente: Cada vez que se aade un arco activo al Chart, <i, j, A .B> entonces, para cada regla B de P se deber aadir un arco activo a su extremo derecho: <j, j, B >. La combinacin de la regla bsica con la estrategia ascendente o descendente (o cualquier astuta combinacin de ambas) nos proporciona el mtodo de anlisis. Encontraremos un anlisis correcto si en cualquier momento del proceso logramos un arco inactivo que vaya desde el primer nodo al ltimo y est etiquetado con el axioma de la Gramtica. Consideremos la gramtica siguiente (G2): G2= <N2,T2,P2,FRASE> donde N1 = FRASE,GN,FV T1 = det,n,vi,vt P1 = { 1 FRASE GN FV. 2 GN det n. 3 GN n. 4 FV vi. 5 FV vt GN. } Si deseamos analizar la frase el gato come pescado deberamos en primer lugar inicializar el Chart produciendo (ver la gura 21.5): 1 2 3 4 <1, <2, <3, <4, 2, 3, 4, 5, det el.> n gato.> vt come.> n pescado.>
208
det
el
gato
vt
come
pescado
3
Figura 21.5: Chart 1
Veamos el funcionamiento del analizador con una estrategia ascendente: Al aadir el arco inactivo 1 se creara un nuevo arco, correspondiente a la regla 2 de G2: 5 <1, 1, GN .det n> lo mismo ocurrira con los arcos 2, 3 y 4 dando lugar a la creacin de los siguientes arcos: 6 <2, 2, GN .n> 7 <3, 3, FV .vt GN> 8 <4, 4, GN .n> La aplicacin de la regla bsica entre los arcos 5 y 1 dara lugar a: 9 <1, 2, GN det . n> Entre 9 y 2: 10 <1, 3, GN det n .> De forma similar, los arcos 6 y 2, 7 y 3, 8 y 4 daran, respectivamente lugar a la creacin de: 11 <2, 3, GN n .> 12 <3, 4, FV vt . GN> 13 <4, 5, GN n .> Los arcos 10,11 y 13 son inactivos y dan, por lo tanto, lugar a la aplicacin de la regla del Anlisis Ascendente. 14 <1, 1, FRASE .GN FV> 15 <2, 2, FRASE .GN FV> 16 <4, 4, FRASE .GN FV> Por otra parte, 12 y 13 pueden componerse para producir 17 <3, 5, FV vt GN .> Igualmente, 14 y 10, 15 y 11, 16 y 13 se pueden componer para dar lugar a 18 <1, 3, FRASE GN . FV> 19 <2, 3, FRASE GN . FV> 20 <4, 5, FRASE GN . FV> Finalmente 18 y 17 se compondran para producir 21 <1, 5, FRASE GN FV .> que es precisamente la condicin de gramaticalidad de la frase. Veamos ahora, en forma grca el anlisis siguiendo la estrategia descendente (simplicamos para facilitar la lectura de las guras). Es preciso iniciar el anlisis con un arco activo que corresponde al objetivo de obtener una FRASE. Ello desencadena la regla descendiente con el objetivo de un GN y luego de un <n> y un <det>, tal como presenta la gura 21.6.
209
FRASE
GN FV n
det
vt
1 GN
2 n
GN
det n
FRASE
GN
FV
det
vt
GN
n det
GN
det n
210
FRASE
GN
FV
det
vt
3 FV vi
FV
vt GN
FRASE
GN FV
FRASE
GN
FV
GN
det
vt
3 FV vt
4 GN GN n
FV
vt GN
21.6 Los formalismos de Unicacin
211
Slo el tercero de estos arcos puede ser extendido, primero incorporando <det> y luego <n> hasta completarse. En este punto tambin el primer arco podr extenderse un paso para llegar a la gura 21.7. La creacin del arco <1, 3, FRASE GN . FV> activa, de nuevo la regla de anlisis descendente, como presentamos en la gura 21.8. La reiteracin de estos procesos conduce, nalmente, a la gura 21.9 en la que la aparicin de un arco <1, 5, FRASE GN FV .> nos indica la gramaticalidad de la frase analizada.

21.6.1 Introduccin
Una especial importancia ha adquirido en los ltimos tiempos la utilizacin de formalismos basados en unicacin o, ms ampliamente, el empleo de las Gramticas Lgicas. Bajo la etiqueta genrica de Gramticas Lgicas (GL) podemos agrupar a toda una serie de formalismos de descripcin lingstica, tanto sintctica como semntica, que cubren un espectro muy amplio de fenmenos lingsticos y abordan el TLN desde muy diversas perspectivas. Existen formalismos que sirven de soporte a teoras lingsticas muy concretas (como las GPSG, ya mencionadas), otros encuentran su base en aproximaciones lgicas o algebraicas (como las CG) y otros, en n, son neutrales respecto a la teora y admiten su utilizacin para descripciones lingsticas con base muy diversa (las DCG perteneceran a este ltimo apartado). El nivel utilizado para la descripcin es asimismo muy variado, existen formalismos en los cuales la descripcin se realiza a un nivel de abstraccin alto (PATR-II puede ser un ejemplo) mientras que en otros el lenguaje es muy prximo al de implementacin, que habitualmente es Prolog. Igualmente son variados los aspectos de implementacin que se ocultan al lingista facilitando su tarea. En algunos formalismos la descripcin lingstica va ligada en forma rgida a una forma o estrategia de funcionamiento (es el caso de las MLG, Gramticas Lgicas Modulares) mientras que en otros la utilizacin es bastante ms exible. Es habitual el uso de las gramticas lgicaspara la tarea de comprensin del lenguaje natural aunque tambin podemos encontrar ejemplos interesantes de utilizacin para Generacin o Transferencia. Algunos de los formalismos de las gramticas lgicaspermiten la descripcin separada de la informacin sintctica y semntica (como las DCTG, Denite Clause Translation Grammars) mientras que en otros el mecanismo de descripcin es uniforme. Si quisiramos obtener las caractersticas bsicas de las gramticas lgicasa partir de la interseccin de las caractersticas de los diversos sistemas seguramente obtendramos el conjunto vacio. Existen, sin embargo, dos factores que podemos considerar fundamentales: el uso de la unicacin como mecanismo bsico (no nico) de composicin entre constituyentes y el uso de una aproximacin de estructuracin sintagmtica como forma bsica de descripcin gramatical. La utilizacin de la Unicacin permite entroncar a las gramticas lgicasen el paradigma lgico de programacin (o de resolucin de problemas) mientras la utilizacin de gramticas de estructura sintagmtica sigue la tradicin de descripcin sintctica de la gramtica generativa y concretamente la prctica habitual en el TLN de describir el ncleo del lenguaje mediante gramticas de contexto libre y modicar stas (extenderlas o restringirlas) para hacer frente a los aspectos sensitivos.
212
En los ltimos tiempos y atendiendo a las tendencias ms recientes en descripcin sintctica (especialmente las basadas en la teora GB) que refuerzan el papel del lxico como fuente de informacin gramatical reduciendo relativamente el de la gramtica y substituyndolo (parcialmente) por principios generales de buena formacin, se han producido esfuerzos destinados a incluir estos elementos en los formalismos lgicos.
21.6.2 Referencia Histrica

El desarrollo histrico de las gramticas lgicas ha supuesto la incorporacin de elementos de ndole muy diversa provinientes de diferentes campos: Lingstica, Lgica, Teora de Lenguajes, Deduccin etc Veremos a continuacin una breve panormica de las aportaciones ms importantes. El origen de las gramticas lgicasse suele asociar a los Q-Systems, desarrollados por Colmerauer en 1972 y que dieron lugar algo ms tarde a la aparicin del lenguaje Prolog. El propio Colmerauer present en 1975 las Gramticas de Metamorfosis (MG, Metamorphosis Grammars) que pueden considerarse como el primer formalismo expresamente creado para la descripcin de gramticas lgicas. Por esa poca el TLN se sola llevar a cabo mediante el uso de las ATNs. Intentos posteriores de remediar los problemas que el uso incontrolado del backtracking, inherente por otra parte a las ATNs, produca dieron lugar al desarrollo de las Tablas de Cadenas Bien Formadas y posteriormente a la tcnica de los Charts que ya hemos descrito. Precisamente las propuestas de Colmerauer y Kowalsky de tratar el anlisis de una frase en lenguaje natural como un problema de demostracin de un teorema no eran sino implementaciones de los Charts en el nuevo paradigma lgico. La siguiente aportacin, fundamental, fue la de las Gramticas de Clusulas Denidas. Las DCG suponan una implementacin de las gramticas lgicasa un nivel de abstraccin levemente por encima de Prolog y enteramente incorporadas al mismo. De hecho las DCG se han convertido en un autntico estndar de expresin de las gramticas lgicas de forma que buena parte de los formalismos posteriores no son sino renamientos sintcticos de Gramticas de Clusulas Denidas. En paralelo a estos esfuerzos de tipo informtico fueron apareciendo las primeras propuestas para dar un soporte lingstico terico a las GL. Podemos considerar tres grandes lneas de actuacin: 1. La asociada a las Gramticas Lxico Funcionales (LFG). 2. La asociada a las Gramticas Funcionales (FG, Functional Grammars, Dik), a las Gramticas de Unicacin (UG, Unication Grammars, Kay) y, nalmente a las Gramticas Funcionales de Unicacin (FUG, Functional Unication Grammars, Kay). 3. La asociada a las Gramticas de Estructura de Frase Generalizadas (GPSG) y sus derivadas (HG, Head Grammars, Pollard), (HPSG, Pollard, Sag). Hemos mencionar tambin aqu la incorporacin de la familia de las Gramticas Categoriales (GC, Steedman) y posteriormente de las Gramticas Categoriales de Unicacin (UCG, Zeevat). Desde el punto de vista del formalismo, aparecieron en los aos 80 varios enriquecimientos de las gramticas de clusulas denidas que aportaban soluciones a problemas puntuales que las gramticas de clusulas denidas presentaban. Las Gramticas de Extraposicin (XP, Pereira), las SG (Slot Grammars, Mc Cord), las GG (Gap Grammars, Dahl), las DC (Discontinuous Grammars, Dahl), las SDG (Static Discontinuous Grammars, Dahl) o el sistema DISLOG de St.Dizier pueden considerarse as. Se realiza un estudio de la gramticas en la seccin 21.3. Ms inters presentan sistemas desarrollados posteriormente que intentan proporcionar medios de separar los diferentes tipos de informacin a describir, especialmente la informacin sintctica
213
y la semntica. Las MSG (Modier Structure Grammars, Dahl y McCord) y las muy conocidas y utilizadas MLG (Modular Logic Grammars, McCord) son ejemplos signicativos. Mencin aparte merecen las DCTG ("Denite Clause Translation Grammars", Abramson) que se basan en las conocidas Gramticas de Atributos, ampliamente usadas en compilacin. Aportaciones como las de Hirshman o Sedogbo (RG, Restriction Grammars) que intentan proporcionar medios de describir las restricciones sobre el ncleo gramatical bsico en forma procedural, a partir de formalizaciones anteriores, son tambin reseables. Las ltimas aportaciones de Dahl y Saint Dizier en la linea de incorporar elementos de Sistemas basados en Principios son tambin dignas de mencin. Un ltimo punto a mencionar es el de las Gramticas de Rasgos. Se trata de formalismos en los cuales la descripcin de las restricciones se realiza a travs de ecuaciones que ligan los valores de determinados rasgos de los constituyentes. La inuencia de las FUG (Kay) o de las LFG (Kaplan, Bresnan) es patente. El ejemplo paradigmtico es PATR-II (Shieber), que se ha convertido de hecho en un estndar de este tipo de formalismos. Propuestas posteriores como ALE (Carpenter) son tambin interesantes.
21.6.3 El anlisis gramatical como demostracin de un teorema

La expresin de la gramtica y el lexicn en forma de clusulas de Horn permite aplicar la resolucin y el razonamiento por refutacin como procedimiento de anlisis y reducir de esta manera el anlisis a la demostracin de un teorema. Consideremos la siguiente gramtica: (G3) (1) frase(X,Y) gnom(X,Z),gver(Z,Y) (2) gnom(X,Y) art(X,Z),nom(Z,Y) (3) gver(X,Y) ver(X,Y) Consideremos el siguiente lexicn (no establecemos diferencia alguna por el momento entre gramtica y lexicn): (4) art(X,Y) el(X,Y) (5) nom(X,Y) perro(X,Y) (6) ver(X,Y) ladra(X,Y) Tanto gramtica como lexicn han sido expresados mediante implicaciones. Incorporemos, a continuacin, la frase a analizar (el perro ladra): (7) el(1,2) (8) perro(2,3) (9) ladra(3,4) Y planteemos el teorema a demostrar: que el perro ladra sea una frase gramatical respecto a la gramtica anterior. Estableceremos el teorema como: frase(1,4) es decir, hay una frase entre las posiciones 1 y 4 (jmonos en la similitud con la tcnica de los Charts). Razonando por refutacin deberemos negar el teorema: frase(1,4) y va derivacin descendente tratar de demostrar [ ]. Supongamos que los criterios de seleccin de trmino a expandir y expansin a realizar son los triviales: recorrido de izquierda a derecha de la negacin a convertir y bsqueda secuencial en la gramtica.
214
La nica regla aplicable es (1). Se produce para ello la unicacin de (X 1, Y 4) dando lugar a la negacin siguiente: gnom(1,Z), gver(Z,4) Se aplican, a continuacin las reglas (2) y (4) sobre los trminos gnom(1,Z) y art(1,U) dando lugar a las siguientes negaciones de la secuencia: art(1,U), nom(U,Z), gver(Z,4) el(1,U), nom(U,Z), gver(Z,4) La aplicacin de la regla (7) incorpora a la lista de substituciones (U 2) y produce la siguiente negacin de la secuencia: nom(2,Z), gver(Z,4) La aplicacin de las reglas (5) y (8) incorpora a la lista de substituciones (Z 3) y produce la siguientes negaciones de la secuencia: perro(2,Z), gver(Z,4) gver(3,4) Se pueden aplicar a continuacin las reglas (3) (6) y (9) para producir: ver(3,4) ladra(3,4) [] Hemos derivado, pues, la contradiccin y por lo tanto la negacin de frase(1,4) no es cierta y por lo tanto es cierta la armacin frase(1,4), es decir, el perro ladra es una frase gramatical. Resumimos, a continuacin todo el proceso deductivo: frase(1,4) gnom(1,Z), gver(Z,4) art(1,U), nom(U,Z), gver(Z,4) el(1,U), nom(U,Z), gver(Z,4) nom(2,Z), gver(Z,4) perro(2,Z), gver(Z,4) gver(3,4) ver(3,4) ladra(3,4) []
Una implementacin obvia de este formalismo lo proporciona el lenguaje Prolog. El mecanismo deductivo, as como los criterios de seleccin de trminos y reglas, forman parte del propio lenguaje.
21.6.4 Las Gramticas de Clusulas Denidas

Ya hemos indicado anteriormente que el desarrollo de los formalismos lgicos ha seguido una triple direccin: la mejora de la capacidad expresiva, la solucin de determinados problemas que los anteriores formalismos no permitan y la ocultacin de algunos argumentos para permitir trabajar a un nivel de abstraccin ms adecuado. Las Gramticas de Clusulas Denidas constituyen el primer paso importante en esa direccin. Las Gramticas de clusulas denidas incorporan cuatro novedades importantes sobre el formalismo descrito en la seccin anterior:
215
1. Los smbolos gramaticales ya no tienen por qu reducirse a meras etiquetas. Podemos, de acuerdo a los formalismos lgicos, utilizar constantes pero tambin functores que admiten una lista de argumentos que a su vez puden ser constantes u otros functores. As, en la gramtica G3, tenamos la categora nom y una clusula nos permita decir que perro tena esa categora. Podemos, en las DCG, enriquecer la categorizacin y denir que los nombres pueden tener gnero y nmero y asociar a perro la categora nom(gen(masc),num(sing)). Por supuesto la argumentacin no se limita a aspectos sintcticos (categorizacin, concordancia, reccin, etc ) sino que puede ampliarse a aspectos semnticos: As en G4 podemos ver como se ha utilizado la etiqueta adj([arg(con)]) asignada a la palabra enfadado para indicar que dicha palabra es un adjetivo, y que rige la preposicin con. 2. Una segunda caracterstica es la posibilidad de utilizar variables (de hecho el ejemplo anterior contena las variables X y Y). Las variables pueden ser instanciadas durante el proceso unicacin y proporcionan el medio natural de comunicacin entre los componentes. 3. Las Gramticas de clusulas denidas ocultan los argumentos ligados a la posicin de los componentes en la frase. 4. Las Gramticas de clusulas denidas permiten incluir cdigo Prolog en las reglas para efectuar acciones o comprobaciones no ligadas estrictamente al proceso de anlisis. Cuestiones como la concordancia, la interpretacin semntica o la interaccin de la gramtica con otras partes de la aplicacin informtica pueden ser de este modo abordadas de un modo sencillo. Sintaxis de las gramticas de clusulas denidas. Una gramticas de clusulas denidas se compone de una o varias reglas DCG. Cada regla DCG es de la forma <izda> <dcha>. o <izda>. (conviene prestar atencin al uso del operador que viene declarado en la mayora de las versiones de Prolog) dnde <izda> puede ser cualquier tomo, <dcha> puede ser una lista de uno o ms elementos separados por comas. Cada uno de los elementos puede ser un tomo, una lista de una o varias constantes o variables encerradas entre corchetes ([, ]) y separadas por comas o una lista de uno o varios predicados Prolog entre llaves ({, }) y separados por comas. Las constantes, como es habitual en Prolog, se notan con smbolos que comienzan por minscula, las variables por mayscula. Los tomos pueden ser constantes o functores. En este ltimo caso se notan con la etiqueta del functor y encerrados entre parntesis la lista de argumentos que a su vez pueden ser tomos. Como se ha dicho anteriormente, la comunicacin entre los elementos de la parte derecha entre s y con los de la parte izquierda se realiza, va unicacin, mediante el uso de variables. Los tomos son los reponsables de la parte sintctica de la gramtica. El cdigo entre llaves implica simplemente una llamada a Prolog. La lista de variables o constantes entre corchetes se unica con los elementos correspondientes de la lista de entrada (de hecho es lo que implementa la diferencia entre la lista de palabras de entrada y salida). Veamos un ejemplo: gver iver, [Palabra], verbo(Palabra), dver. gver, iver y dver son constantes. [Palabra] consume una palabra de la cadena de entrada y la unica con la variable Palabra. verbo(Palabra) llama a un predicado Prolog y le pasa la palabra anterior como argumento. La principal limitacin de las gramticas de clusulas denidas es la de limitar la longitud de la cadena izquierda a un solo elemento. Ello recuerda el formato de las gramticas de contexto libre aunque obviamente las DCG no lo son (podemos fcilmente implementar la contextualidad mediante comunicacin va argumentos de los functores). La siguiente gramtica es un ejemplo sencillo de DCG.
216 (G4) asercion npr, verb_ser, adj (X), compl(X). asercion npr, verb(X), compl(X). compl([ ]) [ ]. compl([arg(X)|Y]) prep(X), npr,compl(Y). npr [clara]. npr [maria]. npr [juan]. verb([arg(en)])[piensa]. verb([arg(en)]) [esta]. verb_ser([ ]) [es]. verb_ser([ ]) [esta]. verb([ ]) [rie]. verb([arg(con)]) [habla]. prep(en) [en]. prep(con) [con]. prep(de) [de]. verb([arg(con),arg(de)]) [habla]. adj([(arg (con)]) [enfadado]. adj([(arg (a)]) [parecido]. prep(a) [a].
22. La interpretacin semntica
22.1 Introduccin
La Semntica se reere al signicado de las frases. La Interpretacin Semntica (IS) es el proceso de extraccin de dicho signicado. No existe unanimidad en cuanto a los lmites de la IS. En nuestra presentacin consideraremos que la IS se reere a la representacin del signicado literal de la frase considerada sta en forma aislada, es decir, sin tener en cuenta el contexto en que ha sido enunciada. El conseguir a partir de aqu la interpretacin nal de la oracin ser una cuestin que resolveremos a nivel de la Pragmtica. Ya indicamos en su momento que existen diferentes modelos semnticos, aunque ni de lejos se ha llegado en Semntica al mismo grado de formalizacin que en Sintaxis. Desde el punto de vista del TLN se suelen exigir una serie de cualidades al modelo semntico utilizado y, por lo tanto, al proceso de la interpretacin. Allen, por ejemplo, propone: La Semntica ha de ser compositiva. Es decir, la representacin semntica de un objeto debe poder realizarse a partir de la de sus componentes. Debe utilizarse una teora, no basarse en una Semntica ad-hoc. Se deben utilizar objetos semnticos. Se debe denir un Sistema de Representacin Semntico. Debe existir un mecanismo de interfaz entre Sintaxis y Semntica. La IS debe ser capaz de tratar fenmenos complejos como la cuanticacin, la predicacin en sus diversas formas, modalidades, negacin, etc La IS debe ser robusta frente a las ambigedades lxica (polisemia) y sintctica. El sistema de representacin ha de ser no ambiguo. El sistema de representacin debe soportar inferencias (herencia, conocimiento no explcito, etc ). En cuanto al mecanismo de la representacin semntica, se han utilizado formas variadas. Quizs lo ms corriente sea el uso de formas de representacin basadas en lgica, especialmente formas diversas del Clculo de Predicados de primer orden. Tambin las Redes Semnticas han sido ampliamente utilizadas. Representaciones ms profundas, como los grafos de dependencia conceptual de Schank (u otros de ms alto nivel, como los MOPs o SCRIPTs) tienen tambin sus partidarios. Los modelos ms basados en Semntica (con poca o nula incidencia de la Sintaxis) encuentran especial acomodo en representaciones estructuradas (como los Frames). Por ltimo, los enfoques ms lexicalistas y prximos a las gramticas de rasgos suelen acomodar el formalismo de las FSs para incorporar a l los rasgos semnticos. Es habitual que la compositividad de la Semntica se realice a nivel sintctico. Es decir, que la IS de un objeto sea funcin de las IS de sus componentes sintcticas. sta ser la hiptesis que adoptaremos en lo que sigue. Si hablamos de semntica compositiva hemos de denir el nivel atmico, es decir el que no admite mayor descomposicin. En la hiptesis adoptada ste no puede ser sino el nivel lxico (es 217
218
Captulo 22. La interpretacin semntica
decir, consideraremos al lexema como unidad de signicado). En este sentido cabra asignar a las palabras, a travs del Lexicn, estas unidades de signicado. Consideremos, por ejemplo, un sistema de representacin basado en lgica. En l parece razonable que los nombres propios se interpreten como las constantes del formalismo (Pedro pedro). Los verbos intransitivos, por su parte, se podran interpretar como predicados unarios (rie (lambda(x), reir(x))), etc La composicin de signicados de estas unidades en la frase Pedro re podra, si la funcin de composicin fuera la aplicacin lambda, dar lugar a: (lambda(x), reir(x)) pedro reir(pedro). Cmo llevar a cabo la IS? Hay que decidir dos factores, la funcin (o funciones) de composicin y el momento de llevar a cabo la interpretacin. Respecto a la funcin de composicin, el enfoque ms elegante sera el de admitir una sola funcin de composicin de forma que las diferencias de comportamiento quedaran reejadas en los parmetros de tal funcin y, en ltimo extremo, en el lxico. Si siguiramos este enfoque no tendra demasiada importancia el momento de llevar a cabo la IS. Si lo hacemos con posterioridad al anlisis sintctico resultar que la IS dar lugar a un recorrido en postorden del rbol de anlisis (del que ya dispondremos) llamando recursivamente al IS que aplicara la misma funcin de interpretacin sobre las componentes sintcticas del nodo (es decir, sobre sus hos en el rbol de anlisis). El enfoque opuesto sera el de la aplicacin regla a regla. Cada vez que se aplique una regla con xito, es decir, cada vez que se construya un nuevo nodo en el rbol de anlisis podemos calcular la IS del constituyente. La ventaja del primer caso es que no se presentan problemas con el backtracking (el rbol de anlisis ya ha sido construdo) y, por lo tanto, las acciones del IS sern ya denitivas. El inconveniente es que muy probablemente no tengamos un rbol de anlisis sino varios y que alguno de ellos pudiera haber sido eliminado por consideraciones de tipo semntico. El inconveniente de la aplicacin regla a regla es que se puede llevar a cabo procesamiento semntico intil (que el backtracking deshar). La ventaja es que la IS constituye una forma ms de restriccin de la regla ( adems de las posibles restricciones de tipo sintctico). Elegir una u otra aproximacin se puede basar en consideraciones sobre el coste relativo de los procesos sintctico y semntico. Una forma extendida de implementar la funcin de composicin es limitarla a una lambda evaluacin. En este caso, la nica informacin semntica que se debera asociar a las reglas de la gramtica sera el orden de aplicacin de los componentes. Consideremos la siguiente gramtica: (G5) FRASE GN FV, (2 1) GN np, (1) FV vi, (1) FV vt GN (1 2) y el siguiente lexicn: Pedro np, pedro Mara np, maria re vi, (lambda (x), reir(x)) ama a vt, ((lambda (x), (lambda (y), ama(y,x)))) La lista (2 1) que acompaa a la regla FRASE GN FV, indica que la IS de FRASE se obtendr aplicando la IS de la segunda componente (FV), que deber, por lo tanto ser una funcin con un solo
22.1 Introduccin
FRASE SEM= (2 1) = (FV:SEM GN:SEM) = GN ((lambda (x) reir (x)) pedro) = reir(pedro)
219
SEM = (1) = (np:SEM) = pedro
np SEM= pedro
Pedro FV SEM = (1) = (vi:SEM) = (lambda(x) reir(x)) vi SEM = (lambda(x) reir (x))
re
Figura 22.1: rbol de anlisis 1
parmetro, a la primera componente (GN). La lista (1) que acompaa a la regla GN np, indica que la IS de GN es la misma que la de np. Fmonos en que Pedro y Mara se interpretan como objetos individuales, re (verbo intransitivo) como funcin que aplicada a un objeto produce un enunciado y ama a como una funcin que aplicada a un objeto produce una funcin como la anterior. Si aplicramos la IS regla a regla al anlisis de la frase Pedro re obtendramos el rbol de anlisis de la gura 22.1. mientras que al analizar Pedro ama a Mara obtendramos el rbol de anlisis de la gura 22.2. Es habitual, si se emplea la forma de interpretacin regla a regla, el almacenamiento de las interpretaciones parciales como etiquetas del rbol de anlisis (en nuestro ejemplo como valores del atributo SEM). Si empleamos el proceso a posteriori, lo nico que necesitamos almacenar es el orden de aplicacin de los argumentos de la composicin. No siempre es adecuado un sistema de interpretacin como el aqu presentado. A veces conviene utilizar ms de una funcin de composicin para atenuar la rigidez del mtodo. En esos casos la informacin asociada no es nicamente el orden de aplicacin sino tambin el tipo de operacin a efectuar. Allen, por ejemplo, propone un mtodo similar al presentado aqu, en el que se utilizan algunas operaciones ms de composicin. En cualquier caso, si el nmero de operaciones diferentes no es grande las mismas consideraciones que hemos hecho seran aplicables. En todos los casos anteriores, la informacin bsica de tipo semntico o es aportada por el lxico o se reduce a un mnimo (operacin y orden de aplicacin) que se debe incorporar a cada regla. Independientemente de que la IS se realice en paralelo o al nal del anlisis sintctico se produce una interaccin muy fuerte Sintaxis-Semntica. Difcilmente podr escribir la parte semntica de las reglas quien no haya escrito la parte sintctica. Existe, por supuesto, la aproximacin contraria: la que se basa en una descripcin independiente de las reglas sintcticas y semnticas.
220
FRASE SEM= (1 2) = (FV:SEM GN:SEM) =

GN
((lambda(x) amar(x, mara)) pedro) = amar(pedro,mara)
SEM = (1) (np:SEM) = pedro

np
SEM = pedro
Pedro FV
SEM = (1 2) = (vt:SEM GN:SEM) = (((lambda(y) (lambda (x) amar(x,y))) mara) = ((lambda(x) amar(x,mara))
vt
SEM= ((lambda(y) lambda(x) amar(x,y)))

ama a GN
SEM = (1) = (np:SEM) = mara

np
SEM= mara
Mara
Figura 22.2: rbol de anlisis 2
22.1 Introduccin
221
En esta otra aproximacin el AS produce un rbol de anlisis y sobre l se aplicar la IS. No existe una correspondencia regla a regla. Cmo sern las reglas de IS en este caso? Suelen ser reglas que producen interpretaciones semnticas parciales que luego se combinarn entre s (recordemos la compositividad) para formar IS ms complejas. El mecanismo de activacin y actuacin de estas reglas suele ser del tipo de los sistemas de produccin. Las reglas constan de una condicin y una accin. La condicin se aplica sobre un fragmento del rbol de anlisis y cuando tiene xito se ejecuta la accin. sta suele incorporar nueva informacin al rbol de anlisis. La condicin acostumbra a implicar la actuacin de un mecanismo de pattern-matching. As expuesto el sistema parece sencillo. No lo es. En primer lugar, un mecanismo de patternmatching sobre los nodos de un rbol (potencialmente a diferente profundidad) que suponga el examen de todos los posibles cortes del rbol para intentar asociarlos a los patrones de todas las reglas de interpretacin es a todas luces computacionalmente impracticable. Es necesario limitar el espacio de bsqueda en ambos sentidos: no todos los cortes, no todas las reglas. Ello obliga, en primer lugar, a establecer algn tipo de indiciacin de las reglas (agrupacin en paquetes, acceso eciente, posiblemente a travs de multindices, etc ) y, en segundo lugar, a incluir algn tipo de mecanismo de control que establezca cundo deben aplicarse qu reglas. Consideremos el siguiente ejemplo, tomado de Allen. Supongamos que la frase una manzana verde ha sido analizada sintcticamente dando lugar al siguiente rbol de anlisis: (NP DET una HEAD manzana ADJ verde)
Supongamos que indexadas por lexemas se encuentran las siguientes reglas de interpretacin semntica: (verde 1) (NP ADJ verde HEAD +objeto-sico) (? * T(HEAD) (COLOR * verde)) (verde 2) (NP ADJ verde HEAD +fruta) (? * T(HEAD) (verde *)) (una 1) (NP DET una NUM sg) (INDEF/SG * ? ?) (manzana 1) (NP HEAD manzana) (? * manzana) Las reglas que Allen propone constan de una condicin, que debe emparejarse con un fragmento del rbol de anlisis, y una accin, que consiste en una forma lgica completada parcialmente. Las formas lgicas que Allen utiliza suelen ser tuplas de 4 elementos. El primero es el operador, que depende del tipo de objeto, frase, grupo nominal, nombre propio, etc , que se trata de describir. El segundo es el identicador (nico) del objeto, el tercero, el tipo o clase genrica a que pertenece, el cuarto, la lista de posibles modicadores. Las dos primeras reglas de interpretacin corresponden a dos interpretaciones de "verde": color, si se trata de un objeto fsico, grado de maduracin si se trata de una fruta. La interpretacin semntica producira los intentos de emparejamiento de las reglas anteriores con el resultado del rbol de anlisis y la posterior unicacin de los resultados. El resultado nal sera en este caso: (INDEF/SG M1 manzana {(color M1 verde) (verde M1)}) Este sistema separa completamente la IS del AS (slo el conocimiento de las formas posibles de rbol de anlisis es necesario). Ahora bien, esto no quere decir que la IS se deba llevar a cabo obligatoriamente despus del AS. Podemos perfectamente interpretar semnticamente cualquier fragmento de rbol de anlisis, no necesariamente el completo, una vez est construdo, y almacenar las interpretaciones parciales en el rbol. De esta manera es posible implementar una estrategia cooperativa
222
entre sintaxis y semntica sin vernos obligados a desarrollar en paralelo las dos fuentes de conocimiento. Si usramos esta aproximacin, iramos construyendo y decorando semnticamente el rbol de anlisis en forma incremental. Los mismos argumentos que se adujeron al hablar de la IS regla a regla seran aplicables aqu.
Parte V Aprendizaje Automtico
223
23. Aprendizaje Automtico
23.1 Introduccin
Todas las tcnicas que hemos visto hasta ahora estn encaminadas a desarrollar aplicaciones para problemas que necesitan inteligencia en su resolucin. Fundamentalmente, stas estn orientadas a incluir conocimiento del dominio para facilitar su resolucin, intentando evitar el coste computacional que implican los algoritmos generales. Una de las limitaciones que podemos percibir es que estas aplicaciones no podrn resolver problemas para las que no haya sido programadas. Es decir, sus lmites estn impuestos por el conocimiento que hemos integrado en ellas. Si queremos tener aplicaciones que podamos considerar inteligentes en un sentido amplio, estas han de ser capaces de ir mas all de este lmite. De hecho nos parecera mas inteligente una aplicacin capaz de adaptarse y poder integrar nuevo conocimiento, de manera que pueda resolver nuevos problemas. El rea de aprendizaje automtico dentro de la inteligencia articial es la que se encarga de estas tcnicas. La idea es buscar mtodos capaces de aumentar las capacidades de las aplicaciones habituales (sistemas basados en el conocimiento, tratamiento del lenguaje natural, robtica, ...) de manera que puedan ser mas exibles y ecaces. Hay diversas utilidades que podemos dar al aprendizaje en los programas de inteligencia articial (y en el resto tambin) podemos citar tres esenciales: Tareas difciles de programar: Existen muchas tareas excesivamente complejas en las que construir un programa capaz de resolverlas es prcticamente imposible. Por ejemplo, si queremos crear un sistema de visin capaz de reconocer un conjunto de caras sera imposible programar a mano ese reconocimiento. El aprendizaje automtico nos permitira construir un modelo a partir de un conjunto de ejemplos que nos hara la tarea de reconocimiento. Otras tareas de este tipo lo constituiran ciertos tipos de sistemas basados en el conocimiento (sobre todo los de anlisis), en los que a partir de ejemplos dados por expertos podramos crear un modelo que realizara su tarea Aplicaciones auto adaptables: Muchos sistemas realizan mejor su labor si son capaces de adaptarse a las circunstancias. Por ejemplo, podemos tener una aplicacin que adapte su interfaz a la experiencia del usuario. Un ejemplo bastante cercano de aplicaciones auto adaptables son los gestores de correo electrnico, que son capaces de aprender a distinguir entre el correo no deseado y el correo normal. Minera de datos/Descubrimiento de conocimiento: El aprendizaje puede servir para ayudar a analizar informacin, extrayendo de manera automtica conocimiento a partir de conjuntos de ejemplos (usualmente millones) y descubriendo patrones complejos.
23.2 Tipos de aprendizaje

El rea de aprendizaje automtico es relativamente amplia y ha dado lugar a muchas tcnicas diferentes de aprendizaje, podemos citar las siguientes: 225
226
Captulo 23. Aprendizaje Automtico Aprendizaje inductivo: Se pretenden crear modelos de conceptos a partir de la generalizacin de conjuntos de ejemplos. Buscamos descripciones simples que expliquen las caractersticas comunes de esos ejemplos. Aprendizaje analtico o deductivo: Aplicamos la deduccin para obtener descripciones generales a partir de un ejemplo de concepto y su explicacin. Esta generalizacin puede ser memorizada para ser utilizada en ocasiones en las que nos encontremos con una situacin parecida a la del ejemplo. Aprendizaje gentico: Aplica algoritmos inspirados en la teora de la evolucin para encontrar descripciones generales a conjuntos de ejemplos. La exploracin que realizan los algoritmos genticos permiten encontrar la descripcin mas ajustada a un conjunto de ejemplos. Aprendizaje conexionista: Busca descripciones generales mediante el uso de la capacidad de adaptacin de redes de neuronas articiales. Una red neuronal esta compuesta de elementos simples interconectados que poseen estado. Tras un proceso de entrenamiento, el estado en el que quedan las neuronas de la red representa el concepto aprendido.
23.3 Aprendizaje Inductivo

Se trata del rea de aprendizaje automtico mas extensa y mas estudiada (de hecho los aprendizajes gentico y conexionista tambin son inductivos). Su objetivo es descubrir descripciones generales que permitan capturar las caractersticas comunes de un grupo de ejemplos. El fundamento de estos mtodos es la observacin de las similaridades entre los ejemplos y la suposicin de que se puede generalizar a partir de un nmero limitado de observaciones. Esta generalizacin a partir de un conjunto limitado de ejemplos cae dentro de lo que denominaremos razonamiento inductivo, en contraste con el razonamiento deductivo. El razonamiento inductivo permite obtener conclusiones generales a partir de informacin especca. Estas conclusiones evidentemente son conocimiento nuevo, ya que no estaba presente en los datos iniciales. Este tipo de razonamiento tiene la caracterstica de no preservar la verdad, en el sentido de que nuevo conocimiento puede invalidar lo que hemos dado por cierto mediante el proceso inductivo. Por ejemplo, si observamos un conjunto de instancias de aves y vemos que todas vuelan, podemos sacar la conclusin de que todas las aves vuelan (induccin), pero cuando nos presentan como nuevo ejemplo un pingino, veremos que la conclusin a la que habiamos llegado no era cierta, ya que no cubre la nueva observacin. Por esta razn se dice que el razonamiento inductivo (y en consecuencia el aprendizaje inductivo) no preserva la verdad (non truth preserving). El mayor problema del razonamiento inductivo es que no tiene una base terica slida como el razonamiento deductivo que, al contrario que el primero, s preserva la verdad (ningn nuevo ejemplo puede invalidar lo que deducimos) y est soportado por la lgica matemtica. Los mtodos inductivos son de naturaleza heurstica, no existe una teora o procedimientos que los fundamenten de manera slida. Se basan en la suposicin de que la observacin de un nmero limitado de ejemplos es suciente para sacar conclusiones generales, a pesar de que un solo ejemplo puede invalidarlas1 . Pese a esta falta de fundamento en el aprendizaje inductivo, podemos observar que gran parte del aprendizaje humano es de este tipo, de hecho la mayor parte de las ciencias se basan en l.
1 Citando a Albert Einstein: Ninguna cantidad de experimentos pueden probar que estoy en lo cierto, un solo experimento puede demostrar que estoy equivocado
23.3 Aprendizaje Inductivo
227
23.3.1 Aprendizaje como bsqueda

El aprendizaje inductivo se suele plantear como una bsqueda heurstica. El objetivo de la bsqueda es descubrir la representacin que resuma las caractersticas de un conjunto de ejemplos. Esta representacin puede ser una funcin, una frmula lgica o cualquier otra forma de representacin que permita generalizar. En esta bsqueda, consideraremos como espacio de bsqueda todas las posibles representaciones que podemos construir con nuestro lenguaje de representacin. El objetivo de la bsqueda es encontrar la representacin que describa los ejemplos. El tamao de este espacio de bsqueda depender del lenguaje de representacin que escojamos. Evidentemente, cuanto ms expresivo sea el lenguaje ms grande ser este espacio de bsqueda. Por ejemplo, si queremos poder expresar nuestro concepto mediante una frmula conjuntiva pura tenemos O(3n ) posibles conceptos, si queremos expresarlo n mediante una frmula en FND tenemos O(22 ) posibles conceptos. Para describir un problema de bsqueda necesitamos dos elementos ms aparte del espacio de bsqueda, un conjunto de operadores de cambio de estado y una funcin heurstica. Los operadores de cambio de estado dependern del mtodo de aprendizaje que empleemos y el lenguaje de representacin, pero han de ser capaces de modicar la representacin que utilizamos para describir el concepto que queremos aprender. La funcin heurstica tambin depende del mtodo, sta nos ha de guiar en el proceso de encontrar la descripcin que incluye a los ejemplos de que disponemos. La mayora de mtodos utilizan como criterio de preferencia una funcin que permita obtener la descripcin mas pequea consistente con los ejemplos. La razn de utilizar este sesgo en la funcin heurstica es simple. Por lo general deseamos que la descripcin que obtengamos sea capaz de prever ejemplos no vistos. Si la descripcin que obtenemos es la ms pequea, existe menos riesgo de que tengamos caractersticas que sean especcas de los ejemplos que hemos utilizado para construirla, de manera que probablemente ser sucientemente general para capturar el concepto real. Esta preferencia por los conceptos mnimos proviene del principio denominado navaja de Occam2 .
23.3.2 Tipos de aprendizaje inductivo

Podemos distinguir dos tipos de aprendizaje inductivo, el supervisado y el no supervisado. El aprendizaje supervisado es aquel en el que para cada ejemplo que tenemos, conocemos el nombre del concepto al que pertenece, lo que denominaremos la clase del ejemplo. Por lo tanto la entrada de este tipo de aprendizaje es un conjunto de ejemplos clasicados. El aprendizaje se realiza por contraste, pretendemos distinguir los ejemplos de una clase de los del resto. Dispondremos de un conjunto de operadores capaces de generar diferentes hiptesis sobre el concepto a aprender y tendremos una funcin heurstica que nos permitir elegir la opcin ms adecuada. El resultado del proceso de aprendizaje es una representacin de las clases que describen los ejemplos. El aprendizaje no supervisado es ms complejo, no existe una clasicacin de los ejemplos y debemos encontrar la mejor manera de estructurarlos, obteniendo por lo general una particin en grupos. El proceso de aprendizaje se guia por la similaridad/disimilaridad de los ejemplos, construyendo grupos en los que los ejemplos similares estn juntos y separados de otros ejemplos menos similares. El resultado de este proceso de aprendizaje es una particin de los ejemplos y una descripcin de los grupos de la particin.
William of Occam (1285-1349) Dadas dos teoras igualmente predictivas, es preferible la ms simple
228
Captulo 23. Aprendizaje Automtico
23.4 rboles de Induccin

Podemos plantear el aprendizaje de un concepto como el averiguar qu conjunto mnimo de preguntas hacen falta para distinguirlo de otros (algo as como el juego de las 20 preguntas). Este conjunto de preguntas nos servir como una caracterizacin del concepto. Nuestro objetivo en este mtodo de aprendizaje es conseguir distinguir conjuntos de ejemplos pertenecientes a diferentes conceptos (clases). Para representar la descripcin de los conceptos de cada clase usaremos como lenguaje de representacin un rbol de preguntas (rbol de induccin) que almacenar las preguntas que nos permitirn distinguir entre los ejemplos de los conceptos que queramos aprender. Cada nodo del rbol ser una pregunta y tendremos para cada nodo tantas ramas como respuestas pueda tener esa pregunta. Las hojas de este rbol corresponderan con la clase a la que pertenecen los ejemplos que tienen como respuestas las correspondientes al camino entre la raz y la hoja. El lenguaje de descripcin de los rboles de induccin corresponde a las frmulas lgicas en FND, n tenemos por lo tanto O(22 ) descripciones posibles. Evidentemente, no podemos plantearlos explorar todos para encontrar el ms adecuado, por lo que tendremos que utilizar bsqueda heurstica. Los algoritmos de construccin de rboles de induccin siguen una estrategia Hill-Climbing. Se parte de un rbol vaci y se va particionando el conjunto de ejemplos eligiendo a cada paso el atributo que mejor discrimina entre las clases. El operador de cambio de estado es la eleccin de este atributo. La funcin heurstica ser la que determine qu atributo es el mejor, esta eleccin es irrevocable, por lo que no tenemos garanta de que sea la ptima. La ventaja de utilizar esta estrategia es que el coste computacional es bastante reducido. La funcin heurstica ha de poder garantizarnos que el atributo elegido minimiza el tamao del rbol. Si la funcin heurstica es buena el rbol resultante ser cercano al ptimo. El algoritmo bsico de rboles de induccin fue desarrollado por Quinlan3 y es conocido como algoritmo ID3. Este algoritmo basa su funcin heurstica para la seleccin del mejor atributo en cada uno de los niveles del rbol en la teora de la informacin. En concreto el algoritmo utiliza la nocin de entropa de Shannon, que se puede usar como una medida de la aleatoriedad de la distribucin estadstica de un conjunto de ejemplos sobre las clases a las que pertenecen. La teora de la informacin estudia entre otras cosas los mecanismos de codicacin de mensajes y el coste de su transmisin. Si denimos un conjunto de mensajes M = {m1 , m2 , ..., mn }, cada uno de ellos con una probabilidad P (mi ), podemos denir la cantidad de informacin (I) contenida en un mensaje de M como:
n
I(M ) =
i=1
P (mi )log(P (mi ))
Este valor se puede interpretar como la informacin necesaria para distinguir entre los mensajes de M (Cuantos bits de informacin son necesarios para codicarlos). Dado un conjunto de mensajes podemos obtener la mejor manera de codicarlos para que el coste de su transmisin sea mnimo4 . Podemos hacer la analoga con la codicacin de mensajes suponiendo que las clases son los mensajes y la proporcin de ejemplos de cada clase su probabilidad. Podemos ver un rbol de decisin como la codicacin que permite distinguir entre las diferentes clases. El objetivo es encontrar el mnimo rbol (codicacin) que nos permite distinguir los ejemplos de cada clase. Cada atributo se deber evaluar para decidir si se le incluye en el cdigo (rbol). Un atributo ser mejor cuanto mas permita discriminar entre las diferentes clases. Como se ha comentado, el rbol se construye a partir de cero de manera recursiva, en cada nodo del rbol debemos evaluar que atributo permite minimizar el cdigo (minimizamos el tamao del
3 4
J. R. Quinlan, Induction of Decision Trees, Machine Learning, 1(1) 81-106, 1986. En estos mismos principios se basan tambin, por ejemplo, los algoritmos de compresion de datos.
23.4 rboles de Induccin Algoritmo 23.1 Algoritmo de aprendizaje de rboles de decisin
229
Algoritmo: ID3 (X : Ejemplos, C: Classicacin, A: Atributos) si todos los ejemplos son de la misma clase entonces retorna una hoja con el nombre de la clase sino Calcular la funcin de cantidad de informacin de los ejemplos (I) para cada atributo en A hacer Calcular la funcin de entropia (E) y la ganancia de informacin (G) n Escoger el atributo que maximiza G (a) Eliminar a de la lista de atributos (A) Generar un nodo raz para el atributo a para cada Particin generada por los valores vi del atributo a hacer rboli =ID3(ejemplos de X con a=vi , Clasicacin de los ejemplos,Atributos restante) Generar una nueva rama con a=vi y rboli n retorna El nodo raz para a n
rbol). Este atributo ser el que haga que la cantidad de informacin que quede por cubrir sea la menor posible, es decir, el que minimice el nmero de atributos que hace falta aadir para discriminar totalmente los ejemplos del nodo. La eleccin de un atributo debera hacer que los subconjuntos de ejemplos que genera el atributo sean mayoritariamente de una clase. Para medir esto necesitamos una medida de la cantidad de informacin que no cubre un atributo (medida de Entropia, E) La formulacin es la siguiente, dado un conjunto de ejemplos X clasicados en un conjunto de clases C = {c1 , c2 , cn }, siendo #ci la cardinalidad de la clase ci y #X el numero total de ejemplos, se dene la funcin cantidad de informacin como: I(X , C) =
ci C
#ci #ci log( ) #X #X
Para cada uno de los atributos Ai , siendo {vi1 , . . . vin } el conjunto de modalidades del atributo Ai y #[Ai (C) = vij ] el numero de ejemplos que tienen el valor vij en su atributo Ai , se dene la funcin de entropa como: E(X , C, Ai ) =
vij Ai
#[Ai (C) = vij ] I([Ai (C) = vij ], C) #X
Con estas dos medidas se dene la funcin de ganancia de informacin para cada atributo como: G(#X , C, Ai ) = I(X, C) E(X, Ai ) El atributo que maximice este valor se considera como la mejor eleccin para expandir el siguiente nivel del rbol (es el atributo que menor cantidad de informacin deja por cubrir). El algoritmo que se sigue para la generacin de rboles de decisin es que se puede ver en el algoritmo 23.1. Este algoritmo de generacin de rboles de decisin no es el nico que existe, por ejemplo se
230
pueden escoger otras heursticas para hacer la eleccin de atributos en cada nodo5 o se puede hacer ms de una pregunta en cada nodo del rbol. Un rbol de decisin se puede transformar fcilmente en otras representaciones. Por ejemplo, para generar un conjunto de reglas a partir de un rbol es suciente con recorrer todos los caminos desde la raz hasta las hojas generando una regla con los atributos y valores que aparecen en los nodos de cada camino. Ejemplo 23.1 Tomemos la siguiente clasicacin: Ej. 1 2 3 4 5 6 7 8 Ojos Azules Azules Marrones Verdes Verdes Marrones Verdes Azules Cabello Rubio Moreno Moreno Moreno Moreno Moreno Rubio Moreno Estatura Alto Medio Medio Medio Alto Bajo Bajo Medio Clase + + + +
Si calculamos los valores para las funciones I y E:
I(X, C) = 1/2 log(1/2) 1/2 log(1/2) = 1 E(X, ojos) = (azul) 3/8 (1 log(1) 0 log(0)) + (marrones) 2/8 (1 log(1) 0 log(0)) + (verde) 3/8 (1/3 log(1/3) 2/3 log(2/3)) = 0.344 E(X, cabello) = (rubio) 2/8 (1/2 log(1/2) 1/2 log(1/2)) + (moreno) 6/8 (1/2 log(1/2) 1/2 log(1/2)) = 1 E(X, estatura) = (alto) 2/8 (1 log(1) 0 log(0)) + (medio) 4/8 (1/2 log(1/2) 1/2 log(1/2)) + (bajo) 2/8 (0 log(0) 1 log(1)) = 0.5 Como podemos comprobar, es el atributo ojos el que maximiza la funcin.
G(X, ojos) = 1 0.344 = 0.656 G(X, cabello) = 1 1 = 0 G(X, estatura) = 1 0.5 = 0.5
Este atributo nos genera una particin que forma el primer nivel del rbol.
5 La entropa no es el nico criterio, de hecho no existe ninguna heurstica que sea mejor que el resto y el resultado depende muchas veces del dominio de aplicacin
23.4 rboles de Induccin

OJOS
231
AZULES
MARRONES
VERDES
4,7 5 3,6 1,2,8 + + Ahora solo en el nodo correspondiente al valor verdes tenemos mezclados objetos de las dos clases, por lo que repetimos el proceso con esos objetos.
Ej. Cabello 4 Moreno 5 Moreno 7 Rubio
Estatura Medio Alto Bajo
Clase +
Si calculamos los valores para las funciones I y E: I(X, C) = 1/3 log(1/3) 2/3 log(2/3) = 0.918 E(X, cabello) = (rubio) 1/3 (0 log(0) 1 log(1)) + (moreno) 2/3 (1/2 log(1/2) 1/2 log(1/2)) = 0.666 E(X, estatura) = (alto) 1/3 (0log(0) 1 log(1)) + (medio) 1/3 (1 log(1) 0 log(0)) + (bajo) 1/3 (0 log(0) 1 log(1)) = 0 Ahora el atributo que maximiza la funcin es ojos. G(X, cabello) = 0.918 0.666 = 0.252 G(X, estatura) = 0.918 0 = 0.918
El rbol resultante es ya totalmente discriminante.

OJOS
AZULES
MARRONES
VERDES ESTATURA
1,2,8 +
3,6 ALTO 5 + MEDIO 4 BAJO 7
232
Este rbol se podra reescribir por ejemplo como un conjunto de reglas: (Ojos (Ojos (Ojos (Ojos (Ojos = = = = = Azul C+) Marrones C-) Verdes y Altura = Medio C-) Verdes y Altura = Bajo C-) Verdes y Altura = Alto C+)
Bibliografa
[1] James Allen Natural language understanding, Benjamin /Cummings, 1995. [2] Joseph Giarratano, Gary Riley Expert systems: principles and programming, Thomson Course Technology, 2005. [3] Avelino J. Gonzlez, Douglas D. Dankel The Engineering of knowledge-based systems : theory and practice, Prentice Hall, 1993. [4] Jackson, P. Introduction to Expert Systems, Addison-Wesley, 1990. [5] Noy & McGuinness Ontology Development 101: A Guide to Creating Your First Ontology, (2000) [6] Stuart J. Russell and Peter Norvig Articial intelligence: a modern approach, Prentice Hall, 2003.
233
ndice alfabtico
A , 24 Abstraccin de datos, 137 Adecuacin Inferencial, 69 Adecuacin Representacional, 69 Adquisicin de conocimiento, 128 Agentes Inteligente, 124 Algoritmo de distancia inferencial, 89 Algoritmo de unicacin, 75 Algoritmo gentico cannico, 45 Algoritmo minimax, 50 Algoritmos genticos, 41 ALVEY, 176, 190 Anlisis, 136 anlisis lxico, 186 analizador, 198 analizadores activados por islas, 202 analizadores de dos niveles, 193 analizadores de un nivel, 193 analizadores regidos por el ncleo, 203 aplicaciones del lenguaje natural, 181 arco-consistencia, 59 Asociacin heurstica, 137 ATN, 196 Bsqueda en anchura, 13 Bsqueda en profundidad, 14 Bsqueda en profundidad iterativa, 16 Backtracking cronolgico, 57 Backward chaining, 83 Base de casos, 120 Base de conocimiento, 78, 116 Base de Hechos, 78 Beam search, 38 Branch and bound, 36 Busqueda en haces, 38 Case Based Reasoning, 119 CG, 179, 211 Chomsky, N., 178 Ciclo de vida, 130 Clusulas de Horn, 77 Clasicacin de los SBC, 135 Clasicacin Heurstica, 137 Colmerauer, A., 212 CommonKADS, 131 Conectivas difusas, 162 Conjunto de conicto, 80 conjunto de conicto, 79 Conjunto difuso, 161 Conocimiento, 67 conocimiento de sentido comn, 183 Conocimiento declarativo, 70 Conocimiento heredable, 70 Conocimiento inferible, 70 Conocimiento procedimental, 70 Conocimiento relacional, 70 Constraint satisfaction, 55 Constructive Problem Solving, 142 CYC, 192 DAG, 187 DCG, 179, 211 DCTG, 211 Demons, 89 Description Logics, 88 Diagram, 176 Discontinuous Grammars, 212 DISLOG, 212 dotted rules, 206 Eciencia en la Adquisicin, 69 Eciencia Inferencial, 69 Eliminacin de variables, 157 Espacio de estados, 6 Esquema de representacin, 68 Estado, 6 Estrategia de control, 79 Estrategia de enfriamiento, 40 Estrategia de resolucin de conictos, 79 Etiqueta lingstica, 161 Expert Systems, 107 Facet, 88 Factores, 157 Feature Structures, 187 FG, 212 Forma normal de skolem, 75 formalismos de unicacin, 211 Forward chaining, 82 Forward checking, 61 frame, 180 Frame problem, 69 234
NDICE ALFABTICO Frames, 88 FUG, 212 Funcin de adaptacin, 42 Funcion de tness, 42 Gap Grammars, 212 GPSG, 211 gramtica, 198 Gramtica Generativa, 178 Gramtica Transformacional Generativa, 178 gramticas categoriales de unicacin, 212 gramticas de casos, 178 gramticas de contexto libre, 199 gramticas de extraposicin, 212 gramticas de metamorfosis, 212 gramticas de rasgos, 213 gramticas de unicacin, 212 gramticas funcionales, 212 gramticas funcionales de unicacin, 212 gramticas lxico funcionales, 212 gramticas lgicas, 211 gramticas regulares, 199 gramticas sensitivas, 198 greedy best rst, 24 Hechos, 78 Herncia, 89 Herncia mltiple, 89 Heuristic Classication, 137 Hill-climbing, 36 HPSG, 212 IDA , 30 Independencia condicional, 152 Inferencia difusa, 169 Inferencia difusa de Sugeno, 169 Inferencia probabilstica, 155 Informacin, 67 Ingeniero del conocimiento, 127 Intrprete de reglas, 79 interfaces en lenguaje natural, 182 interfaces multimodales, 182 interpretacin semntica, 217 Iterative Deepening, 16 Justicacin de la solucin, 118 k-consistencia, 59 Knowledge Based Systems, 107 Knowledge Elicitation, 128 Koskeniemi, K., 193 Lgica de la descripcin, 88
235 Lgica difusa, 161 Lgica Posibilista, 161 Lgica proposicional, 73 Lako, G., 178 Least Commitment, 143 lenguaje natural, 175 lexicn, 185 LFG, 212 lingstica computacional, 175 Mtodo de resolucin, 74 Mtodos, 89 Mtodos dbiles, 107 Mtodos fuertes, 107 Mnimo Compromiso, 143 Marcos, 88 matrices de rasgos, 187 Memoria de trabajo, 118 Memory bound A , 32 Meta-reglas, 117 Metaconocimiento, 111 MIKE, 131 MLG, 211 Modelo en cascada, 127 Modelo en espiral, 128 Modelo probabilista, 149 Montague, R., 178 Motor de inferencia, 117 Motor de inferencias, 79 Negacin fuerte, 164 Nitidicacin, 170 no-determinismo, 195 One point crossover, 44 Operador, 6 Operador gentico de cruce, 43 Operador gentico de mutacin, 43 Paradoja del experto, 111 PATR-II, 211 Poblacin, 44 poda alfa-beta, 50 Polirbol, 160 Preguntas de competencia, 98 Propagacin de restricciones, 59 Proponer y Aplicar, 142 Propose and Apply, 142 Prototipado Rpido, 129 psicolingstica, 175 Q-Systems, 212
236 Random restarting hill climbing, 38 Rapid Prototyping, 129 Razonamiento Basado en Casos, 119 Razonamiento Basado en Modelos, 123 Razonamiento guiado por los datos, 82 Razonamiento guiado por los objetivos, 83 Razonamiento hacia adelante, 82 Razonamiento hacia atrs, 83 Recuperacin de casos, 119 Recursive best rst, 31 Red bayesiana, 153 redes de transicin, 195 redes de transicin aumentadas, 196 Redes Neuronales, 122 Redes semnticas, 87 redes semnticas, 180 Renamiento de la solucin, 138 Regla de Bayes, 153 Regla del producto, 150 Reglas de produccin, 77 Relacin de accesibilidad, 6 Resolucin Constructiva, 142 Resolucin de problemas, 137 Restriction Grammars, 213 Ritchie, G.D., 190, 193 Sntesis, 136 Satisfaccin de restricciones, 55 semntica, 217 semntica compositiva, 217 SHRDLU, 181 Simulated annealing, 40 Sistemas Basados en el Conocimiento, 107 Sistemas Expertos, 107 Sistemas multiagente, 124 Slot, 88 Slot Grammars, 212 Solucin, 6 Static Discontinuous Grammars, 212 Steedman, M.J., 212 Steepest ascent hill climbing, 37 Sublenguajes, 175 T-conorma, 163 T-norma, 163 tablas de cadenas bien formadas, 206 traduccin automtica, 181 UCG, 212 UG, 212 unicacin, 211
NDICE ALFABTICO Universo del discurso, 161 Variables observadas, 155 Variables ocultas, 155 Woods, W.A., 196

Apuntes IA

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apuntes IA

Caricato da

Copyright:

Formati disponibili

` Intel.

` APUNTS DINTEL.LIGENCIA ARTIFICIAL

` Departament de Llenguatges i Sistemes Informatics

Representacin del conocimiento

Sistemas basados en el conocimiento

NDICE GENERAL 135 135 137 137 142

Tratamiento del lenguaje natural

22.La interpretacin semntica 217 22.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217

Parte I Resolucin de problemas

Captulo 1. Resolucin de problemas

1.2 El espacio de estados

1.2 El espacio de estados

Captulo 1. Resolucin de problemas

1.3 Algoritmos de bsqueda en el espacio de estados

Captulo 1. Resolucin de problemas

1.3 Algoritmos de bsqueda en el espacio de estados

Captulo 1. Resolucin de problemas

2.1 Bsqueda independiente del problema

2.2 Bsqueda en anchura prioritaria

Captulo 2. Bsqueda no informada

Figura 2.1: Tratamiento de repetidos en bsqueda en anchura

2.3 Bsqueda en profundidad prioritaria

16 Algoritmo 2.2 Algoritmo de profundidad limitada recursivo

Captulo 2. Bsqueda no informada

2.4 Bsqueda en profundidad iterativa

Captulo 2. Bsqueda no informada

3 Figura 2.3: Ejemplo de grafo

Figura 2.4: Ejecucin del algoritmo de bsqueda en anchura

8 Figura 2.5: Ejecucin del algoritmo de bsqueda en profundidad

Captulo 2. Bsqueda no informada

Cuarta iteracin Figura 2.6: Ejecucin del algoritmo de bsqueda IDA

3.1 El conocimiento importa

3.2 El ptimo est en el camino

Captulo 3. Bsqueda heurstica

3.3 T primero y t despus

Captulo 3. Bsqueda heurstica

3.5 Pero, encontrar el ptimo?

Figura 3.1: Ejemplo de ejecucin del algoritmo A

3.5 Pero, encontrar el ptimo?

Captulo 3. Bsqueda heurstica

3.5.3 Heurstico ms informado

3.6 Mi memoria se acaba

30 Algoritmo 3.3 Algoritmo IDA

Captulo 3. Bsqueda heurstica

3.6.1 El algoritmo IDA

3.6 Mi memoria se acaba

Figura 3.3: Ejemplo de ejecucin del algoritmo IDA

3.6.2 Otras alternativas

32 Algoritmo 3.4 Algoritmo Best First Recursivo

Captulo 3. Bsqueda heurstica

3.6 Mi memoria se acaba

Captulo 3. Bsqueda heurstica

4.1 El tamao importa, a veces

Figura 4.1: El ptimo depende del punto de inicio

Captulo 4. Bsqueda local

4.3 Un mundo de posibilidades

40 rea de computacin conocida como metaheursticas

Captulo 4. Bsqueda local

4.4 Demasiado calor, demasiado fro

4.5 Cada oveja con su pareja

Captulo 4. Bsqueda local

Hill Climbing Simulated Annealing

Captulo 4. Bsqueda local