Ri Assunto

Sistemi Intelligenti M
Marco Moschettini
4 giugno 2016
Indice
1 Planning
1.0.1 Rappresentazione delle azioni . . . . .
1.1 Tecniche di pianificazione classica . . . . . . .
1.1.1 Altre tecniche di pianificazione . . . .
1.2 Pianificazione non lineare . . . . . . . . . . .
1.3 Algoritmo di Partial Order Planning (POP) .
1.3.1 Algoritmo . . . . . . . . . . . . . . . .
1.3.2 Violazioni a vincoli causali (minacce) .
1.4 Modal Truth Criterion (MTC) . . . . . . . . .
1.5 Anomalia di Sussman . . . . . . . . . . . . . .
1.6 Pianificazione gerarchica . . . . . . . . . . . .
1.7 ABSTRIPS . . . . . . . . . . . . . . . . . . .
1.7.1 Metodologia di soluzione . . . . . . . .
1.8 Operatori Macro . . . . . . . . . . . . . . . .
1.9 Condizioni su planning gerarchico . . . . . . .
1.10 Esecuzione . . . . . . . . . . . . . . . . . . . .
1.11 Planning condizionale . . . . . . . . . . . . . .
1.11.1 Problemi dei pianificatori condizionali .
1.12 Planning reattivo . . . . . . . . . . . . . . . .
1.12.1 Sistemi reattivi puri . . . . . . . . . .
1.13 Pianificatori ibridi . . . . . . . . . . . . . . . .
2 Pianificazione basata sui grafi
2.1 Graph plan . . . . . . . . . .
2.1.1 Planning Graph . . . .
2.1.2 Algoritmo . . . . . . .
2.1.3 Estrazione di un piano
2.1.4 Inconsistenze . . . . .
2.2 Teoremi . . . . . . . . . . . .
2.3 Fast forward . . . . . . . . . .
2.3.1 Funzione euristica . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
3
3
3
4
4
5
5
5
6
8
8
8
9
10
10
11
12
12
12
13
13
.
.
.
.
.
.
.
.
13
14
14
15
16
16
17
18
18
3 Swarm intelligence
3.0.1 Algoritmi SI . . . . . . . . . . . . . . . .
3.1 Ant colony optimization . . . . . . . . . . . . .
3.1.1 Fonti di informazione e schema di base .
3.1.2 ACO System . . . . . . . . . . . . . . .
3.1.3 Algoritmo . . . . . . . . . . . . . . . . .
3.2 Honey bee colony (ABC) . . . . . . . . . . . . .
3.2.1 Algoritmo . . . . . . . . . . . . . . . . .
3.3 Particle Swarm Optimization . . . . . . . . . .
3.3.1 Analogia con problemi di ottimizzazione
3.3.2 Vicinanza . . . . . . . . . . . . . . . . .
3.3.3 Algoritmo . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
19
19
20
21
21
21
23
24
25
25
26
26
4 Pianificazione per la robotica

4.1 Ripianificazione con A* . . .
4.2 Lifelong Planning A* . . . .
4.2.1 Algoritmo . . . . . .
4.3 D* Lite . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
27
27
28
29
30
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Apprendimento automatico (AA)
30
6 Programmazione logica induttiva
30
7 Classificazione Bayesiana
30
8 Reti neurali
30
9 Programmazione logica a vincoli
30
Planning
La pianificazione automatica rappresenta unimportante attività di problem solving che

consiste nel sintetizzare una sequenza di azioni che eseguite da un agente a partire da
uno stato iniziale del mondo, provocano il raggiungimento di uno stato desiderato.
Definizione 1. Dati uno stato iniziale, un insieme di azioni eseguibili, un obiettivo
da raggiungere, un problema di pianificazione consiste nella individuazione di un piano,
ossia un insieme (parzialmente o totalmente) ordinato di azioni necessarie per raggiungere
un goal.
La pianificazione è un attività comune a molte aree applicative, come ad esempio:
Robotica
Scheduling
Diagnosi
In particolare, un pianificatore automatico è un agente intelligente che opera in un
certo dominio e che date:
1. una rappresentazione dello stato iniziale
2. una rappresentazione del goal
3. una descrizione formale delle azioni eseguibili
sintetizza dinamicamente il piano di azioni necessario per raggiungere il goal a partire
dallo stato iniziale.
1.0.1
Rappresentazione delle azioni
` necessario fornire al pianificatore una descrizione formale delle azioni eseguibili detta
E
teoria del dominio. Ciascuna azione è identificata da un nome e modellata in forma
dichiarativa per mezzo di precondizioni e postcondizioni. Le precondizioni rappresentano le condizioni che devono essere verificate affinchè lazione possa essere eseguita;
le postcondizioni rappresentano gli effetti dellazione stessa sul mondo.
Spesso la teoria del dominio è costituita da operatori con variabili che definiscono
classi di azioni. A diverse istanziazioni delle variabili corrispondono diverse azioni.
1.1
Tecniche di pianificazione classica
La pianificazione classica è un tipo di pianificazione di un agente razionale in cui il

piano di azione è definito a partire di una situazione iniziale ed è eseguito dallagente
razionale senza apportare variazioni durante lesecuzione. La pianificazione classica è
particolarmente idonea per la ricerca delle soluzioni in una situazione in cui le azioni
dellagente non modificano completamente lambiente operativo ma soltanto una piccola
parte. Si tratta di un ambiente operativo molto semplice e deterministico. A partire
da una serie di precondizioni iniziali, lagente razionale imposta una sequenza di azioni (
3
schema di azioni ) e, successivamente, le esegue senza dover valutare le eventuali variazioni

dellambiente operativo che potrebbero verificarsi nel frattempo. Tra le tecniche pi`
u
utilizzate ricordiamo:
Planning deduttivo mediante ricerca lineare
Planning mediante ricerca
Ricerca nello spazio dei piani Planning non lineare
Partial Order Planning (POP)
Planning gerarchico
1.1.1
Altre tecniche di pianificazione
Altre tecniche di pianificazione prevedono:

Pianificazione condizionale
Pianificazione basata sui grafi
Pianificazione percorsi per robotica
Pianificazione come comportamento emergente: swarm intelligence
1.2
Pianificazione non lineare
I pianificatori non lineari sono algoritmi di ricerca che gestiscono la generazione di un

piano come un problema di ricerca nello spazio di piani e non pi`
u degli stati. In questo
modo lalgoritmo non genera pi`
u il piano come una successione lineare (completamente
ordinata) di azioni per raggiungere i vari obiettivi. Nellalbero di ricerca, ogni nodo
rappresenta un piano parziale e ogni arco unoperazione di raffinamento del piano.
Un pianificatore non lineare generativo assume che lo stato iniziale sia completamente
noto (Closed Word Assumption)
Definizione 2. Closed World Assumption: Tutto ciò che non è dichiarato nella
rappresentazione dello stato iniziale è falso.
Viene adottata generalmente la tecnicha del least commitment sugli ordinamenti:
non imporre mai pi`
u vincoli di quelli strettamente necessari. Infatti non fare scelte quando
non sono imposte evita molti backtracking. Un piano non lineare è rappresentato
come:
un insieme di azioni
un insieme di ordinamenti tra le varie azioni
un insieme di causal link
Il piano iniziale è definito da due azioni distinte:
1. start: senza precondizioni, con effetto una descrizione completa dello stato iniziale
2. stop: con precondizione il goal del planner
Ad ogni passo si incrementano linsieme degli operatori, degli ordinamenti parziali (non
vengono imposti ordinamenti non richiesti) e dei causal link fino a che tutti i goal sono
risolti. Una soluzione è un insieme di operatori parzialmente specificato e parzialmente
ordinato. Per ottenere un piano effettivo si converte lordine parziale in uno tra i diversi
ordini totali possibili (linearizzazione).
1.3
Algoritmo di Partial Order Planning (POP)
Ognuno dei passi di selezione è non deterministico, in caso di fallimento si può avere
backtracking su questi passi.
c
Definizione 3. Un causal link Si

Sj è una terna costituta da due operatori Si , Sj e
un sottogoal c tali che uno degli effetti di Si soddisfa la precondizione c di Sj
Un causal link seve a memorizzare perchè un certo operatore è stato introdotto nel piano cos` da affrontare in modo efficiente il problema delle interazioni tra goals (interacting
goals).
1.3.1
Algoritmo
Lalgoritmo intuitivo si può delineare in:

While (piano non terminato)
seleziona unazione SN del piano che ha una precondizione C non soddisfatta
seleziona unazione S (nuova o già nel piano) che abbia C tra i suoi effetti
aggiungi il vincolo di ordine S < SN
se S è nuova aggiungi il vincolo dordine Start < S < Stop
aggiungi il causal link <S, N, C>
risolvi eventuali violazioni e causal links
End
1.3.2
Violazioni a vincoli causali (minacce)
Si dice che unazione S3 rappresenta una minaccia per un causal link <S1, S2, c> quando contiene un effetto che nega c e non cè nessun vincolo di ordinamento che impedisce
a S3 di essere eseguita dopo di S1 e prima di S2 Possibili soluzioni sono
Demotion: si impone il vincolo di ordine S3 < S1
Promotion: si impone il vincolo di ordine S2 < S3
Figura 1: Esempio di pianificazione non lineare
Figura 2: POP: minacce
1.4
Modal Truth Criterion (MTC)
I due metodi promotion e demotion da soli non bastano a garantire la soluzione di un

qualunque problema risolvibile di pianificazione non lineare (completezza del pianificatore). Il Modal Truth Criterion è un procedimento di costruzione del piano che garantisce
la completezza del pianificatore. Un algoritmo di Partial Order Planning alterna passi di
soddisfacimento di precondizioni con passi di risoluzione di minacce.
In particolare MTC fornisce 5 metodi di correzione del piano (1 per il soddisfacimento delle precondizioni e 4 per la risoluzione delle minacce) sufficienti a garantire la
Figura 3: POP: possibili soluzioni

completezza del pianificatore:
1. Establishment: soddisfacimento di una precondizione per mezzo di:
(a) inserimento di una nuova azione
(b) di un vincolo di ordinamento con unazione già nel piano
(c) di un assegnamento di variabili
2. Promotion: vincolare una mossa a precederne unaltra nel piano finale
3. Demotion: vincolare una mossa a seguirne unaltra nel piano finale
4. Scopertura: inserire un operatore S2 nuovo o già nel piano (detto white knight)
fra due mosse vecchie S1 ed S3 tale che i suoi effetti contengano la precondizione
di S3 minacciata da S1
5. Separazione: inserire vincoli di non codesignazione fra le variabili delleffetto negativo e della precondizione minacciata in modo da evitare la possibile unificazione.
Questo metodo è possibile quando queste variabili non sono ancora state istanziate.
Ad esempio, dato il causal link:
holding(X)
pickup(X) stack(X, h)
7
la minaccia rappresentata da uneventuale azione di stack(Y, c) può essere eliminata

ponendo il vincolo: X 6= Y
1.5
Anomalia di Sussman
Particolare anomalia che trova la sua esplicazione nel mondo dei blocchi. Vedi esempio
pag 26 delle slides.
1.6
Pianificazione gerarchica
I pianificatori gerarchici sono algoritmi di ricerca che gestiscono la creazione di piani

complessi a diversi livelli di astrazione, considerando i dettagli pi`
u semplici solo dopo
aver trovato una soluzione per i pi`
u difficili. Sono tecniche per rendere pi`
u efficiente il
processo di pianificazione perchè gli algoritmi visti in precedenza presentano problemi di
efficienza in caso di domini con molti operatori. In particolare la pianificazione è semidecidibile: se esiste un piano che risolve un problema il pianificatore lo trova, ma se non
esiste, il pianificatore può lavorare indefinitivamente.
Tutti gli operatori sono definiti ancora con precondizioni ed effetti. Gli algoritmi
di pianificazione gerarchica pi`
u diffusi sono:
STRIPS-Like
Partial-Order
Dato un goal, il pianificatore gerarchico effettua una ricerca di meta-livello per generare
un piano anchesso detto di meta-livello che porti da uno stato molto vicino allo stato
iniziale ad uno stato molto vicino al goal. Questo piano viene poi rifinito con una ricerca
di pi`
u basso livello che tiene conto dei dettagli fin qui tralasciati. Quindi un algoritmo di
planning gerarchico deve essere in grado di:
Pianificare a livello alto (meta-livello)
Espandere piani astratti in piani concreti
pianificando parti astratte in termini di azioni pi`
u specifiche (pianificazione di
livello base)
espandendo piani già precostituiti
1.7
ABSTRIPS
Pianificatore gerarchico che usa la definizione delle azioni di Strips e associa un valore di
criticit`
a a ciascuna precondizione che consiste nella difficolt`
a del suo raggiungimento.
La pianificazione procede a livelli in una gerarchia di spazi di astrazione in ciascuno
dei quali vengono ignorate le precondizioni di livelli di difficoltà inferiore. ABSTRIPS
esplora interamente lo spazio di un determinato livello di astrazione prima di passare
ad un livello pi`
u dettagliato: ricerca in lunghezza. In questo modo ad ogni livello di
astrazione viene generato un piano completo. Esempi applicativi di questo sistema
sono:
8
Figura 4: Pianificatore gerarchico

costruzione di un palazzo
organizzazione di un viaggio
progetto di un programma top-down
1.7.1
Metodologia di soluzione
Per risolvere un problema di planning vengono eseguiti i seguenti passi:

1. Viene fissato un valore soglia
2. Si considerano vere tutte le precondizioni il cui valore di criticità è minore del valore
di soglia
3. Si procede come STRIPS1 per la ricerca di un piano che soddisfi tutte le precondizioni con valore di criticità superiore o uguale al valore di soglia.
4. Si usa poi lo schema di piano completo cos` ottenuto come guida e si abbassa il
valore di soglia di 1.
5. Si estende il piano con gli operatori che soddisfano le precondizioni di livello di
criticità maggiore o uguale al nuovo valore di soglia.
6. Si abbassa il valore di soglia fino a che si sono considerate tutte le precondizioni
delle regole originarie.
` importante assegnare bene i valori di criticit`
E
a delle precondizioni!
1
Ad ogni livello possiamo utilizzare un planner diverso, non necessariamente STRIPS
1.8
Operatori Macro
Esistono principalmente due tipi di operatori:

Operatori atomici
Operatori macro
Gli operatori atomici rappresentano azioni elementari tipicamente definite come regole
STRIPS. Gli operatori macro a loro volta rappresentano una sequenza di azioni elementari: sono quindi decomponibili in operatori atomici. La loro decomposizione può
essere precompilata o da pianificare
1. Nel primo caso la descrizione dei macro operatori contiene anche la decomposition
che rappresenta la sequenza di operatori base in cui viene espanso loperatore macro
in questione.
2. Nel caso in cui manchi la decomposition nella definizione delle azioni, occorre che
il pianificatore effettui una ricerca di basso livello per sintetizzare un piano di azioni
elementari che implementino lazione macro.
Una volta definita la decomposizione lalgoritmo può essere sia lineare che non lineare:
Un algoritmo gerarchico non lineare tipico è lo stesso algoritmo POP già visto, dove, ad
ogni passo si può scegliere tra:
soddisfare un sottogoal con un operatore (compresi operatori macro)
espandere un macro step del piano (il metodo di decomposizione può essere precompilato o da pianificare)
1.9
Condizioni su planning gerarchico
Affinchè il planning gerarchico funzioni, devono essere garantite alcune proprietà:

Vincoli sulla decomposizione:
Se lazione macro A ha come effetto X e viene espansa con il piano P
X deve essere effetto di almeno una delle azioni in cui A viene decomposta e
deve essere protetto fino alla fine del piano P
Ogni precondizione delle azioni in P deve essere garantita dai passi di P
precedenti oppure deve essere una precondizione di A.
Le azioni di P non devono vioolare vincoli causali quando P viene sostituito
ad A nel piano che si sta costruendo
Solo a queste condizioni si può sostituire la azione macro A con il piano P. Per sostituire
A con P:
SI devono mettere a posto sia le relazione dordine sia i link causali:
Relazioni dordine s:
10
per ogni B tale per cui B < A si impone B < first(P)(prima azione di P)
per ogni B tale per cui A < B si impone last(P) < B (ultima azione di P)
Link causali:
Se <S, A, C> era un causal link nel piano, allora si deve sostituire con
una serie di link <S, Si , C> dove Si sono le azioni di P che hanno C
come precondizione e nessun altro passo di A prima di Si ha C come
precondizione
Se <A, S, C> era un causal link nel piano, allora si deve sostituire con
una serie di link <Si , S, C> dove Si sono le azioni di P che hanno C come
effetto e nessun altro passo di P dopo Si ha C come effetto.
1.10
Esecuzione
I pianificatori visti finora permettono di costruire piani che vengono poi eseguiti da un
agente esecutore. I possibili problemi di esecuzione sono:
Esecuzione di unazione in condizioni diverse da quelle previste dalle sue precondizioni
conoscenza incompleta o non corretta
condizioni inaspettate
trasformazioni del mondo per cause esterne al piano
Effetti delle azioni diversi da quelli previsti:
errori dellesecutore
effetti non deterministici
Occorre quindi che lesecutore sia in grado di percepire i cambiamenti e agire di conseguenza.
Alcuni pianificatori fanno lipotesi del mondo aperto (Open World Assumption)
ossia considerano linformazione non presente nella rappresentazione dello stato come non
nota e non falsa diversamente dai pianificatori che lavorano con CWA.
Alcune informazioni non note possono essere cercate tramite azioni di raccolta di
informazioni (azioni di sensing) aggiunte al piano. Le azioni di sensing sono modellate
come le azioni causali. Le precondizioni rappresentano le condizioni che devono essere vere
affinchè una certa osservazione possa essere effettuata, le postcondizioni rappresentano il
risultato dellosservazione.
Due possibili approcci:
Planning condizionale
Integrazione tra pianificazione ed esecuzione
11
1.11
Planning condizionale
Un pianificatore condizionale è un algoritmo di ricerca che genera diversi piani alternativi per ciascuna fonte di incertezza del piano. Un piano condizionale è quindi
costituito da:
Azioni causali
Azioni di sensing per le verifiche
Diversi piani parziali alternativi di cui uno solo verrà eseguito a seconda dei risultati
delle verifiche
1.11.1
Problemi dei pianificatori condizionali
I planner condizionali possono avere diversi problemi:

Esplosione computazionale dellalbero di ricerca nel caso di problemi con un numero
di contesti alternativi elevato
Un piano completo che tenga conto di ogni possibile contingenza potrebbe richiedere
molta memoria
Non sempre è possibile conoscere a priori tutti i contesti alternativi
Spesso si combina lapproccio condizionale con lapproccio probabilistico dove si
assegnano dei valori di probabilità alle varie alternative e si pianifica solo per quelle
pi`
u probabili
1.12
Planning reattivo
Abbiamo descritto fino qui un processo di pianificazione deliberativo nel quale prima di
eseguire una qualunque azione viene costruito lintero piano. I pianificatori reattivi
sono algoritmi di pianificazione on-line, capaci di interagire con il sistema in modo da
affrontare il problema della dinamicità e del non determinismo dellambiente:
osservano il mondo in fase di pianificazione per lacquisizione di informazione non
nota
monitorano lesecuzione delle azioni e ne verificano gli effetti
spesso alternano il processo di pianificazione a quello di esecuzione reagendo ai
cambiamenti di stato
Discendono dai sistemi reattivi puri che evitano del tutto la pianificazione ed utilizzano
semplicemente la situazione osservabile come uno stimolo per reagire.
12
1.12.1
Sistemi reattivi puri
Hanno accesso ad una base di conoscenza che descrive quali azioni devono essere eseguite
ed in quali circostanze. Scelgono le azioni una alla volta, senza anticipare e selezionare
unintera sequenza di azioni prima di cominciare.
Esempio: Termostato
1. Se la temperatura T della stanza è K gradi sopra la soglia T0, accendi il condizionatore;
2. Se la temperatura della stanza T è K gradi sotto T0, spegni il condizionatore.
Vantaggi:
Sono capaci di interagire con il sistema reale. Essi operano in modo robusto in
domini per i quali è difficile fornire modelli completi ed accurati.
Non usano modelli, ma solo limmediata percezione del mondo e per questo sono
anche estremamente veloci nella risposta.
Svantaggio:
Il loro comportamento in domini che richiedono di ragionare e deliberare in modo significativo è deludente (es. scacchi) in quanto non sono in grado di generare automaticamente
piani.
1.13
Pianificatori ibridi
I moderni pianificatori reattivi detti ibridi integrano approccio generativo e approccio reattivo al fine di sfruttare le capacità computazionali del primo e la capacità di
interagire con il sistema del secondo, affrontando cos` il problema dellesecuzione.
Un pianificatore ibrido:
genera un piano per raggiungere il goal
verifica le precondizioni dellazione che sta per eseguire e gli effetti dellazione
appena eseguita
smonta gli effetti di unazione (importante che le azioni sia reversibili) e ripianifica
in caso di fallimenti
corregge i piani se avvengono azioni esterne impreviste
Pianificazione basata sui grafi
Nel 1995 viene proposto da Blum e Furst CMU un nuovo pianificatore: Graph Plan
basato su grafi. Si tratta di un pianificatore corretto e completo tra i pi`
u efficienti che
siano stati costruiti.
13
2.1
Graph plan
Usa le Closed World Assumption, quindi rientra nella categoria dei pianificatori offline. Inoltre restituisce il piano pi`
u corto possibile oppure restituisce una inconsistenza.
Eredita dai pianificatori lineari il fatto di fare early commitment: esempio: lazione
A si svolge al time step 2. Eredita dai pianificatori non lineari, partial order il fatto
che i piani sono insieme parzialmente ordinati di azioni: esempio: nel time step 3 ci sono
due azioni. Vengono quindi generati dei piani paralleli.
In particolare le azioni si rappresentano come quelle di Strips:
Precondizioni
Add list
Delete list
inoltre
Gli oggetti hanno un tipo
Esiste una azione no-op che non modifica lo stato
Gli stati sono costituiti da predicati veri in quello stato
2.1.1
Planning Graph
Il planning graph è un grafo diretto a livelli in cui:

i nodi appartengono a livelli diversi
gli archi connettono nodi a livelli adiacenti
Il livello 0 corrisponde allo stato iniziale e alterna livelli proposizione e livelli azione
corrispondenti a time step crescenti. Inoltre nel planning graph possono esistere azioni
e proposizioni in un time step t che interferiscono tra loro. Nel planning-graph ci sono
livelli diversi:
proposition level: contenente proposition nodes
action level: contenente action nodes
Il livello 0 corrisponde allo stato iniziale ed è un proposition level. Inoltre gli archi si
dividono in:
archi precondizione: (proposition action)
archi add: (action proposition)
archi delete: (action proposition)
Ad un certo time step si può inserire una azione se al time step precedente sono
presenti le sue precondizioni. Inoltre ci sono azioni fittizie che rappresentano inattività
no-op che traslano le proposizioni del time step i al successivo. Ogni action level contiene:
tutte le azioni che sono applicabili in quel time step
i vincoli che specificano quali coppie di azioni nel time step precedente incluse le
no-op
14
Figura 5: Planning graph

2.1.2
Algoritmo
Il planning graph si costruisce nel modo seguente:

Tutte le preposizioni vere nello stato iniziale sono inserite nel primo proposition
level
Creazione dellaction level:
Per ogni operatore e ogni modo di unificare le sue precondizioni a proposizioni
nel proposition level precedente, inserisci un action node se due proposizioni
non sono etichettate come mutualmente esclusive
Inoltre, per ogni proposizione nel proposition level precedente, inserisci un
operatore no-op.
Controlla gli action nodes cos` creati in modo tale che non interferiscano,
altrimenti marcali come esclusivi
Creazione del proposition level:
Per ogni action node nel action level precedente, aggiungi le proposizioni nella
sua add list tramite archi non tratteggiati e inserisci archi tratteggiati per le
proposizioni nella delete list
Si faccia la stessa cosa per i no-op
Marca come esclusive due proposizioni tali per cui tutti i modi per raggiungere
la prima siano incompatibili con tutti i modi per raggiungere la seconda.
15
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
function GRAPH_PLAN ( problema )

{
grafo = GRAFO_INIZIALE ( problema );
obiettivi = GOAL ( problema );
while ( true )
{
if ( obiettivi non mutex nell ultimo step )
{
Sol = ESTRAI_SOLUZIONE ( grafo , obiettivi )
if ( Sol != fail )
return Sol ;
else if ( LEVEL_OFF ( grafo ))
return fail ;
grafo = ESPANDI_GRAFO ( grafo , problema );
}
}
}
Il primo non contiene solo un time step (proposition level) con le proposizione vere nello
stato iniziale. Il grafo iniziale è quindi estratto da grafo iniziale(problema).
Il goal da raggiungere è estratto dalla funzione GOAL(problema). Se gli obiettivi
sono non mutuamente esclusivi nellultimo livello il planning graph potrebbe contenere
un piano, ossia un valid plan. Il valid plan è estratto tramite ricerca backward da
estrai soluzione(grafo, obiettivi) che fornisce una soluzione o un fallimento. Si procede quindi livello dopo livello per meglio sfruttare i vincoli di mutua esclusione tramite
una ricerca ad albero, ibrida breadth/depth first e completa.
Memoization: Se ad un certo step della ricerca si determina che un sottoinsieme di
goals non è soddisfacibile, graphplan salva questo risultato in una hash table. Ogni volta
che lo stesso sottoinsieme di goals verrà selezionato in futuro, quel ramo di ricerca fallirà
automaticamente.
2.1.3
Estrazione di un piano
Una volta costruito il planning graph è possibile estrarre un piano detto valid-plan, un
sottografo connesso e consistente del planning graph. Tra le caratteristiche del vali-plan
ricordiamo:
Azioni allo stesso time step del valid plan possono essere eseguite in qualunque
ordine (non interferiscono)
Proposizioni allo stesso time step del valid plan sono non mutuamente esclusive
Lultim time step contiene tutti i letterali del goal e questi non sono marcati come
mutuamente esclusivi.
2.1.4
Inconsistenze
Durante la costruzione del planning graph vengono individuate eventuali inconsistenze,

in particolare:
16
due azioni possono essere inconsistenti nello stesso time step

due proposizioni possono essere inconsistenti nello stesso time step
In questo caso le azioni/proposizioni sono mutuamente esclusive:
Non possono comparire insieme in un piano
Possono comparire nello stesso livello nel planning graph.
Le inconsistenze tra le azioni si dividono quindi in:
Effetti inconsistenti: una azione nega leffetto di unaltra. Lazione move(part,
dest) ha come effetto at(part) mentre lazione no-op su at(part) ha questo come
effetto
Interferenza: una azione cancella come effetto una precondizione dellaltra. Lazione move(part, dest) ha come effetto at(part) mentre lazione no-op su at(part)
ha questo come precondizione
Competing needs: le azioni a e b hanno precondizioni mutuamente esclusive.
Lazione load(carico, mezzo) ha come precondizione in(carico, mezzo) mentre
lazione unload(carico, mezzo) ha come precondizione in(carico, mezzo)
Due proposizioni sono inconsistenti, invece, se:
Una è la negazione dellaltra
Tutti i modi per raggiungerle sono mutuamente esclusivi
Violano una delle regole che definiscono inconsistenze sul dominio (esistono regole
quali ad esempio il fatto che un oggetto non può trovarsi in due luoghi contemporaneamente in uno stesso time step)
2.2
Teoremi
Ci sono 3 teoremi fondamentali:

1. Se esiste un piano valido allora questo è un sottografo del planning graph
2. In un planning graph due azioni sono mutualmente esclusive in un time step se non
esiste un valid plan che le contiene entrambe
3. In un planning graph due proposizioni sono mutualmente esclusive in un time step
se sono inconsistenti, ossia una nega il verificarsi dellaltra.
Come conseguenza importante abbiamo che: Le inconsistenze trovate dallalgoritmo
permettono di eliminare strade nellalbero di ricerca.
17
2.3
Fast forward
FF è un pianificatore euristico (ad ogni stato, S è una valutazione della distanza dal
goal mediante una funzione euristica) estremamente efficiente introdotto da Hoffman nel
2000.
Funzionamento base (hill climbing + A*)
1. A partire da uno stato S, si esaminano tutti i successori S 0
2. Se si individua uno stato successore S migliore di S, ci si sposta su di esso e torna
al punto 1
3. Se non si trova alcuno stato con valutazione migliore, viene eseguita una ricerca
completa A*, usando la stessa euristica.
2.3.1
Funzione euristica
Dato un problema P , uno stato S ed un goal G, FF considera il problema rilassato P +

che si ottiene da P trascurando i delete effects delle azioni. In seguito poi FF risolve P +
con graphplan. Il numero di azioni nel piano risultante è utilizzato come euristica.
FF utilizza un cosiddetto enforced hill climbing:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
function FF ( problema )
{
S = STATO_INIZIALE ( problema );
k = 1;
while ( true )
{
explore all states S at k steps ;
if ( a better state S * is found )
S = S *;
else if ( k can be increased )
k = k + 1
else
A *( problem );
}
}
In pratica è una ricerca completa breadth first. Una soluzione viene sempre trovata, a
meno che lo stato corrente non sia un vicolo cieco.
Per muoversi da uno stato S ad uno adiacente non si considerano tutte le azioni, ma
solo le cosiddette azioni utili (helpful actions)
Sia G1 linsieme delle proposizioni al time step 1 della soluzione del problema
rilassato
P + : H(S) = pre(o) S, add(o) G1 6=
Ossia H(S) contiene le azioni applicabili nello stato corrente (S), che aggiungono
almeno una delle proposizioni G1.
18
Swarm intelligence
La swarm intelligence (traducibile come: intelligenza dello sciame) è un termine coniato

per la prima volta nel 1988 da Gerardo Beni, Susan Hackwood e Jing Wang in seguito
a un progetto ispirato ai sistemi robotici. Esso prende in considerazione lo studio dei
sistemi auto-organizzati, nei quali unazione complessa deriva da unintelligenza
collettiva, come accade in natura nel caso di colonie di insetti o stormi di uccelli, oppure
branchi di pesci, o mandrie di mammiferi.
Secondo la definizione di Beni e Watt la swarm intelligence può essere definita come:
Proprietà di un sistema in cui il comportamento collettivo di agenti (non sofisticati) che
interagiscono localmente con lambiente produce lemergere di pattern funzionali globali
nel sistema. Caratteristiche
Ogni individuo del sistema dispone di capacità limitate;
Ogni individuo del sistema non conosce lo stato globale del sistema;
Pattern di comunicazione locali (diretti o indiretti)

Assenza di un ente coordinatore (ad esempio in uno sciame di api, lape regina non
coordina lattività delle altre api).
Robustezza
Adattività
Lintelligenza umana è il risultato dellinterazione sociale.
Stigmergia: una forma di comunicazione indiretta. Un agente modifica lambiente e
gli altri reagiscono al cambiamento.
3.0.1
Algoritmi SI
Esistono molti algoritmi basati sui concetti di Swarm Intelligence.

Ant Colony Optimization (ACO): Tipo di algoritmo basato sullosservazione
del comportamento delle formiche. Feedback positivo basato sulle tracce di ferormone che rafforzano le componenti che contribuiscono alla soluzione del problema
Artificial Bee Colony Algorythm (ABC): Algoritmo basato sullosservazione
del comportamento delle api da miele. Popolazione di api in cerca di nettare
Particle Swarm Optimization (PSO): Tipo di algoritmo basato sullosservazione del comportamento di branchi di pesci e stormi di uccelli. Stigmergia come
forma di comunicazione e imitazione dei vicini.
19
3.1
Ant colony optimization
Dallosservazione delle formiche si è scoperto che:

Le formiche depositano ferormone mentre camminano dal formicaio e viceversa.
Le formiche tendono a scegliere i percorsi mercati con concentrazioni di ferormone
maggiori
Interazione cooperativa che conduce al comportamento emergente di trovare il
cammino pi`
u corto
Figura 6: Comportamento formiche

LAnt Colony Optimization è un modello probabilistico parametrizzato (pherormone model ) usato per modellare le tracce di ferormone lasciate dalle formiche. Le
formiche costruiscono le componenti di una soluzione in modo incrementale. Vengono
quindi effettuati dei passi in modo stocastico su un grafo totalmente connesso chiamato
construction graph:
G = (C, L)
dove
I vertici C sono le componenti di una soluzione
Gli archi L sono le connessioni
Gli stati sono cammini in G
` possibile rappresentare i vincoli in modo da costruire una soluzione ammissibile.
E
20
Figura 7: Double bridge

3.1.1
Fonti di informazione e schema di base
Le connessioni, le componenti o entrambi hanno due informazioni associate:

Ferormone
Valore euristico
Linformazione riguardante il ferormone sostituisce le tracce naturali lasciate dalle formiche e codifica la memoria di lungo termine sul processo di ricerca globale delle formiche.
Leuristica rappresenta linformazione a priori sul problema.
3.1.2
ACO System
Primo esempio di Ant Colony Optimization. Le formiche costruiscono una soluzione

seguendo un cammino sul construction graph. Una regola di transizione viene utilizzata
per scegliere il prossimo nodo da visitare. Sono usate sia leuristica, sia il ferormone. I
valori del ferormone sono aggiornati sulla base della qualit`
a della soluzione trovata
dalle formiche.
3.1.3
Algoritmo
Lalgoritmo dellAnt System p è il seguente

21
Figura 8: Schema di base

1
2
3
4
5
6
7
8
9
I n i t i a l i z e P h e r o m o n e V a l u e s ();
while ( termination conditions not met )
{
foreach ( ant in A )
{
Sa = Co nstruc tSolut ion ( tau , eta );
}
A p p l y O n l i n e D e l a y e d P h e r o m o n e U p d a t e ();
}
La memoria è utilizzata per ricordare i tour parziali. La scelta probabilistica dipende da:
pherormon trail tij
euristica ij =
1
dij
(con dij distanza tra i e j).
pij viene calcolata come:
P [ij ] [ij ]
pij =
k feasible [ij ] [ij ]
se ammissibile
altrimenti
Il ferormone viene aggiornato con queste regole:

P
k
ij (1 )ij + m
( : coefficiente di evaporazione)
k=1 ij
1 se la formica k ha usato larco (i, j)

ij = Lk
0
altrimenti
22
Lk : lunghezza costruita dalla formica k

Lalgoritmo può essere codificato come segue:
1
2
3
4
5
6
7
8
function S ch edu le Ac ti vi ti es ()
{
A n t B a s e d S o l u t i o C o n s t r u c t i o n ();
PherormoneUpdate ();
DaemonActions (); // optional
}
while ( termination conditions not met )
Sc he du le Ac ti vi ti es ();
Descrizione dei metodi:

AntBasedSolutionConstruction()
Le formiche si muovono applicando una politica di decisione locale stocastica
che usa valori di ferormone e valori euristici sulle componenti del grafo.
Mentre si muovono, le formiche tengono traccia delle soluzioni parziali (cammini) che hanno costruito
PherormoneUpdate()
Le formiche aggiornano il ferormone durante la costruzione della soluzione
(online step-by-step pherormone update)
Le formiche possono aggiornare il cammino backward e aggiornare il ferormone
sui componenti usati a seconda della qualità della soluzione (online delayed
pherormone update)
Evaporazione sempre applicata
DaemonActions()
Sono azioni centralizzate che non possono essere eseguite da singole formiche
ad esempio:
Procedure di local search applicate alla soluzione costruita dalle formiche
Collezione di informazioni globali usate per decidere se depositare ferormone addizionale per guidare la ricerca da un prospettiva non locale.
3.2
Honey bee colony (ABC)
Artificial Bee Colony Algorythm: ABC Algorythm. Colonia di api artificiali

contiene 3 tipologie di api:
1. Le api operaie: sono associate ad una specifica sorgente di nettare
2. Le api spettatrici: guardano la danza delle operaie nel nido e scelgono la sorgente
di nettare
3. Le api scout: cercano sorgenti di nettare random
23
Le spettatrici e gli scout sono api non operaie. Inizialmente le sorgenti di nettare sono
scoperte dalle api scout. Poi il nettare viene consumato e la sorgente esaurita. Le api
che cercano cibo in una sorgente esaurita diventano scout. La soluzione viene modellata
come la posizione del cibo e sono tante quante le api operaie. La quantità di nettare
è invece il fitness.
3.2.1
Algoritmo
Lalgoritmo è cos` modellato:

1
2
3
4
5
6
7
8
9
I ni t i al i z at i o nP h a s e ();
do
{
EmployedBeePhase ();
OnlookerBeePhase ();
ScoutBeePhase ();
Sol = B estSol utionS oFar
}
while ( Cycle != MaxCycleNum || MaxCPUTime )
Descrizione dei metodi:

InitializationPhase()
In questa fase la popolazione di soluzioni (sorgenti di nettare) viene inizializzata dalle api scout
Ogni soluzione Xm (m = 1, . . . m = Np ool) è composta da n variabili Xmi (i =
1, . . . , n). Ogni variabile è soggetta ad un lower e un upper bound rispettivamente di lbi e ubi
Xmi = lbi + rand(0, 1)(ubi lbi )
EmployedBeePhase()
Le formiche operaie cercano elle soluzioni migliori nel vicinato delle soluzioni
generate nella fase di inizializzazione
Soluzione Xm i = (Xm1 , . . . , Xmn )
Fitness function di Xm : ho una funzione obiettivo obj del problema sulle
variabili e la uso per calcolare la fitness nel modo seguente:
se obj(Xm ) 0
ftn(Xm ) = (a + obj(Xm ))
1 + |obj(Xm )| se obj(Xm ) < 0

OnlookerBeePhase()
Le api spettatrici acquisiscono dalle operaie linformazione sulla fitness della
soluzione e scelgono in modo probabilistico una soluzione. La probabilità pm
di scegliere una soluzione Xm è
ftn(Xm )
pm = PNpool
i=1 ftn(Xi )
(meccanismo di feedback positivo)
24
ScoutPhase()
Le api scout scelgono le sorgenti di nettare random. Le api operaie che non possono migliorare la soluzione attraverso un numero prefissato di tentativi (parametro algoritmo chiamato abandonment criteria) abbandonano la soluzione
e diventano scout (meccanismo di feedback negativo).
3.3
Particle Swarm Optimization
Particolare ricerca che si sviluppa sullanalisi dei meccanismi di interazione tra gli individui che fanno parte di un gregge/stormo/branco. Risulta particolarmente interessante
quando il gruppo ha un obiettivo comune come la ricerca di cibo. Lo studio delle regole
del volo in stormo mettono in evidenza come un individuo leghi il suo comportamento a
quello degli altri membri del gruppo:
deve seguire i suoi vicini
deve rimanere nel gruppo
deve evitare di urtarli
Con queste regole è possibile descrivere il moto collettivo di uno stormo senza obiettivo
comune. Lalgoritmo PSO aggiunge un obiettivo condiviso da tutti i membri: la ricerca
di cibo. In particolare, un individuo che nel suo movimento scorge una fonte di cibo si
trova di fronte a due scelte:
1. allontanarsi dal gruppo per raggiungerlo (individualismo)
2. rimanere nel gruppo (socialità )
Se pi`
u individui si dirigono verso il cibo, anche altri membri possono cambiare la loro
direzione per sfruttare la stessa fonte di nutrimento. Il gruppo cambia gradualmente
direzione verso le zone pi`
u promettenti, ovvero linformazione gradualmente si
propaga a tutti
3.3.1
Analogia con problemi di ottimizzazione
Lanalogia con il problema di ottimizzazione può essere definita come:

individui: configurazioni di tentativo che si spostano e campionano la funzione
obiettivo in uno spazio reale a N dimensioni (applicazione floating point)
interazione sociale: un individuo trae vantaggio dalle ricerche degli altri dirigendosi verso la regione del punto migliore globalmente trovato
La strategia di ricerca può essere come bilanciamento tra exploration e exploitation:
exploration: legato allindividualità del singolo che ricerca la soluzione
exploitation: legato alla socialità, ovvero allo sfruttamento dei successi altri individui
25
3.3.2
Vicinanza
Una caratteristica importante nella ricerca è legata al concetto di vicinanza:

gli individui sono influenzati dalle azioni degli individui ad essi pi`
u vicini (sottogruppi)
gli individui fanno parte di pi`
u sotto-gruppi e quindi la circolazione dellinformazione
è globalmente garantita.
Inoltre i sotto-gruppi non sono legati alla vicinanza fisica delle configurazioni nello spazio
dei parametri ma sono definiti a priori e possono tenere in conto di spostamenti anche
notevoli tra gli individui.
3.3.3
Algoritmo
PSO ottimizza un problema impostando una popolazione (swarm) di soluzioni candidate

(particles), muovendo queste particelle nello spazio di ricerca tramite semplici formule
matematiche. Il movimento delle particelle è guidato dalla migliore posizione trovata
nello spazio di ricerca (dallindividuo e dalla popolazione) che sono aggiornate via via che
si trovano soluzioni migliori. La fitness/cost function da minimizzare è
f :RR
e prende una soluzione (vettore) e produce la fitness. Il gradiente di f non è noto. Il
goal consiste nel trovare una soluzione a per cui
f (a) f (b)
per tutti i b nello spazio di ricerca
Dato S numero di particelle nella popolazione, ognuna ha una posizione xi Rn

nello spazio di ricerca e una velocità vi Rn . Sia pi la migliore soluzione trovata dalla
particella i e sia g la migliore soluzione dellintero sciame, lalgoritmo si può codificare
come segue:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
function Initialize ()
{
for ( particle = 1; i < S ; i ++)
{
x [ i ] = I n i t i a l i z e P a r t i c l e P o s i t i o n (); // lb < x [ i ] < ub
p [ i ] = I n i t i a l i z e P a r t i c l e B e s t K n o w P o s i t i o n (); // p [ i ] = x_i
if ( f ( p ) < f ( g ))
U p d a t e S w a r m B e s t K n o w P o s i t i o n (); g = p [ i ]
I n i t i a l i z e P a r t i c l e V e l o c i t y (); // -( ub - lb ) < v [ i ] < ( up - lb )
}
}
while ( termination criterion not met )
{
for ( particle = 1; i < S ; i ++)
{
r = rand ();
v [ i ] = u p d a t e P a r t i c l e V e l o c i t y ( r );
x [ i ] = u p d a t e P a r t i c l e P o s i t i o n (v , r ); // x = x [ i ] + v [ i ]
26
20
21
22
23
24
if ( f ( p [ i ] < f ( g ))
u p d a t e S w a r m B e s t K n o w P o s i t i o n (); // g = p [ i ]
}
return g ; // best solution found
}
I parametri (, p , g )per aggiornare la velocità della particella sono selezionati accuratamente per controllare lefficacia e lefficienza del metodo PSO. In particolare
vi = vi + p rp (pi xi ) + g rg (g xi )
Questi algoritmi sono molto semplici ma richiedono un accurato tuning dei parametri
che influiscono pesantemente sullefficienza ed efficacia degli algoritmi. Questa operazione
è molto lenta e noiosa ed è difficile arrivare ad un tuning ottimo.
Pianificazione per la robotica
La navigazione dei robot implica la pianificazione del movimento (trovare il cammino pi`
u
corto dal posizione iniziale alla finale). Per semplificare consideriamo un mondo diviso in
celle.
Figura 9: Navigazione di robot
4.1
Ripianificazione con A*
Se il dominio è parzialmente noto, si pianifica tramite A*, e in caso di cambiamenti del

mondo è necessario ripianificare. Tuttavia tramite A* si deve ripianificare da zero.
Questo è inefficiente su grandi domini di cui i cambiamenti avvengono di frequente e
molti dei risultati della precedente pianificazione si possono riusare.
27
Figura 10: Navigazione di robot
Figura 11: Navigazione di robot: riapianificazione
4.2
Lifelong Planning A*
Lifelong planning A* ripianifica pi`

u efficientemente di A* perchè riutilizza parti del piano
precedente. Perchè quindi riutilizzare parti del piano?
Perchè i cambiamenti sono, in genere, piccoli
28
Figura 12: Navigazione di robot: ripianificazione

Per migliorare lefficienza
Quali parti del piano posso riutilizzare?
Quelle che non sono state modificate
4.2.1
Algoritmo
Variabili: LPA* mantiene una distanza dallo start g (n) come shortest path dallo start
al nodo n:
(
0
se n = start
g (n) =
0
0
minn0 pred(n) (g (n ) + c(n , n)) altrimenti
Inoltre, LPA* mantiene una stima g(n) della distanza dallo start che viene mantenuta
in fase di replanning dalla search precedente.
LPA* mantiene anche una seconda distanza dallo start rhs(n) con un passo di look
ahead:
(
0
se n = start
rhs(n) =
0
0
minn0 pred(n) (g (n ) + c(n , n)) altrimenti
Un vertice n è detto locally consistent se
g(n) = rhs(n)
LPA* non rende tutti i vertici locally consistent. Usa una euristica per aggiornare solo
i g-values che sono rilevanti per calcolare un cammino minimo. Inoltre LPA* mantiene
una lista di open nodes su cui calcolare la f (n) e selezionare sempre il nodo con minore
29
f (n) Gli f (n) in LPA* vengono detti key. Ogni nodo ha una key k(n) in forma di vettore
[k1 (n), k2 (n)] dove:
k1 (n) = min[g(n), rhs(n)] + h(n)
k2 (n) = min[g(n), rhs(n)]
comparazione lessicografica tra keys
k(n) k(n0 )
se k1 (n) < k1 (n0 ) oppure se k1 (n) = k1 (n0 ) e k2 (n) < k2 (n0 )
(A parità di f (n) si scelgono nodi con minore g(n))
4.3
D* Lite
I robot si muovono su una mappa (grafo) parzialmente nota. Quando viene rilevato un
nuovo ostacolo i pesi sugli archi del grafo cambiano. D* lite è una versione di LPA*
che aggiorna il valore del cammino pi`
u corto a partire dalla posizione del robot. Non fa
ipotesi restrittive su come cambiano i pesi degli archi:
crescente-decrescente
vicino o lontano al robot
cambiamento del mondo o rivisitazione della conoscenza del robot
Apprendimento automatico (AA)
Arrivato fino a qui
Programmazione logica induttiva
Classificazione Bayesiana
Reti neurali
Programmazione logica a vincoli
30

Ri Assunto

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Ri Assunto

Caricato da

Copyright:

Formati disponibili

Sistemi Intelligenti M

4 Pianificazione per la robotica

5 Apprendimento automatico (AA)

6 Programmazione logica induttiva

9 Programmazione logica a vincoli

La pianificazione automatica rappresenta unimportante attivit`a di problem solving che

Rappresentazione delle azioni

Tecniche di pianificazione classica

La pianificazione classica `e un tipo di pianificazione di un agente razionale in cui il

schema di azioni ) e, successivamente, le esegue senza dover valutare le eventuali variazioni

Altre tecniche di pianificazione

Altre tecniche di pianificazione prevedono:

Pianificazione non lineare

I pianificatori non lineari sono algoritmi di ricerca che gestiscono la generazione di un

Algoritmo di Partial Order Planning (POP)

Definizione 3. Un causal link Si

Lalgoritmo intuitivo si pu`o delineare in:

Violazioni a vincoli causali (minacce)

Figura 1: Esempio di pianificazione non lineare

Figura 2: POP: minacce

Modal Truth Criterion (MTC)

I due metodi promotion e demotion da soli non bastano a garantire la soluzione di un

Figura 3: POP: possibili soluzioni

la minaccia rappresentata da uneventuale azione di stack(Y, c) pu`o essere eliminata

I pianificatori gerarchici sono algoritmi di ricerca che gestiscono la creazione di piani

Figura 4: Pianificatore gerarchico

Per risolvere un problema di planning vengono eseguiti i seguenti passi:

Ad ogni livello possiamo utilizzare un planner diverso, non necessariamente STRIPS

Esistono principalmente due tipi di operatori:

Condizioni su planning gerarchico

Affinch`e il planning gerarchico funzioni, devono essere garantite alcune propriet`a:

Problemi dei pianificatori condizionali

I planner condizionali possono avere diversi problemi:

Sistemi reattivi puri

Pianificazione basata sui grafi

Il planning graph `e un grafo diretto a livelli in cui:

Figura 5: Planning graph

Il planning graph si costruisce nel modo seguente:

function GRAPH_PLAN ( problema )

Durante la costruzione del planning graph vengono individuate eventuali inconsistenze,

due azioni possono essere inconsistenti nello stesso time step

Ci sono 3 teoremi fondamentali:

Dato un problema P , uno stato S ed un goal G, FF considera il problema rilassato P +

La swarm intelligence (traducibile come: intelligenza dello sciame) `e un termine coniato

Pattern di comunicazione locali (diretti o indiretti)

Esistono molti algoritmi basati sui concetti di Swarm Intelligence.

Ant colony optimization

Dallosservazione delle formiche si `e scoperto che:

Figura 6: Comportamento formiche

Figura 7: Double bridge

Fonti di informazione e schema di base

Le connessioni, le componenti o entrambi hanno due informazioni associate:

Primo esempio di Ant Colony Optimization. Le formiche costruiscono una soluzione

Lalgoritmo dellAnt System p `e il seguente

Figura 8: Schema di base

(con dij distanza tra i e j).

pij viene calcolata come:

Il ferormone viene aggiornato con queste regole:

1 se la formica k ha usato larco (i, j)

Lk : lunghezza costruita dalla formica k

Descrizione dei metodi:

Honey bee colony (ABC)

Artificial Bee Colony Algorythm: ABC Algorythm. Colonia di api artificiali

Lalgoritmo `e cos` modellato: