Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
DIPARTIMENTO DI INFORMATICA
Modelli di Computazione
Affettiva e Autismo
Candidato: Relatore:
Beatrice Zecchinelli Prof. Giuseppe Boccignone
Matr. 268578
Correlatore:
Dott.Giuliano Grossi
Questa tesi arriva dopo una lunghissima interruzione dei miei studi accade-
mici, che fino a un anno fa non avrei mai pensato di concludere. Se questo sta
per avvenire è merito principalmente del mio relatore Professore Giuseppe
Boccignone, che mi ha guidata lungo un percorso appassionante che neanche
immaginavo, entusiasmandosi a volte lui stesso e dandomi la fiducia di cui
avevo bisogno. Grazie anche al mio correlatore Dott. Giuliano Grossi, che
soprattutto nei primi tempi mi ha incoraggiata, permettendomi di superare
i timori che avevo. Pur avendola incontrata una sola volta, ringrazio anche
la Professoressa Paola Campadelli, a cui mi sono rivolta inizialmente ricor-
dandola dai tempi in cui frequentavo. Non mi ha potuta seguire in quanto
stava per terminare il suo lavoro in Università, si è però interessata alla mia
situazione fornendomi i chiarimenti che cercavo e soprattutto presentandomi
i futuri relatori.
Un grande grazie a mio marito Piero e alle nostre figlie Margherita e Olivia,
che in quest’anno non hanno mai smesso di sostenermi. Caso vuole che mi
stia laureando in contemporanea con la secondogenita!
Anche molti amici mi hanno incoraggiata, tra questi voglio menzionare il mio
maestro di montaggio video Diego, la mia “quasi parente” Emanuela e mia
sorella Rita, che negli scorsi anni hanno spesso insistito affinché finissi. Ci
ha messo del tempo ma il messaggio alla fine è arrivato.
Infine voglio ringraziare la mia grande amica dell’infanzia Chiara, che in-
consapevolmente ha determinato la scelta dell’argomento della tesi. Verso
i cinquant’anni ha scoperto di rientrare nella sindrome di Asperger, che fa
parte dello spettro autistico. Finalmente ha potuto capire da dove venivano
le difficoltà incontrate nel corso di una vita. Parlare con lei mi ha aperto
un mondo che conoscevo solo per sentito dire, facendomi anche capire che
nessuno è perfettamente “tipico”. Spero che questa consapevolezza mi abbia
resa più tollerante e curiosa verso gli altri.
“Gli adulti autistici consapevoli e i loro genitori spesso sono risentiti nei
confronti dell’autismo. Forse si chiedono perché mai la natura o Dio abbiano
2
creato condizioni spaventose come l’autismo [...]. D’altra parte, se i geni
che ne sono responsabili scomparissero, il prezzo da pagare potrebbe essere
terribile. Può darsi che le persone con qualche traccia di tali caratteristiche
siano più creative, o forse addirittura geniali [...]. La soluzione genetica
rischierebbe di far finire il mondo in mano ai contabili.”
Temple Grandin
3
Indice
Introduzione 6
4
4.1.1 Il modello del percettore Bayesiano ottimo . . . . . . . 58
4.2 Bukimi no tani: il problema dell’Uncanny Valley . . . . . . . . 66
4.3 Una spiegazione Bayesiana dell’Uncanny Valley . . . . . . . . 69
4.4 Un modello per l’Uncanny Valley nell’autismo e per i conse-
guenti effetti nell’utilizzo di robot terapeutici . . . . . . . . . . 73
Conclusione 80
A Inferenza Bayesiana 84
A.1 Gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A.2 Modelli generativi . . . . . . . . . . . . . . . . . . . . . . . . . 87
Bibliografia 98
5
Introduzione
6
contrapposizione ad una valutazione ex post più tradizionale. Un modello di
questo tipo potrebbe essere utile nella progettazione di agenti artificiali e di
protocolli terapeutici futuri.
Ipotesi centrale di questa tesi è quindi la possibilità di individuare, nei limi-
ti della complessità del problema, un quadro teorico entro cui formalizzare
l’interazione tra il soggetto autistico e l’agente artificiale. A tal fine risulta
utile adottare un approccio di tipo Bayesiano, sempre più utilizzato peraltro
nel campo delle neuroscienze per modellare i rapporti tra il sistema neurale
e il mondo esterno. Tale approccio pare infatti adatto a formalizzare le ca-
ratteristiche cognitive e le risposte emotive nel caso di autismo, permettendo
una valutazione predittiva delle strategie terapeutiche supportate da agenti
artificiali.
Nel Capitolo 1 si affronta il tema dell’autismo da una prospettiva storica, a
partire dalla sua prima definizione negli anni ’40 del secolo scorso ad oggi, e
se ne descrivono le caratteristiche di fondo.
Nel Capitolo 2 si delineano le difficoltà inerenti alla comprensione dei mecca-
nismi alla base della complessa sintomatologia autistica. Si introduce quindi
il concetto di modello inferenziale Bayesiano e di come tale modello dia una
spiegazione della cognizione in caso di autismo nei termini di inferenza non
ottimale. Una definizione più formale dell’inferenza Bayesiana viene riman-
data all’Appendice A.
Nel Capitolo 3 si parte dall’idea di Computazione Affettiva e delle sue appli-
cazioni nel campo delle terapie per l’autismo. Si prosegue quindi con alcuni
esempi di studi a riguardo, in cui vengono utilizzati agenti artificiali in forma
di robot e avatar, e nei quali la valutazione sull’interazione avviene sperimen-
talmente a posteriori.
Nel Capitolo 4 viene infine affrontato il problema della modellazione e della
valutazione a priori dell’interazione sociale. È definito il modello del per-
cettore Bayesiano ottimo che tiene conto delle categorizzazioni operate dal
soggetto nella percezione di uno stimolo. Viene quindi esaminata, sempre da
un punto di vista Bayesiano, la reazione emotiva suscitata nel soggetto da
un agente artificiale, sia nel caso di neurotipicità che di autismo.
7
Capitolo 1
8
fosse altrettanto sicuro che gli elementi in gioco per un insieme cosı̀ comples-
so di comportamenti dovessero essere plurimi.
In tale complessità, oltre ai numerosi elementi invalidanti, vedeva a volte
capacità fuori dalla norma. Battezzò tali punti di forza “intelligenza autisti-
ca”, pur riconoscendo che nella maggior parte dei casi gli aspetti positivi non
bilanciassero quelli negativi.
Pensava quindi che l’intervento sui bambini autistici dovesse essere persona-
lizzato, volto a valorizzare i loro doni e contemporaneamente a facilitare il
loro stare in un mondo diverso da loro.
Quando la sua tesi di dottorato fu pubblicata, nel giugno del ’44, Asperger
era arruolato nella Wehrmacht. In Austria e in Germania i bambini come
quelli da lui descritti venivano soppressi.
Negli stessi anni Kanner, ormai figura di rilievo nella psichiatria infantile
statunitense, pubblicava “Autistic Disurbances of Affective Contact” nel nu-
mero del giugno ’43 della rivista “The Nervous Child” [1].
L’articolo si basava sull’osservazione di alcuni bambini con caratteristiche
simili a quelle dei piccoli pazienti di Asperger. Tuttavia, la sua concezione
in quel momento e negli anni successivi si differenziava da quella del medico
viennese per alcuni importanti fattori.
La sindrome non veniva inquadrata in un ampio spettro con caratteristi-
che variegate bensı̀ come una rara patologia unitaria e soprattutto tra le
cause dell’autismo indicava il comportamento freddo e perfezionista dei ge-
nitori.
Per diversi decenni il modello di Kanner prevalse, corroborato tra gli al-
tri dalle tesi di un altro viennese naturalizzato negli Stati Uniti, Bruno
Bettelheim. Già negli anni ’50 e ancor più nel libro “La Fortezza Vuota”
[5], l’autismo veniva da lui imputato principalmente all’inadeguatezza della
madre (la cosiddetta madre frigorifero).
Questa concezione è durata a lungo, non solo causando in tanti genitori
dolore e sensi di colpa, ma anche ripercuotendosi negativamente sulla ricerca
nel campo dell’intervento a favore della popolazione autistica.
Fortunatamente negli ultimi decenni la teoria psicogenetica è stata progres-
sivamente abbandonata. È ormai convinzione diffusa che si tratti di un di-
sturbo neurobiologico con una probabile base genetica multifattoriale [4].
Parallelamente è anche emerso il concetto di neurodiversità, l’idea cioè che gli
autismi e altre condizioni come la dislessia siano variazioni cognitive presenti
in natura, che possano avere dei punti di forza e che abbiano giocato un ruolo
non secondario nell’evoluzione tecnologica e culturale umana.
A questi risultati hanno contribuito in modo importante diverse biografie e
9
autobiografie di persone nello spettro, illuminanti riguardo alle loro partico-
larità cognitive e sensoriali (tra le tante [6] e [7]).
Importante corollario di tutto ciò è che gli interventi a favore delle persone
autistiche non debbano (e non possano) andare nella direzione di una “cura”,
ma piuttosto cercare di fornire un aiuto nella pratica di abilità sociali la cui
cognizione non avviene naturalmente.
10
capire le convenzioni e il “senso comune” della società in cui viviamo. Ci
permette di fingere e di capire la finzione negli altri, cosı̀ come di distinguere
le apparenze dalla realtà.
Nonostante possano desiderare avere degli amici, quindi, le persone autisti-
che, a vari livelli, hanno difficoltà ad interagire in modo naturale con gli altri,
proprio perché non li capiscono e non li “sentono”.
11
persone autistiche si concentrano su dettagli insoliti o irrilevanti cosı̀ come
su oggetti nello sfondo piuttosto che in primo piano.
12
Capitolo 2
Un approccio Bayesiano
all’autismo
I molteplici studi sui disturbi dello spettro autistico si sono concentrati sulle
sue eterogenee caratteristiche comportamentali, cognitive e percettive.
Non esiste tuttavia una teoria universalmente accettata che fornisca una spie-
gazione dei meccanismi alla base della complessa sintomatologia autistica
[12].
Questa mancanza rende difficile una classificazione e quindi una diagnosi e
una proposta terapeutica per le persone nello spettro.
Alcune situazioni sono particolarmente complesse. Come la diagnosi sui bam-
bini, e ancor più sugli adulti, “ad alto funzionamento”, in cui i tipici sintomi
dell’autismo possono essere meno evidenti, ma ciò al prezzo di una costante e
faticosa ricerca di adattamento alla realtà esterna. Se queste persone, quindi,
possono a prima vista mostrare caratteristiche attenuate, la loro capacità di
far fronte alla complessa realtà quotidiana può rimanere fragile. Con una
conseguente costante fatica e probabili effetti collaterali come ansia e depres-
sione.
Difficoltosa è anche la diagnosi nei bambini molto piccoli a rischio, per esem-
pio per consanguineità. Data l’aumentata probabilità genetica di rientrare
nello spettro, uno screening precoce è auspicabile nell’ottica di un’eventuale
intervento tempestivo. La diagnosi in questi casi è tuttavia resa difficile dalla
limitatezza del repertorio di comportamenti osservabili.
Cosı̀ come complessa è la valutazione della disabilità intellettiva negli indi-
vidui non verbali. C’è evidenza che venga spesso sovrastimata con possibili
gravi conseguenze [13].
Sarebbero quindi auspicabili degli strumenti in grado di spiegare i mecca-
14
nismi fondamentali delle molteplici manifestazioni dell’autismo per meglio
poter sviluppare test diagnostici e strategie terapeutiche.
Nella Figura 2.1, per esempio, percepiamo gli oggetti esterni come concavi e
quello centrale come convesso, nonostante sia un’immagine bidimensionale.
Ciò è dovuto al fatto che crediamo implicitamente che la luce venga dall’alto,
come ci dice il nostro modello interno maturato dalle esperienze passate. Se la
15
L
al uc
ev i
ene
dal
l’
al
to
Gl
iogget
ties
ter
nis
onoc
onc
avi
luce venisse dal basso, gli oggetti esterni sarebbero convessi e quello centrale
concavo. Ciò che percepiamo è quindi un’interpretazione dell’input sensoriale
basata su di un belief a priori.
16
pr
edi
zi
ones
cor
ret
ta
E
P=0
per
cez
ione aggiornamento
delmodello
reali
zzazi
onedel
la int
ernoinaccordo
predizi
onetrami
te conl’EP
azione
ri ad ogni input può quindi risultare eccessivo e portare a modelli con poca
capacità di generalizzazione.
Per questo motivo gli aggiornamenti dovrebbero dipendere dal peso di due
quantità.
La precisione del belief a priori dà una misura di quanto riteniamo solida la
nostra previsione, mentre la precisione dell’input tiene conto della casualità
dell’ambiente e del rumore nei dati sensibili. Questi due parametri presi in-
sieme danno una stima di quanto l’EP sia informativo riguardo al reale stato
(nascosto) del mondo esterno.
Il rapporto tra la precisione dell’input e la precisione del modello a priori
viene quindi usato per pesare l’ EP secondo l’equazione:
precisioneinput
∆belief ∝ × EP (2.1)
precisionepriori
17
l’incertezza della predizione data dal modello interno è maggiore di quella
dell’input. Più il rapporto è alto e più pronunciato sarà l’aggiornamento dei
belief.
Come è intuitivo pensare, i belief sono più sensibili ai nuovi input quando
sappiamo poco del mondo esterno (bassa precisione a priori). Man mano
che accumuliamo esperienza il modello interno diventerà più preciso e quindi
più stabile. D’altra parte, l’EP sarà più significativo quando riteniamo che
l’input sensibile sia preciso.
Una descrizione formale dell’inferenza Bayesiana è data nell’Appendice A.
18
apprendimento spieghi molte caratteristiche dell’autismo. Ciò può dipendere
da modelli interni estremamente vaghi (Figura 2.3 B) come anche da un alto
grado di precisione nell’input sensoriale (Figura 2.3 C).
Beliefapri
ori Beli
efapost
eri
ori dis
tri
buzi
one
predizi
onedel aggi
orna
to dell
’i
nput
model l
oint
erno sensi
bil
e
Bel
iefapri
ori Bel
i
efapost
eri
ori
poc
opr ec
iso domina
todal
l’
i
nputs
ens
ibi
l
e
Beli
efapost
eri
ori I
nputsensor
io
dominatodal
l’
i
nput i
perpr
ecis
o
sensi
bil
e
19
In generale è comune la sensazione cronica di essere impreparati per quello
che può succedere a meno che non sia strettamente prestabilito.
Nella stessa ottica si può inquadrare l’attenzione ai dettagli anche se irrile-
vanti e l’incapacità di distinguere informazioni più o meno significative.
La sovrastima dell’EP porta ad un fluttuare costante e ad una grande incer-
tezza nei livelli alti del modello generativo che rappresentano i concetti più
generali ed astratti.
Ancora, un sistema che dà un grosso peso all’EP risponde maggiormente agli
stimoli sensoriali e alle loro variazioni. Questo può spiegare l’ipersensibilità
spesso presente nell’autismo che porta ad evitare certe situazioni ma anche
ad un ridotto adattamento sensoriale1 cosı̀ come ad una diminuita suscetti-
bilità a certe illusioni ottiche.
In definitiva una grande varietà di caratteristiche presenti nello spettro auti-
stico sono consistenti con una costante, maggiore valutazione della precisione
dell’input sensibile rispetto a quella del modello a priori.
20
soriale viene ridotta.
Il cervello è sempre coinvolto nell’inferenza percettiva ma la sua migliore sti-
ma, in quel determinato contesto, richiede che il corpo si adatti alla previsione
e non che la previsione sia aggiornata.
21
Dal punto di vista Bayesiano, in conclusione, il nucleo delle caratteristiche
dei disordini dello spettro autistico risiede nelle anomalie percettive, a loro
volta causate dalla costante sovrastima del rapporto di precisione. Ciò equi-
vale a dire che siamo in presenza di modelli del mondo esterno vaghi e/o di
input sensibili percepiti come molto precisi.
Diversi studi di neuroimaging funzionale permettono di individuare i possi-
bili fondamenti neurofisiologici dei processi computazionali, distinguendo tra
le quantità in gioco come errore di predizione e precisione.
In prospettiva, modelli generativi della percezione e del comportamento in
congiunzione con la neuroimaging funzionale potranno giocare un ruolo chia-
ve nel campo della diagnosi e delle conseguenti scelte terapeutiche per i
disturbi dello spettro autistico cosı̀ come per altri disordini psichiatrici.
22
Capitolo 3
Computazione affettiva e
autismo
24
delle teorie psicologiche e neurologiche a riguardo.
I due grandi temi sono il riconoscimento delle emozioni dell’utente e l’espressione
di quello che un essere umano percepirebbe come stato emotivo.
L’idea di fondo è che, se un computer riconosce le emozioni dell’utente e
risponde in modo adeguato, allora la qualità dell’interazione migliora, ren-
dendo il sistema più gradevole ed efficace.
Pensiamo per esempio a un sistema d’insegnamento computerizzato che ten-
ga conto degli stati d’animo dello studente. In risposta a una sensazione di
piacere e di interesse potrà decidere di concentrarsi su determinati argomenti
e di proporne livelli più approfonditi. Al contrario, rilevando stress e frustra-
zione, potrà ridimensionare le richieste e fornire suggerimenti incoraggianti,
cosı̀ come potrebbe fare un insegnante umano [20].
25
poraneamente la semplicità di un oggetto. Utilizzando un robot è più facile
circoscrivere le informazioni e le azioni che devono essere presentate rispetto
ad un operatore umano cosı̀ come eventuali ripetizioni ad oltranza o piccole
variazioni controllate sono meno problematiche.
A tutt’oggi i robot negli interventi con bambini nello spettro vengono uti-
lizzati principalmente come modelli comportamentali di interazione sociale
(comunicazione verbale e non verbale, contatto visivo, attenzione condivisa,
gioco collaborativo, “fare a turni”...) nonché per provvedere un feedback agli
interventi stessi.
Nonostante la maggior parte degli studi mostrino in generale effetti positivi
(miglioramenti nei comportamenti attesi, nei tempi di risposta, apprezzamen-
to e/o interesse per l’interazione col robot), non tutti i bambini con autismo
reagiscono nello stesso modo. Ciò sottolinea la necessità di interventi perso-
nalizzati per questo gruppo cosı̀ eterogeneo. D’altra parte, oltre a rivolgersi
ai bisogni di questi bambini, tali strumenti devono essere sensibili alle richie-
ste dei professionisti del settore (psicologi, insegnanti, terapisti...) al fine di
meglio integrarsi negli interventi terapeutici.
Allo stato attuale i robot per bambini con autismo sembrano ancora lonta-
ni dal raggiungimento del loro pieno potenziale [21], ma le prospettive sono
interessanti.
Tito [22] è un robot mobile costruito nel 2007 presso l’Università di Sher-
brooke (Canada).
L’ipotesi sottostante alla sua creazione e allo studio che ne è conseguito è
che un oggetto animato, più prevedibile e meno complicato di una persona,
possa facilitare la comunicazione bidirezionale con bambini autistici (1) ri-
ducendo i meccanismi di sottrazione, (2) aumentando l’attenzione reciproca
e (3) stimolando modalità comunicative simboliche come il linguaggio.
Lo studio si è basato su un gruppo di quattro bambini diagnosticati con
autismo a basso funzionamento. Questi bambini presentano difficoltà nell’i-
mitazione, un severo ritardo nel linguaggio recettivo ed espressivo e interessi
sensomotori (movimenti ripetitivi e stereotipati) che interferiscono con lo
sviluppo degli strumenti comunicativi. Inoltre dimostrano deficit nell’atten-
zione reciproca (evitano di incrociare gli sguardi, non rispondono ai sorrisi)
e nelle convenzioni per comunicare interessi comuni (come muovere la testa
per dire “sı̀” e “no” o la mano per dire “ciao”). La scelta dei bambini, tutti
intorno ai 5 anni, è avvenuta da un gruppo più ampio secondo precisi criteri
come illustrato in [22].
26
Partecipanti R1 R2 E1 E2
Età (anni : mesi) 4 : 4 5: 1 5: 5 5: 0
Comunicazione Non verbale Pre-verbale Non verbale Pre-verbale
Manierismi Sı̀ No Sı̀ No
Due di questi bambini hanno interagito con un mediatore umano mentre gli
altri due con Tito, secondo uno stesso protocollo.
In Tabella 3.1 sono riassunte le caratteristiche dei quattro bambini: R1 e
R2 hanno interagito con Tito, mentre E1 e E2 col mediatore umano. Per le
loro caratteristiche, il bambino R1 è da paragonare al bambino E1, mentre
il bambino R2 al bambino E2.
Tito è alto 71 centimetri, è rosso, giallo e blu (Figura 3.1), ha le ruote per
muoversi ma si presenta con i piedi per simulare una forma umanoide. Le
braccia possono muoversi su e giù rapidamente e la testa può ruotare (per
dire “no”) e sollevarsi (per esprimere sorpresa). La bocca si può illuminare
(in un sorriso) cosı̀ come anche i capelli in fibra ottica e altre parti del corpo.
In un occhio è inserita una telecamera per poter misurare il contatto ocu-
lare. Può dire alcune frasi tramite messaggi pre-registrati con intonazione
interrogativa, neutra o allegra. Ha un controllo a distanza per le teleopera-
zioni e un microcontrollore interno che permette sequenze di comportamenti
pre-programmati. Alcune di queste sequenze sono: alza il braccio sinistro e
dice “ciao”, indica un oggetto mentre ne dice il nome, fa cadere il cappello
dicendo “dammi il cappello”, si nasconde dicendo “cerca Tito” e una volta
trovato dice “cucù!”, esprime gioia alzando le braccia, illuminando la bocca
e dicendo “felice!”.
Prima dello studio vero e proprio, lo stesso iter è stato condotto con tre
bambini che non facevano parte del gruppo selezionato per mettere a punto
la metodologia. In questa occasione è emersa l’importanza di condurre una
sessione preventiva che permettesse a ciascun bambino di familiarizzare con
il robot fino a non mostrare alcun segno di disagio.
A quel punto lo studio si è svolto tramite 20 sessioni precedute e seguite da
due momenti neutri, secondo uno schema ABA / AB’A, dove A sono i mo-
menti neutri, B le sessioni con Tito come mediatore e B’ quelle con mediatore
umano.
Prima di entrare nella stanza dello studio un educatore spiega al bambino
che seguirà un periodo di gioco e gli mostra un’immagine del mediatore. Poi
lo accompagna ad una sedia nel centro della stanza ai cui piedi viene collo-
27
Figura 3.1: Tito. Da [22]
cato il suo giocattolo preferito. L’educatore si siede vicino alla porta. Nella
stanza c’è un pannello cosı̀ che il mediatore vi si può nascondere dietro.
A questo punto iniziano le sessioni di attività. Nella prima e nell’ultima (A)
il mediatore compie delle azioni senza chiedere al bambino di imitarlo: dice
“ciao”, esprime felicità, indica il cappello, indica sé stesso, mostra la porta e
dice “ciao, ciao”.
Quindi iniziano le venti sessioni B o B’, ognuna delle quali coinvolge tre li-
velli (espressioni del viso, movimenti del corpo e azioni familiari) in cui il
mediatore chiede al bambino di imitarlo. I pattern da imitare sono: (1) (2)
esprimere gioia 2 volte e poi irritazione dopo aver urtato la sedia e fatto “no”
con la testa; (3) sorridere ed esprimere gioia. (4) (5) (6) dire “ciao” 2 volte
e ballare 2 volte; (7) muovere le braccia ed esprimere gioia; (8) muovere le
braccia e dire “ciao”; (9) muoversi in avanti e poi indietro, 2 volte; (10) dire
“ciao” 2 volte e poi muoversi in avanti; (11) dire “ciao”, muoversi in avanti e
poi indietro; (12) (13) dire “ciao”, indicare il cappello e chiederlo indietro, 2
volte; (14) dire ciao, muoversi indietro e indicare la foto del mediatore; (15)
dire “ciao” 2 volte, muoversi indietro e indicare la foto del mediatore; (16)
(17) dire “ciao” ed esprimere tristezza 2 volte dopo aver urtato il pannello;
(18) dire “ciao”, chiedere di indicare la foto del mediatore 2 volte; (19) dire
“ciao”, chiedere di indicare la foto del mediatore e fare “cucù” 2 volte dopo
28
essersi nascosto dietro al pannello; (20) dire “ciao”, chiedere di indicare la
foto del mediatore e fare “cucù” 4 volte.
Il motivo per cui alcune sessioni vengono ripetute è quello di dare la possibi-
lità al bambino di capirle meglio. All’inizio di ogni sessione il mediatore può
essere nascosto dietro al pannello (2, 3, 4, 5, 6, 16, 17) o vicino al bambino
(nelle altre).
Alla fine di ogni sessione il mediatore indica la porta e dice “porta” per far
sapere al bambino che l’attività sta per terminare, quindi fa “ciao” con la
mano e con la voce e va dietro al pannello. L’intervallo tra le sessioni è di 12
secondi.
In tutte le attività, ogni volta che il bambino imita correttamente il media-
tore, questo sorride, alza le braccia e dice “felice!”.
Ogni bambino è stato esposto all’intero ciclo tre volte alla settimana per sette
settimane, tutte le sessioni sono state registrate.
In fase di analisi dei risultati, sono state considerate quattro categorie di
variabili (espressioni o reazioni):
• attenzione verso l’altro (quattro variabili): contatto oculare per più
di tre secondi, prossimità fisica (spostarsi a meno di due braccia dal
mediatore con contatto visivo), imitazione di espressioni del viso (gioia,
rabbia, tristezza) e imitazione di gesti non diretti verso il mediatore.
• convenzioni condivise (quattro variabili): espressioni del viso, gesti,
azioni e parole tutti diretti verso il mediatore.
• mancanza di condivisione (sette variabili): contatto oculare assente
o inferiore ai tre secondi, abbandono dell’area di comunicazione, evita-
re il mediatore, gioco sensomotorio ripetitivo col giocattolo preferito,
manierismi motori, rituali, aggressioni.
• altri fenomeni (quattro variabili): imitazione del rumore fatto dal
mediatore (rumore del motore di Tito), imitazione di parole o gesti fuori
contesto o ogni altro comportamento non elencato nelle altre categorie.
La codifica dicotomica (presenza/assenza) di tali variabili è stata tratta dai
filmati e calcolata su finestre di 12 secondi. Nel caso in cui fossero presenti
sia comportamenti di mancanza che di presenza di attenzione o condivisione,
questi ultimi sono stati privilegiati.
Attenzione verso l’altro. La Figura 3.2 mostra un’analisi delle variabili
relative all’attenzione verso l’altro. I bambini che hanno interagito con Ti-
to (R1 e R2) hanno dimostrato in generale maggior attenzione verso l’altro
rispetto a quelli con il mediatore umano (E1 e E2), tenendo conto che, date
le caratteristiche simili, R1 è da confrontare con E1 e R2 con E2. Ad un’a-
nalisi più approfondita, tuttavia, questo si rivela vero per quanto riguarda il
29
s a
’
ollr
to
onedi
onever
zi
i
opor
tenz
Pr
at
E
spos
izi
oni
Figura 3.2: Analisi delle variabili per l’attenzione verso l’altro. Da [22]
v
odi
Numer ai
ra i
l
bi a
’
perlt i
enz
t er
onev ol
s a
’t
lo
r
E
spr
ess
ioni
del
vis
o Mov
iment
idel
cor
po Az
ioni
conogget
ti Az
ioni
senz
aogget
ti
contatto oculare e la prossimità fisica ma falso per i gesti non diretti verso il
mediatore.
Per quanto riguarda le imitazioni, la Figura 3.3 indica come i bambini ac-
coppiati con Tito (blu e verde) fossero più coinvolti rispetto agli altri (rosso
e giallo). A causa dei deficit severi, i bambini non verbali (blu e rosso) hanno
espresso minore attenzione verso l’altro in tutte le attività.
Convenzioni condivise. Come si può vedere dalla Figura 3.4, i bambini
accoppiati con Tito (blu e verde) hanno imitato più degli altri (rosso e giallo)
le espressioni del viso mentre per quanto riguarda le altre variabili i risultati
sono stati opposti.
In conclusione emerge, come era prevedibile, che i bambini non verbali si
siano rivelati meno interessati e partecipativi dei bambini pre-verbali.
30
i
odi
Numer t
miai
zoni
E
spr
ess
ioni
del
vis
o Mov
iment
idel
cor
po Az
ioni Par
oleopar
ole
appr
ossi
mate
31
3.3.2 Esempio 2: Nao e il Progetto ARIA
32
fine di monitorarne in tempo reale i comportamenti di AC. Il partecipante
indossa un cappello a cui sono cuciti dei led infrarossi, a cui le telecamere
sono sensibili. Ognuna di esse ha il proprio processore che comunica con un
supervisore (software supervisory controller ). È stata scelta questa modalità
di inferenza dello sguardo piuttosto che la tracciatura oculare (eye tracking)
perché permette movimenti del capo più ampi e una maggior distanza dal-
l’oggetto. Inoltre per rivelare l’AC sono sufficienti coordinate approssimate
dello sguardo.
Il supervisore riceve e invia dati anche da/a Nao, nonché a due schermi posti
ai lati. Questi possono fornire stimoli visivi e/o sonori che includono imma-
gini fisse interessanti per il bambino (come personaggi dei cartoni), video con
contenuti simili o altri eventi audio e video come stimoli addizionali. L’ar-
chitettura del sistema è rappresentata in Figura 3.6.
Il supervisory controller facilita la comunicazione tra i processori delle te-
lecamere, Nao e i controllori degli stimoli audiovisivi utilizzando un’inter-
faccia di rete. Prende anche decisioni sulla base dei dati raccolti dalle
telecamere.
T
elec
amer
afr
ont
ale
T
era
pis
ta
uma
no/r
obot
x
S
mos
cher
her
modx
c
S
T
elec
amer
asx T
elec
amer
adx
Sediaper
i
lpa
rtec
ipante T
elec
amer
aal
soffit
to
Geni
tor
e S
per
iment
ator
e
33
Partecipanti ASD1 ASD2 ASD3 ASD4 ASD5 ASD6
(genere) (m) (m) (f) (m) (m) (m)
Età 5.14 3.24 4.92 5.27 4.49 5.17
SRS (soglia 60) 51 58 70 85 81 77
SCQ (soglia 15) 5 11 8 21 20 15
Tabella 3.2: Partecipanti allo studio nello spettro autistico ASD (Autism
Spectrum Disorder)
34
schermo. Anche questa fase viene ripetuta due volte se ce ne è bisogno. (5)
Se ancora non c’è la reazione desiderata il suggeritore ripete la sequenza di
azioni e dallo schermo arriva un suggerimento audio. (6) L’eventuale livello
finale aggiunge alla sequenza uno stimolo audio/video dallo schermo.
I risultati dello studio indicano che i bambini di ambedue i gruppi hanno
passato più tempo guardando il robot piuttosto che il terapista. Nel caso del
gruppo ASD hanno guardato Nao per il 52.76% del tempo delle sotto-sessioni
N mentre il terapista umano per il 25.11% del tempo delle sotto-sessioni U.
In Figura 3.7 è indicato quanto ogni bambino nel gruppo ha guardato, in
percentuale, sia Nao che il terapista.
S
ott
o-s
ess
ioni
coni
lter
api
st
auma
no S
ott
o-s
ess
ioni
conNa
o
t
%di r
empoguada l
ndoit a
er s
pit Na
no/
auma o
S
ott
o-s
ess
ioni
coni
lter
api
st
auma
no S
ott
o-s
ess
ioni
conNa
o
t
%di r
empoguada l
ndoit a
er s
pit Na
no/
auma o
Nel gruppo TD, i bambini hanno guardato Nao per il 54.27% e il terapista
umano per il 33.64% del tempo. La Figura 3.8 si riferisce a questo gruppo.
35
Questo risultato indica un orientamento preferenziale significativo nei con-
fronti di Nao per tutti e due i gruppi, leggermente più accentuato nel gruppo
ASD. Come era prevedibile, il terapista umano ha ottenuto invece più atten-
zione nel gruppo TD rispetto all’altro gruppo.
Per quanto riguarda il numero di livelli necessari per raggiungere un compor-
tamento di AC, il gruppo ASD ne ha richiesto in media il 14.58% in più nelle
sessioni con Nao rispetto a quelle col terapista. Il gruppo TD il 9.37%. Un
osservatore addestrato e un genitore hanno notato che i bambini apparivano
eccitati dal robot e dalle sue azioni. Il maggior numero di livelli necessari con
Nao per il successo in entrambi i gruppi può quindi esser dovuto al desiderio
di guardare il robottino più di qualunque altra cosa.
Lo studio soffre di alcune pesanti limitazioni. Il numero esiguo di partecipanti
è forse la maggiore. Inoltre, la breve durata delle sessioni con ogni bambino
non permette di capire se la grande attrattiva del robot sia semplicemente
una questione di novità o se anche col passare del tempo tale attrattiva po-
trebbe rimanere.
Un altro limite è dovuto al cappello. Nella scelta dei partecipanti ha causato
l’esclusione di alcuni bambini a cui dava fastidio e in generale è discretamente
invasivo.
Nonostante tutto, la ricerca suggerisce che sistemi robotici migliorati siano
potenzialmente capaci di catturare l’attenzione dei bambini autistici orien-
tandoli verso abilità sociali come l’attenzione condivisa.
36
Figura 3.9: Kaspar
Nel corso del tempo il progetto ha prodotto diversi robot, l’ultimo in ordine
cronologico è Kaspar (Figura 3.9). Kaspar è un robot umanoide alto 60 cm
fissato in posizione seduta. Ha 8 gradi di libertà nella testa e nel collo, 6
nelle braccia e nelle mani e 1 nel torso. La faccia è in silicone, supportata
da un telaio in alluminio. Gli occhi sono dotati di videocamere, le palpebre
possono aprirsi e chiudersi e la bocca si può aprire e sorridere. Comunica
con le persone attraverso i gesti, le espressioni facciali e il linguaggio (tra-
mite messaggi preregistrati). La prima versione risale al 2005 e da allora è
stato usato per studiare diverse forme di interazione uomo-robot nel campo
dell’autismo.
La ricerca qui presentata [28] utilizza Kaspar in modalità completamente
autonoma. L’attività prescelta è quella di un gioco collaborativo con una
coppia di bambini. Punto di partenza è il potenziale osservato nei robot per
incoraggiare abilità sociali nei bambini con autismo unito all’attrazione eser-
citata su di essi dai video games. Oltre a Kaspar, infatti, nello studio sono
utilizzati altri due importanti accessori: uno schermo posto in orizzontale
che mostra un determinato videogioco (Copycat) e tre Nintendo Wii remo-
te controllers (Wiimotes), ognuno allacciato sul braccio di un giocatore per
tracciarne la posizione (Figura 3.10).
37
Figura 3.10: I giocatori, Kaspar e gli accessori del gioco. Da [28]
38
Figura 3.11: Uno screenshot di Copycat. Da [28]
39
dal tuo compagno”.
• Ogni volta che i bambini scelgono una forma (quando è il loro turno),
Kaspar la conferma ad alta voce.
• Ogni volta che Kaspar seleziona la propria forma (quando tocca a lui),
indica di aver preso una decisione (ad esempio: “Ho un’idea”) prima
di agire. Questo per preparare i bambini a prestare attenzione.
• Ogni volta che Kaspar annuncia la forma scelta o quando si congratula
con i bambini per aver imitato la posizione in modo corretto, fa un
grande sorriso e guarda direttamente dove i bambini dovrebbero essere.
Per lo studio sono stati scelti sei bambini tra gli 8 e i 9 anni, cinque maschi
e una femmina. Si è optato per il coinvolgimento di un numero ristretto di
partecipanti, ma per un lungo periodo, al fine di mettere a punto una tec-
nologia autonoma che possa aiutare insegnanti e terapisti nel mondo reale,
dato che la natura di questi processi di apprendimento richiede tempi lunghi.
I sei bambini sono stati diagnosticati a vari livelli di autismo e frequentano
una scuola per esigenze speciali. La scuola ha fornito i dati relativi alle abilità
di espressione e comprensione verbale nonché di interazione sociale secondo
la P-scale (Tabella 3.4), un insieme di criteri utilizzati nelle scuole del Regno
Unito per quei bambini al di sotto del livello 1 del Curriculum Nazionale [29].
La P-scale va da un minimo di P1 a un massimo di P8 .
Partecipanti R M T H Cl C
(genere) (m) (m) (f) (m) (m) (m)
Età 9 9 8 8 9 8
Abilità nell’espressione verbale P7 P6 P6 P8 P6 P6
Abilità nell’ascolto P7 P5 P6 P8 P6 P7
Abilità personali e sociali P7 P5 P4 P7 P5 P5
40
La ricerca segue questa struttura: in una prima fase (A1) due bambini gio-
cano tra di loro. Dopodiché ogni bambino familiarizza da solo con Kaspar
(F), e questo per tre volte in tre giorni distinti. In questo modo i bambini
si abituano al modo di parlare e di agire del robot minimizzando l’effetto
novità nella sessione successiva (B1) che prevede l’interazione triadica tra
due partecipanti e Kaspar. A questa seguono un’altra fase diadica (A2) e
un’altra triadica (B2). Lo schema risulta quindi:
A1 - F - B1 - A2 - B2
Ogni bambino gioca le quattro fasi A e B con ciascun altro bambino. Ciò
permette di superare gli effetti di eventuali simpatie/antipatie. Dato che i
partecipanti sono sei, le possibili combinazioni risultano 15 per ogni fase A
o B. Inoltre, ogni bambino gioca tre volte da solo con Kaspar. In totale,
quindi, le sessioni sono (15 × 4) + (6 × 3) = 78, mentre ogni bambino gioca
(5 × 4) + 3 = 23 volte. L’alto numero di sessioni riduce l’influenza dell’effetto
novità relativo a Kaspar e al videogioco.
Durante lo studio, le sessioni sono durate in media 6 minuti, al massimo
15. Sono state tutte filmate e alcuni comportamenti d’interesse sono stati
codificati manualmente dalle registrazioni delle fasi A e B.
41
bino che robot), come ci si poteva aspettare è decisamente maggiore nelle
fasi B (Figura 3.13).
42
Figura 3.14: Adattamento da [28]
43
hanno passato più tempo guardando l’altro bambino e impegnandosi nello
sguardo reciproco . In A2 i bambini hanno mostrato un maggior numero di
spostamenti dello sguardo tra bambino e gioco e più espressioni di affetto
positivo e di linguaggio guardando l’altro.
3.4.1 Emotiplay
44
migliorare l’inclusione dei bambini con autismo. Lo studio esaminato ha
valutato i risultati di tale gioco in un contesto interculturale, nel Regno
Unito, in Svezia e in Israele. Nella prima fase è stata utilizzata nel Regno
Unito una versione alfa, più limitata. Nella seconda, in Svezia e in Israele, la
ricerca è invece avvenuta tramite una versione beta, che si è avvalsa dell’intero
insieme di attività per il riconoscimento delle emozioni.
Il gioco include quattro unità principali:
• Unità 1 : Introduzione: quali sono le emozioni?
• Unità 2 : Emozioni di base: felicità, tristezza, paura, rabbia, disgusto.
• Unità 3 : Difficoltà e gioie nella vita scolastica: sorpresa, interesse, noia,
vergogna, orgoglio.
• Unità 4 : Relazioni sociali: gentilezza e ostilità.
Lez
ionedi
fel
ic
ità Lac
asadel
l’
avat
ar
Gi
ocodel
linguaggi
odel
cor
po Gi
ocodel
lees
pres
sioni
fac
cial
i
In figura 3.15 si possono vedere quattro schermate del gioco. Le varie attività
mostrano come si esprimono diverse emozioni tramite il viso, il corpo o la
voce, oppure attraverso una combinazione delle tre cose. Dopodiché viene
chiesto al giocatore di riconoscere l’emozione in causa tra due o più possibi-
45
lità, a seconda del livello a cui si è arrivati 2 .
Emotiplay impiega la maggior parte degli elementi chiave che migliorano la
motivazione a giocare con i SG. La trama del gioco pone l’utente nel ruolo
di un esploratore nella giungla, alla ricerca dei comportamenti umani e delle
espressioni emotive (trame coinvolgenti). Il SG insegna il riconoscimento del-
le emozioni attraverso canali separati (espressioni facciali, prosodia vocale,
linguaggio del corpo), e in più addestra l’utente a integrare questi segnali,
tenendo conto del contesto (obiettivi rivolti a competenze mirate). La possi-
bilità di scelta viene fornita nell’area personale, dove l’utente può progettare
il proprio avatar, inclusi i tratti del volto, l’abbigliamento e gli accessori (pos-
sibilità di scelta). Nelle varie fasi, il giocatore riceve feedback positivi sotto
forma di animazioni, nuovi giochi divertenti, oggetti collezionabili e dena-
ro virtuale che può essere utilizzato per acquistare attrezzature per l’avatar
dell’utente e per la sua casa virtuale (livelli crescenti di difficoltà e premi e
feedback sul progresso negli obiettivi ).
Atti
vità: Atti
vit
à: At
tivi
tà:
es
pres
sionidelvol
to l
inguaggi
odelcor
po i
ntegr
azi
onedeisegnal
i
Comesis
entelara
gaz
za Comesis
entelar
aga
zza Al
l
a nedel
l
as c
ena,c
hecos
aespr
ime
nel
video? nel
video? i
lra
gazzoves
ti
todi
ros
so?
Emotiplay attinge alle capacità “sistematiche” dei bambini con autismo, for-
nendo un ambiente strutturato ma versatile, ricco di elementi e giochi relativi
agli interessi circoscritti del bambino.
In aggiunta al videogioco, è fornita una guida scritta genitore-figlio con atti-
2
Ulteriori dettagli su Emotiplay sono disponibili sul sito www.emotiplay.com, comprese
alcune demo delle attività.
46
vità extra, mirate a consolidare il materiale didattico e a generalizzare nella
vita di tutti i giorni le cose apprese (ad esempio creare un album emozionale
dei membri della famiglia, giocare al “detective emotivo” che riconosca sui
volti, nel linguaggio del corpo e nella voce le emozioni imparate, ecc.).
Fase 1: Regno Unito. A questo primo studio, che ha utilizzato una ver-
sione alfa di Emotiplay, hanno partecipato 15 bambini tra i 6 e i 9 anni con
IQ nella norma (misurato tramite le scale Wechler). La selezione è avvenuta
da un database di volontari, scuole speciali e organizzazioni di supporto per
individui con autismo. Tutti i bambini presentavano una diagnosi di auti-
smo secondo diversi protocolli ufficiali. Le diagnosi sono state ulteriormente
confermate tramite la seconda edizione del Autism Diagnostic Observation
Schedule (ADOS-2) [34]. Tutti i partecipanti hanno soddisfatto i criteri di
soglia di ADOS-2 per l’autismo.
Prima dell’utilizzo di Emotiplay, i bambini e i loro genitori hanno partecipato
a un pre-intervento presso le loro case o presso l’Autism Research Centre di
Cambridge. In questa sessione i genitori hanno compilato due questionari di
screening: il Social Responsiveness Scale (SRS [24]) e il Vineland Adaptive
Behavior Scales (VABS-II [35]) valutando le abilità sociali dei figli. I bambini
hanno invece partecipato a delle attività di riconoscimento delle emozioni con
i ricercatori sempre nell’ottica di misurarne il relativo grado di competenza.
Alla fine del pre-intervento valutativo ai genitori è stata consegnata la guida
attività ed è iniziata la fase SG vera e propria. Ai partecipanti è stato chiesto
di usare Emotiplay per 8 settimane, per almeno 2 ore la settimana. Ogni 2
settimane il team di ricercatori ha monitorato l’utilizzo delle attività extra,
anche se i genitori erano liberi di rivolgersi a loro per ogni dubbio o consiglio
in qualunque momento.
A questo periodo ha fatto seguito un post-intervento valutativo che ha utiliz-
zato gli stessi strumenti del pre-intervento: compilazione dei questionari da
parte dei genitori e attività di riconoscimento delle emozioni per i bambini.
Ai genitori è anche stato chiesto conto dell’efficacia del sistema, dell’idoneità
per i loro figli, della facilità di utilizzo e di eventuali altri commenti. Queste
indicazioni sono state utilizzate per l’ottimizzazione della versione beta.
Come mostra la figura 3.17, le prestazioni (misurate tramite i vari criteri
utilizzati) dopo 8 settimane di gioco con Emotiplay sono risultate notevol-
mente migliorate e i genitori hanno dato valutazioni maggiori nei questionari
di screening oltre a giudicare in modo sostanzialmente positivo l’effetto sui
figli, l’idoneità, la capacità motivazionale e la facilità d’uso del gioco.
Fase 2: Israele e Svezia. In seguito agli incoraggianti risultati britannici
47
Pr
e Pos
t
L
ingua
ggi
odel
cor
po I
ntegr
azi
onedei
segna
li
48
I
sra
ele S
vez
ia
G
I
nru
p
t
ep
ro
v
eS
nG
to G
Cr
ou
p
np
to
r
od
li
c
l
oon
tro
ll
o G
I
nr
tu
p
ep
ro
v
eS
nG
t
o Gr
Cu
op
np
t
ro
od
l
li
c
oon
tro
ll
o
At
ti
vi
tà:
es
pre
ssi
oni
del
vol
to
At
ti
vi
tà:
es
pre
ssi
oni
voc
ali
At
ti
vi
tà
:
l
in
guag
giod
elc
orp
o
49
rispondere a questa esigenza e i risultati dello studio forniscono una prima
dimostrazione della sua efficacia.
In conclusione è interessante anche notare come questa ricerca si avvenuta in
tre paesi con tre diverse lingue, al contrario della maggior parte degli studi
analoghi che vengono effettuati e testati in paesi anglofoni, anche se gli ef-
fetti interculturali possono essere limitati dalla relativa somiglianza tra le tre
culture occidentali esaminate.
50
Capitolo 4
Modellazione e valutazione
dell’interazione
52
i
nter
azi
one
soci
al
e
per
cez
ione
soci
al
e
c
ogni
zi
one
a
zioni
fac
cia
li a
zioni
fac
cia
li
a
tti
vaz
ione r
is
pec
chi
amet
o a
tti
vaz
ione
neur
ale neur
ale
condi
visa condi
vis
a
a
zioni
aut
onome a
zioni
aut
onome
emoz
ione
53
taneo, tipico di una situazione di flirting, é immediatamente riconoscibile in
Figura 4.1.
La radice del meccanismo simulativo affonda ovviamente nella circostanza
per cui i due agenti condividono non semplicemente abilità cognitive e cultu-
rali, ma e soprattutto gli stessi meccanismi neurobiologici e, in ultima istanza,
corporei governati dalle componenti somato-motorie e viscero-motorie del si-
stema nervoso centrale e periferico. In buona sostanza, l’interazione si fonda,
per dirla con Gallese [38], su una “shared manifold”. Per chiarire meglio, si
consideri l’aspetto specifico della percezione sociale dei volti (per esempio nel
corso di un’interazione diadica, come rappresentata in Figura 4.1), aspetto
peraltro di notevole rilevanza nel quadro della sindrome autistica.
In estrema sintesi, secondo il modello di Adolph [39], alla presentazione dello
stimolo (es.: l’espressione facciale generata da A1 e osservata da A2 , al tempo
t = 0 ms), nell’agente osservatore si sviluppa un processo di comprensione
dello stimolo che evolve nei seguenti stadi:
1. t < 120 ms: si innesca una elaborazione veloce, subcorticale, delle parti
salienti dello stimolo (il volto) che attivano aree visive primarie e amig-
dala (sistema limbico/emotivo sub corticale); l’amigdala segnala verso
il sistema periferico attivando l’attività di nuclei del tronco encefalico
che controllano reazioni somato-motorie e viscero-motorie.
2. 120 ≤ t < 170 ms: il processo percettivo visivo coinvolge aree visive
secondarie, quali l’area fusiforme dei volti (FFA) e il solco temporale
superiore (STS); contemporaneamente si attivano le aree premotorie,
l’insula (componente corticale che mappa lo stato viscero-motorio del
corpo) e le regioni corticali orbito-frontali (OFC).
3. t ≥ 170 ms: vengono attivate aree associative secondarie e lo stato cor-
rente del corpo (somato-motorio e viscero-motorio) è utilizzato come
“chiave” di accesso per il recupero di rappresentazioni concettuali più
astratte (cognitive); queste ultime consentono una concettualizzazio-
ne/categorizzazione dello stimolo percepito in un’emozione sulla base
di quella esperita internamente (understanding).
Una rappresentazione schematica dell’“architettura” neurobiologica di sup-
porto all’evoluzione del processo, nella fattispecie agli stadi 1 e 2 di Adolph,
è stata discussa in [40] ed è riportata in Figura 4.2; in questa vengono eviden-
ziate le vie principali che sono alla base della comprensione di un’espressione
facciale affettiva: la via visiva, che comprende cortecce visive primarie e se-
condarie (in particolare la FFA, per il processing di caratteristiche facciali
statiche e il solco temporale superiore, STS, per l’analisi delle caratteristiche
dinamiche delle espressioni); la via visuomotoria supportata dal sistema dei
54
vi
avi
suomot
ori
a
s
is
tema
affet
ti
vo
cent
ral
e
vi
avi
si
va
vi
avi
scer
Ar
eedelt
ronco
encef
ali
co
omot
ori
a
Figura 4.2: Architettura del sistema neurale distribuito per la percezione di
espressioni facciali affettive (lato dell’agente osservatore). Le doppie frecce
indicano proiezioni “forward” e “backward” tra aree neurali. L’architettura
comprende un network per la percezione dell’azione basato sul sistema mir-
ror umano (MNS), rappresentato dal complesso IPL, IFG/VPMC. Questo
media tra il risultato dell’elaborazione visiva dello stimolo lungo la via vi-
siva (retina, nucleo genicolato laterale LGN, cortecce visive primarie, OFA,
FFA, STS) e la rappresentazione motoria interna dell’azione facciale costrui-
ta dall’ MNS attraverso l’interfaccia del solco temporale superiore (STS). L’
MNS fornisce l’input per attivare il sistema affettivo centrale (core affect)
costituito dall’insula anteriore (AIns) e dalle cortecce orbito-frontali (OFC).
Il core affect coordina la dinamica delle attività della via visuomotoria - STS,
IPL, IFG/VPMC, aree corticali motorie M1/M3/M4, area motoria supplem-
netare SMA e nuclei motori sub-corticali nel tronco encefalico (brainstem) -
e visceromotoria - insula posteriore (PIns), ipotalamo (HYP), nuclei visce-
romotori del tronco encefalico, sistema nervoso autonomico (ANS). Questo
avviene sia modulando in feedback le rappresentazioni percettive dell’osser-
vatore sia generando e modulando la risposta emotiva del medesimo. Le linee
punteggiate rappresentano le proiezioni subcorticali che attraverso la via dua-
le del collicolo superiore (SC) e le regioni pulvinari proiettano direttamente
alle aree limbiche per innescare rapidamente la reazione affettiva (stadio 1 di
Adolph). Da [40]
55
neuroni specchio (mirror neuron system MNS, in particolare il lobulo parie-
tale inferiore IPL, il giro frontale inferiore IFG, e le cortecce ventro-mediali
posteriori VPMC), che presiede alle azioni motorie (attivazione dei muscoli
facciali); la via visceromotoria che controlla il sistema nervoso autonomico
(ANS) e le reazioni fisiologiche (battito cardiaco, sudorazione, ecc.); il siste-
ma affettivo centrale che modula azioni e propriocezioni motorie e viscerali
è rappresentato dal network che coinvolge amigdala (Amy), cortecce insulari
anteriore e posteriore (AIns, Pins) e regione corticale orbito-frontale (OFC).
La figura, come specificato poc’anzi, funge da supporto neurobiologico ai pri-
mi due stadi del processo di percezione (simulativa) dell’espressione facciale
ed è necessaria per lo stadio finale di comprensione e categorizzazione dello
stimolo percettivo, più precipuamente cognitivo.
È chiaro a questo punto che l’origine delle “incertezze”, sintetizzabili formal-
mente nel modello Bayesiano dello spettro autistico in termini di precisioni
e probabilità a priori (Capitolo 2), hanno origini profonde nella struttura
neurobiologica dell’agente, e possono scaturire da disfunzioni a diversi livelli
del network complessivo che regola la dinamica della percezione sociale . Per
esempio, è stato più volte sottolineato il ruolo di un diverso funzionamento
del solco temporale superiore (STS) in soggetti autistici rispetto a soggetti
a sviluppo tipico. Quest’evidenza è anche di interesse rispetto alle teorie
dell’autismo basate su disfunzione del sistema di mirroring, essendo l’STS
parte del sistema di “rispecchiamento” o, quantomeno, l’interfaccia tra il
sottosistema di percezione visiva (e uditiva) e il MNS umano.
Ritorniamo alla questione della valutazione di efficacia di un agente artifi-
ciale posto in interazione con un agente naturale (umano) e, nella fattispe-
cie, con un agente autistico. Sulla scorta della discussione precedentemente
sviluppata sono, in linea di principio, praticabili due approcci:
1. valutazione mediante un modello generale, ma dettagliato nella simu-
lazione, del soggetto autistico;
2. valutazione mediante un modello sintetico della risposta del soggetto
basato su alcune variabili essenziali di risposta comportamentale.
Perseguire la prima strada, significherebbe modificare lo schema generale del-
l’interazione con quello rappresentato in Figura 4.3.
Tale schema, ovviamente, pone seri problemi da un punto di vista epistemo-
logico, perché l’ipotesi fondante è la condivisione del sistema neurobiologico
(shared manifold) che ovviamente non è soddisfatta a meno di assumere una
posizione strettamente funzionalista: qualsiasi modello (interno) dell’agente
artificiale che sia funzionalmente equivalente all’agente naturale può essere
utilizzato per costruire uno spazio condiviso.
56
i
nter
azi
one
soci
al
e
per
cez
ione
soci
al
e
c
ogni
zi
one
a
zioni
fac
cia
li a
zioni
fac
cia
li
att
iva
zione r
is
pec
chi
amet
o a
tti
vaz
ione
neural
e neur
ale
“
” “ ” “
a
zioni
aut
onome a
zioni
aut
onome
emoz
ione
57
i
nter
azi
one
soci
al
e
per
cez
ione
soci
al
e
c
ogni
zi
one
a
zioni
fac
cia
li a
zioni
fac
cia
li
r
is
pec
chi
ament
o
a
zioni
aut
onome
emoz
ione
58
Figura 4.5: Architettura funzionale del sistema per la percezione di espres-
sioni affettive. Lo schema astrae dai dettagli neurobiologici rappresentati
nell’architettura neurale di Figura 4.2, ponendo tuttavia in evidenza le re-
lazioni funzionali. Le frecce 1 → 2 → 3 → 4 e 6 → 5 → 4 indicano
proiezioni in avanti o “forward”, da bassi livelli di elaborazione (bottom-
up); 1 ← 2 ← 3 ← 4 e 6 ← 5 ← 4 denotano proiezioni “backward”,
dall’alto verso il basso (top-down). Si noti come il sistema percettivo intera-
gisca con un sistema esteso che coinvolge i sottosistemi emozionali (riquadro
punteggiato) e cognitivi di alto livello. L’interazione è guidata attraverso
la mediazione visuomotoria di una componente per la percezione dell’azio-
ne. Quest’ultima trasforma l’informazione visiva dell’azione facciale nella
rappresentazione somatomotoria interna all’osservatore. Parallelamente l’at-
tivazione della via visuomotoria innesca la reazione visceromotoria attraverso
la mediazione dello spazio affettivo centrale (core affect). Da lı̀ in poi il loop
di simulazione interna evolve nel tempo per supportare il processo di percezio-
ne affettiva. Le linee grigie tratteggiate distinguono i vari livelli di controllo
gerarchico del processo.
59
Figura 4.6: Percezione di un agente artificiale e conseguente risposta emotiva
60
tegoria fonetica può utilizzare una specifica scelta di suoni per trasmettere
anche informazioni affettive o di altro tipo. Poiché ci sono diversi fattori
che potrebbe voler trasmettere, e dato che ogni fattore può causare picco-
le fluttuazioni acustiche, assumiamo che la combinazione di questi fattori si
avvicini ad una distribuzione gaussiana. Le categorie fonetiche nel modello
sono quindi distribuzioni gaussiane dei suoni vocali target.
Da parte sua chi ascolta percepisce un suono modificato a causa di vari tipi
di rumore (articolatorio, acustico e percettivo). La combinazione di questi
fattori viene approssimata attraverso un rumore gaussiano, in modo che il
suono ascoltato sia normalmente distribuito attorno alla produzione target di
chi parla. Formulata in questo modo, la percezione di suoni parlati diventa
un problema di inferenza statistica.
Senza alcuna informazione preventiva sulle categorie fonetiche, la percezione
degli ascoltatori dovrebbe essere imparziale, dato che i suoni del discorso,
affetti da rumore distribuito in modo normale, hanno la stessa probabilità di
essere spostati in entrambe le direzioni. In questo caso, la strategia più sicu-
ra per chi ascolta è quella di indentificare la produzione target con il suono
che hanno sentito. Tuttavia, gli ascoltatori esperti sanno che è più probabi-
le sentire suoni vicini ai centri delle categorie fonetiche rispetto a suoni più
lontani. Il modo ottimale di utilizzare la conoscenza delle categorie fonetiche
per compensare un segnale vocale rumoroso è quindi quello di distorcere la
percezione verso il centro di una categoria, cioè verso le produzioni target
più probabili.
(
a) (
b)
S
timol
oper
cepi
to S
timol
oper
cepi
to
Figura 4.7: Relazioni previste tra spazio acustico e spazio percettivo in caso
di (a) una categoria e (b) due categorie. Adattamento da [43]
61
rie individuate. Se è certo della categoria, la percezione del suono dovrebbe
essere attirata verso la sua media, come nel caso dell’ipotetico linguaggio
precedente. Ciò concentra lo spazio percettivo delle aree non ambigue. In
caso contrario, l’ascoltatore dovrà considerare tutte le categorie che avreb-
bero potuto generare il suono, pesandone però l’influenza con la probabilità
che il suono venga da quella categoria. Questo assicura (nel caso di uguale
frequenza e varianza) che le categorie vicine abbiano peso maggiore rispetto
a quelle lontane.
La percezione di un suono esattamente al confine tra due categorie verrà
spinta contemporaneamente verso le loro medie, annullando una l’effetto del-
l’altra. La percezione di un suono vicino al confine, sarà spinta verso la me-
dia più prossima, ma l’effetto verrà mitigato dall’altra categoria. Lo schema
percettivo per il caso di due categorie è mostrato in Figura 4.7 (b).
Lo schema di distorsione percettiva individuato dal modello risulta qualita-
tivamente simile all’effetto del magnete percettivo. I suoni parlati vicini ai
centri delle categorie si proiettano nello spazio percettivo in maniera serra-
ta, e ciò si accorda con l’equivalenza acquisita nella lingua madre all’interno
di una categoria. I suoni vicini ai confini tra le categorie vengono mappati
in modo più distanziato, e questo è consistente con la maggiore capacità di
distinguere tra categorie.
Possiamo formalizzare il modello nei termini di un modello generativo Baye-
siano, rappresentato nel modello grafico probabilistico (PGM, Probabilistic
Graphical Model) di Figura 4.8 dove vengono utilizzate le seguenti variabili
aleatorie (per semplicità notazionale nel seguito non utilizzeremo la distin-
zione, più corretta, fra variabile aleatoria X e la realizzazione della variabile
aleatoria X = x):
• c: la categoria da cui può essere campionato uno stimolo di interesse
(target), necessariamente una variabile aleatoria discreta;
• T : lo stimolo target (ideale);
• S: lo stimolo target effettivamente osservato, ovvero T affetto/corrotto
da rumore (“interno” al percettore e/o “esterno”, dipendente dalle
condizioni di osservazione);
Il PGM di Figura 4.8 formalizza il problema definendo la probabilità con-
giunta p(S, T, c) mediante la seguente fattorizzazione:
p(S, T, c) = p(S|T, c)p(T |c)p(c) = p(S|T )p(T |c)p(c) (4.1)
62
Figura 4.8: Un modello generativo per il percettore Bayesiano ottimo
63
Il segnale percepito non è direttamente T ma S, affetto da rumore, ed è di-
stribuito normalmente intorno alla produzione target con varianza σS2 :
cioè gli stimoli osservati sono distribuiti normalmente intorno alla media del-
la categoria µc con varianza che è uguale alla somma della varianza della
categoria (σc2 ) e di quella del rumore (σS2 ).
A questo punto possiamo usare l’inferenza Bayesiana per ricostruire il segna-
le target dal segnale con rumore.
64
σc2 S + σS2 µc
E[T |S, c] = (4.7)
σc2 + σS2
p(S|c)p(c)
p(c|S) = P (4.8)
c p(S|c)p(c)
X
p(T |S) = p(T |S, c)p(c|S) (4.9)
c
Il primo termine a destra è dato dalla Gaussiana 4.6, mentre il secondo dal-
l’equazione 4.8.
La distribuzione a posteriori p(T |S) è quindi una miscela di Gaussiane, e
ognuna di esse rappresenta la soluzione per una singola categoria. Restrin-
gendo l’analisi a categorie con uguale varianza σc2 , la media della distribuzione
a posteriori risulta essere (vedi Appendice B):
X σc2 S + σS2 µc
E[T |S] = p(c|S) 2 (4.10)
c
σc + σS2
65
avendo le categorie uguale varianza σc2 , possiamo riscriverla come:
σc2 σS2 X
E[T |S] = 2 S+ 2 p(c|S)µc (4.11)
σc + σS2 σc + σS2 c
L’equazione 4.11 fornisce la soluzione nel caso di più categorie. Tale soluzione
è una media ponderata dello stimolo S e delle medie µc di tutte le categorie
che potrebbero aver prodotto S. Quando siamo certi della categoria, questa
equazione si riduce alla 4.7, e la percezione di S è distorta verso la media
della sua categoria.
Tuttavia, quando S si trova al confine tra due categorie, la soluzione ottimale
è influenzata da entrambe le loro medie, ognuna delle quali indebolisce l’ef-
fetto dell’altra. Il concentramento dello spazio percettivo è quindi maggiore
dove la categoria è certa (nel suo centro), e più debole ai confini (Figura 4.7
(b)).
Qualitativamente, l’effetto del magnete percettivo emerge dunque come so-
luzione ottimale al problema della percezione di un segnale affetto da rumo-
re.
66
Unc
annyv
all
ey Per
sonas
ana
Robotgi
oca
ttol
o
kan)
Ma
rionet
taBunr
aku
n
hiwa
Roboti
ndus
tri
al
e
t
Affini S
à(
S
imi
l
itudi
neuma
na
Ma
nopr
otes
ica
Nella sua analisi Mori parte dai robot industriali, che possono magari esten-
dere, contrarre o ruotare un braccio ma che non hanno alcuna similitudine
esteriore con un essere umano. Questo fa sı̀ che difficilmente le persone
sentano familiarità nei loro confronti. Se li si individuasse su un grafico di
“affinità”, si troverebbero quindi vicino all’origine (Figura 4.9). D’altra par-
te, obiettivo di chi li progetta è la funzionalità.
Diverso è il discorso per un robot giocattolo, in cui l’aspetto è fondamentale.
Inizierà ad avere una qualche somiglianza con gli esseri umani, probabilmente
con un viso, due braccia e due gambe. I bambini sembrano provare attacca-
mento per robot di questo genere. In Figura 4.9 si troveranno quindi a più
di metà strada tra l’origine e il primo massimo.
Mori passa quindi a considerare gli arti artificiali, prendendo come esempio
la mano. Già nel 1970 erano disponibili protesi che assomigliavano molto a
una vera mano, simulando a volte pieghe della pelle, unghie, vene e perfino
impronte digitali. Si potrebbe quindi pensare che una tale protesi salga nel
grafico di “affinità”. Invece non è cosı̀. Pensando di stringere una mano di
questo genere probabilmente saremmo a disagio per la sua presa senza ossa,
la sua consistenza e la sua freddezza, perdendo il senso affinità, e la mano
diventerebbe “perturbante”. In termini matematici, questo può essere rap-
presentato da un valore negativo. Pertanto, in questo caso, l’aspetto della
mano protesica è abbastanza simile a quella umana, ma il livello di affinità è
negativo, e si posiziona vicino al fondo dell’uncanny valley nella Figura 4.9.
67
Viceversa, le marionette Bunraku 1 sono poco realistiche considerando l’altez-
za, l’aspetto della pelle eccetera. Tuttavia, vedendole muoversi in teatro da
una certa distanza, le reali dimensioni perdono importanza e il loro aspetto
totale, inclusi i movimenti delle mani e degli occhi, risulta vicino a quello di
un essere umano. E in effetti normalmente gli spettatori provano per loro un
alto grado di affinità.
Se oltre all’aspetto si pensa al movimento, il grafico si modifica (Figura 4.10)2 .
Il movimento è una caratteristica fondamentale per gli esseri viventi, e quindi
i
n Unc
annyv
all
ey Per
sonas
ana
movi
ment
o
f
ermi
Robotuma
noi
de Per
sonama
lat
a
n)
e
a
t
mor
k
Ma
rionet
taBunr
aku
wa
Ani
ma l
e
n
hi
Roboti
ndus
tri
aei
l mbal
samato
S
à(
Ma
scheaOk
r ina
t
Affini
Bambol
a
S
imi
l
itudineumana
MascheaY
r as
eOt
oko Ma
nopr
otes
ica
Ma
nomi
oel
ett
ri
ca
Zombi
68
In presenza di movimento, quindi, il grafico cambia forma, amplificando
picchi e valli.
Una persona sana è rappresentata nel secondo massimo della curva tratteg-
giata (in movimento). Quando moriamo, non ci muoviamo più e il corpo
diventa freddo. La morte può essere vista come una discesa dal secondo
massimo del grafico tratteggiato (in movimento) al fondo dell’uncanny val-
ley di quello continuo (fermo), come indicato dalla freccia (sperando di non
scendere nell’uncanny valley della curva relativa al movimento...).
Mori pensa che questa discesa aiuti a spiegare il fenomeno da lui individuato.
La sensazione perturbante farebbe parte dall’istinto di conservazione, proteg-
gendoci dai pericoli “vicini”, simili ma diversi da noi, che includono membri
di specie diverse, cadaveri e altre entità con cui potremmo venire in stretto
contatto.
In conclusione il suo augurio è che una più profonda comprensione dell’Un-
canny Valley ci aiuti a capire meglio che cosa ci renda umani e a progettare
agenti artificiali con cui le persone possano relazionarsi piacevolmente.
69
Nella sua ricerca Moore ipotizza che l’effetto sia una particolare manifesta-
zione di un fenomeno più generale, in cui la percezione viene distorta dalla
categorizzazione, e amplia il risultato di Feldman precedentemente descritto
[43], per darne una spiegazione anche a livello matematico [46].
Il modello di Feldman rende conto dell’effetto del magnete percettivo, cioè
del fatto che siamo più sensibili alle differenze quando percepiamo segnali che
si collocano ai confini tra categorie. Di per sé questo non illumina riguardo
al senso di sgradevolezza che si prova venendo a contatto con particolari sti-
moli. L’ipotesi di Moore è che, in presenza di uno stimolo che reca segnali
multipli, possa accadere che le distorsioni percettive dei vari segnali indotte
ai confini tra categorie non siano allineate. Questa distorsione differenziale si
manifesterebbe in una sorta di “tensione percettiva”, che a sua volta darebbe
origine al senso di fastidio.
In particolare, il modello ampliato rivela che i conflitti tra segnali si possano
manifestare in differenze tra le medie e le varianze delle relative distribuzioni,
e questo può dare luogo a livelli disuguali di incertezza. Per esempio, un ro-
bot umanoide può sembrare del tutto umano nei tratti del volto, ma piccole
anomalie nel movimento degli occhi possono ingenerare incertezza riguardo a
quel particolare segnale, provocando una tensione percettiva e un certo senso
di inquietudine.
Secondo Moore, per ottenere la curva di Mori (Figura 4.10), è necessario por-
re una categoria che rappresenti la percezione “target” (es.: “umano”) con
media della relativa distribuzione a un estremo del continuum dello stimolo.
Bisogna poi aggiungere una seconda categoria che rappresenti la percezione
di sottofondo (es.: “non umano”), la cui distribuzione si sovrapponga alla
prima.
Per mantenere la monotonicità della curva base di risposta (una funzione
(
a) (
b)
)
)
S
S
(
(
ap
ap
c
ategor
iat
arget c
ategor
iat
arget
nz
nz
e
e
r
r
r
r
o
o
c
c
c
c
o
o
àdi
àdi
c
ategor
iadi
sot
tof
ondo
c
ategor
iadi
sot
tof
ondo
t
f
ami
l
iar
it
à
i
t
i
bil
bil
ba
ba
o
o
r
r
P
f
ami
l
iar
it
à
S
timol
oS S
timol
oS
70
crescente che associ bassa/alta familiarità a bassa/alta somiglianza umana),
la distribuzione di sottofondo deve avere un andamento tendenzialmente piat-
to (Figura 4.11 (a)). Se tale distribuzione è meno appiattita, si osserva un
avvallamento verso i confini dello stimolo (Figura 4.11 (b)), che riflette un
certo grado di “non familiarità”, quindi di imprevedibilità, associato allo sti-
molo verso i confini della categoria. Questo avvallamento non può assumere
valori negativi (si tratta di probabilità) e di per sé non rappresenta l’uncanny
valley. È infatti un risultato intermedio che cattura la “familiarità”, che è
solo una parte del “shinwakan” di Mori.
Il modello suggerisce che ci siano due variabili chiave che si relazionano al-
l’asse verticale (“shinwakan”) di Mori: la probabilità globale di occorrenza
di un particolare stimolo e l’eventuale tensione percettiva che può nascere da
segnali discordanti.
Questo modello, oltre a dare conto dell’uncanny valley, risolve anche la confu-
sione rispetto all’asse verticale del grafico di Mori: la “familiarità” è definita
matematicamente come la probabilità di occorrenza di uno stimolo, mentre
“l’affinità” (cioè l’asse verticale di Mori) è definita come una funzione sia
della “familiarità” che della “tensione percettiva”.
dove E[T |S] è il valore atteso della produzione target dato lo stimolo S come
individuato da Feldman e colleghi (equazione 4.10) [43].
La funzione di spiazzamento D[S] rappresenta una misura della distorsione
percettiva rispetto alle categorie. Un valore diverso da zero (positivo o ne-
gativo) indica che lo stimolo viene percepito con un valore differente rispetto
al suo valore fisico. Chiaramente, D[S] = 0 indica assenza di distorsione.
Nel caso in cui ci siano stimoli multipli, la distorsione percettiva differenziale
può essere calcolata con:
71
(
a) (
b)
aVS
[]
c
oni
tt
otr
aisegna
li
v
]
i
cr
esc
ent
e
t
S
t
[
àF
c
re
t
Affini
i
nsonepe
c
oni
tt
otr
aisegna
li
e
cr
esc
ent
e
T
S
timol
oS S
timol
oS
posizionamento rispetto alle categorie, V [S] è uguale a zero per tutti gli S.
In caso contrario, lo stimolo S non è completamente coerente nella posizione
che i segnali che lo compongono assumono rispetto alle categorie stesse.
V [S] quindi aumenta tanto maggiore è il conflitto percettivo. Il modello
ipotizza che la funzione F [S]:
72
fenomeno è il fatto che, nel caso dinamico, l’informazione sulla categoria sia
più chiara. La distribuzione associata ad una categoria target in movimento
sarebbe più concentrata intorno alla media (quindi avrebbe varianza minore)
rispetto al caso statico.
a
rtef
att
ofer
mo
t
Affini [
àFS]
a
rtef
att
oinmovi
ment
o
S
timol
oS
L’output del modello è raffigurato in Figura 4.13: mantenendo gli altri para-
metri costanti, una diminuzione della varianza della categoria target, deter-
mina maggiore affinità agli estremi della curva e un avvallamento maggiore
nella zona dell’uncanny valley di Mori.
In conclusione, sebbene l’ipotesi originale di Mori (e gran parte della succes-
siva ricerca a riguardo) si sia preoccupata della reazione agli artefatti simili
all’uomo, il modello qui illustrato fornisce un spiegazione matematica più
generale che può illuminare riguardo a una serie di situazioni del mondo rea-
le in cui segnali percettivi contrastanti danno luogo a reazioni negative, di
paura, raccapriccio o addirittura violente. Possiamo leggere da questo punto
di vista il disgusto per il cibo avariato, le reazioni negative a individui che si
distaccano in qualche modo dalla norma, come la paura per i clown ma anche
atteggiamenti di discriminazione e in generale di paura per il “diverso”.
73
di agenti artificiali (robot, avatar, ecc.) con caratteristiche molto simili agli
esseri umani [46].
D’altra parte, tali agenti sono ormai largamente utilizzati nella terapie per
l’autismo, visto che sembra siano particolarmente graditi ai bambini nello
spettro, e che il loro utilizzo li coinvolga e motivi favorendo l’apprendimento
di abilità sociali, come abbiamo visto nel Capitolo 3. Per esempio, il robot
Kaspar del progetto AuRoRA ([28], Figura 3.9), per tanti versi simile a un
bambino vero, viene spesso percepito come un po’ inquietante da persone
neurotipiche, mentre bambini con autismo hanno risposto ad esso positiva-
mente. Pare quindi che questi bambini non siano turbati dai robot con un
aspetto quasi umano, sebbene si sentano a disagio a interagire con la maggior
parte delle persone.
Uncanny
)
va
ll
e y
a t
ffinià
Aut
is
mo
aemoi
tva(
c
omplet
ament
e compl
eta
ment
e
t
s
a
rtic
ial
e umano
Rs
ipo
Ueyama [47] analizza la questione ipotizzando che gli individui autistici ca-
tegorizzino l’“umano” in maniera differente rispetto agli altri. Studi che
utilizzano la risonanza magnetica funzionale (fMRI) hanno messo peraltro
in luce come queste persone percepiscano gli esseri umani avvalendosi di
processi neurali diversi, per esempio non attivando o solo debolmente l’area
fusiforme dei volti (FFA) normalmente impiegata nel riconoscimento facciale.
Un’ulteriore ipotesi è che, in caso di autismo, l’interazione sociale, definita
come la risposta emotiva alle persone, possa essere migliorata imparando a
classificarle allo stesso modo degli individui neurotipici. Date queste premes-
se, nella sua ricerca adatta il modello Bayesiano di Moore, ipotizzando che
74
la curva dell’affinità nel caso di autismo presenti più un dirupo (cliff ) che
una vallata (Figura 4.14), spostando la zona in cui il grafico inizia a scendere
verso la sgradevolezza dalle parti del “completamente umano”.
L’interazione soggetto autistico/agente sembra quindi più difficile nel caso di
agente naturale, Ueyama ipotizza di conseguenza che la categoria “umano”
sia spostata per queste persone a una posizione estrema (Figura 4.15), au-
mentandone quindi il valore della media.
(
a)Neur
oti
pic
ità (
b)Aut
is
mo
)
)
S
S
àp(
c
ategor
ia
àp(
c
ategor
ia
“
uma no” “
uma no”
t
t
i
i
l
l
bi
bi
ba
ba
Spos
tament
o
o
o
r
r
P
ca
tegor
ia
P
ca
tegor
ia
dis
ott
ofondo dis
ott
ofondo
S
timol
o S
timol
o
Figura 4.15: Probabilità delle categorie percepite nel caso (a) neurotipico e
(b) autistico. Adattamento da [47]
75
Y [S1 , S2 ] = β · F [S1 ] + (1 − β) · F [S2 ], (4.15)
(σc(k+1)
2
)2 = (σc(k)
2
)2 + γ · p(c2 |Sp )[(Sp − µc2 )2 − (σc(k)
2
)2 ] (4.16)
γ = δ · Y [S1 , S2 ] (4.17)
76
Figura 4.16: Previsioni dell’effetto dell’Uncanny valley secondo il modello
di Moore. Risposta emotiva in funzione dello stimolo e della media della
categoria “umana”, a sinistra rappresentata tridimensionalmente e a destra
attraverso i colori su superficie piana. Adattamento da [47]
77
(
a)Neur
oti
pic
ità (
c)
mo
pii
ct
i
Auts
ti
p
o
2
oS
2
2
a c2
ac
ur
o
t
nz
nz
Ne
l
a
mo
nt
a
a
i
i
r
r
i
e
a
t
a
s
V
S
V
e
pr
n°pr
ova S
timol
opr
esent
atoSp
n°pr
ova
(
b)Aut
is
mo
oSp
2
a c2
o
t
nz
l
a
mo
nt
i
ra
i
e
t
s
a
S
e
V
pr
n°pr
ova
n°pr
ova
Figura 4.17: Effetti della terapia assistita da robot sulla varianza per la
categoria umana: (a-b) a sinistra in funzione del numero di prove e degli
stimoli presentati, a destra le curve di apprendimento per alcuni degli stimoli
presentati: (a) nella condizione tipica e (b) nella condizione di autismo. (c)
I valori finali della varianza appresa dopo 500 prove rispetto allo stimolo
presentato. Adattamento da [47]
(
a) (
b)
)
)
à
à
t
t
ffini
pr
ove
ffini
a
a
a(
a(
v
v
i
i
t
t
mo
mo
ae
ae
t
t
s
s
po
po
s
s
i
pr
ove
R
S
timol
o S
timol
o
78
Conclusioni
Una delle caratteristiche principali del disturbo dello spettro autistico (ASD)
è la problematicità dell’interazione sociale, specialmente nell’elaborazione
delle informazioni emotive.
Robot e altri agenti artificiali, che possiamo genericamente classificare nel
campo della computazione affettiva, vengono sempre più utilizzati per in-
centivare nei bambini con autismo l’apprendimento di attività di attenzione
e comunicazione reciproche, in considerazione del fatto che sembrano eser-
citare su di essi una grande attrattiva e suscitare meno ansia rispetto agli
agenti umani. Gli studi a riguardo sono numerosi, e anche in questa tesi ne
abbiamo presentati alcuni [22; 23; 28; 30], tuttavia i risultati, benché inte-
ressanti, sono ancora frammentari, basandosi su ricerche limitate nel numero
dei partecipanti e nel tempo e soprattutto compiendo valutazioni euristiche
dell’efficacia di tali interventi difficilmente generalizzabili.
La tesi si è quindi proposta di individuare, nei limiti della complessità del
problema, un quadro teorico entro cui formalizzare le caratteristiche cognitive
e le modalità di interazione del soggetto autistico, fornendo evidenza com-
putazionale alla valutazione delle terapie assistite da agenti artificiali per i
bambini nello spettro autistico.
I principali risultati ottenuti sono riassumibili come segue.
1. Il primo consiste nell’individuazione di un approccio Bayesiano, tipi-
camente non considerato nella computazione affettiva, ai meccanismi
alla base della complessa sintomatologia autistica [12]. Tale approccio
risulta utile in generale per formalizzare le interazioni tra il sistema
neurale e gli stimoli che vengono dall’esterno, tramite l’utilizzo di un
modello generativo inferenziale.
Nel caso specifico, le difficoltà comportamentali, cognitive e percettive
inerenti all’autismo sono lette nei termini di una costante supervaluta-
zione degli input sensoriali (bottom-up) e di modelli interni (top-down)
dell’ambiente esterno vaghi e imprecisi. Queste caratteristiche deter-
80
minano incertezza nella comprensione razionale ed emotiva del mondo
che ci circonda. Le altre persone appaiono difficili da decifrare e cosı̀ le
interazioni sociali si fanno problematiche. Dall’altra parte la routine,
gli input chiari e prevedibili cosı̀ come i comportamenti stereotipati so-
no percepiti come rassicuranti.
81
4. Tornando al percettore autistico, abbiamo utilizzato il modello di Ueya-
ma [47] che ipotizza che la curva dell’affinità, nel caso di autismo, pre-
senti più un dirupo (cliff ) che una vallata (valley), spostando la zona
in cui il grafico inizia a scendere verso la sgradevolezza dalle parti del
“completamente umano”. Adattando il modello Bayesiano di Moore,
Ueyama propone una simulazione numerica di un processo terapeuti-
co iterativo di apprendimento supportato da un agente artificiale per
esaminarne gli effetti sulla risposta emotiva. Ad ogni iterazione, cioè
interazione teorica con l’agente, la varianza della categoria “umano”
interna al percettore viene aggiornata. L’idea è che, presentando sti-
moli adeguati, la terapia induca adattamento alle categorie percettive,
e di conseguenza modifichi le curve della risposta emotiva. I risulta-
ti della simulazione indicano che, nel caso di autismo, questo avviene
per agenti (stimoli) simili agli esseri umani, normalmente percepiti co-
me “uncanny”. Robot e altri agenti “quasi umani” paiono quindi utili
candidati nelle terapie per l’autismo.
Gli esempi di studi nel campo dell’interazione tra agenti artificiali e soggetti
autistici sono ormai numerosi. Come si è detto, le relative valutazioni del-
l’efficacia seguono normalmente un percorso euristico. Un approccio come
quello suggerito in questa tesi potrebbe integrarsi in modo vantaggioso con
tali ricerche, non solo nelle valutazioni finali, ma anche e forse principalmente
nella progettazione degli agenti e dei protocolli terapeutici.
Le problematiche relative all’autismo sono molte e complesse, e non bisogna
neanche dimenticare i punti di forza di questa atipicità neurologica. Una più
stretta collaborazione tra computazione affettiva, ricerche sul campo, neu-
roscienze, modelli computazionali e anche persone nello spettro potrà forse
essere positiva per tutti.
82
Appendice A
Inferenza Bayesiana
p(y|x)p(x)
p(x|y) = (A.1)
p(y)
Z
p(y) = p(y|x)p(x)dx (A.2)
84
Figura A.1: Stima della posizione della pallina quando toccherà terra. In
rosso la distribuzione likelihood p(y|x), in blu il belief a priori p(x). Il belief
a posteriori è rappresentato dall’ellissi bianca con la pallina al centro a indi-
care la stima di massima verosimiglianza. Tale stima può essere aggiornata
tramite una nuova informazione sulla traiettoria (pallina gialla). Da [49]
85
Figura A.2: Esempio di regola di Bayes per le gaussiane. Da [49]
A.1 Gaussiane
Se le variabili casuali x e y sono distribuite in modo normale, l’inferenza
Bayesiana assume forme semplici. È conveniente usare la variabile casuale
precisione definita come l’inverso della varianza.
Data una distribuzione gaussiana a priori con media µ0 e precisione λ0 e
una distribuzione gaussiana likelihood con media µL e precisione λL , la
distribuzione a posteriori sarà una gaussiana con media µ e precisione λ:
λ0 λL
µ= µ0 + µL λ = λ0 + λL (A.4)
λ λ
86
Figura A.3: Esempio di Grafo Aciclico Diretto (DAG). Da [49]
n
Y
p(x) = p(xk |pa[xk ]) (A.5)
k=1
p(x) = p(x1 )p(x2 )p(x3 |x1 )p(x4 |x1 , x2 )p(x5 |x4 ) (A.6)
87
ZZZZ
p(x4 ) = p(x1 , x2 , x3 , x4 , x5 ) dx1 dx2 dx3 dx5 (A.7)
ZZZ
p(x4 |x1 ) = p(x1 , x2 , x3 , x4 , x5 ) dx2 dx3 dx5 (A.8)
88
Appendice B
Sviluppiamo in modo esplicito il calcolo del valore atteso E[T |S] utilizzato
in [43].
(T − µc )2 (S − T )2
1 1
p(T |S, c) ∝ p exp − ×p exp − (B.1)
2πσc2 2σc2 2πσS2 2σS2
(T − µc )2 (S − T )2
p(T |S, c) ∝ exp − − (B.2)
2σc2 2σS2
89
Svolgendo nell’esponente i quadrati ed eliminando i termini che non dipen-
dono da T otteniamo:
T2 T2
2T µc 2ST
p(T |S, c) ∝ exp − 2 + + − 2 (B.3)
2σc 2σc2 2σS2 2σS
2
σc + σS2 2 2(σc2 S + σS2 µc )
p(T |S, c) ∝ exp − T + T (B.4)
2σc2 σS2 2σc2 σS2
σc2 S+σS2µ
T2 − 2 c
!
2 2
σc +σS
T
p(T |S, c) ∝ exp − σ2 σ2
(B.5)
2 σ2c+σS2
c S
(σc2 S+σS
2 µ )2
c
!
2 2 )2
(σc +σS
exp − σ2 σ2
(B.6)
2 σ2c+σS2
c S
ottenendo:
2
σc2 S+σS2µ
c
T− 2 2
σc +σS
!
p(T |S, c) ∝ exp − σ2 σ2
(B.7)
2 σ2c+σS2
c S
90
σc2 S + σS2 µc σc2 σS2
media = varianza = (B.8)
σc2 + σS2 σc2 + σS2
σc2 S + σS2 µc
E[T |S, c] = (B.10)
σc2 + σS2
Z X
E[T |S] = T p(T |S, c)p(c|S)dT (B.11)
c
XZ
E[T |S] = T p(T |S, c)p(c|S)dT (B.12)
c
X Z
E[T |S] = p(c|S) T p(T |S, c)dT (B.13)
c
91
R
dove T p(T |S, c)dT denota il valore atteso E[T |S, c] nel caso di una categoria
(equazione B.10).
Nel caso di più categorie, quindi, il valore atteso risulta:
X σc2 S + σS2 µc
E[T |S] = p(c|S) (B.14)
c
σc2 + σS2
92
Elenco delle figure
94
4.2 Architettura del sistema neurale distribuito per la percezio-
ne di espressioni facciali affettive (lato dell’agente osservato-
re). Le doppie frecce indicano proiezioni “forward” e “back-
ward” tra aree neurali. L’architettura comprende un network
per la percezione dell’azione basato sul sistema mirror umano
(MNS), rappresentato dal complesso IPL, IFG/VPMC. Que-
sto media tra il risultato dell’elaborazione visiva dello stimolo
lungo la via visiva (retina, nucleo genicolato laterale LGN,
cortecce visive primarie, OFA, FFA, STS) e la rappresenta-
zione motoria interna dell’azione facciale costruita dall’ MNS
attraverso l’interfaccia del solco temporale superiore (STS). L’
MNS fornisce l’input per attivare il sistema affettivo centrale
(core affect) costituito dall’insula anteriore (AIns) e dalle cor-
tecce orbito-frontali (OFC). Il core affect coordina la dinamica
delle attività della via visuomotoria - STS, IPL, IFG/VPMC,
aree corticali motorie M1/M3/M4, area motoria supplemne-
tare SMA e nuclei motori sub-corticali nel tronco encefalico
(brainstem) - e visceromotoria - insula posteriore (PIns), ipo-
talamo (HYP), nuclei visceromotori del tronco encefalico, si-
stema nervoso autonomico (ANS). Questo avviene sia modu-
lando in feedback le rappresentazioni percettive dell’osserva-
tore sia generando e modulando la risposta emotiva del mede-
simo. Le linee punteggiate rappresentano le proiezioni subcor-
ticali che attraverso la via duale del collicolo superiore (SC)
e le regioni pulvinari proiettano direttamente alle aree limbi-
che per innescare rapidamente la reazione affettiva (stadio 1
di Adolph). Da [40] . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Interazione sociale tra un soggetto autistico e un agente (caso
generale) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 Interazione sociale tra un soggetto autistico e un agente: l’a-
gente non é basato su un modello affettivo completo, ma é in
grado di interagire mediante azioni facciali e corporee perce-
pite dall’osservatore autistico . . . . . . . . . . . . . . . . . . 58
59
4.6 Percezione di un agente artificiale e conseguente risposta emotiva 60
4.7 Relazioni previste tra spazio acustico e spazio percettivo in
caso di (a) una categoria e (b) due categorie. Adattamento da
[43] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.8 Un modello generativo per il percettore Bayesiano ottimo . . . 63
4.9 Uncanny valley. Adattamento da [45] . . . . . . . . . . . . . . 67
95
4.10 Uncanny valley nel caso statico e dinamico. Adattamento da
[45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.11 Probabilità di occorrenza di stimoli diversi data una categoria
di “sottofondo” più (a) o meno (b) piatta. Adattamento da [46] 70
4.12 Tensione percettiva (a) e affinità (b). Adattamento da [46] . . 72
4.13 Affinità nel caso statico e dinamico. Adattamento da [46] . . . 73
4.14 Uncanny valley nel caso di neurotipicità (blu) e di autismo
(rosso). Adattamento da [47] . . . . . . . . . . . . . . . . . . . 74
4.15 Probabilità delle categorie percepite nel caso (a) neurotipico e
(b) autistico. Adattamento da [47] . . . . . . . . . . . . . . . 75
4.16 Previsioni dell’effetto dell’Uncanny valley secondo il modello
di Moore. Risposta emotiva in funzione dello stimolo e della
media della categoria “umana”, a sinistra rappresentata tri-
dimensionalmente e a destra attraverso i colori su superficie
piana. Adattamento da [47] . . . . . . . . . . . . . . . . . . . 77
4.17 Effetti della terapia assistita da robot sulla varianza per la ca-
tegoria umana: (a-b) a sinistra in funzione del numero di prove
e degli stimoli presentati, a destra le curve di apprendimento
per alcuni degli stimoli presentati: (a) nella condizione tipica
e (b) nella condizione di autismo. (c) I valori finali della va-
rianza appresa dopo 500 prove rispetto allo stimolo presentato.
Adattamento da [47] . . . . . . . . . . . . . . . . . . . . . . . 78
4.18 Esempi di curve Stimolo/Risposta emotiva dopo diverse quan-
tità di prove nel caso (a) neurotipico, con uno stimolo pre-
sentato Sp = 0.4 e (b) autistico, con uno stimolo presentato
Sp = 0.7. Adattamento da [47] . . . . . . . . . . . . . . . . . . 78
96
Bibliografia
[6] C. C. Park, The siege: The first eight years of an autistic child. Little,
Brown, 1972.
98
[12] H. Haker, M. Schneebeli, and K. E. Stephan, “Can bayesian theories of
autism spectrum disorder help improve clinical practice?” Frontiers in
psychiatry, vol. 7, p. 107, 2016.
[17] C. Darwin, “(1965). the expression of the emotions in man and animals.
chicago: University of chicago press.” 1872.
[18] W. James, “What is an emotion?” Mind, vol. 9, no. 34, pp. 188–205,
1884.
[19] S. Turkle, “The second self: The human spirit in a computer culture,”
1984.
99
[23] T. Esubalew, U. Lahiri, A. R. Swanson, J. A. Crittendon, Z. E. Warren,
N. Sarkar et al., “A step towards developing adaptive robot-mediated in-
tervention architecture (aria) for children with autism,” IEEE Transac-
tions on Neural Systems and Rehabilitation Engineering, vol. 21, no. 2,
pp. 289–299, 2013.
100
[33] I. M. Hopkins, M. W. Gower, T. A. Perez, D. S. Smith, F. R. Amthor,
F. C. Wimsatt, and F. J. Biasini, “Avatar assistant: Improving social
skills in students with an asd through a computer-based intervention,”
Journal of autism and developmental disorders, vol. 41, no. 11, pp. 1543–
1555, 2011.
[34] C. Lord, M. Rutter, P. DiLavore, S. Risi, K. Gotham, and S. Bishop,
Autism diagnostic observation schedule 2nd edn. Western Psychological
Services, Los Angeles, 2012.
[35] S. Sparrow, D. Cicchetti, and D. Balla, Vineland adaptive behavior scales
2nd edn. American Guidance Service, Circle Pines, 2005.
[36] A. I. Goldman and C. S. Sripada, “Simulationist models of face-based
emotion recognition,” Cognition, vol. 94, no. 3, pp. 193–213, 2005.
[37] G. Rizzolatti and C. Sinigaglia, “The mirror mechanism: a basic prin-
ciple of brain function,” Nature Reviews Neuroscience, vol. 17, no. 12,
pp. 757–765, 2016.
[38] V. Gallese, “The ’shared manifold’ hypothesis. From mirror neurons to
empathy,” Journal of consciousness studies, vol. 8, no. 5-7, pp. 33–50,
2001.
[39] R. Adolphs, “Recognizing emotion from facial expressions: Psy-
chological and neurological mechanisms,” Behavioral and cognitive
neuroscience reviews, vol. 1, no. 1, pp. 21–62, 2002.
[40] G. Boccignone, D. Conte, V. Cuculo, A. D’Amelio, G. Grossi, and
R. Lanzarotti, “Deep construction of an affective latent space via multi-
modal enactment,” IEEE Transactions on Cognitive and Developmental
Systems, pp. 1–1, 2018.
[41] A. M. Liberman, K. S. Harris, H. S. Hoffman, and B. C. Griffith, “The
discrimination of speech sounds within and across phoneme boundaries.”
Journal of experimental psychology, vol. 54, no. 5, p. 358, 1957.
[42] P. K. Kuhl, “Human adults and human infants show a “perceptual ma-
gnet effect” for the prototypes of speech categories, monkeys do not,”
Perception & psychophysics, vol. 50, no. 2, pp. 93–107, 1991.
[43] N. H. Feldman, T. L. Griffiths, and J. L. Morgan, “The influence of
categories on perception: Explaining the perceptual magnet effect as
optimal statistical inference.” Psychological review, vol. 116, no. 4, p.
752, 2009.
101
[44] M. Mori, “Bukimi no tani (the uncanny valley),” Energy, vol. 7, pp.
33–35, 1970.
[47] Y. Ueyama, “A bayesian model of the uncanny valley effect for explai-
ning the effects of therapeutic robots in autism spectrum disorder,” PloS
one, vol. 10, no. 9, p. e0138642, 2015.
102