Modelli Di Computazione Affettiva e Autismo - Beatrice Zecchinelli

UNIVERSITÀ DEGLI STUDI DI MILANO
DIPARTIMENTO DI INFORMATICA
Corso di Laurea Magistrale in

Scienze dell’Informazione
Modelli di Computazione
Affettiva e Autismo
Candidato: Relatore:
Beatrice Zecchinelli Prof. Giuseppe Boccignone
Matr. 268578
Correlatore:
Dott.Giuliano Grossi
Anno Accademico 2017/2018

.
Ringraziamenti
Questa tesi arriva dopo una lunghissima interruzione dei miei studi accade-
mici, che fino a un anno fa non avrei mai pensato di concludere. Se questo sta
per avvenire è merito principalmente del mio relatore Professore Giuseppe
Boccignone, che mi ha guidata lungo un percorso appassionante che neanche
immaginavo, entusiasmandosi a volte lui stesso e dandomi la fiducia di cui
avevo bisogno. Grazie anche al mio correlatore Dott. Giuliano Grossi, che
soprattutto nei primi tempi mi ha incoraggiata, permettendomi di superare
i timori che avevo. Pur avendola incontrata una sola volta, ringrazio anche
la Professoressa Paola Campadelli, a cui mi sono rivolta inizialmente ricor-
dandola dai tempi in cui frequentavo. Non mi ha potuta seguire in quanto
stava per terminare il suo lavoro in Università, si è però interessata alla mia
situazione fornendomi i chiarimenti che cercavo e soprattutto presentandomi
i futuri relatori.
Un grande grazie a mio marito Piero e alle nostre figlie Margherita e Olivia,
che in quest’anno non hanno mai smesso di sostenermi. Caso vuole che mi
stia laureando in contemporanea con la secondogenita!
Anche molti amici mi hanno incoraggiata, tra questi voglio menzionare il mio
maestro di montaggio video Diego, la mia “quasi parente” Emanuela e mia
sorella Rita, che negli scorsi anni hanno spesso insistito affinché finissi. Ci
ha messo del tempo ma il messaggio alla fine è arrivato.
Infine voglio ringraziare la mia grande amica dell’infanzia Chiara, che in-
consapevolmente ha determinato la scelta dell’argomento della tesi. Verso
i cinquant’anni ha scoperto di rientrare nella sindrome di Asperger, che fa
parte dello spettro autistico. Finalmente ha potuto capire da dove venivano
le difficoltà incontrate nel corso di una vita. Parlare con lei mi ha aperto
un mondo che conoscevo solo per sentito dire, facendomi anche capire che
nessuno è perfettamente “tipico”. Spero che questa consapevolezza mi abbia
resa più tollerante e curiosa verso gli altri.
“Gli adulti autistici consapevoli e i loro genitori spesso sono risentiti nei
confronti dell’autismo. Forse si chiedono perché mai la natura o Dio abbiano
2
creato condizioni spaventose come l’autismo [...]. D’altra parte, se i geni
che ne sono responsabili scomparissero, il prezzo da pagare potrebbe essere
terribile. Può darsi che le persone con qualche traccia di tali caratteristiche
siano più creative, o forse addirittura geniali [...]. La soluzione genetica
rischierebbe di far finire il mondo in mano ai contabili.”
Temple Grandin
3
Indice
Introduzione 6
1 Autismo e interazione sociale 8

1.1 Lo spettro autistico . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Caratteristiche dello spettro . . . . . . . . . . . . . . . . . . . 10
1.2.1 Interazione sociale ed empatia . . . . . . . . . . . . . . 10
1.2.2 Comunicazione verbale e non verbale . . . . . . . . . . 11
1.2.3 Percezione sensoriale . . . . . . . . . . . . . . . . . . . 11
1.2.4 Abilità motorie . . . . . . . . . . . . . . . . . . . . . . 12
1.2.5 Interessi e comportamenti . . . . . . . . . . . . . . . . 12
2 Un approccio Bayesiano all’autismo 14

2.1 Modelli Bayesiani . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Apprendimento e incertezza . . . . . . . . . . . . . . . . . . . 16
2.3 Gerarchie cognitive . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Autismo come inferenza non ottimale . . . . . . . . . . . . . . 18
2.5 Inferenza attiva . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 Autismo e bilanciamento tra inferenza percettiva e attiva . . . 21
3 Computazione affettiva e autismo 24

3.1 Che cos’è la computazione affettiva . . . . . . . . . . . . . . . 24
3.2 Una prospettiva per l’autismo . . . . . . . . . . . . . . . . . . 25
3.3 Agenti robotici . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 Esempio 1: Tito . . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 Esempio 2: Nao e il Progetto ARIA . . . . . . . . . . . 32
3.3.3 Esempio 3: Kaspar e il Progetto AuRoRA . . . . . . . 36
3.4 Agenti virtuali: i serious game, una diversa tecnologia . . . . . 44
3.4.1 Emotiplay . . . . . . . . . . . . . . . . . . . . . . . . . 44
4 Modellazione e valutazione dell’interazione 52

4.1 Alcune questioni generali relative all’interazione sociale . . . . 52
4
4.1.1 Il modello del percettore Bayesiano ottimo . . . . . . . 58
4.2 Bukimi no tani: il problema dell’Uncanny Valley . . . . . . . . 66
4.3 Una spiegazione Bayesiana dell’Uncanny Valley . . . . . . . . 69
4.4 Un modello per l’Uncanny Valley nell’autismo e per i conse-
guenti effetti nell’utilizzo di robot terapeutici . . . . . . . . . . 73
Conclusione 80
A Inferenza Bayesiana 84
A.1 Gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A.2 Modelli generativi . . . . . . . . . . . . . . . . . . . . . . . . . 87
B Calcolo del valore atteso del target nel modello Bayesiano

della percezione 89
B.1 Caso di una categoria . . . . . . . . . . . . . . . . . . . . . . . 89
B.2 Caso di più categorie . . . . . . . . . . . . . . . . . . . . . . . 91
Elenco delle figure 96
Bibliografia 98
5
Introduzione
L’autismo è un disordine pervasivo dello sviluppo neurologico che si presenta

fin dalla primissima infanzia e che perdura nel corso dell’intera vita. Le carat-
teristiche estremamente eterogenee di tale condizione fanno sı̀ che si parli più
correttamente di disturbo dello spettro autistico (Autism Spectrum Disorder
ASD). Nonostante le differenze, tuttavia, si possono individuare alcune aree
che risultano a vari livelli problematiche in tutta la popolazione autistica:
da una parte quelle della comunicazione e dell’interazione sociale, dall’altra
quelle relative agli interessi che si manifestano con schemi comportamentali
circoscritti e ripetitivi.
A causa delle caratteristiche strutturali del disordine, non è pensabile tro-
vare una “cura”, sono però possibili e auspicabili interventi terapeutici che
vadano nella direzione di incrementare quelle abilità sociali di cui il soggetto
autistico è carente, al fine di meglio navigare nel mondo esterno.
In questa prospettiva, nell’ultima ventina di anni, si è affermato l’utilizzo di
metodologie d’intervento supportate da agenti artificiali (robot, avatar, ecc.)
che possiamo classificare nel campo della computazione affettiva (CA), dove
per CA si intende quell’insieme di modelli e di tecnologie informatiche pro-
gettati in modo da riconoscere e/o esprimere stati emotivi.
Gli esempi sono molti e anche in questa tesi se ne analizzano alcuni. Punto di
partenza generale è la constatazione che robot, video games e simili esercita-
no una grande attrazione nelle persone autistiche (soprattutto nei bambini).
L’idea è che agenti artificiali, più semplici e prevedibili rispetto agli esseri
umani, riducano l’ansia che questi ultimi comportano, facilitando l’appren-
dimento di attività di attenzione e comunicazione reciproche.
Queste esperienze sono senza dubbio importanti, tuttavia le valutazioni sul-
l’interazione con l’agente artificiale avvengono a posteriori, secondo un pro-
cedimento euristico condizionato da fattori contingenti, come il numero for-
zatamente limitato dei partecipanti o il tempo circoscritto delle ricerche.
Sarebbe quindi interessante pensare a un modello valutativo dell’efficacia po-
tenziale di tali strumenti, e dunque a uno strumento teorico di predizione, in
6
contrapposizione ad una valutazione ex post più tradizionale. Un modello di
questo tipo potrebbe essere utile nella progettazione di agenti artificiali e di
protocolli terapeutici futuri.
Ipotesi centrale di questa tesi è quindi la possibilità di individuare, nei limi-
ti della complessità del problema, un quadro teorico entro cui formalizzare
l’interazione tra il soggetto autistico e l’agente artificiale. A tal fine risulta
utile adottare un approccio di tipo Bayesiano, sempre più utilizzato peraltro
nel campo delle neuroscienze per modellare i rapporti tra il sistema neurale
e il mondo esterno. Tale approccio pare infatti adatto a formalizzare le ca-
ratteristiche cognitive e le risposte emotive nel caso di autismo, permettendo
una valutazione predittiva delle strategie terapeutiche supportate da agenti
artificiali.
Nel Capitolo 1 si affronta il tema dell’autismo da una prospettiva storica, a
partire dalla sua prima definizione negli anni ’40 del secolo scorso ad oggi, e
se ne descrivono le caratteristiche di fondo.
Nel Capitolo 2 si delineano le difficoltà inerenti alla comprensione dei mecca-
nismi alla base della complessa sintomatologia autistica. Si introduce quindi
il concetto di modello inferenziale Bayesiano e di come tale modello dia una
spiegazione della cognizione in caso di autismo nei termini di inferenza non
ottimale. Una definizione più formale dell’inferenza Bayesiana viene riman-
data all’Appendice A.
Nel Capitolo 3 si parte dall’idea di Computazione Affettiva e delle sue appli-
cazioni nel campo delle terapie per l’autismo. Si prosegue quindi con alcuni
esempi di studi a riguardo, in cui vengono utilizzati agenti artificiali in forma
di robot e avatar, e nei quali la valutazione sull’interazione avviene sperimen-
talmente a posteriori.
Nel Capitolo 4 viene infine affrontato il problema della modellazione e della
valutazione a priori dell’interazione sociale. È definito il modello del per-
cettore Bayesiano ottimo che tiene conto delle categorizzazioni operate dal
soggetto nella percezione di uno stimolo. Viene quindi esaminata, sempre da
un punto di vista Bayesiano, la reazione emotiva suscitata nel soggetto da
un agente artificiale, sia nel caso di neurotipicità che di autismo.
7
Capitolo 1
Autismo e interazione sociale
1.1 Lo spettro autistico

Per spettro autistico si intende oggi una condizione neurologica che caratte-
rizza alcuni individui fin da bambini. Tale condizione viene spesso indicata
in modo semplificato con “autismo”. Tuttavia la denominazione Condizio-
ne dello Spettro Autistico risponde in modo più preciso alle caratteristiche
estremamente varie di tale diagnosi. Si spazia infatti dall’autismo a basso
funzionamento, dove può mancare completamente la parola, fino alla sin-
drome di Asperger, che caratterizza persone spesso dotate di un’intelligenza
superiore alla media.
La definizione “autismo” fu impiegata per la prima volta negli anni ’40 dallo
psicologo infantile Leo Kanner, austriaco di nascita ma naturalizzato statu-
nitense [1], e dal pediatra viennese Hans Asperger [2].
I due medici coniarono in modo indipendente tale definizione dal greco “autòs”
(sé), poiché i loro piccoli pazienti sembravano vivere in un mondo loro,
separato dagli altri.
Nell’idea di Asperger era già presente il concetto di spettro, anche se non ne
adoperò la parola. Affermava infatti che parevano esistere quasi tante varietà
di autismo quante persone autistiche, “dal genio particolarmente originale [...]
all’individuo più severamente affetto, ritardato mentalmente, disturbato nel
contatto, simile a un automa” [2]1 .
Inoltre non aveva dubbi sul fatto che ci fosse un dato di ereditarietà, benché
1
Nella traduzione inglese di U. Frith [3], citato in Neurotribù [4], traduzione italiana di
C. Mangione.
8
fosse altrettanto sicuro che gli elementi in gioco per un insieme cosı̀ comples-
so di comportamenti dovessero essere plurimi.
In tale complessità, oltre ai numerosi elementi invalidanti, vedeva a volte
capacità fuori dalla norma. Battezzò tali punti di forza “intelligenza autisti-
ca”, pur riconoscendo che nella maggior parte dei casi gli aspetti positivi non
bilanciassero quelli negativi.
Pensava quindi che l’intervento sui bambini autistici dovesse essere persona-
lizzato, volto a valorizzare i loro doni e contemporaneamente a facilitare il
loro stare in un mondo diverso da loro.
Quando la sua tesi di dottorato fu pubblicata, nel giugno del ’44, Asperger
era arruolato nella Wehrmacht. In Austria e in Germania i bambini come
quelli da lui descritti venivano soppressi.
Negli stessi anni Kanner, ormai figura di rilievo nella psichiatria infantile
statunitense, pubblicava “Autistic Disurbances of Affective Contact” nel nu-
mero del giugno ’43 della rivista “The Nervous Child” [1].
L’articolo si basava sull’osservazione di alcuni bambini con caratteristiche
simili a quelle dei piccoli pazienti di Asperger. Tuttavia, la sua concezione
in quel momento e negli anni successivi si differenziava da quella del medico
viennese per alcuni importanti fattori.
La sindrome non veniva inquadrata in un ampio spettro con caratteristi-
che variegate bensı̀ come una rara patologia unitaria e soprattutto tra le
cause dell’autismo indicava il comportamento freddo e perfezionista dei ge-
nitori.
Per diversi decenni il modello di Kanner prevalse, corroborato tra gli al-
tri dalle tesi di un altro viennese naturalizzato negli Stati Uniti, Bruno
Bettelheim. Già negli anni ’50 e ancor più nel libro “La Fortezza Vuota”
[5], l’autismo veniva da lui imputato principalmente all’inadeguatezza della
madre (la cosiddetta madre frigorifero).
Questa concezione è durata a lungo, non solo causando in tanti genitori
dolore e sensi di colpa, ma anche ripercuotendosi negativamente sulla ricerca
nel campo dell’intervento a favore della popolazione autistica.
Fortunatamente negli ultimi decenni la teoria psicogenetica è stata progres-
sivamente abbandonata. È ormai convinzione diffusa che si tratti di un di-
sturbo neurobiologico con una probabile base genetica multifattoriale [4].
Parallelamente è anche emerso il concetto di neurodiversità, l’idea cioè che gli
autismi e altre condizioni come la dislessia siano variazioni cognitive presenti
in natura, che possano avere dei punti di forza e che abbiano giocato un ruolo
non secondario nell’evoluzione tecnologica e culturale umana.
A questi risultati hanno contribuito in modo importante diverse biografie e
9
autobiografie di persone nello spettro, illuminanti riguardo alle loro partico-
larità cognitive e sensoriali (tra le tante [6] e [7]).
Importante corollario di tutto ciò è che gli interventi a favore delle persone
autistiche non debbano (e non possano) andare nella direzione di una “cura”,
ma piuttosto cercare di fornire un aiuto nella pratica di abilità sociali la cui
cognizione non avviene naturalmente.
1.2 Caratteristiche dello spettro

Le differenze tra le persone diagnosticate nello spettro autistico sono dunque
molte, quello che le lega è avere caratteristiche atipiche, anche se in misura
diversa, in tre aree fondamentali per lo sviluppo umano: l’area dell’intera-
zione sociale, quella della comunicazione verbale e non verbale e quella degli
interessi e dei comportamenti.
Queste caratteristiche permangono nel corso di tutta la vita, tuttavia posso-
no rimanere parzialmente nascoste nella primissima infanzia fino a quando
non vengono svelate dalle aumentate richieste sociali durante lo sviluppo.
Viceversa, in età adulta, alcuni di questi tratti possono essere maschera-
ti dall’esercizio di strategie di copiatura. Ciò rende più semplice la convi-
venza con il mondo esterno ma anche più difficoltosa un’eventuale diagnosi
tardiva.
1.2.1 Interazione sociale ed empatia
Per quanto riguarda l’interazione sociale, il problema fondamentale sembra

essere la mancanza o la carenza di empatia [8]. Con questa parola si inten-
de usualmente la capacità di “mettersi nei panni dell’altro”, percependone lo
stato mentale, che comprende pensieri, punti di vista, intenzioni ed emozioni,
e di rispondere in modo adeguato. L’empatia coinvolge un insieme di stru-
menti cognitivi ed affettivi che ci permettono di dare senso al mondo esterno
e di muoverci al suo interno.
La parte cognitiva dell’empatia, che nel gergo della psicologia cognitiva pren-
de il nome di teoria della mente, è quella risorsa che ci rende possibile co-
struire una rappresentazione degli stati mentali dell’altro (e di sé stessi), dare
loro un senso e prevedere comportamenti futuri.
La parte affettiva implica provare un’emozione in risposta agli stessi stati,
come ad esempio sentire compassione a fronte del dolore altrui.
Questo vale sia su piccola che su grande scala: empatia vuole anche dire
10
capire le convenzioni e il “senso comune” della società in cui viviamo. Ci
permette di fingere e di capire la finzione negli altri, cosı̀ come di distinguere
le apparenze dalla realtà.
Nonostante possano desiderare avere degli amici, quindi, le persone autisti-
che, a vari livelli, hanno difficoltà ad interagire in modo naturale con gli altri,
proprio perché non li capiscono e non li “sentono”.
1.2.2 Comunicazione verbale e non verbale
Strettamente legata alla carenza di empatia è la difficoltà nella comunicazio-

ne. Quando non “sento” e non capisco l’altro, probabilmente non sono in
grado di comunicare in modo adeguato e condiviso.
A livello non verbale questo può voler dire la tendenza ad evitare di incro-
ciare gli sguardi e la mancanza di attenzione condivisa (AC), dove per AC
si intende l’attenzione coordinata tra due persone e uno stesso oggetto. È
quindi carente la capacità di condividere con l’altro l’attenzione su di un
evento esterno, alternando lo sguardo tra il partner e l’oggetto.
Sono spesso limitati i cosiddetti gesti referenziali, come fare “ciao” e dire “sı̀”
o “no” con la testa, cosı̀ come l’espressione e la comprensione di altri codici
comunicativi come il sorriso, la mimica e gli atteggiamenti posturali.
A livello di comunicazione verbale si incontrano differenze abissali tra le varie
persone nello spettro. Il linguaggio può essere completamente assente, oppu-
re molto limitato. Può essere presente ma mostrare strane attitudini, come
una tendenza alla verbosità o al parlare stereotipato e infarcito di luoghi co-
muni, oppure alla ripetizione di brevi frasi o di interi discorsi (ecolalia). Ma
può anche essere normale.
1.2.3 Percezione sensoriale
Un altro tratto neuroatipico presente spesso nelle persone dello spettro è

l’iper- o ipo-sensibilità sensoriale. Non viene considerato un criterio ai fini
diagnostici ma secondo alcuni studi è presente nel 70-80% dei casi [9].
La percezione di suoni, rumori e odori per esempio, è spesso amplificata.
Pertanto i luoghi pieni di luci e confusione suscitano facilmente disagio e
stress. Questo deve essere tenuto in conto quando si progettano ambienti
dove si verranno a trovare persone con autismo. Dall’altra parte la percezione
del dolore fisico risulta a volte attenuata o addirittura soppressa [10].
Un altro tratto frequente è l’iperselettività degli stimoli, per cui spesso le
11
persone autistiche si concentrano su dettagli insoliti o irrilevanti cosı̀ come
su oggetti nello sfondo piuttosto che in primo piano.
1.2.4 Abilità motorie
Cosı̀ come le particolarità percettive, anche i problemi a livelli motorio non

vengono considerati caratteristiche fondamentali dell’autismo. Ciò nonostan-
te sono spesso presenti e possono avere un impatto significativo sulla qualità
della vita.
Si può trattare di difficoltà nei movimenti fini, come scarsa destrezza ma-
nuale o incapacità di compiere rapidamente movimenti successivi e alternati
(diadococinesi: pronazione e supinazione delle mani, flessione o estensione
delle dita, ecc.), oppure anche di equilibrio instabile e ridotto coordinamento
locomotorio [11].
Come per tutte le altre caratteristiche c’è una grande variabilità di questi
aspetti tra le persone nello spettro.
1.2.5 Interessi e comportamenti
Sono frequenti interessi e comportamenti circoscritti, che si possono manife-

stare con movimenti ripetitivi (dondolarsi, sbattere le mani), ossessive preoc-
cupazioni per un’unica attività, come allineare o contare oggetti, o tendenza
a non discostarsi da una routine fissata.
Nei casi a più alto funzionamento questo può a volte sfociare in tratti di genia-
lità, ed è probabile che l’evoluzione dell’umanità non sia esente da contributi
di questo genere.
12
Capitolo 2
Un approccio Bayesiano
all’autismo
I molteplici studi sui disturbi dello spettro autistico si sono concentrati sulle
sue eterogenee caratteristiche comportamentali, cognitive e percettive.
Non esiste tuttavia una teoria universalmente accettata che fornisca una spie-
gazione dei meccanismi alla base della complessa sintomatologia autistica
[12].
Questa mancanza rende difficile una classificazione e quindi una diagnosi e
una proposta terapeutica per le persone nello spettro.
Alcune situazioni sono particolarmente complesse. Come la diagnosi sui bam-
bini, e ancor più sugli adulti, “ad alto funzionamento”, in cui i tipici sintomi
dell’autismo possono essere meno evidenti, ma ciò al prezzo di una costante e
faticosa ricerca di adattamento alla realtà esterna. Se queste persone, quindi,
possono a prima vista mostrare caratteristiche attenuate, la loro capacità di
far fronte alla complessa realtà quotidiana può rimanere fragile. Con una
conseguente costante fatica e probabili effetti collaterali come ansia e depres-
sione.
Difficoltosa è anche la diagnosi nei bambini molto piccoli a rischio, per esem-
pio per consanguineità. Data l’aumentata probabilità genetica di rientrare
nello spettro, uno screening precoce è auspicabile nell’ottica di un’eventuale
intervento tempestivo. La diagnosi in questi casi è tuttavia resa difficile dalla
limitatezza del repertorio di comportamenti osservabili.
Cosı̀ come complessa è la valutazione della disabilità intellettiva negli indi-
vidui non verbali. C’è evidenza che venga spesso sovrastimata con possibili
gravi conseguenze [13].
Sarebbero quindi auspicabili degli strumenti in grado di spiegare i mecca-
14
nismi fondamentali delle molteplici manifestazioni dell’autismo per meglio
poter sviluppare test diagnostici e strategie terapeutiche.
2.1 Modelli Bayesiani

In generale, si può pensare che il cervello tenda a formarsi modelli dell’am-
biente esterno in modo da adattare i comportamenti al fine di una migliore
sopravvivenza [14].
Per comprendere l’organizzazione funzionale del cervello, negli ultimi anni
sta riscuotendo sempre più interesse in psichiatria l’uso di modelli computa-
zionali, e in particolare di architetture basate sull’inferenza Bayesiana che si
propone, analogamente alla percezione, di estrarre significato da input sen-
soriali affetti da rumore [12].
Le caratteristiche tipiche dell’autismo sono lette come conseguenza di ano-
malie fondamentali nella percezione e nell’apprendimento. Tale approccio
computazionale può fornire suggerimenti concreti nella pratica clinica.
Nell’interpretazione Bayesiana della cognizione, le credenze (belief ) sono in-
tese come rappresentazioni probabilistiche del mondo esterno (top-down),
che vengono di volta in volta modificate in base alle esperienze (bottom-up).
Il teorema di Bayes esprime in quale modo l’osservazione di un nuovo dato
aggiorni un belief a priori dando luogo a uno a posteriori. Quest’ultimo rap-
presenta l’inferenza della più probabile spiegazione dell’input osservato, data
la conoscenza precedente, e diventa la convinzione a priori per osservazioni
future.
Il cervello viene quindi interpretato come una macchina inferenziale che si
basa su di un modello generativo interno del mondo esterno. Invertendo il
modello generativo, il cervello può inferire lo stato più probabile del mondo
esterno, dato l’input sensoriale ricevuto.
Inoltre, il modello interno può anche fornire una probabilità riguardo alle
conseguenze all’esterno di un’azione intrapresa.
L’interpretazione della percezione e dei comportamenti secondo una prospet-
tiva Bayesiana è sempre più utilizzata e ha permesso di capire diversi feno-
meni percettivi come le illusioni percettive e l’integrazione multisensoriale.
Nella Figura 2.1, per esempio, percepiamo gli oggetti esterni come concavi e
quello centrale come convesso, nonostante sia un’immagine bidimensionale.
Ciò è dovuto al fatto che crediamo implicitamente che la luce venga dall’alto,
come ci dice il nostro modello interno maturato dalle esperienze passate. Se la
15
L
al uc
ev i
ene
dal
l’
al
to
Gl
iogget
ties
ter
nis
onoc
onc
avi
Figura 2.1: Esempio tipico di illusione percettiva. Adattamento da [15]
luce venisse dal basso, gli oggetti esterni sarebbero convessi e quello centrale
concavo. Ciò che percepiamo è quindi un’interpretazione dell’input sensoriale
basata su di un belief a priori.
2.2 Apprendimento e incertezza

L’aggiornamento del modello interno si basa su di una quantità fondamenta-
le: l’errore di predizione (EP), cioè la differenza tra l’input sensoriale previsto
e quello attuale e può essere interpretato come il grado di “sorpresa” (Figu-
ra 2.2 A).
La riduzione dell’EP può avvenire fondamentalmente in due modi.
Primo, scegliendo un’azione appropriata, come per esempio muovere parti
del corpo (occhi, arti, ecc.) in maniera da avvicinare l’input sensoriale alla
previsione (inferenza attiva, Figura 2.2 B).
Secondo, l’errore, e la sorpresa che ne deriva, possono essere utilizzati per
aggiornare i propri belief (inferenza percettiva, Figura 2.2 C).
Siamo in questo caso in presenza di apprendimento e diventano possibili fu-
ture previsioni più accurate.
È importante sottolineare che non tutti gli EP sono ugualmente significativi.
Il rumore inerente agli organi sensori e la casualità dell’ambiente fanno sı̀
che non sempre gli EP denotino un effettivo cambiamento nella regolarità
(apprendibile) del mondo esterno. Aggiornare completamente i belief a prio-
16
pr
edi
zi
ones
cor
ret
ta
E
P=0
per
cez
ione aggiornamento
delmodello
reali
zzazi
onedel
la int
ernoinaccordo
predizi
onetrami
te conl’EP
azione
Figura 2.2: Inferenza Bayesiana nel cervello. Adattamento da [12]
ri ad ogni input può quindi risultare eccessivo e portare a modelli con poca
capacità di generalizzazione.
Per questo motivo gli aggiornamenti dovrebbero dipendere dal peso di due
quantità.
La precisione del belief a priori dà una misura di quanto riteniamo solida la
nostra previsione, mentre la precisione dell’input tiene conto della casualità
dell’ambiente e del rumore nei dati sensibili. Questi due parametri presi in-
sieme danno una stima di quanto l’EP sia informativo riguardo al reale stato
(nascosto) del mondo esterno.
Il rapporto tra la precisione dell’input e la precisione del modello a priori
viene quindi usato per pesare l’ EP secondo l’equazione:
precisioneinput
∆belief ∝ × EP (2.1)
precisionepriori
Il rapporto di precisione può essere visto come un tasso dinamico di appren-

dimento. È alto quando la fiducia nei dati sensibili (bottom-up) è maggio-
re di quella nella conoscenza a priori (top-down), o analogamente quando
17
l’incertezza della predizione data dal modello interno è maggiore di quella
dell’input. Più il rapporto è alto e più pronunciato sarà l’aggiornamento dei
belief.
Come è intuitivo pensare, i belief sono più sensibili ai nuovi input quando
sappiamo poco del mondo esterno (bassa precisione a priori). Man mano
che accumuliamo esperienza il modello interno diventerà più preciso e quindi
più stabile. D’altra parte, l’EP sarà più significativo quando riteniamo che
l’input sensibile sia preciso.
Una descrizione formale dell’inferenza Bayesiana è data nell’Appendice A.
2.3 Gerarchie cognitive

Il modello presentato risulta però troppo semplice per descrivere l’intera-
zione del cervello con una realtà complessa. D’altra parte è comunemente
riconosciuto che il cervello stesso interagisca con gli stimoli interni ed esterni
secondo un’architettura gerarchica.
Le informazioni passano attraverso le aree corticali sensoriali per aggiornare
i livelli superiori nella gerarchia, che rappresentano informazioni via via più
astratte, generali e su scale temporali e spaziali più ampie.
La struttura gerarchica è una forma naturale per l’inferenza Bayesiana.
Da questo punto di vista, ogni area corticale a un certo livello nella gerarchia
manda una previsione al livello inferiore tramite le connessioni top-down. Il
livello inferiore calcola un EP e tramite le connessioni bottom-up lo manda,
pesato dal rapporto di precisione, al livello superiore che lo userà per aggior-
nare la previsione.
Belief più precisi negli alti livelli comportano una maggiore facilità nell’in-
terpretare nuove esperienze oltre che un freno nella ridefinizione continua del
modello cerebrale del mondo esterno.
2.4 Autismo come inferenza non ottimale

Differenze biologiche nel passaggio delle informazioni che danno luogo a pro-
cessi predittivi causano differenze nella percezione e nel comportamento.
Nel modello descritto, l’inferenza ottimale si basa su di un tasso di appren-
dimento appropriato, che varierà a seconda di quanto già sappiamo riguardo
all’input attuale e al rumore associato all’input stesso.
Diversi studi recenti hanno evidenziato il fatto che un costante alto tasso di
18
apprendimento spieghi molte caratteristiche dell’autismo. Ciò può dipendere
da modelli interni estremamente vaghi (Figura 2.3 B) come anche da un alto
grado di precisione nell’input sensoriale (Figura 2.3 C).
Beliefapri
ori Beli
efapost
eri
ori dis
tri
buzi
one
predizi
onedel aggi
orna
to dell
’i
nput
model l
oint
erno sensi
bil
e
Bel
iefapri
ori Bel
i
efapost
eri
ori
poc
opr ec
iso domina
todal
l’
i
nputs
ens
ibi
l
e
Beli
efapost
eri
ori I
nputsensor
io
dominatodal
l’
i
nput i
perpr
ecis
o
sensi
bil
e
Figura 2.3: Principi di Inferenza Bayesiana. Adattamento da [12]
È importante sottolineare che il cervello compie una stima della precisione

dei belief a priori e degli input. Quindi nel caso dell’autismo non si tratta
di dati sensoriali realmente più precisi. Piuttosto il cervello li considera più
informativi rispetto alle conoscenze a priori.
In sostanza la tendenza degli individui nello spettro sembra quella di un’in-
ferenza più guidata dai dati sensoriali che da un modello interno del mondo
esterno, il quale appare, appunto, incerto.
Molti tratti caratteristici dell’autismo si sposano bene con questa interpre-
tazione.
È tipica la difficoltà a stabilire rappresentazioni astratte e generalizzabili
tramite connessioni significative. Al contrario singole osservazioni vengono
rappresentate in modo preciso e circoscritto. Per esempio il linguaggio viene
inteso in senso troppo letterale e piccole variazioni nella routine conosciuta,
come cambi di orari o spostamento di oggetti, possono essere sufficienti ad
indurre sensazioni di incertezza e di perdita di controllo.
19
In generale è comune la sensazione cronica di essere impreparati per quello
che può succedere a meno che non sia strettamente prestabilito.
Nella stessa ottica si può inquadrare l’attenzione ai dettagli anche se irrile-
vanti e l’incapacità di distinguere informazioni più o meno significative.
La sovrastima dell’EP porta ad un fluttuare costante e ad una grande incer-
tezza nei livelli alti del modello generativo che rappresentano i concetti più
generali ed astratti.
Ancora, un sistema che dà un grosso peso all’EP risponde maggiormente agli
stimoli sensoriali e alle loro variazioni. Questo può spiegare l’ipersensibilità
spesso presente nell’autismo che porta ad evitare certe situazioni ma anche
ad un ridotto adattamento sensoriale1 cosı̀ come ad una diminuita suscetti-
bilità a certe illusioni ottiche.
In definitiva una grande varietà di caratteristiche presenti nello spettro auti-
stico sono consistenti con una costante, maggiore valutazione della precisione
dell’input sensibile rispetto a quella del modello a priori.
2.5 Inferenza attiva

Come già menzionato, per ridurre l’EP il cervello può aggiornare gerarchica-
mente il proprio modello del mondo esterno (Figura 2.2 C) oppure stimolare
un’azione in maniera da avvicinare l’input sensoriale alla previsione, muo-
vendo il corpo o lo sguardo (Figura 2.2 B).
Possiamo quindi distinguere tra inferenza percettiva e attiva, entrambe volte
a diminuire la discrepanza tra il modello dell’ambiente e gli input sensibili.
Nel secondo caso l’agente diventa parte stessa della struttura causale del dato
sensibile.
Azioni di questo genere hanno uno scopo confirmatorio: il sistema nervoso
stimola un’azione che rende vera la nostra previsione sull’ambiente.
Il cervello può spingerci anche ad azioni con un fine investigativo: in ambito
sociale, per esempio, l’interazione con gli altri ci permette di sondare emo-
zioni e intenzioni riducendo l’incertezza sullo stato dell’ambiente.
L’inferenza attiva, quindi, non ha il solo scopo di diminuire l’EP attuale, ma
anche quello futuro. Il nostro interagire con il mondo esterno è profondamen-
te legato all’inferenza percettiva e la minimizzazione dell’EP a lungo termine
implica un continuo bilanciamento tra azione e percezione.
Per intraprendere un’azione invece di aggiornare una previsione percettiva è
necessaria una attenuazione sensoriale, in cui l’attenzione allo stimolo sen-
1
Per adattamento sensoriale si intende la tendenza del cervello a diminuire
progressivamente la risposta ad uno stimolo continuo come un rumore di fondo.
20
soriale viene ridotta.
Il cervello è sempre coinvolto nell’inferenza percettiva ma la sua migliore sti-
ma, in quel determinato contesto, richiede che il corpo si adatti alla previsione
e non che la previsione sia aggiornata.
2.6 Autismo e bilanciamento tra inferenza per-

cettiva e attiva
È dunque importante bilanciare la percezione e l’azione in dipendenza del
contesto.
Le differenze ipotizzate nei soggetti autistici inerenti alla sovrastima della
precisione sensoriale non hanno conseguenze solo nella percezione ma anche
nel comportamento, proprio a causa del bilanciamento anomalo delle due
componenti.
Tratti tipici dello spettro sono difficoltà nei rapporti sociali cosı̀ come com-
portamenti ripetitivi e stereotipati. Questi aspetti hanno a che fare con la
maniera in cui le persone ispezionano il mondo e interagiscono con esso.
Una ridotta attenuazione sensoria, dovuta alla costante sovrastima della pre-
cisione dell’input, porta come conseguenza ad un’indagine prolungata a spese
di un’investigazione attiva dell’ambiente.
È tipico nei bambini con autismo fissarsi a lungo su particolari stimoli visivi
(luci in movimento, piccoli oggetti tondi, pattern geometrici. . . ). Inoltre è
nota la preferenza per la routine e per comportamenti ripetitivi come don-
dolarsi o sbattere le mani.
Questi comportamenti sembrano un modo per continuare ad indagare le in-
formazioni sensoriali, nel primo caso visive e nel secondo corporali. Sono cioè
rassicuranti, e possono essere visti come una strategia per ridurre l’incertezza
della rappresentazione interna del mondo.
Anche dal punto di vista sociale caratteristiche tipiche dell’autismo possono
essere considerate nei termini di come il mondo sensibile viene investigato e
di come percezione ed azione vengono bilanciate.
È tipica per esempio una direzione anomala dello sguardo, sia diretto tra due
persone, sia nel caso di attenzione condivisa2 .
In generale è carente quella che abbiamo indicato come inferenza attiva a
fine investigativo, che ci permette di interagire con gli altri per decifrarne i
comportamenti avendone vantaggi futuri.
2
Attenzione coordinata tra due persone e uno stesso oggetto.
21
Dal punto di vista Bayesiano, in conclusione, il nucleo delle caratteristiche
dei disordini dello spettro autistico risiede nelle anomalie percettive, a loro
volta causate dalla costante sovrastima del rapporto di precisione. Ciò equi-
vale a dire che siamo in presenza di modelli del mondo esterno vaghi e/o di
input sensibili percepiti come molto precisi.
Diversi studi di neuroimaging funzionale permettono di individuare i possi-
bili fondamenti neurofisiologici dei processi computazionali, distinguendo tra
le quantità in gioco come errore di predizione e precisione.
In prospettiva, modelli generativi della percezione e del comportamento in
congiunzione con la neuroimaging funzionale potranno giocare un ruolo chia-
ve nel campo della diagnosi e delle conseguenti scelte terapeutiche per i
disturbi dello spettro autistico cosı̀ come per altri disordini psichiatrici.
22
Capitolo 3
Computazione affettiva e
autismo
3.1 Che cos’è la computazione affettiva

La dicotomia ragione/sentimento pervade da secoli la nostra cultura e le
emozioni sono state considerate per lungo tempo nemiche del pensiero scien-
tifico.
Ormai da diversi decenni, tuttavia, studi interdisciplinari nei campi delle
neuroscienze, dell’antropologia e della psicologia hanno evidenziato quanto
le emozioni siano importanti non solo nell’ambito percettivo e cognitivo ma
anche nel pensiero razionale e nella capacità di prendere decisioni [16].
Pensando di progettare modelli che imitino il funzionamento del cervello
umano, sembra quindi importante tenere conto in qualche modo dell’aspetto
emotivo.
Già dal 19o secolo Charles Darwin [17] e William James [18] proposero teorie
sulle emozioni che influenzano tuttora il pensiero scientifico. Nei decenni a
seguire e a tutt’oggi studi nel campo sono proseguiti ad opera di psicologi,
filosofi e in un secondo tempo neurologi.
È solo negli anni ’80, tuttavia, che ricercatori come S. Turkle [19] iniziarono
ad interrogarsi su come i computer potessero tenere conto degli aspetti affet-
tivi. Ricerche più sistematiche videro la luce nei primi anni ’90 e nel 1997 il
fondamentale lavoro di R. Picard “Affective Computing” [20] stimolò un gran
numero di computer scientist e di ingegneri ad affrontare l’argomento.
La Computazione Affettiva (CA) si caratterizza quindi come il tentativo di
coniugare la scienza informatica con i meccanismi emotivi umani, sulla base
24
delle teorie psicologiche e neurologiche a riguardo.
I due grandi temi sono il riconoscimento delle emozioni dell’utente e l’espressione
di quello che un essere umano percepirebbe come stato emotivo.
L’idea di fondo è che, se un computer riconosce le emozioni dell’utente e
risponde in modo adeguato, allora la qualità dell’interazione migliora, ren-
dendo il sistema più gradevole ed efficace.
Pensiamo per esempio a un sistema d’insegnamento computerizzato che ten-
ga conto degli stati d’animo dello studente. In risposta a una sensazione di
piacere e di interesse potrà decidere di concentrarsi su determinati argomenti
e di proporne livelli più approfonditi. Al contrario, rilevando stress e frustra-
zione, potrà ridimensionare le richieste e fornire suggerimenti incoraggianti,
cosı̀ come potrebbe fare un insegnante umano [20].
3.2 Una prospettiva per l’autismo

L’insegnamento computerizzato è sicuramente uno dei campi in cui la CA
può essere di grande aiuto, ma le possibili applicazioni sono molte.
Tra queste, proprio gli interventi a favore delle persone nello spettro autistico
hanno coinvolto, nell’ultima ventina di anni, numerosi ricercatori. Diverse
ragioni suggeriscono che l’utilizzo di tecnologie di questo tipo, soprattutto
robot ma non solo, siano un utile supporto nelle terapie per gli individui
autistici, in particolare per i bambini.
Tali strumenti possono focalizzarsi sugli elementi di difficoltà, ma anche di
forza, tipici del disordine, creando situazioni o ambienti controllati in cui i
bambini abbiano la possibilità di fare esperienze in maniera più sicura (pre-
vedibile) e piacevole rispetto alle “reali” situazioni sociali, riducendo l’ansia
che queste ultime comportano [21].
3.3 Agenti robotici

Nello specifico i robot sociali stanno emergendo come un valido supporto
in ambito terapeutico. Sono meno complessi e più prevedibili degli umani
e possono occupare uno spazio speciale a metà tra i giocattoli inanimati,
che non portano con sé comportamenti di interazione sociale, e le persone,
più complicate e possibili fonti di stress. In altre parole, i robot possono
produrre segnali sociali (come un sorriso o un saluto) mantenendo contem-
25
poraneamente la semplicità di un oggetto. Utilizzando un robot è più facile
circoscrivere le informazioni e le azioni che devono essere presentate rispetto
ad un operatore umano cosı̀ come eventuali ripetizioni ad oltranza o piccole
variazioni controllate sono meno problematiche.
A tutt’oggi i robot negli interventi con bambini nello spettro vengono uti-
lizzati principalmente come modelli comportamentali di interazione sociale
(comunicazione verbale e non verbale, contatto visivo, attenzione condivisa,
gioco collaborativo, “fare a turni”...) nonché per provvedere un feedback agli
interventi stessi.
Nonostante la maggior parte degli studi mostrino in generale effetti positivi
(miglioramenti nei comportamenti attesi, nei tempi di risposta, apprezzamen-
to e/o interesse per l’interazione col robot), non tutti i bambini con autismo
reagiscono nello stesso modo. Ciò sottolinea la necessità di interventi perso-
nalizzati per questo gruppo cosı̀ eterogeneo. D’altra parte, oltre a rivolgersi
ai bisogni di questi bambini, tali strumenti devono essere sensibili alle richie-
ste dei professionisti del settore (psicologi, insegnanti, terapisti...) al fine di
meglio integrarsi negli interventi terapeutici.
Allo stato attuale i robot per bambini con autismo sembrano ancora lonta-
ni dal raggiungimento del loro pieno potenziale [21], ma le prospettive sono
interessanti.
3.3.1 Esempio 1: Tito
Tito [22] è un robot mobile costruito nel 2007 presso l’Università di Sher-
brooke (Canada).
L’ipotesi sottostante alla sua creazione e allo studio che ne è conseguito è
che un oggetto animato, più prevedibile e meno complicato di una persona,
possa facilitare la comunicazione bidirezionale con bambini autistici (1) ri-
ducendo i meccanismi di sottrazione, (2) aumentando l’attenzione reciproca
e (3) stimolando modalità comunicative simboliche come il linguaggio.
Lo studio si è basato su un gruppo di quattro bambini diagnosticati con
autismo a basso funzionamento. Questi bambini presentano difficoltà nell’i-
mitazione, un severo ritardo nel linguaggio recettivo ed espressivo e interessi
sensomotori (movimenti ripetitivi e stereotipati) che interferiscono con lo
sviluppo degli strumenti comunicativi. Inoltre dimostrano deficit nell’atten-
zione reciproca (evitano di incrociare gli sguardi, non rispondono ai sorrisi)
e nelle convenzioni per comunicare interessi comuni (come muovere la testa
per dire “sı̀” e “no” o la mano per dire “ciao”). La scelta dei bambini, tutti
intorno ai 5 anni, è avvenuta da un gruppo più ampio secondo precisi criteri
come illustrato in [22].
26
Partecipanti R1 R2 E1 E2
Età (anni : mesi) 4 : 4 5: 1 5: 5 5: 0
Comunicazione Non verbale Pre-verbale Non verbale Pre-verbale
Manierismi Sı̀ No Sı̀ No
Tabella 3.1: Partecipanti all studio
Due di questi bambini hanno interagito con un mediatore umano mentre gli
altri due con Tito, secondo uno stesso protocollo.
In Tabella 3.1 sono riassunte le caratteristiche dei quattro bambini: R1 e
R2 hanno interagito con Tito, mentre E1 e E2 col mediatore umano. Per le
loro caratteristiche, il bambino R1 è da paragonare al bambino E1, mentre
il bambino R2 al bambino E2.
Tito è alto 71 centimetri, è rosso, giallo e blu (Figura 3.1), ha le ruote per
muoversi ma si presenta con i piedi per simulare una forma umanoide. Le
braccia possono muoversi su e giù rapidamente e la testa può ruotare (per
dire “no”) e sollevarsi (per esprimere sorpresa). La bocca si può illuminare
(in un sorriso) cosı̀ come anche i capelli in fibra ottica e altre parti del corpo.
In un occhio è inserita una telecamera per poter misurare il contatto ocu-
lare. Può dire alcune frasi tramite messaggi pre-registrati con intonazione
interrogativa, neutra o allegra. Ha un controllo a distanza per le teleopera-
zioni e un microcontrollore interno che permette sequenze di comportamenti
pre-programmati. Alcune di queste sequenze sono: alza il braccio sinistro e
dice “ciao”, indica un oggetto mentre ne dice il nome, fa cadere il cappello
dicendo “dammi il cappello”, si nasconde dicendo “cerca Tito” e una volta
trovato dice “cucù!”, esprime gioia alzando le braccia, illuminando la bocca
e dicendo “felice!”.
Prima dello studio vero e proprio, lo stesso iter è stato condotto con tre
bambini che non facevano parte del gruppo selezionato per mettere a punto
la metodologia. In questa occasione è emersa l’importanza di condurre una
sessione preventiva che permettesse a ciascun bambino di familiarizzare con
il robot fino a non mostrare alcun segno di disagio.
A quel punto lo studio si è svolto tramite 20 sessioni precedute e seguite da
due momenti neutri, secondo uno schema ABA / AB’A, dove A sono i mo-
menti neutri, B le sessioni con Tito come mediatore e B’ quelle con mediatore
umano.
Prima di entrare nella stanza dello studio un educatore spiega al bambino
che seguirà un periodo di gioco e gli mostra un’immagine del mediatore. Poi
lo accompagna ad una sedia nel centro della stanza ai cui piedi viene collo-
27
Figura 3.1: Tito. Da [22]
cato il suo giocattolo preferito. L’educatore si siede vicino alla porta. Nella
stanza c’è un pannello cosı̀ che il mediatore vi si può nascondere dietro.
A questo punto iniziano le sessioni di attività. Nella prima e nell’ultima (A)
il mediatore compie delle azioni senza chiedere al bambino di imitarlo: dice
“ciao”, esprime felicità, indica il cappello, indica sé stesso, mostra la porta e
dice “ciao, ciao”.
Quindi iniziano le venti sessioni B o B’, ognuna delle quali coinvolge tre li-
velli (espressioni del viso, movimenti del corpo e azioni familiari) in cui il
mediatore chiede al bambino di imitarlo. I pattern da imitare sono: (1) (2)
esprimere gioia 2 volte e poi irritazione dopo aver urtato la sedia e fatto “no”
con la testa; (3) sorridere ed esprimere gioia. (4) (5) (6) dire “ciao” 2 volte
e ballare 2 volte; (7) muovere le braccia ed esprimere gioia; (8) muovere le
braccia e dire “ciao”; (9) muoversi in avanti e poi indietro, 2 volte; (10) dire
“ciao” 2 volte e poi muoversi in avanti; (11) dire “ciao”, muoversi in avanti e
poi indietro; (12) (13) dire “ciao”, indicare il cappello e chiederlo indietro, 2
volte; (14) dire ciao, muoversi indietro e indicare la foto del mediatore; (15)
dire “ciao” 2 volte, muoversi indietro e indicare la foto del mediatore; (16)
(17) dire “ciao” ed esprimere tristezza 2 volte dopo aver urtato il pannello;
(18) dire “ciao”, chiedere di indicare la foto del mediatore 2 volte; (19) dire
“ciao”, chiedere di indicare la foto del mediatore e fare “cucù” 2 volte dopo
28
essersi nascosto dietro al pannello; (20) dire “ciao”, chiedere di indicare la
foto del mediatore e fare “cucù” 4 volte.
Il motivo per cui alcune sessioni vengono ripetute è quello di dare la possibi-
lità al bambino di capirle meglio. All’inizio di ogni sessione il mediatore può
essere nascosto dietro al pannello (2, 3, 4, 5, 6, 16, 17) o vicino al bambino
(nelle altre).
Alla fine di ogni sessione il mediatore indica la porta e dice “porta” per far
sapere al bambino che l’attività sta per terminare, quindi fa “ciao” con la
mano e con la voce e va dietro al pannello. L’intervallo tra le sessioni è di 12
secondi.
In tutte le attività, ogni volta che il bambino imita correttamente il media-
tore, questo sorride, alza le braccia e dice “felice!”.
Ogni bambino è stato esposto all’intero ciclo tre volte alla settimana per sette
settimane, tutte le sessioni sono state registrate.
In fase di analisi dei risultati, sono state considerate quattro categorie di
variabili (espressioni o reazioni):
• attenzione verso l’altro (quattro variabili): contatto oculare per più
di tre secondi, prossimità fisica (spostarsi a meno di due braccia dal
mediatore con contatto visivo), imitazione di espressioni del viso (gioia,
rabbia, tristezza) e imitazione di gesti non diretti verso il mediatore.
• convenzioni condivise (quattro variabili): espressioni del viso, gesti,
azioni e parole tutti diretti verso il mediatore.
• mancanza di condivisione (sette variabili): contatto oculare assente
o inferiore ai tre secondi, abbandono dell’area di comunicazione, evita-
re il mediatore, gioco sensomotorio ripetitivo col giocattolo preferito,
manierismi motori, rituali, aggressioni.
• altri fenomeni (quattro variabili): imitazione del rumore fatto dal
mediatore (rumore del motore di Tito), imitazione di parole o gesti fuori
contesto o ogni altro comportamento non elencato nelle altre categorie.
La codifica dicotomica (presenza/assenza) di tali variabili è stata tratta dai
filmati e calcolata su finestre di 12 secondi. Nel caso in cui fossero presenti
sia comportamenti di mancanza che di presenza di attenzione o condivisione,
questi ultimi sono stati privilegiati.
Attenzione verso l’altro. La Figura 3.2 mostra un’analisi delle variabili
relative all’attenzione verso l’altro. I bambini che hanno interagito con Ti-
to (R1 e R2) hanno dimostrato in generale maggior attenzione verso l’altro
rispetto a quelli con il mediatore umano (E1 e E2), tenendo conto che, date
le caratteristiche simili, R1 è da confrontare con E1 e R2 con E2. Ad un’a-
nalisi più approfondita, tuttavia, questo si rivela vero per quanto riguarda il
29
s a
’
ollr
to
onedi
onever
zi
i
opor
tenz
Pr
at
E
spos
izi
oni
Figura 3.2: Analisi delle variabili per l’attenzione verso l’altro. Da [22]
v
odi
Numer ai
ra i
l
bi a
’
perlt i
enz
t er
onev ol
s a
’t
lo
r
E
spr
ess
ioni
del
vis
o Mov
iment
idel
cor
po Az
ioni
conogget
ti Az
ioni
senz
aogget
ti
Figura 3.3: Occorrenza delle variabili relative all’imitazione. Da [22]
contatto oculare e la prossimità fisica ma falso per i gesti non diretti verso il
mediatore.
Per quanto riguarda le imitazioni, la Figura 3.3 indica come i bambini ac-
coppiati con Tito (blu e verde) fossero più coinvolti rispetto agli altri (rosso
e giallo). A causa dei deficit severi, i bambini non verbali (blu e rosso) hanno
espresso minore attenzione verso l’altro in tutte le attività.
Convenzioni condivise. Come si può vedere dalla Figura 3.4, i bambini
accoppiati con Tito (blu e verde) hanno imitato più degli altri (rosso e giallo)
le espressioni del viso mentre per quanto riguarda le altre variabili i risultati
sono stati opposti.
In conclusione emerge, come era prevedibile, che i bambini non verbali si
siano rivelati meno interessati e partecipativi dei bambini pre-verbali.
30
i
odi
Numer t
miai
zoni
E
spr
ess
ioni
del
vis
o Mov
iment
idel
cor
po Az
ioni Par
oleopar
ole
appr
ossi
mate
Figura 3.4: Occorrenza delle imitazioni relative alle convenzioni condivise.

Da [22]
Per quanto riguarda le convenzioni condivise, i risultati indicano una maggio-

re difficoltà comunicativa nei bambini accoppiati con Tito. Questo può essere
spiegato da diversi fattori. Primo, la presenza di due bambini non verbali
a bassissimo funzionamento impedisce di osservare l’uso di parole nell’imita-
zione comunicativa. Nel caso dei bambini pre-verbali si può pensare che R2
avesse più difficoltà a capire gli intenti di Tito date le sue limitate capacità di
movimento. Inoltre Tito non è stato utilizzato per imitare il bambino dopo
che quest’ultimo lo ha imitato, rendendo il gioco unidirezionale e mostrando
meno reciprocità rispetto al mediatore umano.
Relativamente all’attenzione verso l’altro lo studio ha indicato un’opposta
tendenza. I partecipanti accoppiati con Tito hanno mostrato meno giochi ri-
petitivi con l’oggetto inanimato (il giocattolo preferito) e maggiore contatto
visivo e vicinanza col robot. Questo conferma l’ipotesi che l’attenzione verso
l’altro sia facilitata dalle caratteristiche invitanti (movimenti, colori, luci) e
dalla prevedibilità di Tito. Quando il robot esprimeva emozioni di gioia o di
tristezza o faceva semplici azioni, i bambini reagivano alla sua voce, alle luci
o ai movimenti guardandolo e avvicinandosi. Inoltre imitavano più facilmen-
te le espressioni facciali di gioia (sorriso). In particolare il bambino R2 ha
mostrato in diversi momenti una buona comprensione e imitazione di alcune
azioni, come rendere il cappello a Tito, indicare la porta e fare “ciao” con
la mano. Tutto ciò a indicare una maggior facilità a capire le espressioni di
Tito data la sua semplicità.
31
3.3.2 Esempio 2: Nao e il Progetto ARIA
Il progetto ARIA (Adaptive Robot-mediated Intervention Architecture [23])

nasce dall’esigenza di sviluppare modalità terapeutiche per i bambini affetti
da autismo personalizzate, data la grande varietà di caratteristiche del grup-
po.
Lo studio si è focalizzato sullo sviluppo di un’architettura mediata da un
robot che stimoli in maniera dinamica l’Attenzione Condivisa (AC), cioè uno
scambio triadico in cui il bambino coordina l’attenzione tra un partner e un
aspetto dell’ambiente.
La scelta di questa abilità sociale è dovuta alla sua fondamentale importanza,
dato che tramite l’AC il bambino ha la possibilità di imparare dagli altri e
da quello che c’è intorno. L’AC è per esempio fondamentale nello sviluppo
del linguaggio.
Figura 3.5: Nao
Elemento centrale del progetto è un robot umanoide. Quello utilizzato è

Nao, costruito da Aldebaran Robotics (Figura 3.5). È di plastica, alto 58
centimetri, gode di 25 gradi di libertà. Si basa su di un sistema chiama-
to NAOqi, a cui si possono collegare moduli esterni sviluppati per esigenze
specifiche. In questo caso le capacità visive di Nao sono aumentate da una
rete di telecamere a infrarossi che servono per tracciare i movimenti della
testa del bambino, come approssimazione della direzione dello sguardo, al
32
fine di monitorarne in tempo reale i comportamenti di AC. Il partecipante
indossa un cappello a cui sono cuciti dei led infrarossi, a cui le telecamere
sono sensibili. Ognuna di esse ha il proprio processore che comunica con un
supervisore (software supervisory controller ). È stata scelta questa modalità
di inferenza dello sguardo piuttosto che la tracciatura oculare (eye tracking)
perché permette movimenti del capo più ampi e una maggior distanza dal-
l’oggetto. Inoltre per rivelare l’AC sono sufficienti coordinate approssimate
dello sguardo.
Il supervisore riceve e invia dati anche da/a Nao, nonché a due schermi posti
ai lati. Questi possono fornire stimoli visivi e/o sonori che includono imma-
gini fisse interessanti per il bambino (come personaggi dei cartoni), video con
contenuti simili o altri eventi audio e video come stimoli addizionali. L’ar-
chitettura del sistema è rappresentata in Figura 3.6.
Il supervisory controller facilita la comunicazione tra i processori delle te-
lecamere, Nao e i controllori degli stimoli audiovisivi utilizzando un’inter-
faccia di rete. Prende anche decisioni sulla base dei dati raccolti dalle
telecamere.
T
elec
amer
afr
ont
ale
T
era
pis
ta
uma
no/r
obot
x
S
mos
cher
her
modx
c
S
T
elec
amer
asx T
elec
amer
adx
Sediaper
i
lpa
rtec
ipante T
elec
amer
aal
soffit
to
Geni
tor
e S
per
iment
ator
e
Figura 3.6: Architettura del sistema ARIA. Adattamento da [23]
Lo studio ha coinvolto un totale di dodici bambini tra i 2 e i 5 anni, di cui

sei con diagnosi di autismo (ASD, Tabella 3.2) e sei neurotipici (TD, Tabel-
la 3.3). Per essere sicuri che i bambini del gruppo TD non avessero alcuna
caratteristica autistica e per quantificare i sintomi nel gruppo ASD, i geni-
tori hanno completato due questionari di screening: il Social Responsiveness
33
Partecipanti ASD1 ASD2 ASD3 ASD4 ASD5 ASD6
(genere) (m) (m) (f) (m) (m) (m)
Età 5.14 3.24 4.92 5.27 4.49 5.17
SRS (soglia 60) 51 58 70 85 81 77
SCQ (soglia 15) 5 11 8 21 20 15
Tabella 3.2: Partecipanti allo studio nello spettro autistico ASD (Autism
Spectrum Disorder)
Partecipanti TD1 TD2 TD3 TD4 TD5 TD6

(genere) (f) (m) (m) (f) (m) (m)
Età 4.72 5.27 4.74 3.20 5.18 2.46
SRS (soglia 60) 47 39 45 46 50 46
SCQ (soglia 15) 2 0 2 5 11 3
Tabella 3.3: Partecipanti allo studio TD (Tipically Developing)
Scale (SRS [24]) e il Social Communication Questionnaire (SCQ [25]). Per

il primo questinario viene considerato neurotipico un valore massimo uguale
a 60, per il secondo a 15.
Ogni bambino prende parte a una sessione che dura approssimativamente

mezz’ora. La tipica sessione consiste in quattro sotto-sessioni di 2/4 minuti
ciascuna: due con un terapista umano e due con Nao alternati (U-N-U-N
oppure N-U-N-U).
All’inizio il ricercatore descrive quello che succederà al partecipante e al (ai)
genitore (genitori). Al bambino viene detto in modo chiaro di riferire al ri-
cercatore o al genitore se non si sente a suo agio e può interrompere tutto in
ogni momento.
Viene quindi fatto sedere e assicurato alla sedia per il tempo della sotto-
sessione. Negli intervalli è incoraggiato ad alzarsi.
La sessione vera e propria si basa su di un protocollo di suggerimenti gerar-
chici, nel senso che fornisce un supporto solo quando necessario.
(1) (2) In un primo momento il suggeritore (terapista umano o robot) dà
un segnale verbale e gira la testa verso uno dei due schermi dove è mostrata
un’immagine. Per esempio, se il partecipante si chiama Max, dice: “Max,
guarda!”. Questa fase viene ripetuta una seconda volta nel caso il bambino
non risponda alla prima. (3) (4) Se dopo la seconda ripetizione il bambino
ancora non guarda verso lo schermo giusto, il suggeritore aumenta il livello di
aiuto aggiungendo alla voce e al movimento della testa un gesto che indica lo
34
schermo. Anche questa fase viene ripetuta due volte se ce ne è bisogno. (5)
Se ancora non c’è la reazione desiderata il suggeritore ripete la sequenza di
azioni e dallo schermo arriva un suggerimento audio. (6) L’eventuale livello
finale aggiunge alla sequenza uno stimolo audio/video dallo schermo.
I risultati dello studio indicano che i bambini di ambedue i gruppi hanno
passato più tempo guardando il robot piuttosto che il terapista. Nel caso del
gruppo ASD hanno guardato Nao per il 52.76% del tempo delle sotto-sessioni
N mentre il terapista umano per il 25.11% del tempo delle sotto-sessioni U.
In Figura 3.7 è indicato quanto ogni bambino nel gruppo ha guardato, in
percentuale, sia Nao che il terapista.
S
ott
o-s
ess
ioni
coni
lter
api
st
auma
no S
ott
o-s
ess
ioni
conNa
o
t
%di r
empoguada l
ndoit a
er s
pit Na
no/
auma o
Figura 3.7: Gruppo ASD, sguardo verso il terapista. Adattamento da [23]
S
ott
o-s
ess
ioni
coni
lter
api
st
auma
no S
ott
o-s
ess
ioni
conNa
o
t
%di r
empoguada l
ndoit a
er s
pit Na
no/
auma o
Figura 3.8: Gruppo TD, sguardo verso il terapista. Adattamento da [23]
Nel gruppo TD, i bambini hanno guardato Nao per il 54.27% e il terapista
umano per il 33.64% del tempo. La Figura 3.8 si riferisce a questo gruppo.
35
Questo risultato indica un orientamento preferenziale significativo nei con-
fronti di Nao per tutti e due i gruppi, leggermente più accentuato nel gruppo
ASD. Come era prevedibile, il terapista umano ha ottenuto invece più atten-
zione nel gruppo TD rispetto all’altro gruppo.
Per quanto riguarda il numero di livelli necessari per raggiungere un compor-
tamento di AC, il gruppo ASD ne ha richiesto in media il 14.58% in più nelle
sessioni con Nao rispetto a quelle col terapista. Il gruppo TD il 9.37%. Un
osservatore addestrato e un genitore hanno notato che i bambini apparivano
eccitati dal robot e dalle sue azioni. Il maggior numero di livelli necessari con
Nao per il successo in entrambi i gruppi può quindi esser dovuto al desiderio
di guardare il robottino più di qualunque altra cosa.
Lo studio soffre di alcune pesanti limitazioni. Il numero esiguo di partecipanti
è forse la maggiore. Inoltre, la breve durata delle sessioni con ogni bambino
non permette di capire se la grande attrattiva del robot sia semplicemente
una questione di novità o se anche col passare del tempo tale attrattiva po-
trebbe rimanere.
Un altro limite è dovuto al cappello. Nella scelta dei partecipanti ha causato
l’esclusione di alcuni bambini a cui dava fastidio e in generale è discretamente
invasivo.
Nonostante tutto, la ricerca suggerisce che sistemi robotici migliorati siano
potenzialmente capaci di catturare l’attenzione dei bambini autistici orien-
tandoli verso abilità sociali come l’attenzione condivisa.
3.3.3 Esempio 3: Kaspar e il Progetto AuRoRA
Il Progetto AuRoRA (Autonomous Robot as a Remedial tool for Autistic

children)1 nasce nel 1998 a opera della Prof. Kerstin Dautenhahn dell’Univer-
sità dell’Hertfordshire [26]. Da allora, molti ricercatori vi hanno contribuito
e continuano a contribuire.
Scopo di AuRoRA è lo studio del potenziale di robot sociali interattivi come
strumenti o “giocattoli” terapeutici nel campo dell’autismo [27]. Il fine è
quello di coinvolgere i bambini con autismo in una varietà di modi, aiutan-
doli a sviluppare e aumentare le loro capacità comunicative e di interazione
sociale.
1
La parola “Remedial” è presente nell’acronimo a causa della relazione del progetto con
il campo della robotica riabilitativa. Tuttavia l’intenzione non è quella di curare l’autismo:
l’autismo non può essere curato e gli sforzi terapeutici sono per aiutare le persone nello
spettro a vivere meglio [26].
36
Figura 3.9: Kaspar
Nel corso del tempo il progetto ha prodotto diversi robot, l’ultimo in ordine
cronologico è Kaspar (Figura 3.9). Kaspar è un robot umanoide alto 60 cm
fissato in posizione seduta. Ha 8 gradi di libertà nella testa e nel collo, 6
nelle braccia e nelle mani e 1 nel torso. La faccia è in silicone, supportata
da un telaio in alluminio. Gli occhi sono dotati di videocamere, le palpebre
possono aprirsi e chiudersi e la bocca si può aprire e sorridere. Comunica
con le persone attraverso i gesti, le espressioni facciali e il linguaggio (tra-
mite messaggi preregistrati). La prima versione risale al 2005 e da allora è
stato usato per studiare diverse forme di interazione uomo-robot nel campo
dell’autismo.
La ricerca qui presentata [28] utilizza Kaspar in modalità completamente
autonoma. L’attività prescelta è quella di un gioco collaborativo con una
coppia di bambini. Punto di partenza è il potenziale osservato nei robot per
incoraggiare abilità sociali nei bambini con autismo unito all’attrazione eser-
citata su di essi dai video games. Oltre a Kaspar, infatti, nello studio sono
utilizzati altri due importanti accessori: uno schermo posto in orizzontale
che mostra un determinato videogioco (Copycat) e tre Nintendo Wii remo-
te controllers (Wiimotes), ognuno allacciato sul braccio di un giocatore per
tracciarne la posizione (Figura 3.10).
37
Figura 3.10: I giocatori, Kaspar e gli accessori del gioco. Da [28]
Due le ipotesi della ricerca:

• Ipotesi 1: L’interazione con un robot autonomo in sessioni di gioco
strutturate ed esplicitamente collaborative tra due bambini con au-
tismo e il robot, può promuovere nei bambini l’impegno sociale e la
collaborazione durante le sessioni di gioco.
• Ipotesi 2: Le abilità sociali che i bambini hanno imparato giocando
tra di loro e con il robot autonomo, possono trasferirsi alle successive
sessioni di gioco collaborativo con altri bambini (senza il robot).
Il video game progettato (Copycat) può essere giocato tra due bambini (inte-
razione diadica) o con l’aggiunta di un terzo giocatore nella forma del robot
umanoide Kaspar (interazione triadica).
A turno ogni partecipante (Kaspar compreso) ha il compito di scegliere una
delle forme che il videogioco propone. A ogni forma corrispondono, per via
del colore uguale, delle figure umane stilizzate col braccio posto in un certo
modo (Figura 3.11). A questo punto il giocatore di turno assume la posizione
relativa alla forma scelta e comunica agli altri di imitarlo. Quando tutti i
partecipanti hanno la giusta posa, la forma scelta si riempie di colore, ruo-
ta su sé stessa lampeggiando mentre si sente una musica allegra. Quindi la
forma sparisce, i giocatori riposano qualche secondo con il braccio abbassato
finché il compito di scegliere e dirigere gli altri passa ad un altro. In ogni
momento, una freccia sullo schermo indica chi sta comandando.
Per farsi imitare, il giocatore di turno può usare gesti e parole. Nel caso non
compia alcuna scelta oppure gli altri non lo imitino, non è stata posta alcuna
limitazione alla possibilità per i bambini di incitare chi non segue corretta-
mente le regole. Nella stanza è anche presente un educatore e anche lui può,
se necessario, dare degli stimoli.
38
Figura 3.11: Uno screenshot di Copycat. Da [28]
In questo gioco i bambini devono imparare a comunicare e a interagire tra di

loro. Il “regista” deve catturare l’attenzione degli altri giocatori e descrivere
la posa, verbalmente o non verbalmente. Chi non è di turno, d’altra parte,
deve riuscire a prestare attenzione al regista e imitarlo. Inoltre, il gioco
richiede che i bambini si alternino scambiandosi di ruolo. Tutte queste sono
grandi sfide per i bambini con autismo. Se li si osserva giocare normalmente
anche in un contesto sociale, infatti, tipicamente staranno per i fatti loro con
il proprio giocattolo.
Per questo motivo i ricercatori hanno pensato ad una architettura del gioco
che facilitasse le cose il più possibile. Lo schermo è posto in orizzontale
in modo che i bambini siano uno di fronte all’altro, le figure sono semplici
e chiare e la direzione della freccia indica in ogni momento chi comanda
il gioco. Ma soprattutto Kaspar è programmato con dei comportamenti
interattivi chiaramente definiti, in modo da aiutare i bambini ad imparare a
prestare attenzione all’altro, a farsi ascoltare e a cambiare di ruolo cosı̀ come
avviene nelle situazioni sociali.
A questo proposito:
• Kaspar saluta sempre i bambini all’inizio e alla fine di ogni sessione,
sorridendo, agitando il braccio sinistro e guardando nella direzione in
cui si aspetta che sia ogni bambino.
• Quando un bambino è di turno e ritarda a scegliere una forma, Kaspar
lo sollecita dicendo ad esempio: “Cosa pensi che dovremmo fare?”.
• Quando un bambino non di turno ritarda nel posare come il regista,
Kaspar gli fa una richiesta diretta, ad esempio: “Scegli la forma indicata
39
dal tuo compagno”.
• Ogni volta che i bambini scelgono una forma (quando è il loro turno),
Kaspar la conferma ad alta voce.
• Ogni volta che Kaspar seleziona la propria forma (quando tocca a lui),
indica di aver preso una decisione (ad esempio: “Ho un’idea”) prima
di agire. Questo per preparare i bambini a prestare attenzione.
• Ogni volta che Kaspar annuncia la forma scelta o quando si congratula
con i bambini per aver imitato la posizione in modo corretto, fa un
grande sorriso e guarda direttamente dove i bambini dovrebbero essere.
Per lo studio sono stati scelti sei bambini tra gli 8 e i 9 anni, cinque maschi
e una femmina. Si è optato per il coinvolgimento di un numero ristretto di
partecipanti, ma per un lungo periodo, al fine di mettere a punto una tec-
nologia autonoma che possa aiutare insegnanti e terapisti nel mondo reale,
dato che la natura di questi processi di apprendimento richiede tempi lunghi.
I sei bambini sono stati diagnosticati a vari livelli di autismo e frequentano
una scuola per esigenze speciali. La scuola ha fornito i dati relativi alle abilità
di espressione e comprensione verbale nonché di interazione sociale secondo
la P-scale (Tabella 3.4), un insieme di criteri utilizzati nelle scuole del Regno
Unito per quei bambini al di sotto del livello 1 del Curriculum Nazionale [29].
La P-scale va da un minimo di P1 a un massimo di P8 .
Partecipanti R M T H Cl C
(genere) (m) (m) (f) (m) (m) (m)
Età 9 9 8 8 9 8
Abilità nell’espressione verbale P7 P6 P6 P8 P6 P6
Abilità nell’ascolto P7 P5 P6 P8 P6 P7
Abilità personali e sociali P7 P5 P4 P7 P5 P5
Tabella 3.4: Partecipanti allo studio. Le abilità sono misurate tramite la

P-scale (Performance scale)
Le sedute si svolgono in una grande e luminosa stanza chiusa, con le finestre

oscurate, per evitare distrazioni. L’unica altra persona presente è un educa-
tore che i bambini conoscono bene. Il suo ruolo è di tenerli focalizzati nel
caso si distraggano, di calmarli se si eccitano troppo e in generale di agire in
caso di bisogno, ma tendenzialmente interviene il meno possibile.
La prima volta il bambino viene istruito sul funzionamento del gioco, e all’i-
nizio di ogni sessione successiva può ripeterne i meccanismi giocando da solo
per rinfrescare la memoria. Durante le sessioni può continuare a giocare o
smettere quando vuole.
40
La ricerca segue questa struttura: in una prima fase (A1) due bambini gio-
cano tra di loro. Dopodiché ogni bambino familiarizza da solo con Kaspar
(F), e questo per tre volte in tre giorni distinti. In questo modo i bambini
si abituano al modo di parlare e di agire del robot minimizzando l’effetto
novità nella sessione successiva (B1) che prevede l’interazione triadica tra
due partecipanti e Kaspar. A questa seguono un’altra fase diadica (A2) e
un’altra triadica (B2). Lo schema risulta quindi:
A1 - F - B1 - A2 - B2
Ogni bambino gioca le quattro fasi A e B con ciascun altro bambino. Ciò
permette di superare gli effetti di eventuali simpatie/antipatie. Dato che i
partecipanti sono sei, le possibili combinazioni risultano 15 per ogni fase A
o B. Inoltre, ogni bambino gioca tre volte da solo con Kaspar. In totale,
quindi, le sessioni sono (15 × 4) + (6 × 3) = 78, mentre ogni bambino gioca
(5 × 4) + 3 = 23 volte. L’alto numero di sessioni riduce l’influenza dell’effetto
novità relativo a Kaspar e al videogioco.
Durante lo studio, le sessioni sono durate in media 6 minuti, al massimo
15. Sono state tutte filmate e alcuni comportamenti d’interesse sono stati
codificati manualmente dalle registrazioni delle fasi A e B.
Figura 3.12: Adattamento da [28]
Come ci si poteva aspettare, nelle sessioni a due ogni bambino ha guarda-

to l’altro decisamente di più dopo aver giocato con Kaspar (A2) rispetto a
prima (A1). Più sorprendente è il fatto che nella fase B2 i bambini abbiano
continuato a guardarsi l’un l’altro più che in A1, nonostante la presenza di
Kaspar (Figura 3.12. Le barrette nere indicano la deviazione standard).
Considerando il tempo impiegato guardando un altro partecipante (sia bam-
41
bino che robot), come ci si poteva aspettare è decisamente maggiore nelle
fasi B (Figura 3.13).
In più, ogni bambino ha alternato lo sguardo tra il gioco e un altro parte-

cipante molto più spesso dopo aver giocato con Kaspar (A2, B2) che non
prima (A1). Inaspettatamente non c’è stata differenza significativa tra A2 e
B2, nonostante si potesse pensare che il robot sarebbe stato più attraente.
E in effetti, i partecipanti hanno mostrato comportamenti affettivi positivi
più spesso interagendo con Kaspar che non con l’altro bambino. Altro dato
interessante, i comportamenti affettivi positivi vicendevoli sono stati decisa-
mente maggiori nella fase A2 rispetto alla fase A1.
Per quanto riguarda il linguaggio, non ci sono state grandi differenze nel nu-
mero di volte in cui i bambini hanno parlato tra le varie fasi, tuttavia in A2
lo hanno fatto molto più spesso guardando l’altro bambino rispetto ad A1
(Figura 3.14).
Ricordando che i bambini coinvolti nello studio hanno tutti una diagnosi di
autismo, anche se a diversi livelli, è importante notare che tutti hanno parte-
cipato attivamente al gioco collaborativo per lassi di tempo estesi e tutti sono
migliorati in modo significativo nei loro comportamenti sociali dopo l’intera-
zione con Kaspar.
Aver mostrato in modo più spiccato comportamenti sociali durante la fase
A2 rispetto alla fase A1 ha implicazioni interessanti. I bambini con autismo
tendono a non guardare la persona con cui interagiscono, anche quando si
tratta di qualcuno che conoscono bene. Il comportamento osservato nelle
sessioni è quindi indicativo di una migliore comunicazione sociale. Questo
perché lo sguardo reciproco è una forma importante di comunicazione non
verbale e svolge un ruolo di rilievo nella sincronizzazione delle azioni e nella
42
regolazione del turn-taking.

Anche l’aumento dei comportamenti affettivi positivi vicendevoli in A2 ri-
spetto ad A1 è un risultato notevole e potrebbe significare che i bambini
volevano condividere il loro gradimento con il compagno. E mostrare spon-
taneamente piacere condiviso è una delle difficoltà tipiche dello spettro auti-
stico.
Inoltre esprimersi verbalmente guardando l’altro partecipante potrebbe signi-
ficare il desiderio di coordinarsi attivamente, anche in questo caso diminuendo
le problematiche tipiche relative alla comunicazione.
Tornando alle due ipotesi di partenza, si può dire che entrambe siano state
verificate.
i bambini si sono effettivamente impegnati con successo con il robot e tra
di loro durante i giochi triadici progettati per promuovere la collaborazione
(ipotesi 1). Hanno inoltre mostrato un miglior comportamento sociale e
si sono impegnati in interazioni diadiche l’uno con l’altro dopo le sessioni
triadiche con il robot (ipotesi 2).
Nel confrontare i comportamenti tra le due sessioni diadiche sono emerse le
seguenti differenze statisticamente significative tra A1 (prima che i bambini
giocassero con Kaspar) e A2 (dopo aver giocato con Kaspar). In A2 i bambini
43
hanno passato più tempo guardando l’altro bambino e impegnandosi nello
sguardo reciproco . In A2 i bambini hanno mostrato un maggior numero di
spostamenti dello sguardo tra bambino e gioco e più espressioni di affetto
positivo e di linguaggio guardando l’altro.
3.4 Agenti virtuali: i serious game, una di-

versa tecnologia
I serious game (SG) sono giochi che affiancano all’intrattenimento elementi
educativi. Hanno in comune lo scopo di creare un’esperienza formativa effica-
ce e piacevole, mentre il genere, la tecnologia, il supporto e il target variano.
Nel campo delle terapie a favore delle persone autistiche sono stati speri-
mentati diversi SG sotto forma di videogiochi per favorire l’apprendimento
di abilità sociali particolarmente difficili per queste persone. Tali giochi uti-
lizzano la propensione a “sistematizzare” tipica degli individui nello spettro
incoraggiandone nel contempo la partecipazione attiva.
Alcuni elementi chiave sono ritenuti importanti per migliorare la motivazione
a giocare con i SG: trame coinvolgenti, obiettivi rivolti a competenze mira-
te, premi e feedback sul progresso negli obiettivi, livelli crescenti di difficoltà,
formazione individualizzata e possibilità di scelta [30].
La ricerca ha dimostrato che gli individui con autismo sono particolarmente
attratti da questi giochi. Inoltre, come per altre tecnologie, l’ambiente sicuro
e controllato della realtà virtuale presentata nei SG è più facilmente com-
prensibile e causa meno ansia rispetto al complesso mondo reale.
Una delle abilità particolarmente ardue per le persone autistiche è quella del
riconoscimento delle emozioni. Alcuni esempi di SG focalizzati su tale ca-
ratteristica sono Mindreading [31], Frankfurt test and training of facial affect
recognition [32] e FaceSay [33]. Questi giochi si concentrano principalmente
sul riconoscimento delle emozioni dalle espressioni del viso, che è un elemento
fondamentale ma non è l’unico.
Qui presentiamo il SG Emotiplay [30] che punta ad insegnare ai bambini
con autismo la comprensione degli stati emotivi anche attraverso la prosodia
vocale e il linguaggio del corpo.
3.4.1 Emotiplay
Emotiplay è un SG disegnato come parte di un progetto europeo su larga

scala (Autism Spectrum Conditions-Inclusion), che esplora la tecnologia per
44
migliorare l’inclusione dei bambini con autismo. Lo studio esaminato ha
valutato i risultati di tale gioco in un contesto interculturale, nel Regno
Unito, in Svezia e in Israele. Nella prima fase è stata utilizzata nel Regno
Unito una versione alfa, più limitata. Nella seconda, in Svezia e in Israele, la
ricerca è invece avvenuta tramite una versione beta, che si è avvalsa dell’intero
insieme di attività per il riconoscimento delle emozioni.
Il gioco include quattro unità principali:
• Unità 1 : Introduzione: quali sono le emozioni?
• Unità 2 : Emozioni di base: felicità, tristezza, paura, rabbia, disgusto.
• Unità 3 : Difficoltà e gioie nella vita scolastica: sorpresa, interesse, noia,
vergogna, orgoglio.
• Unità 4 : Relazioni sociali: gentilezza e ostilità.
Lez
ionedi
fel
ic
ità Lac
asadel
l’
avat
ar
Gi
ocodel
linguaggi
odel
cor
po Gi
ocodel
lees
pres
sioni
fac
cial
i
Figura 3.15: Alcune schermate di Emotiplay. Adattamento da [30]
In figura 3.15 si possono vedere quattro schermate del gioco. Le varie attività
mostrano come si esprimono diverse emozioni tramite il viso, il corpo o la
voce, oppure attraverso una combinazione delle tre cose. Dopodiché viene
chiesto al giocatore di riconoscere l’emozione in causa tra due o più possibi-
45
lità, a seconda del livello a cui si è arrivati 2 .
Emotiplay impiega la maggior parte degli elementi chiave che migliorano la
motivazione a giocare con i SG. La trama del gioco pone l’utente nel ruolo
di un esploratore nella giungla, alla ricerca dei comportamenti umani e delle
espressioni emotive (trame coinvolgenti). Il SG insegna il riconoscimento del-
le emozioni attraverso canali separati (espressioni facciali, prosodia vocale,
linguaggio del corpo), e in più addestra l’utente a integrare questi segnali,
tenendo conto del contesto (obiettivi rivolti a competenze mirate). La possi-
bilità di scelta viene fornita nell’area personale, dove l’utente può progettare
il proprio avatar, inclusi i tratti del volto, l’abbigliamento e gli accessori (pos-
sibilità di scelta). Nelle varie fasi, il giocatore riceve feedback positivi sotto
forma di animazioni, nuovi giochi divertenti, oggetti collezionabili e dena-
ro virtuale che può essere utilizzato per acquistare attrezzature per l’avatar
dell’utente e per la sua casa virtuale (livelli crescenti di difficoltà e premi e
feedback sul progresso negli obiettivi ).
Atti
vità: Atti
vit
à: At
tivi
tà:
es
pres
sionidelvol
to l
inguaggi
odelcor
po i
ntegr
azi
onedeisegnal
i
Comesis
entelara
gaz
za Comesis
entelar
aga
zza Al
l
a nedel
l
as c
ena,c
hecos
aespr
ime
nel
video? nel
video? i
lra
gazzoves
ti
todi
ros
so?
Figura 3.16: Attività di riconoscimento emotivo visivo. Adattamento da [30]
Emotiplay attinge alle capacità “sistematiche” dei bambini con autismo, for-
nendo un ambiente strutturato ma versatile, ricco di elementi e giochi relativi
agli interessi circoscritti del bambino.
In aggiunta al videogioco, è fornita una guida scritta genitore-figlio con atti-
2
Ulteriori dettagli su Emotiplay sono disponibili sul sito www.emotiplay.com, comprese
alcune demo delle attività.
46
vità extra, mirate a consolidare il materiale didattico e a generalizzare nella
vita di tutti i giorni le cose apprese (ad esempio creare un album emozionale
dei membri della famiglia, giocare al “detective emotivo” che riconosca sui
volti, nel linguaggio del corpo e nella voce le emozioni imparate, ecc.).
Fase 1: Regno Unito. A questo primo studio, che ha utilizzato una ver-
sione alfa di Emotiplay, hanno partecipato 15 bambini tra i 6 e i 9 anni con
IQ nella norma (misurato tramite le scale Wechler). La selezione è avvenuta
da un database di volontari, scuole speciali e organizzazioni di supporto per
individui con autismo. Tutti i bambini presentavano una diagnosi di auti-
smo secondo diversi protocolli ufficiali. Le diagnosi sono state ulteriormente
confermate tramite la seconda edizione del Autism Diagnostic Observation
Schedule (ADOS-2) [34]. Tutti i partecipanti hanno soddisfatto i criteri di
soglia di ADOS-2 per l’autismo.
Prima dell’utilizzo di Emotiplay, i bambini e i loro genitori hanno partecipato
a un pre-intervento presso le loro case o presso l’Autism Research Centre di
Cambridge. In questa sessione i genitori hanno compilato due questionari di
screening: il Social Responsiveness Scale (SRS [24]) e il Vineland Adaptive
Behavior Scales (VABS-II [35]) valutando le abilità sociali dei figli. I bambini
hanno invece partecipato a delle attività di riconoscimento delle emozioni con
i ricercatori sempre nell’ottica di misurarne il relativo grado di competenza.
Alla fine del pre-intervento valutativo ai genitori è stata consegnata la guida
attività ed è iniziata la fase SG vera e propria. Ai partecipanti è stato chiesto
di usare Emotiplay per 8 settimane, per almeno 2 ore la settimana. Ogni 2
settimane il team di ricercatori ha monitorato l’utilizzo delle attività extra,
anche se i genitori erano liberi di rivolgersi a loro per ogni dubbio o consiglio
in qualunque momento.
A questo periodo ha fatto seguito un post-intervento valutativo che ha utiliz-
zato gli stessi strumenti del pre-intervento: compilazione dei questionari da
parte dei genitori e attività di riconoscimento delle emozioni per i bambini.
Ai genitori è anche stato chiesto conto dell’efficacia del sistema, dell’idoneità
per i loro figli, della facilità di utilizzo e di eventuali altri commenti. Queste
indicazioni sono state utilizzate per l’ottimizzazione della versione beta.
Come mostra la figura 3.17, le prestazioni (misurate tramite i vari criteri
utilizzati) dopo 8 settimane di gioco con Emotiplay sono risultate notevol-
mente migliorate e i genitori hanno dato valutazioni maggiori nei questionari
di screening oltre a giudicare in modo sostanzialmente positivo l’effetto sui
figli, l’idoneità, la capacità motivazionale e la facilità d’uso del gioco.
Fase 2: Israele e Svezia. In seguito agli incoraggianti risultati britannici
47
Pr
e Pos
t
L
ingua
ggi
odel
cor
po I
ntegr
azi
onedei
segna
li
Figura 3.17: Regno Unito: confronto tra pre- e post-utilizzo di Emotiplay

per linguaggio del corpo e integrazione dei segnali. Adattamento da [30]
e al feedback dei bambini e dei loro genitori, è stato effettuato un secondo

studio con una versione migliorata di Emotiplay, che includeva altri giochi,
una più estesa possibilità di premi e una migliore stabilità del sistema. In
Israele e in Svezia, inoltre, la ricerca è stata condotta confrontando i parteci-
panti con un gruppo di controllo formato da bambini con autismo che hanno
continuato a seguire il normale percorso terapeutico.
In Svezia sono stati selezionati 40 bambini, in Israele 43, tutti tra i 6 e i 9
anni e tutti con diagnosi di autismo ad alto funzionamento secondo diversi
protocolli ufficiali. Come per il Regno Unito, tali diagnosi sono state confer-
mate tramite ADOS-2. L’inclusione nel gruppo che ha utilizzato il SG o nel
gruppo di controllo è avvenuta casualmente (rispettivamente 23 e 20 in Israe-
le, 20 e 20 in Svezia). Per motivi diversi, 9 bambini non hanno completato
lo studio, riducendo i partecipanti ai gruppi SG a 18 israeliani e 16 svedesi.
I gruppi erano comparabili localmente per età, sesso, punteggi ADOS-2 e
punteggi della Scala d’intelligenza Wechsler.
Anche in questo caso si è svolto un pre-intervento con compilazione dei que-
stionari da parte dei genitori e attività di riconoscimento delle emozioni per
i bambini, dopodiché si è passati alla fase Emotiplay corredata da attività
extra genitori/figli e in seguito al post-intervento.
Anche i gruppi di controllo hanno completato il pre-intervento valutativo
e, 8 settimane dopo, il post-intervento, senza utilizzare però Emotiplay nel
periodo di mezzo3 .
3
Sono stati comunque introdotti alla fine di tutto al SG e ai loro genitori è stata fornita
la guida attività, con l’incoraggiamento a rivolgersi ai ricercatori quando ne sentissero il
desiderio.
48
I
sra
ele S
vez
ia
G
I
nru
p
t
ep
ro
v
eS
nG
to G
Cr
ou
p
np
to
r
od
li
c
l
oon
tro
ll
o G
I
nr
tu
p
ep
ro
v
eS
nG
t
o Gr
Cu
op
np
t
ro
od
l
li
c
oon
tro
ll
o
At
ti
vi
tà:
es
pre
ssi
oni
del
vol
to
At
ti
vi
tà:
es
pre
ssi
oni
voc
ali
At
ti
vi
tà
:
l
in
guag
giod
elc
orp
o
Figura 3.18: Israele e Svezia: media e (deviazione standard) dei punteggi

nelle attività di riconoscimento delle emozioni nel pre- e nel post-intervento.
Adattamento da [30]
In figura 3.18 si possono vedere i risultati della ricerca (misurati tramite

i vari criteri utilizzati). Mentre nel gruppo di controllo i dati rimangono
pressoché invariati, nel gruppo che ha utilizzato Emotiplay i miglioramenti
sono evidenti.
La ricerca conferma i precedenti studi sull’efficacia dei SG per l’allenamen-
to al riconoscimento delle emozioni nei bambini con autismo e ne estende il
campo. Infatti, i SG precedenti si erano concentrati principalmente sull’in-
segnamento di tali abilità dall’esame dei volti, trascurando altre modalità
espressive. Sebbene questo canale comunicativo sia fondamentale, tuttavia
rappresenta solo un pezzo del puzzle di comprensione dell’emozione. Il lin-
guaggio del corpo e la prosodia vocale sono due ulteriori fattori importanti:
i gesti e i cambiamenti posturali sono tra i principali segnali che mediano la
comunicazione non verbale, fornendo agli osservatori spunti informativi sugli
stati soggettivi e sulle intenzioni altrui.
Dal canto suo il modo in cui le persone utilizzano la voce ha molto a che fare
con le emozioni che provano.
Inoltre, ci sono evidenze del fatto che molte delle esperienze percettive ati-
piche riportate dalle persone con autismo derivino dall’incapacità di filtrare,
elaborare e integrare in modo efficiente le informazioni provenienti da diversi
canali sensoriali che si presentano simultaneamente.
Quindi, è vitale fornire interventi che mettano in risalto tutte le modalità
di riconoscimento delle emozioni nella loro integrazione. Emotiplay mira a
49
rispondere a questa esigenza e i risultati dello studio forniscono una prima
dimostrazione della sua efficacia.
In conclusione è interessante anche notare come questa ricerca si avvenuta in
tre paesi con tre diverse lingue, al contrario della maggior parte degli studi
analoghi che vengono effettuati e testati in paesi anglofoni, anche se gli ef-
fetti interculturali possono essere limitati dalla relativa somiglianza tra le tre
culture occidentali esaminate.
50
Capitolo 4
Modellazione e valutazione
dell’interazione
4.1 Alcune questioni generali relative all’in-

terazione sociale
Nel Capitolo 2 abbiamo delineato, a livello cognitivo, la sindrome autistica da
un punto di vista Bayesiano; successivamente, nel Capitolo 3, abbiamo pre-
sentato alcuni studi sulla possibilità di progettare agenti artificiali (in forma
di robot, avatar, ecc.) che possano eventualmente essere di supporto a tera-
pie dell’autismo. Il problema centrale che dunque immediatamente si pone è
quello di una valutazione dell’efficacia potenziale di tali soluzioni: problema
che rimanda quello cogente della loro accettabilità da parte del soggetto au-
tistico. Utilizziamo qui il termine efficacia potenziale per sottolineare la pos-
sibilità di definire un modello, e dunque uno strumento teorico di predizione,
in contrapposizione ad una valutazione ex post più tradizionale.
In altri termini: è possibile, nei limiti imposti dalla complessità del proble-
ma, delineare un quadro teorico dei fattori di interazione soggetto autisti-
co/agente?
In tale prospettiva conviene ricondursi alla questione più generale dell’inte-
razione sociale fra agenti (quali che siano: naturali o artificiali). Uno schema
di principio è mostrato in Figura 4.1.
Considerati due agenti, diciamo A1 e A2 , il processo (dinamico) di interazio-
ne sociale ha a suo fondamento un processo di mutua percezione sociale che
52
i
nter
azi
one
soci
al
e
per
cez
ione
soci
al
e
c
ogni
zi
one
a
zioni
fac
cia
li a
zioni
fac
cia
li
a
tti
vaz
ione r
is
pec
chi
amet
o a
tti
vaz
ione
neur
ale neur
ale
condi
visa condi
vis
a
a
zioni
aut
onome a
zioni
aut
onome
emoz
ione
Figura 4.1: Uno schema generale di interazione sociale
coinvolge A1 e A2 . La percezione sociale è modulata in forma esogena da

fattori contestuali (cultura, situazione, status sociale, ecc.); in forma endoge-
na, si fonda sulla struttura individuale, cognitiva ed emozionale, del singolo
agente.
Vi sono sostanzialmente due approcci alla percezione e alla comprensione
(understanding) di segnali sociali non verbali (espressioni facciali, posture
del corpo, prosodia vocale), ovvero quelli più rilevanti dal nostro punto di
vista [36]: il primo enfatizza i processi inferenziali che consentono l’interpre-
tazione del segnale percepito (noto in letteratura come approccio Theory-
Theory, T-T); il secondo, pone al cuore della comprensione una “simulazione
interna” basata su una riattivazione (re-enactement) nell’agente percipiente
delle componenti neurali e fisiologiche “come se” (as if ) quest’ultimo espe-
risse in prima persona l’esperienza emotiva dell’agente con cui interagisce e
che ha causato l’emissione dei segnali sociali percepiti (approccio Simulation
Theory, S-T). L’approccio S-T ha il vantaggio di offrire un modello dota-
to di notevole potenza esplicativa/predittiva per quanto concerne un tema
fondamentale del processo di interazione: l’empatia. Alla base del processo
di empatia vi è infatti la capacità del rispecchiamento (mirroring, [37]) di
un agente nell’altro, una funzionalità sperimentalmente riscontrabile nella
forma primigenia del processo di imitazione (mimicry), attivo fin dai primi
giorni di vita in esseri umani e scimmie (ma per una discussione generale e
approfondita si rimanda a [37; 36]). Un esempio di mirroring posturale spon-
53
taneo, tipico di una situazione di flirting, é immediatamente riconoscibile in
Figura 4.1.
La radice del meccanismo simulativo affonda ovviamente nella circostanza
per cui i due agenti condividono non semplicemente abilità cognitive e cultu-
rali, ma e soprattutto gli stessi meccanismi neurobiologici e, in ultima istanza,
corporei governati dalle componenti somato-motorie e viscero-motorie del si-
stema nervoso centrale e periferico. In buona sostanza, l’interazione si fonda,
per dirla con Gallese [38], su una “shared manifold”. Per chiarire meglio, si
consideri l’aspetto specifico della percezione sociale dei volti (per esempio nel
corso di un’interazione diadica, come rappresentata in Figura 4.1), aspetto
peraltro di notevole rilevanza nel quadro della sindrome autistica.
In estrema sintesi, secondo il modello di Adolph [39], alla presentazione dello
stimolo (es.: l’espressione facciale generata da A1 e osservata da A2 , al tempo
t = 0 ms), nell’agente osservatore si sviluppa un processo di comprensione
dello stimolo che evolve nei seguenti stadi:
1. t < 120 ms: si innesca una elaborazione veloce, subcorticale, delle parti
salienti dello stimolo (il volto) che attivano aree visive primarie e amig-
dala (sistema limbico/emotivo sub corticale); l’amigdala segnala verso
il sistema periferico attivando l’attività di nuclei del tronco encefalico
che controllano reazioni somato-motorie e viscero-motorie.
2. 120 ≤ t < 170 ms: il processo percettivo visivo coinvolge aree visive
secondarie, quali l’area fusiforme dei volti (FFA) e il solco temporale
superiore (STS); contemporaneamente si attivano le aree premotorie,
l’insula (componente corticale che mappa lo stato viscero-motorio del
corpo) e le regioni corticali orbito-frontali (OFC).
3. t ≥ 170 ms: vengono attivate aree associative secondarie e lo stato cor-
rente del corpo (somato-motorio e viscero-motorio) è utilizzato come
“chiave” di accesso per il recupero di rappresentazioni concettuali più
astratte (cognitive); queste ultime consentono una concettualizzazio-
ne/categorizzazione dello stimolo percepito in un’emozione sulla base
di quella esperita internamente (understanding).
Una rappresentazione schematica dell’“architettura” neurobiologica di sup-
porto all’evoluzione del processo, nella fattispecie agli stadi 1 e 2 di Adolph,
è stata discussa in [40] ed è riportata in Figura 4.2; in questa vengono eviden-
ziate le vie principali che sono alla base della comprensione di un’espressione
facciale affettiva: la via visiva, che comprende cortecce visive primarie e se-
condarie (in particolare la FFA, per il processing di caratteristiche facciali
statiche e il solco temporale superiore, STS, per l’analisi delle caratteristiche
dinamiche delle espressioni); la via visuomotoria supportata dal sistema dei
54
vi
avi
suomot
ori
a
s
is
tema
affet
ti
vo
cent
ral
e
vi
avi
si
va
vi
avi
scer
Ar
eedelt
ronco
encef
ali
co
omot
ori
a
Figura 4.2: Architettura del sistema neurale distribuito per la percezione di
espressioni facciali affettive (lato dell’agente osservatore). Le doppie frecce
indicano proiezioni “forward” e “backward” tra aree neurali. L’architettura
comprende un network per la percezione dell’azione basato sul sistema mir-
ror umano (MNS), rappresentato dal complesso IPL, IFG/VPMC. Questo
media tra il risultato dell’elaborazione visiva dello stimolo lungo la via vi-
siva (retina, nucleo genicolato laterale LGN, cortecce visive primarie, OFA,
FFA, STS) e la rappresentazione motoria interna dell’azione facciale costrui-
ta dall’ MNS attraverso l’interfaccia del solco temporale superiore (STS). L’
MNS fornisce l’input per attivare il sistema affettivo centrale (core affect)
costituito dall’insula anteriore (AIns) e dalle cortecce orbito-frontali (OFC).
Il core affect coordina la dinamica delle attività della via visuomotoria - STS,
IPL, IFG/VPMC, aree corticali motorie M1/M3/M4, area motoria supplem-
netare SMA e nuclei motori sub-corticali nel tronco encefalico (brainstem) -
e visceromotoria - insula posteriore (PIns), ipotalamo (HYP), nuclei visce-
romotori del tronco encefalico, sistema nervoso autonomico (ANS). Questo
avviene sia modulando in feedback le rappresentazioni percettive dell’osser-
vatore sia generando e modulando la risposta emotiva del medesimo. Le linee
punteggiate rappresentano le proiezioni subcorticali che attraverso la via dua-
le del collicolo superiore (SC) e le regioni pulvinari proiettano direttamente
alle aree limbiche per innescare rapidamente la reazione affettiva (stadio 1 di
Adolph). Da [40]
55
neuroni specchio (mirror neuron system MNS, in particolare il lobulo parie-
tale inferiore IPL, il giro frontale inferiore IFG, e le cortecce ventro-mediali
posteriori VPMC), che presiede alle azioni motorie (attivazione dei muscoli
facciali); la via visceromotoria che controlla il sistema nervoso autonomico
(ANS) e le reazioni fisiologiche (battito cardiaco, sudorazione, ecc.); il siste-
ma affettivo centrale che modula azioni e propriocezioni motorie e viscerali
è rappresentato dal network che coinvolge amigdala (Amy), cortecce insulari
anteriore e posteriore (AIns, Pins) e regione corticale orbito-frontale (OFC).
La figura, come specificato poc’anzi, funge da supporto neurobiologico ai pri-
mi due stadi del processo di percezione (simulativa) dell’espressione facciale
ed è necessaria per lo stadio finale di comprensione e categorizzazione dello
stimolo percettivo, più precipuamente cognitivo.
È chiaro a questo punto che l’origine delle “incertezze”, sintetizzabili formal-
mente nel modello Bayesiano dello spettro autistico in termini di precisioni
e probabilità a priori (Capitolo 2), hanno origini profonde nella struttura
neurobiologica dell’agente, e possono scaturire da disfunzioni a diversi livelli
del network complessivo che regola la dinamica della percezione sociale . Per
esempio, è stato più volte sottolineato il ruolo di un diverso funzionamento
del solco temporale superiore (STS) in soggetti autistici rispetto a soggetti
a sviluppo tipico. Quest’evidenza è anche di interesse rispetto alle teorie
dell’autismo basate su disfunzione del sistema di mirroring, essendo l’STS
parte del sistema di “rispecchiamento” o, quantomeno, l’interfaccia tra il
sottosistema di percezione visiva (e uditiva) e il MNS umano.
Ritorniamo alla questione della valutazione di efficacia di un agente artifi-
ciale posto in interazione con un agente naturale (umano) e, nella fattispe-
cie, con un agente autistico. Sulla scorta della discussione precedentemente
sviluppata sono, in linea di principio, praticabili due approcci:
1. valutazione mediante un modello generale, ma dettagliato nella simu-
lazione, del soggetto autistico;
2. valutazione mediante un modello sintetico della risposta del soggetto
basato su alcune variabili essenziali di risposta comportamentale.
Perseguire la prima strada, significherebbe modificare lo schema generale del-
l’interazione con quello rappresentato in Figura 4.3.
Tale schema, ovviamente, pone seri problemi da un punto di vista epistemo-
logico, perché l’ipotesi fondante è la condivisione del sistema neurobiologico
(shared manifold) che ovviamente non è soddisfatta a meno di assumere una
posizione strettamente funzionalista: qualsiasi modello (interno) dell’agente
artificiale che sia funzionalmente equivalente all’agente naturale può essere
utilizzato per costruire uno spazio condiviso.
56
i
nter
azi
one
soci
al
e
per
cez
ione
soci
al
e
c
ogni
zi
one
a
zioni
fac
cia
li a
zioni
fac
cia
li
att
iva
zione r
is
pec
chi
amet
o a
tti
vaz
ione
neural
e neur
ale
“
” “ ” “
a
zioni
aut
onome a
zioni
aut
onome
emoz
ione
Figura 4.3: Interazione sociale tra un soggetto autistico e un agente (caso

generale)
La seconda ipotesi invece comporta più semplicemente la possibilità di avere

un modello di valutazione delle reazioni dell’agente naturale in interazio-
ne con un agente artificiale che è in grado di produrrre stimoli osservabili
(espressioni facciali, posture, ecc.). L’agente naturale reagisce comunque sul-
la base delle proprie osservazioni/percezioni innescando reazioni emotive e
comportamentali come se vi fosse (in modo maggiore o minore) una “shared
manifold”. Tali reazioni possono dunque essere quantificate e sintetizzate
mediante un insieme di variabili essenziali che catturano i tratti salienti della
sua reazione allo stimolo. Tale schema è delineato in Figura 4.4.
Nella tesi qui presentata, e in coerenza con l’approccio metodologico intro-
dotto nel Capitolo 2, considereremo nel seguito il problema della valutazione
sintetica mediante variabili funzionali essenziali. A tale scopo conviene sem-
plificare il processo a livello di architettura funzionale, come rappresentato
in Figura 4.5.
Lo schema pertanto ci riconduce a considerare la reazione dell’agente
naturale (es.: il soggetto autistico) relativamente ai seguenti aspetti:
1. il processo di percezione e categorizzazione del comportamento espresso
dall’agente artificiale;
2. la reazione immediata in termini di dimensioni affettiva e cognitiva
dell’agente naturale conseguente allo stimolo percepito.
57
i
nter
azi
one
soci
al
e
per
cez
ione
soci
al
e
c
ogni
zi
one
a
zioni
fac
cia
li a
zioni
fac
cia
li
r
is
pec
chi
ament
o
a
zioni
aut
onome
emoz
ione
Figura 4.4: Interazione sociale tra un soggetto autistico e un agente: l’agente

non é basato su un modello affettivo completo, ma é in grado di interagire
mediante azioni facciali e corporee percepite dall’osservatore autistico
Il primo punto implica la possibilità di costruire un modello ottimo (Baye-

siano) del percettore. Il secondo punto, verrà risolto mediante la definizione
di una misura quantitativa della tensione affettiva (empatia o sgradevolezza)
che scaturisce in risposta allo stimolo elaborato dal percettore ottimo.
In sintesi, possiamo riassumere le precedenti considerazioni riconducendo il
problema di modellare una valutazione della percezione sociale di un agente
artificiale da parte di un osservatore umano allo schema presentato in Figura
4.6.
Nel paragrafo che segue affronteremo il problema del percettore. Nella sezione
4.2 e successive discuteremo il modello di risposta emotiva.
4.1.1 Il modello del percettore Bayesiano ottimo
È da lungo tempo risaputo che le categorie influenzino la percezione. Studi in

questo senso nel campo del linguaggio risalgono ai lontani anni ’50, quando
fu notato che si riesce a discernere bene tra diverse categorie di consonanti
occlusive mentre è molto difficile fare distinzioni all’interno della stessa cate-
goria [41]. Più recentemente, simili effetti sono stati descritti anche in altri
58
Figura 4.5: Architettura funzionale del sistema per la percezione di espres-
sioni affettive. Lo schema astrae dai dettagli neurobiologici rappresentati
nell’architettura neurale di Figura 4.2, ponendo tuttavia in evidenza le re-
lazioni funzionali. Le frecce 1 → 2 → 3 → 4 e 6 → 5 → 4 indicano
proiezioni in avanti o “forward”, da bassi livelli di elaborazione (bottom-
up); 1 ← 2 ← 3 ← 4 e 6 ← 5 ← 4 denotano proiezioni “backward”,
dall’alto verso il basso (top-down). Si noti come il sistema percettivo intera-
gisca con un sistema esteso che coinvolge i sottosistemi emozionali (riquadro
punteggiato) e cognitivi di alto livello. L’interazione è guidata attraverso
la mediazione visuomotoria di una componente per la percezione dell’azio-
ne. Quest’ultima trasforma l’informazione visiva dell’azione facciale nella
rappresentazione somatomotoria interna all’osservatore. Parallelamente l’at-
tivazione della via visuomotoria innesca la reazione visceromotoria attraverso
la mediazione dello spazio affettivo centrale (core affect). Da lı̀ in poi il loop
di simulazione interna evolve nel tempo per supportare il processo di percezio-
ne affettiva. Le linee grigie tratteggiate distinguono i vari livelli di controllo
gerarchico del processo.
59
Figura 4.6: Percezione di un agente artificiale e conseguente risposta emotiva
ambiti, come i colori, le espressioni del viso e i volti familiari.

Tornando al linguaggio, il ruolo delle categorie fonetiche relativamente alle
vocali è più controverso. La percezione delle vocali, infatti, appare più come
un continuo che come un insieme di categorie separate. Tale continuo, tut-
tavia, mostra una caratteristica particolare che Kuhl e i suoi colleghi hanno
denominato effetto del magnete percettivo [42].
Il concetto è che i prototipi dei suoni della lingua nativa “attirano” verso
di sé suoni parlati simili, riducendo la possibilità di discriminarli. Lo spazio
percettivo quindi si concentra in prossimità dei prototipi mentre si espande
ai confini tra le categorie.
Feldman e i suoi colleghi hanno utilizzato un modello Bayesiano per spiegare
il motivo di tale fenomeno, che indicano come la conseguenza della soluzione
ottimale al problema statistico della percezione di un segnale affetto da ru-
more [43].
Obiettivo di chi ascolta, nel percepire un suono parlato, è quello di recuperare
i dettagli fonetici della “produzione target” di chi parla, cioè quello che chi
parla ha in testa quando pronuncia un suono parlato o analogamente quel-
lo che pronuncia ma scevro da rumore. L’ascoltatore deduce questo target
utilizzando le informazioni che sono a sua disposizione dal segnale vocale e
dalla sua precedente conoscenza delle categorie fonetiche.
Le categorie fonetiche sono definite nel modello come distribuzioni di suo-
ni parlati. Quando chi parla produce un tale suono, sceglie una categoria
fonetica e quindi articola un suono da quella categoria. All’interno della ca-
60
tegoria fonetica può utilizzare una specifica scelta di suoni per trasmettere
anche informazioni affettive o di altro tipo. Poiché ci sono diversi fattori
che potrebbe voler trasmettere, e dato che ogni fattore può causare picco-
le fluttuazioni acustiche, assumiamo che la combinazione di questi fattori si
avvicini ad una distribuzione gaussiana. Le categorie fonetiche nel modello
sono quindi distribuzioni gaussiane dei suoni vocali target.
Da parte sua chi ascolta percepisce un suono modificato a causa di vari tipi
di rumore (articolatorio, acustico e percettivo). La combinazione di questi
fattori viene approssimata attraverso un rumore gaussiano, in modo che il
suono ascoltato sia normalmente distribuito attorno alla produzione target di
chi parla. Formulata in questo modo, la percezione di suoni parlati diventa
un problema di inferenza statistica.
Senza alcuna informazione preventiva sulle categorie fonetiche, la percezione
degli ascoltatori dovrebbe essere imparziale, dato che i suoni del discorso,
affetti da rumore distribuito in modo normale, hanno la stessa probabilità di
essere spostati in entrambe le direzioni. In questo caso, la strategia più sicu-
ra per chi ascolta è quella di indentificare la produzione target con il suono
che hanno sentito. Tuttavia, gli ascoltatori esperti sanno che è più probabi-
le sentire suoni vicini ai centri delle categorie fonetiche rispetto a suoni più
lontani. Il modo ottimale di utilizzare la conoscenza delle categorie fonetiche
per compensare un segnale vocale rumoroso è quindi quello di distorcere la
percezione verso il centro di una categoria, cioè verso le produzioni target
più probabili.
(
a) (
b)
S
timol
oper
cepi
to S
timol
oper
cepi
to
Figura 4.7: Relazioni previste tra spazio acustico e spazio percettivo in caso
di (a) una categoria e (b) due categorie. Adattamento da [43]
In un ipotetico linguaggio con una sola categoria fonetica questa distorsione

farà sı̀ che tutto lo spazio percettivo si restringa verso il centro della catego-
ria. Il modello percettivo risultante è mostrato nella Figura 4.7 (a).
Nel caso (realistico) di più categorie, chi ascolta deve determinare a quali di
queste può verosimilmente appartenere il suono ascoltato. A quel punto può
inferire il suono target di chi ha parlato sulla base della struttura delle catego-
61
rie individuate. Se è certo della categoria, la percezione del suono dovrebbe
essere attirata verso la sua media, come nel caso dell’ipotetico linguaggio
precedente. Ciò concentra lo spazio percettivo delle aree non ambigue. In
caso contrario, l’ascoltatore dovrà considerare tutte le categorie che avreb-
bero potuto generare il suono, pesandone però l’influenza con la probabilità
che il suono venga da quella categoria. Questo assicura (nel caso di uguale
frequenza e varianza) che le categorie vicine abbiano peso maggiore rispetto
a quelle lontane.
La percezione di un suono esattamente al confine tra due categorie verrà
spinta contemporaneamente verso le loro medie, annullando una l’effetto del-
l’altra. La percezione di un suono vicino al confine, sarà spinta verso la me-
dia più prossima, ma l’effetto verrà mitigato dall’altra categoria. Lo schema
percettivo per il caso di due categorie è mostrato in Figura 4.7 (b).
Lo schema di distorsione percettiva individuato dal modello risulta qualita-
tivamente simile all’effetto del magnete percettivo. I suoni parlati vicini ai
centri delle categorie si proiettano nello spazio percettivo in maniera serra-
ta, e ciò si accorda con l’equivalenza acquisita nella lingua madre all’interno
di una categoria. I suoni vicini ai confini tra le categorie vengono mappati
in modo più distanziato, e questo è consistente con la maggiore capacità di
distinguere tra categorie.
Possiamo formalizzare il modello nei termini di un modello generativo Baye-
siano, rappresentato nel modello grafico probabilistico (PGM, Probabilistic
Graphical Model) di Figura 4.8 dove vengono utilizzate le seguenti variabili
aleatorie (per semplicità notazionale nel seguito non utilizzeremo la distin-
zione, più corretta, fra variabile aleatoria X e la realizzazione della variabile
aleatoria X = x):
• c: la categoria da cui può essere campionato uno stimolo di interesse
(target), necessariamente una variabile aleatoria discreta;
• T : lo stimolo target (ideale);
• S: lo stimolo target effettivamente osservato, ovvero T affetto/corrotto
da rumore (“interno” al percettore e/o “esterno”, dipendente dalle
condizioni di osservazione);
Il PGM di Figura 4.8 formalizza il problema definendo la probabilità con-
giunta p(S, T, c) mediante la seguente fattorizzazione:
p(S, T, c) = p(S|T, c)p(T |c)p(c) = p(S|T )p(T |c)p(c) (4.1)
dove p(S|T ) rappresenta il processo di generazione dello stimolo a partire dal

target (ovvero il rumore), p(T |c) la generazione del target dalla categoria, e
p(c) la probabilità a priori del percettore sulle categorie adottate.
62
Figura 4.8: Un modello generativo per il percettore Bayesiano ottimo
A partire dall’Equazione 4.1 è possibile in linea di principio, mediante la re-

gola di Bayes, risolvere il problema percettivo di inferire lo stimolo target T ,
da quello affetto da rumore S, ovvero determinare la distribuzione p(T |S, c).
A tale scopo è necessario specificare le probabilità condizionate p(S|T ) e
p(T |c) che nel seguito si assumono distribuite con legge normale N (µ, σ 2 ).
Consideriamo quindi un generico stimolo S affetto da rumore con varianza
del rumore σS2 , un target T e una categoria c con varianza σc2 .
Nel caso specifico della percezione del linguaggio, S corrisponde al suono
percepito dall’ascoltatore, σS2 alla varianza relativa al rumore articolatorio,
acustico e percettivo del suono, T è il suono target, c le categorie fonetiche e
σc2 la varianza all’interno della categoria c.
Ci basiamo su di un modello generativo in cui T è estratto da una categoria
c distribuita normalmente con media µc :
T |c ∼ N (µc , σc2 ) (4.2)
63
Il segnale percepito non è direttamente T ma S, affetto da rumore, ed è di-
stribuito normalmente intorno alla produzione target con varianza σS2 :
S|T ∼ N (T, σS2 ) (4.3)
Possiamo notare che, integrando su T , abbiamo:
S|c ∼ N (µc , σc2 + σS2 ) (4.4)
cioè gli stimoli osservati sono distribuiti normalmente intorno alla media del-
la categoria µc con varianza che è uguale alla somma della varianza della
categoria (σc2 ) e di quella del rumore (σS2 ).
A questo punto possiamo usare l’inferenza Bayesiana per ricostruire il segna-
le target dal segnale con rumore.
Iniziamo dal caso di un’unica categoria, ovvero assumiamo con certezza

p(c) = 1.
Dobbiamo inferire la produzione target T dato lo stimolo S e la categoria c.
A partire dall’Equazione 4.1, utilizzando la regola di Bayes:
p(T |S, c) ∝ p(S|T )p(T |c) (4.5)
La distribuzione p(S|T ) (likelihood), data dall’intervento del rumore (equa-

zione 4.3), assegna la maggiore probabilità a S. Il belief a priori p(T |c), dato
dalla struttura della categoria (equazione 4.2), assegna la maggiore probabi-
lità alla media della categoria.
La parte destra dell’equazione 4.5 può essere semplificata portando a una
distribuzione normale (vedi Appendice B):
σc2 S + σS2 µc σc2 σS2

p(T |S, c) = N , 2 (4.6)
σc2 + σS2 σc + σS2
che è la distribuzione di probabilità a posteriori, la cui media è compresa tra

lo stimolo S e la media della categoria µc .
Il valore atteso di T è dunque la media della distribuzione:
64
σc2 S + σS2 µc
E[T |S, c] = (4.7)
σc2 + σS2
Data una categoria, la soluzione ottimale al problema statistico di inferire

una produzione target, prodotta da una Gaussiana, da un segnale affetto da
rumore, distribuito normalmente intorno al target, è la media ponderata del
segnale e della media della categoria. Il peso è determinato dal rapporto
della varianza della categoria e di quella del rumore.
Questa equazione formalizza il concetto del magnete percettivo: la media del-
la categoria µc attira la percezione del segnale verso il centro della categoria,
concentrando attorno ad essa lo spazio percettivo (Figura 4.7 (a)).
Nel caso generale di più categorie, una volta percepito uno stimolo, dob-
biamo considerare la probabilità che arrivi da una certa categoria utilizzando
la regola di Bayes:
p(S|c)p(c)
p(c|S) = P (4.8)
c p(S|c)p(c)
dove p(S|c) è data dall’equazione 4.4 e p(c) è la probabilità a priori della

categoria c.
Per calcolare la probabilità a posteriori, sommiamo sulle categorie:
X
p(T |S) = p(T |S, c)p(c|S) (4.9)
c
Il primo termine a destra è dato dalla Gaussiana 4.6, mentre il secondo dal-
l’equazione 4.8.
La distribuzione a posteriori p(T |S) è quindi una miscela di Gaussiane, e
ognuna di esse rappresenta la soluzione per una singola categoria. Restrin-
gendo l’analisi a categorie con uguale varianza σc2 , la media della distribuzione
a posteriori risulta essere (vedi Appendice B):
X σc2 S + σS2 µc
E[T |S] = p(c|S) 2 (4.10)
c
σc + σS2
65
avendo le categorie uguale varianza σc2 , possiamo riscriverla come:
σc2 σS2 X
E[T |S] = 2 S+ 2 p(c|S)µc (4.11)
σc + σS2 σc + σS2 c
L’equazione 4.11 fornisce la soluzione nel caso di più categorie. Tale soluzione
è una media ponderata dello stimolo S e delle medie µc di tutte le categorie
che potrebbero aver prodotto S. Quando siamo certi della categoria, questa
equazione si riduce alla 4.7, e la percezione di S è distorta verso la media
della sua categoria.
Tuttavia, quando S si trova al confine tra due categorie, la soluzione ottimale
è influenzata da entrambe le loro medie, ognuna delle quali indebolisce l’ef-
fetto dell’altra. Il concentramento dello spazio percettivo è quindi maggiore
dove la categoria è certa (nel suo centro), e più debole ai confini (Figura 4.7
(b)).
Qualitativamente, l’effetto del magnete percettivo emerge dunque come so-
luzione ottimale al problema della percezione di un segnale affetto da rumo-
re.
4.2 Bukimi no tani: il problema dell’Uncan-

ny Valley
Nel 1970 Masahiro Mori, professore di robotica presso l’Istituto di Tecnologia
di Tokyo, scrisse un saggio dal titolo “Bukimi no tani” [44].
Lo scritto trattava delle reazioni suscitate nelle persone dai robot e dagli
artefatti a imitazione delle caratteristiche umane in genere, e in particolare
del fatto che, aumentando la similitudine a tali caratteristiche, il senso di af-
finità aumenta fino ad un punto critico in cui la reazione passa dall’empatia
a un senso di sgradevolezza che precipita in un minimo, il bukimi no tami
appunto.
Nella prima traduzione inglese il concetto venne reso come “The Uncan-
ny Valley” (la valle misteriosa, sconcertante), e tale rimase essendo entrato
nel vocabolario scientifico, anche se uno dei traduttori, Karl MacDorman, di-
chiarò che era stata una prima definizione approssimativa. Più esatto sarebbe
stato parlare di “eeriness” (qualcosa di inquietante, perturbante, sgradevole).
Sebbene le copie del saggio siano circolate tra i ricercatori, una versione in-
glese completa, autorizzata e rivista da Mori apparve solo nel 2012, ad opera
di Karl MacDorman e Norri Kageki [45].
66
Unc
annyv
all
ey Per
sonas
ana
Robotgi
oca
ttol
o
kan)
Ma
rionet
taBunr
aku
n
hiwa
Roboti
ndus
tri
al
e
t
Affini S
à(
S
imi
l
itudi
neuma
na
Ma
nopr
otes
ica
Figura 4.9: Uncanny valley. Adattamento da [45]
Nella sua analisi Mori parte dai robot industriali, che possono magari esten-
dere, contrarre o ruotare un braccio ma che non hanno alcuna similitudine
esteriore con un essere umano. Questo fa sı̀ che difficilmente le persone
sentano familiarità nei loro confronti. Se li si individuasse su un grafico di
“affinità”, si troverebbero quindi vicino all’origine (Figura 4.9). D’altra par-
te, obiettivo di chi li progetta è la funzionalità.
Diverso è il discorso per un robot giocattolo, in cui l’aspetto è fondamentale.
Inizierà ad avere una qualche somiglianza con gli esseri umani, probabilmente
con un viso, due braccia e due gambe. I bambini sembrano provare attacca-
mento per robot di questo genere. In Figura 4.9 si troveranno quindi a più
di metà strada tra l’origine e il primo massimo.
Mori passa quindi a considerare gli arti artificiali, prendendo come esempio
la mano. Già nel 1970 erano disponibili protesi che assomigliavano molto a
una vera mano, simulando a volte pieghe della pelle, unghie, vene e perfino
impronte digitali. Si potrebbe quindi pensare che una tale protesi salga nel
grafico di “affinità”. Invece non è cosı̀. Pensando di stringere una mano di
questo genere probabilmente saremmo a disagio per la sua presa senza ossa,
la sua consistenza e la sua freddezza, perdendo il senso affinità, e la mano
diventerebbe “perturbante”. In termini matematici, questo può essere rap-
presentato da un valore negativo. Pertanto, in questo caso, l’aspetto della
mano protesica è abbastanza simile a quella umana, ma il livello di affinità è
negativo, e si posiziona vicino al fondo dell’uncanny valley nella Figura 4.9.
67
Viceversa, le marionette Bunraku 1 sono poco realistiche considerando l’altez-
za, l’aspetto della pelle eccetera. Tuttavia, vedendole muoversi in teatro da
una certa distanza, le reali dimensioni perdono importanza e il loro aspetto
totale, inclusi i movimenti delle mani e degli occhi, risulta vicino a quello di
un essere umano. E in effetti normalmente gli spettatori provano per loro un
alto grado di affinità.
Se oltre all’aspetto si pensa al movimento, il grafico si modifica (Figura 4.10)2 .
Il movimento è una caratteristica fondamentale per gli esseri viventi, e quindi
i
n Unc
annyv
all
ey Per
sonas
ana
movi
ment
o
f
ermi
Robotuma
noi
de Per
sonama
lat
a
n)
e
a
t
mor
k
Ma
rionet
taBunr
aku
wa
Ani
ma l
e
n
hi
Roboti
ndus
tri
aei
l mbal
samato
S
à(
Ma
scheaOk
r ina
t
Affini
Bambol
a
S
imi
l
itudineumana
MascheaY
r as
eOt
oko Ma
nopr
otes
ica
Ma
nomi
oel
ett
ri
ca
Zombi
Figura 4.10: Uncanny valley nel caso statico e dinamico. Adattamento da

[45]
anche per gli artefatti che li imitano. Se spegniamo l’interruttore, il robot

industriale diventa un qualsiasi macchinario sporco di grasso. Quando è in
funzione, i suoi movimenti potranno invece ispirarci un minimo di affinità.
Al lato opposto, quando la mano artificiale inizia a muoversi, il senso di
sgradevolezza si intensifica: già in quegli anni erano in commercio protesi di
mano mioelettriche, in grado cioè di sfruttare le deboli correnti bioelettriche
generate dall’attività muscolare per compiere movimenti. Facilmente, veden-
do muoversi una di queste mani, proveremmo un forte senso di inquietudine.
1
Bunraku è una forma tradizionale giapponese di teatro delle marionette. Queste so-
no in genere alte circa un metro, hanno costumi elaborati e vengono controllate da tre
burattinai vestiti di nero.
2
La maschera Yase Otoko raffigura il volto di un uomo emaciato e rappresenta un
fantasma dall’inferno. La maschera Okina rappresenta un vecchio. Ambedue vengono
utilizzate nel Noh, antica forma di teatro giapponese.
68
In presenza di movimento, quindi, il grafico cambia forma, amplificando
picchi e valli.
Una persona sana è rappresentata nel secondo massimo della curva tratteg-
giata (in movimento). Quando moriamo, non ci muoviamo più e il corpo
diventa freddo. La morte può essere vista come una discesa dal secondo
massimo del grafico tratteggiato (in movimento) al fondo dell’uncanny val-
ley di quello continuo (fermo), come indicato dalla freccia (sperando di non
scendere nell’uncanny valley della curva relativa al movimento...).
Mori pensa che questa discesa aiuti a spiegare il fenomeno da lui individuato.
La sensazione perturbante farebbe parte dall’istinto di conservazione, proteg-
gendoci dai pericoli “vicini”, simili ma diversi da noi, che includono membri
di specie diverse, cadaveri e altre entità con cui potremmo venire in stretto
contatto.
In conclusione il suo augurio è che una più profonda comprensione dell’Un-
canny Valley ci aiuti a capire meglio che cosa ci renda umani e a progettare
agenti artificiali con cui le persone possano relazionarsi piacevolmente.
4.3 Una spiegazione Bayesiana dell’Uncanny

Valley
L’ipotesi dell’uncanny valley suscita da molti anni un grande interesse. Tut-
tavia, gli studi a riguardo sono spesso discordi: alcuni ricercatori hanno fallito
nel trovarne evidenza empirica, altri invece hanno ottenuto risultati positivi.
Secondo Moore [46], queste differenze potrebbero dipendere dalla poca chia-
rezza riguardo alla quantità che Mori pone nell’asse verticale (shinwakan,
vedi Figura 4.10), come si vedrà in seguito.
Alcune ricerche, inoltre, ipotizzano cause diverse per il fenomeno. Per esem-
pio, è stato suggerito un legame tra “senso di sgradevolezza” e risposte emo-
tive associate alla paura (principalmente paura della morte). Questo spieghe-
rebbe come mai un effetto potenzialmente universale possa essere oscurato
dalle differenze tra reazioni emotive in funzione delle diverse tipologie uma-
ne e delle diverse sensibilità. Un’altra possibile spiegazione è che l’uncanny
valley derivi dalla discrepanza tra diversi segnali sensori, e recenti risultati di
risonanza magnetica funzionale (fMRI, functional Magnetic Resonance Ima-
ging) sembrano supportare tale ipotesi. In generale, comunque, i risultati
ottenuti si basano fondamentalmente su ricerche empiriche senza proporne
un modello matematico.
69
Nella sua ricerca Moore ipotizza che l’effetto sia una particolare manifesta-
zione di un fenomeno più generale, in cui la percezione viene distorta dalla
categorizzazione, e amplia il risultato di Feldman precedentemente descritto
[43], per darne una spiegazione anche a livello matematico [46].
Il modello di Feldman rende conto dell’effetto del magnete percettivo, cioè
del fatto che siamo più sensibili alle differenze quando percepiamo segnali che
si collocano ai confini tra categorie. Di per sé questo non illumina riguardo
al senso di sgradevolezza che si prova venendo a contatto con particolari sti-
moli. L’ipotesi di Moore è che, in presenza di uno stimolo che reca segnali
multipli, possa accadere che le distorsioni percettive dei vari segnali indotte
ai confini tra categorie non siano allineate. Questa distorsione differenziale si
manifesterebbe in una sorta di “tensione percettiva”, che a sua volta darebbe
origine al senso di fastidio.
In particolare, il modello ampliato rivela che i conflitti tra segnali si possano
manifestare in differenze tra le medie e le varianze delle relative distribuzioni,
e questo può dare luogo a livelli disuguali di incertezza. Per esempio, un ro-
bot umanoide può sembrare del tutto umano nei tratti del volto, ma piccole
anomalie nel movimento degli occhi possono ingenerare incertezza riguardo a
quel particolare segnale, provocando una tensione percettiva e un certo senso
di inquietudine.
Secondo Moore, per ottenere la curva di Mori (Figura 4.10), è necessario por-
re una categoria che rappresenti la percezione “target” (es.: “umano”) con
media della relativa distribuzione a un estremo del continuum dello stimolo.
Bisogna poi aggiungere una seconda categoria che rappresenti la percezione
di sottofondo (es.: “non umano”), la cui distribuzione si sovrapponga alla
prima.
Per mantenere la monotonicità della curva base di risposta (una funzione
(
a) (
b)
)
)
S
S
(
(
ap
ap
c
ategor
iat
arget c
ategor
iat
arget
nz
nz
e
e
r
r
r
r
o
o
c
c
c
c
o
o
àdi
àdi
c
ategor
iadi
sot
tof
ondo
c
ategor
iadi
sot
tof
ondo
t
f
ami
l
iar
it
à
i
t
i
bil
bil
ba
ba
o
o
r
r
P
f
ami
l
iar
it
à
S
timol
oS S
timol
oS
Figura 4.11: Probabilità di occorrenza di stimoli diversi data una categoria

di “sottofondo” più (a) o meno (b) piatta. Adattamento da [46]
70
crescente che associ bassa/alta familiarità a bassa/alta somiglianza umana),
la distribuzione di sottofondo deve avere un andamento tendenzialmente piat-
to (Figura 4.11 (a)). Se tale distribuzione è meno appiattita, si osserva un
avvallamento verso i confini dello stimolo (Figura 4.11 (b)), che riflette un
certo grado di “non familiarità”, quindi di imprevedibilità, associato allo sti-
molo verso i confini della categoria. Questo avvallamento non può assumere
valori negativi (si tratta di probabilità) e di per sé non rappresenta l’uncanny
valley. È infatti un risultato intermedio che cattura la “familiarità”, che è
solo una parte del “shinwakan” di Mori.
Il modello suggerisce che ci siano due variabili chiave che si relazionano al-
l’asse verticale (“shinwakan”) di Mori: la probabilità globale di occorrenza
di un particolare stimolo e l’eventuale tensione percettiva che può nascere da
segnali discordanti.
Questo modello, oltre a dare conto dell’uncanny valley, risolve anche la confu-
sione rispetto all’asse verticale del grafico di Mori: la “familiarità” è definita
matematicamente come la probabilità di occorrenza di uno stimolo, mentre
“l’affinità” (cioè l’asse verticale di Mori) è definita come una funzione sia
della “familiarità” che della “tensione percettiva”.
Più formalmente. La distorsione prodotta dall’effetto del magnete percetti-

vo lungo una singola dimensione, può essere modellata da una funzione di
“spiazzamento”:
D[S] = E[T |S] − S (4.12)
dove E[T |S] è il valore atteso della produzione target dato lo stimolo S come
individuato da Feldman e colleghi (equazione 4.10) [43].
La funzione di spiazzamento D[S] rappresenta una misura della distorsione
percettiva rispetto alle categorie. Un valore diverso da zero (positivo o ne-
gativo) indica che lo stimolo viene percepito con un valore differente rispetto
al suo valore fisico. Chiaramente, D[S] = 0 indica assenza di distorsione.
Nel caso in cui ci siano stimoli multipli, la distorsione percettiva differenziale
può essere calcolata con:
V [S] = E[D[Si ]2 ] − (E[D[Si ]])2 (4.13)
che misura essenzialmente la varianza tra le distorsioni presenti in ogni sin-

golo segnale. V [S] indica quindi la “tensione percettiva” causata dalle di-
storsioni differenziate di segnali in conflitto. Se i segnali sono concordi nel
71
(
a) (
b)
aVS
[]
c
oni
tt
otr
aisegna
li
v
]
i
cr
esc
ent
e
t
S
t
[
àF
c
re
t
Affini
i
nsonepe
c
oni
tt
otr
aisegna
li
e
cr
esc
ent
e
T
S
timol
oS S
timol
oS
Figura 4.12: Tensione percettiva (a) e affinità (b). Adattamento da [46]
posizionamento rispetto alle categorie, V [S] è uguale a zero per tutti gli S.
In caso contrario, lo stimolo S non è completamente coerente nella posizione
che i segnali che lo compongono assumono rispetto alle categorie stesse.
V [S] quindi aumenta tanto maggiore è il conflitto percettivo. Il modello
ipotizza che la funzione F [S]:
F [S] = p(S) − k · V [S] (4.14)
corrisponda all’asse verticale (shinwakan, “affinità”) di Mori. k è un peso che

riflette la sensibilità di chi percepisce lo stimolo conflittuale. Se k è piccolo
o addirittura uguale a zero, l’osservatore non nota (o non si interessa) se i
segnali sono in conflitto. Viceversa, un alto valore di k implica una marcata
sensibilità a eventuali discordanze. È quindi una proprietà dell’osservatore e
non dello stimolo.
La Figura 4.12 illustra come, al variare dell’incertezza differenziale associata
ai segnali di due dimensioni percettive (per la distribuzione di Figura 4.11
(a)), si modifica la tensione percettiva V [S] (Figura 4.12 (a)) e di conseguenza
il senso di affinità F [S] (Figura 4.12 (b)). Come si può notare, gradi crescenti
di incertezza portano nei pressi dei confini della categoria a un aumento nella
funzione di tensione percettiva e a una diminuzione in quella di affinità, con
valori negativi di quest’ultima nei casi estremi.
La forma del secondo grafico è notevolmente simile al grafico dell’uncanny
valley (Figura 4.10), e la misura dell’affinità risulta corrispondere alla nozione
di “shinwakan” originariamente proposta da Mori.
Un altro aspetto indagato da Mori è l’amplificazione della curva nel caso
di movimento. Probabilmente, la maniera più semplice di spiegare questo
72
fenomeno è il fatto che, nel caso dinamico, l’informazione sulla categoria sia
più chiara. La distribuzione associata ad una categoria target in movimento
sarebbe più concentrata intorno alla media (quindi avrebbe varianza minore)
rispetto al caso statico.
a
rtef
att
ofer
mo
t
Affini [
àFS]
a
rtef
att
oinmovi
ment
o
S
timol
oS
Figura 4.13: Affinità nel caso statico e dinamico. Adattamento da [46]
L’output del modello è raffigurato in Figura 4.13: mantenendo gli altri para-
metri costanti, una diminuzione della varianza della categoria target, deter-
mina maggiore affinità agli estremi della curva e un avvallamento maggiore
nella zona dell’uncanny valley di Mori.
In conclusione, sebbene l’ipotesi originale di Mori (e gran parte della succes-
siva ricerca a riguardo) si sia preoccupata della reazione agli artefatti simili
all’uomo, il modello qui illustrato fornisce un spiegazione matematica più
generale che può illuminare riguardo a una serie di situazioni del mondo rea-
le in cui segnali percettivi contrastanti danno luogo a reazioni negative, di
paura, raccapriccio o addirittura violente. Possiamo leggere da questo punto
di vista il disgusto per il cibo avariato, le reazioni negative a individui che si
distaccano in qualche modo dalla norma, come la paura per i clown ma anche
atteggiamenti di discriminazione e in generale di paura per il “diverso”.
4.4 Un modello per l’Uncanny Valley nell’au-

tismo e per i conseguenti effetti nell’uti-
lizzo di robot terapeutici
Abbiamo visto come il modello di Moore dia una spiegazione del senso di
inquietudine che uno stimolo contraddittorio può suscitare, come nel caso
73
di agenti artificiali (robot, avatar, ecc.) con caratteristiche molto simili agli
esseri umani [46].
D’altra parte, tali agenti sono ormai largamente utilizzati nella terapie per
l’autismo, visto che sembra siano particolarmente graditi ai bambini nello
spettro, e che il loro utilizzo li coinvolga e motivi favorendo l’apprendimento
di abilità sociali, come abbiamo visto nel Capitolo 3. Per esempio, il robot
Kaspar del progetto AuRoRA ([28], Figura 3.9), per tanti versi simile a un
bambino vero, viene spesso percepito come un po’ inquietante da persone
neurotipiche, mentre bambini con autismo hanno risposto ad esso positiva-
mente. Pare quindi che questi bambini non siano turbati dai robot con un
aspetto quasi umano, sebbene si sentano a disagio a interagire con la maggior
parte delle persone.
Uncanny
)
va
ll
e y
a t
ffinià
Aut
is
mo
aemoi
tva(
c
omplet
ament
e compl
eta
ment
e
t
s
a
rtic
ial
e umano
Rs
ipo
Figura 4.14: Uncanny valley nel caso di neurotipicità (blu) e di autismo

(rosso). Adattamento da [47]
Ueyama [47] analizza la questione ipotizzando che gli individui autistici ca-
tegorizzino l’“umano” in maniera differente rispetto agli altri. Studi che
utilizzano la risonanza magnetica funzionale (fMRI) hanno messo peraltro
in luce come queste persone percepiscano gli esseri umani avvalendosi di
processi neurali diversi, per esempio non attivando o solo debolmente l’area
fusiforme dei volti (FFA) normalmente impiegata nel riconoscimento facciale.
Un’ulteriore ipotesi è che, in caso di autismo, l’interazione sociale, definita
come la risposta emotiva alle persone, possa essere migliorata imparando a
classificarle allo stesso modo degli individui neurotipici. Date queste premes-
se, nella sua ricerca adatta il modello Bayesiano di Moore, ipotizzando che
74
la curva dell’affinità nel caso di autismo presenti più un dirupo (cliff ) che
una vallata (Figura 4.14), spostando la zona in cui il grafico inizia a scendere
verso la sgradevolezza dalle parti del “completamente umano”.
L’interazione soggetto autistico/agente sembra quindi più difficile nel caso di
agente naturale, Ueyama ipotizza di conseguenza che la categoria “umano”
sia spostata per queste persone a una posizione estrema (Figura 4.15), au-
mentandone quindi il valore della media.
(
a)Neur
oti
pic
ità (
b)Aut
is
mo
)
)
S
S
àp(
c
ategor
ia
àp(
c
ategor
ia
“
uma no” “
uma no”
t
t
i
i
l
l
bi
bi
ba
ba
Spos
tament
o
o
o
r
r
P
ca
tegor
ia
P
ca
tegor
ia
dis
ott
ofondo dis
ott
ofondo
S
timol
o S
timol
o
Figura 4.15: Probabilità delle categorie percepite nel caso (a) neurotipico e
(b) autistico. Adattamento da [47]
Le categorie percettive sono considerate innate, tuttavia i loro confini possono

modificarsi tramite apprendimento. Il processo può avvenire tra le categorie
o all’interno di una singola categoria e può essere descritto come espansione
o compressione categorica rispettivamente.
Dato che l’ampiezza dei confini delle categorie è determinata dalla varianza,
si assume che la varianza della categoria “umano” possa aggiornarsi tramite
esperienze di umanità percepita attraverso l’interazione con robot terapeuti-
ci.
Per fornire evidenza computazionale all’ ipotesi, Ueyama presenta una simu-
lazione numerica di un processo terapeutico di apprendimento. Il modello di
partenza è appunto quello di Moore, in cui sono presenti due categorie (c1 =
“non umano” e c2 = “umano”) e lo stimolo percepito è Sp , che coinvolge due
tipi di segnali (S1 e S2 ). La risposta emotiva complessiva è definita come
combinazione lineare dei segnali S1 e S2 :
75
Y [S1 , S2 ] = β · F [S1 ] + (1 − β) · F [S2 ], (4.15)
dove F [S] è la funzione “affinità” definita dall’equazione di Moore 4.14 e β il

tasso di attenzione posto nel caso più generale (ovvero di indeterminazione
a priori del valore dello stimolo) al valore di β = 0.5. È importante notare
come il parametro β formalizzi sinteticamente il comportamento attentivo del
percettore, e nel contempo, tramite l’equazione 4.15, ne moduli la risposta
emotiva complessiva.
Nel processo l’aggiornamento avviene iterativamente ad ogni prova secondo
la regola di apprendimento:
(σc(k+1)
2
)2 = (σc(k)
2
)2 + γ · p(c2 |Sp )[(Sp − µc2 )2 − (σc(k)
2
)2 ] (4.16)
dove k è il numero della prova, Sp lo stimolo presentato e γ un parametro di

apprendimento proporzionale alla risposta emotiva:
γ = δ · Y [S1 , S2 ] (4.17)
δ è un paramentro di scala posto a 0.1. Si assume quindi che il processo

di apprendimento dipenda dalla risposta emotiva: nel caso Y [S1 , S2 ] diventi
positiva l’apprendimento è favorito, al contrario inibito.
La probabilità a posteriori p(c2 |Sp ) rappresenta l’effetto dello stimolo presen-
tato Sp sulls categoria umana percepita c2 , e viene definita come combina-
zione lineare dell’effetto dei due segnali S1 e S2 , in modo simile all’equazione
4.15:
p(c2 |Sp ) = β · p(c2 |S1 ) + (1 − β) · p(c2 |S2 ) (4.18)
La ricerca simula quindi numericamente un processo terapeutico assistito da

robot per esaminarne le conseguenze sulla risposta emotiva. L’effetto del-
l’uncanny valley è riprodotto prevedendo il comportamento autistico con lo
spostamento a destra della categoria “umano”, come si può vedere grafica-
mente in Figura 4.16. La media della categoria è posta al valore di µc2 = 1
nel caso neurotipico e di µc2 = 1.25 nel caso di autismo. È evidente come
76
Figura 4.16: Previsioni dell’effetto dell’Uncanny valley secondo il modello
di Moore. Risposta emotiva in funzione dello stimolo e della media della
categoria “umana”, a sinistra rappresentata tridimensionalmente e a destra
attraverso i colori su superficie piana. Adattamento da [47]
l’uncanny valley nell’autismo slitti di conseguenza.

Lo stimolo presentato Sp è definito come impressione visiva del robot
terapeutico e può assumere valori da 0 (completamente machine-like) a 1
(completamente human-like).
La categoria “umano” (la sua varianza) è risultata influenzata dagli stimoli
compresi tra 0.25 e 0.5 nel caso neurotipico (Figura 4.17 (a)), mentre tra 0.5
e 0.8 nel caso di autismo (Figura 4.17 (b)). In entrambi i casi, la varianza
indotta è maggiore per i valori minori degli stimoli efficaci (Figura 4.17 (c)).
Osservando le curve relative all’uncanny valley (caso neurotipico) e all’un-
canny cliff (caso autistico) nel corso delle prove, si nota che, per certi parti-
colari stimoli, gli avvallamenti gradualmente diminuiscono di profondità fino
a scomparire dopo 500 prove (Figura 4.18).
Nel caso neurotipico, ciò avviene quando lo stimolo presentato Sp è com-
preso tra 0.25 e 0.5. Questo risultato può indicare un effetto “abitudine”, e
realmente il background delle persone può influenzare notevolmente la perce-
zione dell’uncanny valley. Chi ha dimestichezza con computer grafica e robot
probabilmente è meno turbato dall’aspetto umano di un artefatto.
Nel caso di autismo, lo stimolo presentato si è rivelato efficace se compreso
tra 0.5 e 0.8. In questo range, normalmente si cade nell’uncanny valley, non
però nel caso di autismo. L’ipotesi è che una terapia di questo tipo possa
quindi risultare benaccetta dalle persone nello spettro e che sia in grado di
indurre adattamento alle categorie percettive e, di conseguenza, modificare
le risposte emotive generate dall’uncanny cliff, nella direzione di una migliore
interazione sociale.
77
(
a)Neur
oti
pic
ità (
c)
mo
pii
ct
i
Auts
ti
p
o
2
oS
2
2
a c2
ac
ur
o
t
nz
nz
Ne
l
a
mo
nt
a
a
i
i
r
r
i
e
a
t
a
s
V
S
V
e
pr
n°pr
ova S
timol
opr
esent
atoSp
n°pr
ova
(
b)Aut
is
mo
oSp
2
a c2
o
t
nz
l
a
mo
nt
i
ra
i
e
t
s
a
S
e
V
pr
n°pr
ova
n°pr
ova
Figura 4.17: Effetti della terapia assistita da robot sulla varianza per la
categoria umana: (a-b) a sinistra in funzione del numero di prove e degli
stimoli presentati, a destra le curve di apprendimento per alcuni degli stimoli
presentati: (a) nella condizione tipica e (b) nella condizione di autismo. (c)
I valori finali della varianza appresa dopo 500 prove rispetto allo stimolo
presentato. Adattamento da [47]
(
a) (
b)
)
)
à
à
t
t
ffini
pr
ove
ffini
a
a
a(
a(
v
v
i
i
t
t
mo
mo
ae
ae
t
t
s
s
po
po
s
s
i
pr
ove
R
S
timol
o S
timol
o
Figura 4.18: Esempi di curve Stimolo/Risposta emotiva dopo diverse quan-

tità di prove nel caso (a) neurotipico, con uno stimolo presentato Sp = 0.4 e
(b) autistico, con uno stimolo presentato Sp = 0.7. Adattamento da [47]
78
Conclusioni
Una delle caratteristiche principali del disturbo dello spettro autistico (ASD)
è la problematicità dell’interazione sociale, specialmente nell’elaborazione
delle informazioni emotive.
Robot e altri agenti artificiali, che possiamo genericamente classificare nel
campo della computazione affettiva, vengono sempre più utilizzati per in-
centivare nei bambini con autismo l’apprendimento di attività di attenzione
e comunicazione reciproche, in considerazione del fatto che sembrano eser-
citare su di essi una grande attrattiva e suscitare meno ansia rispetto agli
agenti umani. Gli studi a riguardo sono numerosi, e anche in questa tesi ne
abbiamo presentati alcuni [22; 23; 28; 30], tuttavia i risultati, benché inte-
ressanti, sono ancora frammentari, basandosi su ricerche limitate nel numero
dei partecipanti e nel tempo e soprattutto compiendo valutazioni euristiche
dell’efficacia di tali interventi difficilmente generalizzabili.
La tesi si è quindi proposta di individuare, nei limiti della complessità del
problema, un quadro teorico entro cui formalizzare le caratteristiche cognitive
e le modalità di interazione del soggetto autistico, fornendo evidenza com-
putazionale alla valutazione delle terapie assistite da agenti artificiali per i
bambini nello spettro autistico.
I principali risultati ottenuti sono riassumibili come segue.
1. Il primo consiste nell’individuazione di un approccio Bayesiano, tipi-
camente non considerato nella computazione affettiva, ai meccanismi
alla base della complessa sintomatologia autistica [12]. Tale approccio
risulta utile in generale per formalizzare le interazioni tra il sistema
neurale e gli stimoli che vengono dall’esterno, tramite l’utilizzo di un
modello generativo inferenziale.
Nel caso specifico, le difficoltà comportamentali, cognitive e percettive
inerenti all’autismo sono lette nei termini di una costante supervaluta-
zione degli input sensoriali (bottom-up) e di modelli interni (top-down)
dell’ambiente esterno vaghi e imprecisi. Queste caratteristiche deter-
80
minano incertezza nella comprensione razionale ed emotiva del mondo
che ci circonda. Le altre persone appaiono difficili da decifrare e cosı̀ le
interazioni sociali si fanno problematiche. Dall’altra parte la routine,
gli input chiari e prevedibili cosı̀ come i comportamenti stereotipati so-
no percepiti come rassicuranti.
2. Entrando più nello specifico dell’interazione diadica con un agente arti-

ficiale (robot, avatar, ecc.), abbiamo identificato la questione dell’“uncanny
valley” come possibile framework entro cui modellare la reazione emo-
tiva all’agente e valutare formalmente l’efficacia dell’interazione.
Tale questione, introdotta per la prima volta nel 1970 da Masahiro Mori
[44], descrive la sensazione di inquietudine suscitata da un agente arti-
ficiale quando quest’ultimo si presenta con caratteristiche di “umanità”
molto accentuate. La curva dell’“affinità” (shinwakan in giapponese),
in funzione del grado di “umanità”, risulta crescente fino a un punto
critico in cui precipita in un minimo, l’uncanny valley appunto (bukimi
no tani), per poi risalire ad un massimo assoluto in presenza di un es-
sere umano. Sperimentalmente, si è osservato che molti bambini nello
spettro autistico non percepiscono la zona normalmente dell’uncanny
valley come sgradevole, mentre sono a disagio a interagire con la mag-
gior parte delle persone.
3. Per modellare queste situazioni, abbiamo proseguito nell’utilizzo del-

l’inferenza Bayesiana. Il percorso logico è partito dal modello del per-
cettore Bayesiano ottimo di Feldman [43], che formalizza la classifi-
cazione in categorie delle percezioni, definendone matematicamente la
soluzione ottima.
Con Moore [46] abbiamo esteso poi il modello per includere il fenomeno
dell’uncanny valley. L’ipotesi alla base del suo studio è che, in presenza
di uno stimolo che reca segnali multipli, possa accadere che le distorsio-
ni percettive dei vari segnali indotte ai confini tra categorie non siano
allineate, causando una tensione percettiva che darebbe origine al senso
di fastidio. Viene quindi definita una funzione di spiazzamento come
differenza tra il valore atteso della produzione target dato un segnale
e il segnale stesso, e una funzione di distorsione percettiva differenzia-
le (tensione percettiva) che misura essenzialmente la varianza tra gli
spiazzamenti presenti in ogni singolo segnale. Quest’ultima è utilizzata
infine per ridefinire l’asse verticale del grafico dell’uncanny valley (shi-
nwakan) come differenza tra la probabilità di occorrenza di uno stimolo
(familiarità) e la tensione percettiva che esso provoca pesata dalla sen-
sibilità del percettore.
81
4. Tornando al percettore autistico, abbiamo utilizzato il modello di Ueya-
ma [47] che ipotizza che la curva dell’affinità, nel caso di autismo, pre-
senti più un dirupo (cliff ) che una vallata (valley), spostando la zona
in cui il grafico inizia a scendere verso la sgradevolezza dalle parti del
“completamente umano”. Adattando il modello Bayesiano di Moore,
Ueyama propone una simulazione numerica di un processo terapeuti-
co iterativo di apprendimento supportato da un agente artificiale per
esaminarne gli effetti sulla risposta emotiva. Ad ogni iterazione, cioè
interazione teorica con l’agente, la varianza della categoria “umano”
interna al percettore viene aggiornata. L’idea è che, presentando sti-
moli adeguati, la terapia induca adattamento alle categorie percettive,
e di conseguenza modifichi le curve della risposta emotiva. I risulta-
ti della simulazione indicano che, nel caso di autismo, questo avviene
per agenti (stimoli) simili agli esseri umani, normalmente percepiti co-
me “uncanny”. Robot e altri agenti “quasi umani” paiono quindi utili
candidati nelle terapie per l’autismo.
Gli esempi di studi nel campo dell’interazione tra agenti artificiali e soggetti
autistici sono ormai numerosi. Come si è detto, le relative valutazioni del-
l’efficacia seguono normalmente un percorso euristico. Un approccio come
quello suggerito in questa tesi potrebbe integrarsi in modo vantaggioso con
tali ricerche, non solo nelle valutazioni finali, ma anche e forse principalmente
nella progettazione degli agenti e dei protocolli terapeutici.
Le problematiche relative all’autismo sono molte e complesse, e non bisogna
neanche dimenticare i punti di forza di questa atipicità neurologica. Una più
stretta collaborazione tra computazione affettiva, ricerche sul campo, neu-
roscienze, modelli computazionali e anche persone nello spettro potrà forse
essere positiva per tutti.
82
Appendice A
Inferenza Bayesiana
Consideriamo una quantità x e la distribuzione p(x) che descrive il nostro

belief sui valori attesi di x. Se osserviamo un nuovo dato y connesso a x,
possiamo aggiornare il nostro belief su x tramite l’inferenza Bayesiana.
La distribuzione di probabilità p(y|x) (likelihood) specifica la probabilità di
osservare y dato x. Dopo aver osservato un nuovo dato y, il nostro belief ag-
giornato riguardo a x è dato dalla distribuzione a posteriori p(x|y). Possiamo
calcolare tale distribuzione tramite la regola di Bayes:
p(y|x)p(x)
p(x|y) = (A.1)
p(y)
Il denominatore p(y) assicura che p(x|y) sommi 1 su tutti i possibili valori di

x (quindi sia una distribuzione di probabilità). Marginalizzando può essere
scritto come:
Z
p(y) = p(y|x)p(x)dx (A.2)
Wolpert e Ghahramani [48] usano il gioco del tennis come esempio.

Immaginiamo di dover rispondere al servizio dell’avversario. Per prepararci a
ribattere dovremo stimare la posizione x della pallina quando toccherà terra.
Possiamo farlo usando semplicemente la traiettoria y della pallina, cercando
il valore di x che massimizzi la probabilità p(y|x) (stima della massima ve-
rosimiglianza).
84
Figura A.1: Stima della posizione della pallina quando toccherà terra. In
rosso la distribuzione likelihood p(y|x), in blu il belief a priori p(x). Il belief
a posteriori è rappresentato dall’ellissi bianca con la pallina al centro a indi-
care la stima di massima verosimiglianza. Tale stima può essere aggiornata
tramite una nuova informazione sulla traiettoria (pallina gialla). Da [49]
È anche possibile stimare l’incertezza di tale stima e queste due quantità

daranno luogo alla distribuzione likelihood (in rosso in Figura A.1).
Prima che l’avversario colpisca, possiamo già avere un’idea di dove manderà
la pallina. Se per esempio batte da destra, tenderà a direzionarla lungo la
linea. Possiamo indicare tale belief con la distribuzione a priori p(x) (in blu
in Figura A.1).
Possiamo trovare la distribuzione a posteriori p(x|y) tramite la regola di
Bayes che combina in modo ottimale la conoscenza a priori (“lungo la linea”)
con il dato sensibile (informazione visuale della traiettoria). Il massimo di
tale distribuzione sarà la nostra migliore stima del punto in cui la pallina
toccherà terra.
Man mano che vediamo avanzare la pallina verso di noi, possiamo aggiornare
la nostra stima applicando la regola di Bayes in modo ricorsivo:
p(yn |xn )p(xn |Yn−1 )

p(xn |Yn ) = (A.3)
p(Yn )
dove Yn = {y1 , y2 , ..., yn } rappresenta le osservazioni fino al tempo n. Il no-

stro belief a priori, cioè prima di osservare yn , è il belief a posteriori dopo
85
Figura A.2: Esempio di regola di Bayes per le gaussiane. Da [49]
aver osservato tutti i dati fino al momento n − 1, p(xn |Yn−1 ).
A.1 Gaussiane
Se le variabili casuali x e y sono distribuite in modo normale, l’inferenza
Bayesiana assume forme semplici. È conveniente usare la variabile casuale
precisione definita come l’inverso della varianza.
Data una distribuzione gaussiana a priori con media µ0 e precisione λ0 e
una distribuzione gaussiana likelihood con media µL e precisione λL , la
distribuzione a posteriori sarà una gaussiana con media µ e precisione λ:
λ0 λL
µ= µ0 + µL λ = λ0 + λL (A.4)
λ λ
quindi le precisioni si sommano e anche le medie ma pesate dalle relative

precisioni, come illustrato nell’esempio di Figura A.2: la distribuzione a priori
p(x) (blu) ha media µ0 = 20 e precisione λ0 = 1, la likelihood p(y|x) (rossa)
ha media µL = 25 e precisione λL = 3. La distribuzione a posteriori p(x|y)
(viola) risulta quindi avere media µ = 23, 75 e precisione λ = 4. È più vicina
alla likelihood perché quest’ultima ha precisione maggiore.
86
Figura A.3: Esempio di Grafo Aciclico Diretto (DAG). Da [49]
A.2 Modelli generativi

Se al posto di un’unica variabile nascosta x e di un unico dato osservato y
avessimo più in generale variabili multiple, potremmo rappresentare le rela-
tive relazioni tramite modelli generativi probabilistici e modelli grafici asso-
ciati. Nel caso di assenza di cicli si parla di Grafi Aciclici Diretti (Directed
Acyclic Graphs DAGs).
La probabilità congiunta di tutte le variabili x = [x1 , x2 , ..., xn ] può essere
scritta come:
n
Y
p(x) = p(xk |pa[xk ]) (A.5)
k=1
dove pa[xk ] sono i genitori (parents) di xk .

Nell’esempio di Figura A.3 abbiamo:
p(x) = p(x1 )p(x2 )p(x3 |x1 )p(x4 |x1 , x2 )p(x5 |x4 ) (A.6)
Le probabilità delle singole variabili possono essere ottenute tramite margi-

nalizzazione, per esempio:
87
ZZZZ
p(x4 ) = p(x1 , x2 , x3 , x4 , x5 ) dx1 dx2 dx3 dx5 (A.7)
In un modello gerarchico del cervello, x4 potrebbe essere l’attività di una

regione cerebrale a un livello alto. Se conoscessimo la variabile x1 (per esem-
pio un input sensorio), la marginalizzazione produrrebbe la distribuzione di
probabilità a posteriori:
ZZZ
p(x4 |x1 ) = p(x1 , x2 , x3 , x4 , x5 ) dx2 dx3 dx5 (A.8)
L’equazione A.8 ci dice come stimare x4 dato l’input sensorio x1 . Un’interes-

sante quantità nell’inferenza Bayesiana è il logaritmo negativo della densità
congiunta:
E(x) = − log p(x) (A.9)
che prende il nome di energia.

Quando la probabilità congiunta assume valori alti, l’energia è bassa. Da-
to che le distribuzioni a posteriori sono semplicemente densità congiunte
normalizzate, anche valori a posteriori con energia minima hanno massima
probabilità e l’inferenza può essere vista come un processo di minimizzazione
dell’energia.
88
Appendice B
Calcolo del valore atteso del

target nel modello Bayesiano
della percezione
Sviluppiamo in modo esplicito il calcolo del valore atteso E[T |S] utilizzato
in [43].
B.1 Caso di una categoria

Dato un modello generativo dove p(T |c) = N (µc , σc2 ) e p(S|T ) = N (T, σS2 ),
usiamo la regola di Bayes p(T |S, c) ∝ p(S|T )p(T |c) per esprimere la proba-
bilità a posteriori:
(T − µc )2 (S − T )2

1 1
p(T |S, c) ∝ p exp − ×p exp − (B.1)
2πσc2 2σc2 2πσS2 2σS2
Le costanti di normalizzazione possono essere eliminate trattandosi di pro-

porzionalità:
(T − µc )2 (S − T )2

p(T |S, c) ∝ exp − − (B.2)
2σc2 2σS2
89
Svolgendo nell’esponente i quadrati ed eliminando i termini che non dipen-
dono da T otteniamo:
T2 T2

2T µc 2ST
p(T |S, c) ∝ exp − 2 + + − 2 (B.3)
2σc 2σc2 2σS2 2σS
Raccogliendo nell’esponente T 2 e T abbiamo:
2
σc + σS2 2 2(σc2 S + σS2 µc )

p(T |S, c) ∝ exp − T + T (B.4)
2σc2 σS2 2σc2 σS2
che riscritta diventa:
σc2 S+σS2µ
T2 − 2 c
!
2 2
σc +σS
T
p(T |S, c) ∝ exp − σ2 σ2
(B.5)
2 σ2c+σS2
c S
Per completare il quadrato a denominatore nell’esponente, moltiplichiamo

per la costante (la proporzionalità è preservata poiché il nuovo termine non
dipende da T ):
(σc2 S+σS
2 µ )2
c
!
2 2 )2
(σc +σS
exp − σ2 σ2
(B.6)
2 σ2c+σS2
c S
ottenendo:
2
σc2 S+σS2µ
c
T− 2 2
σc +σS
!
p(T |S, c) ∝ exp − σ2 σ2
(B.7)
2 σ2c+σS2
c S
che ha la forma di una Gaussiana con
90
media = varianza = (B.8)
σc2 + σS2 σc2 + σS2
La distribuzione a posteriori risulta quindi essere:

p(T |S, c) = N , 2 (B.9)
σc2 + σS2 σc + σS2
e il valore atteso di T è la media della distribuzione Gaussiana:
σc2 S + σS2 µc
E[T |S, c] = (B.10)
σc2 + σS2
B.2 Caso di più categorie

Per trovare il valore atteso del target T Rdato il segnale S nel caso di più cate-
gorie, utilizziamo la formula E[T |S] =P T p(T |S)dT , dove p(T |S) è calcolata
sommando sulle categorie: p(T |S) = c p(T |S, c)p(c|S).
Il valore atteso diventa:
Z X
E[T |S] = T p(T |S, c)p(c|S)dT (B.11)
c
Possiamo portare T nella sommatoria e scambiare quest’ultima con l’integra-

le:
XZ
E[T |S] = T p(T |S, c)p(c|S)dT (B.12)
c
Dato che p(c|S) non dipende da T , possiamo scrivere:
X Z
E[T |S] = p(c|S) T p(T |S, c)dT (B.13)
c
91
R
dove T p(T |S, c)dT denota il valore atteso E[T |S, c] nel caso di una categoria
(equazione B.10).
Nel caso di più categorie, quindi, il valore atteso risulta:
X σc2 S + σS2 µc
E[T |S] = p(c|S) (B.14)
c
σc2 + σS2
92
Elenco delle figure
2.1 Esempio tipico di illusione percettiva. Adattamento da [15] . . 16

2.2 Inferenza Bayesiana nel cervello. Adattamento da [12] . . . . . 17
2.3 Principi di Inferenza Bayesiana. Adattamento da [12] . . . . . 19
3.1 Tito. Da [22] . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.2 Analisi delle variabili per l’attenzione verso l’altro. Da [22] . . 30
3.3 Occorrenza delle variabili relative all’imitazione. Da [22] . . . 30
3.4 Occorrenza delle imitazioni relative alle convenzioni condivise.
Da [22] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5 Nao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.6 Architettura del sistema ARIA. Adattamento da [23] . . . . . 33
3.7 Gruppo ASD, sguardo verso il terapista. Adattamento da [23] 35
3.8 Gruppo TD, sguardo verso il terapista. Adattamento da [23] . 35
3.9 Kaspar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.10 I giocatori, Kaspar e gli accessori del gioco. Da [28] . . . . . . 38
3.11 Uno screenshot di Copycat. Da [28] . . . . . . . . . . . . . . . 39
3.12 Adattamento da [28] . . . . . . . . . . . . . . . . . . . . . . . 41
3.13 Adattamento da [28] . . . . . . . . . . . . . . . . . . . . . . . 42
3.14 Adattamento da [28] . . . . . . . . . . . . . . . . . . . . . . . 43
3.15 Alcune schermate di Emotiplay. Adattamento da [30] . . . . . 45
3.16 Attività di riconoscimento emotivo visivo. Adattamento da [30] 46
3.17 Regno Unito: confronto tra pre- e post-utilizzo di Emotiplay
per linguaggio del corpo e integrazione dei segnali. Adatta-
mento da [30] . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.18 Israele e Svezia: media e (deviazione standard) dei punteggi
nelle attività di riconoscimento delle emozioni nel pre- e nel
post-intervento. Adattamento da [30] . . . . . . . . . . . . . . 49
4.1 Uno schema generale di interazione sociale . . . . . . . . . . . 53
94
4.2 Architettura del sistema neurale distribuito per la percezio-
ne di espressioni facciali affettive (lato dell’agente osservato-
re). Le doppie frecce indicano proiezioni “forward” e “back-
ward” tra aree neurali. L’architettura comprende un network
per la percezione dell’azione basato sul sistema mirror umano
(MNS), rappresentato dal complesso IPL, IFG/VPMC. Que-
sto media tra il risultato dell’elaborazione visiva dello stimolo
lungo la via visiva (retina, nucleo genicolato laterale LGN,
cortecce visive primarie, OFA, FFA, STS) e la rappresenta-
zione motoria interna dell’azione facciale costruita dall’ MNS
attraverso l’interfaccia del solco temporale superiore (STS). L’
MNS fornisce l’input per attivare il sistema affettivo centrale
(core affect) costituito dall’insula anteriore (AIns) e dalle cor-
tecce orbito-frontali (OFC). Il core affect coordina la dinamica
delle attività della via visuomotoria - STS, IPL, IFG/VPMC,
aree corticali motorie M1/M3/M4, area motoria supplemne-
tare SMA e nuclei motori sub-corticali nel tronco encefalico
(brainstem) - e visceromotoria - insula posteriore (PIns), ipo-
talamo (HYP), nuclei visceromotori del tronco encefalico, si-
stema nervoso autonomico (ANS). Questo avviene sia modu-
lando in feedback le rappresentazioni percettive dell’osserva-
tore sia generando e modulando la risposta emotiva del mede-
simo. Le linee punteggiate rappresentano le proiezioni subcor-
ticali che attraverso la via duale del collicolo superiore (SC)
e le regioni pulvinari proiettano direttamente alle aree limbi-
che per innescare rapidamente la reazione affettiva (stadio 1
di Adolph). Da [40] . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Interazione sociale tra un soggetto autistico e un agente (caso
generale) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 Interazione sociale tra un soggetto autistico e un agente: l’a-
gente non é basato su un modello affettivo completo, ma é in
grado di interagire mediante azioni facciali e corporee perce-
pite dall’osservatore autistico . . . . . . . . . . . . . . . . . . 58
59
4.6 Percezione di un agente artificiale e conseguente risposta emotiva 60
4.7 Relazioni previste tra spazio acustico e spazio percettivo in
caso di (a) una categoria e (b) due categorie. Adattamento da
[43] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.8 Un modello generativo per il percettore Bayesiano ottimo . . . 63
4.9 Uncanny valley. Adattamento da [45] . . . . . . . . . . . . . . 67
95
4.10 Uncanny valley nel caso statico e dinamico. Adattamento da
[45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.11 Probabilità di occorrenza di stimoli diversi data una categoria
di “sottofondo” più (a) o meno (b) piatta. Adattamento da [46] 70
4.12 Tensione percettiva (a) e affinità (b). Adattamento da [46] . . 72
4.13 Affinità nel caso statico e dinamico. Adattamento da [46] . . . 73
4.14 Uncanny valley nel caso di neurotipicità (blu) e di autismo
(rosso). Adattamento da [47] . . . . . . . . . . . . . . . . . . . 74
4.15 Probabilità delle categorie percepite nel caso (a) neurotipico e
(b) autistico. Adattamento da [47] . . . . . . . . . . . . . . . 75
4.16 Previsioni dell’effetto dell’Uncanny valley secondo il modello
di Moore. Risposta emotiva in funzione dello stimolo e della
media della categoria “umana”, a sinistra rappresentata tri-
dimensionalmente e a destra attraverso i colori su superficie
piana. Adattamento da [47] . . . . . . . . . . . . . . . . . . . 77
4.17 Effetti della terapia assistita da robot sulla varianza per la ca-
tegoria umana: (a-b) a sinistra in funzione del numero di prove
e degli stimoli presentati, a destra le curve di apprendimento
per alcuni degli stimoli presentati: (a) nella condizione tipica
e (b) nella condizione di autismo. (c) I valori finali della va-
rianza appresa dopo 500 prove rispetto allo stimolo presentato.
Adattamento da [47] . . . . . . . . . . . . . . . . . . . . . . . 78
4.18 Esempi di curve Stimolo/Risposta emotiva dopo diverse quan-
tità di prove nel caso (a) neurotipico, con uno stimolo pre-
sentato Sp = 0.4 e (b) autistico, con uno stimolo presentato
Sp = 0.7. Adattamento da [47] . . . . . . . . . . . . . . . . . . 78
A.1 Stima della posizione della pallina quando toccherà terra. In

rosso la distribuzione likelihood p(y|x), in blu il belief a priori
p(x). Il belief a posteriori è rappresentato dall’ellissi bianca
con la pallina al centro a indicare la stima di massima ve-
rosimiglianza. Tale stima può essere aggiornata tramite una
nuova informazione sulla traiettoria (pallina gialla). Da [49] . . 85
A.2 Esempio di regola di Bayes per le gaussiane. Da [49] . . . . . . 86
A.3 Esempio di Grafo Aciclico Diretto (DAG). Da [49] . . . . . . . 87
96
Bibliografia
[1] L. Kanner et al., “Autistic disturbances of affective contact,” Nervous

child, vol. 2, no. 3, pp. 217–250, 1943.
[2] H. Asperger, “Die autistischen psychopathen” im kindesalter,” Archiv

”
für psychiatrie und nervenkrankheiten, vol. 117, no. 1, pp. 76–136, 1944.
[3] H. Asperger and U. Frith, Autistic psychopathy’in childhood. Cambridge

University Press, 1991.
[4] S. Silberman, Neurotribù: I talenti dell’autismo e il futuro della

neurodiversità. LSWR, 2016.
[5] B. Bettelheim, Empty fortress. Simon and Schuster, 1967.
[6] C. C. Park, The siege: The first eight years of an autistic child. Little,
Brown, 1972.
[7] T. Grandin, Emergence, labeled autistic. Academic Therapy Pubns,

1986.
[8] R. El Kaliouby, R. Picard, and S. Baron-Cohen, “Affective computing

and autism,” Annals of the New York Academy of Sciences, vol. 1093,
no. 1, pp. 228–248, 2006.
[9] G. 7, “l’ipersensibilita nel mondo autistico,” 2016. [Onli-

ne]. Available: http://www.designhub.it/cometa/lipersensibilita-nel-
mondo-autistico-gruppo-7.html
[10] O. Sacks, An Anthropologist on Mars: Seven Paradoxical Tales. Alfred

A. Knopf, 1995.
[11] E. Gowen and A. Hamilton, “Motor abilities in autism: a review using a

computational context,” Journal of autism and developmental disorders,
vol. 43, no. 2, pp. 323–344, 2013.
98
[12] H. Haker, M. Schneebeli, and K. E. Stephan, “Can bayesian theories of
autism spectrum disorder help improve clinical practice?” Frontiers in
psychiatry, vol. 7, p. 107, 2016.
[13] A.-M. Nader, V. Courchesne, M. Dawson, and I. Soulières, “Does wisc-iv

underestimate the intelligence of autistic children?” Journal of autism
and developmental disorders, vol. 46, no. 5, pp. 1582–1589, 2016.
[14] C. J. Palmer, R. P. Lawson, and J. Hohwy, “Bayesian approaches to

autism: Towards volatility, action, and behavior.” Psychological bulletin,
vol. 143, no. 5, p. 521, 2017.
[15] F. H. Petzschner, L. A. Weber, T. Gard, and K. E. Stephan, “Compu-

tational psychosomatics and computational psychiatry: Toward a joint
framework for differential diagnosis,” Biological psychiatry, vol. 82, no. 6,
pp. 421–430, 2017.
[16] R. A. Calvo and S. D’Mello, “Affect detection: An interdisciplinary

review of models, methods, and their applications,” IEEE Transactions
on affective computing, vol. 1, no. 1, pp. 18–37, 2010.
[17] C. Darwin, “(1965). the expression of the emotions in man and animals.
chicago: University of chicago press.” 1872.
[18] W. James, “What is an emotion?” Mind, vol. 9, no. 34, pp. 188–205,
1884.
[19] S. Turkle, “The second self: The human spirit in a computer culture,”
1984.
[20] R. W. Picard, Affective computing. MIT press Cambridge, 1997, vol.

252.
[21] C. A. Huijnen, M. A. Lexis, R. Jansens, and L. P. de Witte, “Map-

ping robots to therapy and educational objectives for children with au-
tism spectrum disorder,” Journal of autism and developmental disorders,
vol. 46, no. 6, pp. 2100–2114, 2016.
[22] A. Duquette, F. Michaud, and H. Mercier, “Exploring the use of a mobile

robot as an imitation agent with children with low-functioning autism,”
Autonomous Robots, vol. 24, no. 2, pp. 147–157, 2008.
99
[23] T. Esubalew, U. Lahiri, A. R. Swanson, J. A. Crittendon, Z. E. Warren,
N. Sarkar et al., “A step towards developing adaptive robot-mediated in-
tervention architecture (aria) for children with autism,” IEEE Transac-
tions on Neural Systems and Rehabilitation Engineering, vol. 21, no. 2,
pp. 289–299, 2013.
[24] J. N. Constantino and C. P. Gruber, Social responsiveness scale (SRS).

Western Psychological Services Torrance, CA, 2012.
[25] M. Rutter, A. Bailey, and C. Lord, The social communication

questionnaire: Manual. Western Psychological Services, 2003.
[26] C. L. C. Adaptive Systems Research Group, University of Hertfordshire,

“The aurora project.” [Online]. Available: http://aurora.herts.ac.uk/
[27] K. Dautenhahn, “Roles and functions of robots in human society: im-

plications from research in autism therapy,” Robotica, vol. 21, no. 4, pp.
443–452, 2003.
[28] J. Wainer, B. Robins, F. Amirabdollahian, and K. Dautenhahn, “Using

the humanoid robot kaspar to autonomously play triadic games and
facilitate collaborative play among children with autism,” IEEE Tran-
sactions on Autonomous Mental Development, vol. 6, no. 3, pp. 183–199,
2014.
[29] Qualifications and C. Authority, The P scales: Level descriptors P1 to

P8, 2009.
[30] S. Fridenson-Hayo, S. Berggren, A. Lassalle, S. Tal, D. Pigat, N. Meir-

Goren, H. O’Reilly, S. Ben-Zur, S. Bölte, S. Baron-Cohen et al., “‘emoti-
play’: a serious game for learning about emotions in children with auti-
sm: results of a cross-cultural evaluation,” European child & adolescent
psychiatry, vol. 26, no. 8, pp. 979–992, 2017.
[31] S. Baron-Cohen, O. Golan, S. Wheelwright, and J. Hill, Mind reading:

the interactive guide to emotions. Jessica Kingsley Limited, London,
2004.
[32] S. Bölte, A. Ciaramidaro, S. Schlitt, D. Hainz, D. Kliemann, A. Beyer,

F. Poustka, C. Freitag, and H. Walter, “Training-induced plasticity of
the social brain in autism spectrum disorder,” The British Journal of
Psychiatry, vol. 207, no. 2, pp. 149–157, 2015.
100
[33] I. M. Hopkins, M. W. Gower, T. A. Perez, D. S. Smith, F. R. Amthor,
F. C. Wimsatt, and F. J. Biasini, “Avatar assistant: Improving social
skills in students with an asd through a computer-based intervention,”
Journal of autism and developmental disorders, vol. 41, no. 11, pp. 1543–
1555, 2011.
[34] C. Lord, M. Rutter, P. DiLavore, S. Risi, K. Gotham, and S. Bishop,
Autism diagnostic observation schedule 2nd edn. Western Psychological
Services, Los Angeles, 2012.
[35] S. Sparrow, D. Cicchetti, and D. Balla, Vineland adaptive behavior scales
2nd edn. American Guidance Service, Circle Pines, 2005.
[36] A. I. Goldman and C. S. Sripada, “Simulationist models of face-based
emotion recognition,” Cognition, vol. 94, no. 3, pp. 193–213, 2005.
[37] G. Rizzolatti and C. Sinigaglia, “The mirror mechanism: a basic prin-
ciple of brain function,” Nature Reviews Neuroscience, vol. 17, no. 12,
pp. 757–765, 2016.
[38] V. Gallese, “The ’shared manifold’ hypothesis. From mirror neurons to
empathy,” Journal of consciousness studies, vol. 8, no. 5-7, pp. 33–50,
2001.
[39] R. Adolphs, “Recognizing emotion from facial expressions: Psy-
chological and neurological mechanisms,” Behavioral and cognitive
neuroscience reviews, vol. 1, no. 1, pp. 21–62, 2002.
[40] G. Boccignone, D. Conte, V. Cuculo, A. D’Amelio, G. Grossi, and
R. Lanzarotti, “Deep construction of an affective latent space via multi-
modal enactment,” IEEE Transactions on Cognitive and Developmental
Systems, pp. 1–1, 2018.
[41] A. M. Liberman, K. S. Harris, H. S. Hoffman, and B. C. Griffith, “The
discrimination of speech sounds within and across phoneme boundaries.”
Journal of experimental psychology, vol. 54, no. 5, p. 358, 1957.
[42] P. K. Kuhl, “Human adults and human infants show a “perceptual ma-
gnet effect” for the prototypes of speech categories, monkeys do not,”
Perception & psychophysics, vol. 50, no. 2, pp. 93–107, 1991.
[43] N. H. Feldman, T. L. Griffiths, and J. L. Morgan, “The influence of
categories on perception: Explaining the perceptual magnet effect as
optimal statistical inference.” Psychological review, vol. 116, no. 4, p.
752, 2009.
101
[44] M. Mori, “Bukimi no tani (the uncanny valley),” Energy, vol. 7, pp.
33–35, 1970.
[45] M. Mori, K. F. MacDorman, and N. Kageki, “The uncanny valley [from

the field],” IEEE Robotics & Automation Magazine, vol. 19, no. 2, pp.
98–100, 2012.
[46] R. K. Moore, “A bayesian explanation of the ‘uncanny valley’effect and

related psychological phenomena,” Scientific reports, vol. 2, p. 864, 2012.
[47] Y. Ueyama, “A bayesian model of the uncanny valley effect for explai-
ning the effects of therapeutic robots in autism spectrum disorder,” PloS
one, vol. 10, no. 9, p. e0138642, 2015.
[48] D. M. Wolpert and Z. Ghahramani, “Bayes rule in perception, action

and cognition,” The Oxford Companion to the Mind. Oxford University
Press (http://eprints. pascal-network. org/archive/00001354/), 2005.
[49] W. Penny, “Bayesian models of brain and behaviour,” ISRN

Biomathematics, vol. 2012, 2012.
102

Modelli Di Computazione Affettiva e Autismo - Beatrice Zecchinelli

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Modelli Di Computazione Affettiva e Autismo - Beatrice Zecchinelli

Caricato da

Copyright:

Formati disponibili

UNIVERSITÀ DEGLI STUDI DI MILANO

Corso di Laurea Magistrale in

Anno Accademico 2017/2018

1 Autismo e interazione sociale 8

2 Un approccio Bayesiano all’autismo 14

3 Computazione affettiva e autismo 24

4 Modellazione e valutazione dell’interazione 52

B Calcolo del valore atteso del target nel modello Bayesiano

Elenco delle figure 96

L’autismo è un disordine pervasivo dello sviluppo neurologico che si presenta

Autismo e interazione sociale

1.1 Lo spettro autistico

1.2 Caratteristiche dello spettro

1.2.1 Interazione sociale ed empatia

Per quanto riguarda l’interazione sociale, il problema fondamentale sembra

1.2.2 Comunicazione verbale e non verbale

Strettamente legata alla carenza di empatia è la difficoltà nella comunicazio-

1.2.3 Percezione sensoriale

Un altro tratto neuroatipico presente spesso nelle persone dello spettro è

1.2.4 Abilità motorie

Cosı̀ come le particolarità percettive, anche i problemi a livelli motorio non

1.2.5 Interessi e comportamenti

Sono frequenti interessi e comportamenti circoscritti, che si possono manife-

2.1 Modelli Bayesiani

Figura 2.1: Esempio tipico di illusione percettiva. Adattamento da [15]

2.2 Apprendimento e incertezza

Figura 2.2: Inferenza Bayesiana nel cervello. Adattamento da [12]

Il rapporto di precisione può essere visto come un tasso dinamico di appren-

2.3 Gerarchie cognitive

2.4 Autismo come inferenza non ottimale

Figura 2.3: Principi di Inferenza Bayesiana. Adattamento da [12]

È importante sottolineare che il cervello compie una stima della precisione

2.5 Inferenza attiva

2.6 Autismo e bilanciamento tra inferenza per-

3.1 Che cos’è la computazione affettiva

3.2 Una prospettiva per l’autismo

3.3 Agenti robotici

3.3.1 Esempio 1: Tito

Tabella 3.1: Partecipanti all studio

Figura 3.3: Occorrenza delle variabili relative all’imitazione. Da [22]

Figura 3.4: Occorrenza delle imitazioni relative alle convenzioni condivise.

Per quanto riguarda le convenzioni condivise, i risultati indicano una maggio-

Il progetto ARIA (Adaptive Robot-mediated Intervention Architecture [23])

Figura 3.5: Nao

Elemento centrale del progetto è un robot umanoide. Quello utilizzato è

Figura 3.6: Architettura del sistema ARIA. Adattamento da [23]

Lo studio ha coinvolto un totale di dodici bambini tra i 2 e i 5 anni, di cui

Partecipanti TD1 TD2 TD3 TD4 TD5 TD6

Tabella 3.3: Partecipanti allo studio TD (Tipically Developing)

Scale (SRS [24]) e il Social Communication Questionnaire (SCQ [25]). Per

Ogni bambino prende parte a una sessione che dura approssimativamente

Figura 3.7: Gruppo ASD, sguardo verso il terapista. Adattamento da [23]

Figura 3.8: Gruppo TD, sguardo verso il terapista. Adattamento da [23]

3.3.3 Esempio 3: Kaspar e il Progetto AuRoRA

Il Progetto AuRoRA (Autonomous Robot as a Remedial tool for Autistic

Due le ipotesi della ricerca:

In questo gioco i bambini devono imparare a comunicare e a interagire tra di

Tabella 3.4: Partecipanti allo studio. Le abilità sono misurate tramite la

Le sedute si svolgono in una grande e luminosa stanza chiusa, con le finestre

Figura 3.12: Adattamento da [28]

Come ci si poteva aspettare, nelle sessioni a due ogni bambino ha guarda-

Figura 3.13: Adattamento da [28]

In più, ogni bambino ha alternato lo sguardo tra il gioco e un altro parte-