Sei sulla pagina 1di 103

UNIVERSITÀ DEGLI STUDI DI MILANO

DIPARTIMENTO DI INFORMATICA

Corso di Laurea Magistrale in


Scienze dell’Informazione

Modelli di Computazione
Affettiva e Autismo

Candidato: Relatore:
Beatrice Zecchinelli Prof. Giuseppe Boccignone
Matr. 268578
Correlatore:
Dott.Giuliano Grossi

Anno Accademico 2017/2018


.
Ringraziamenti

Questa tesi arriva dopo una lunghissima interruzione dei miei studi accade-
mici, che fino a un anno fa non avrei mai pensato di concludere. Se questo sta
per avvenire è merito principalmente del mio relatore Professore Giuseppe
Boccignone, che mi ha guidata lungo un percorso appassionante che neanche
immaginavo, entusiasmandosi a volte lui stesso e dandomi la fiducia di cui
avevo bisogno. Grazie anche al mio correlatore Dott. Giuliano Grossi, che
soprattutto nei primi tempi mi ha incoraggiata, permettendomi di superare
i timori che avevo. Pur avendola incontrata una sola volta, ringrazio anche
la Professoressa Paola Campadelli, a cui mi sono rivolta inizialmente ricor-
dandola dai tempi in cui frequentavo. Non mi ha potuta seguire in quanto
stava per terminare il suo lavoro in Università, si è però interessata alla mia
situazione fornendomi i chiarimenti che cercavo e soprattutto presentandomi
i futuri relatori.
Un grande grazie a mio marito Piero e alle nostre figlie Margherita e Olivia,
che in quest’anno non hanno mai smesso di sostenermi. Caso vuole che mi
stia laureando in contemporanea con la secondogenita!
Anche molti amici mi hanno incoraggiata, tra questi voglio menzionare il mio
maestro di montaggio video Diego, la mia “quasi parente” Emanuela e mia
sorella Rita, che negli scorsi anni hanno spesso insistito affinché finissi. Ci
ha messo del tempo ma il messaggio alla fine è arrivato.
Infine voglio ringraziare la mia grande amica dell’infanzia Chiara, che in-
consapevolmente ha determinato la scelta dell’argomento della tesi. Verso
i cinquant’anni ha scoperto di rientrare nella sindrome di Asperger, che fa
parte dello spettro autistico. Finalmente ha potuto capire da dove venivano
le difficoltà incontrate nel corso di una vita. Parlare con lei mi ha aperto
un mondo che conoscevo solo per sentito dire, facendomi anche capire che
nessuno è perfettamente “tipico”. Spero che questa consapevolezza mi abbia
resa più tollerante e curiosa verso gli altri.
“Gli adulti autistici consapevoli e i loro genitori spesso sono risentiti nei
confronti dell’autismo. Forse si chiedono perché mai la natura o Dio abbiano

2
creato condizioni spaventose come l’autismo [...]. D’altra parte, se i geni
che ne sono responsabili scomparissero, il prezzo da pagare potrebbe essere
terribile. Può darsi che le persone con qualche traccia di tali caratteristiche
siano più creative, o forse addirittura geniali [...]. La soluzione genetica
rischierebbe di far finire il mondo in mano ai contabili.”
Temple Grandin

3
Indice

Introduzione 6

1 Autismo e interazione sociale 8


1.1 Lo spettro autistico . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Caratteristiche dello spettro . . . . . . . . . . . . . . . . . . . 10
1.2.1 Interazione sociale ed empatia . . . . . . . . . . . . . . 10
1.2.2 Comunicazione verbale e non verbale . . . . . . . . . . 11
1.2.3 Percezione sensoriale . . . . . . . . . . . . . . . . . . . 11
1.2.4 Abilità motorie . . . . . . . . . . . . . . . . . . . . . . 12
1.2.5 Interessi e comportamenti . . . . . . . . . . . . . . . . 12

2 Un approccio Bayesiano all’autismo 14


2.1 Modelli Bayesiani . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Apprendimento e incertezza . . . . . . . . . . . . . . . . . . . 16
2.3 Gerarchie cognitive . . . . . . . . . . . . . . . . . . . . . . . . 18
2.4 Autismo come inferenza non ottimale . . . . . . . . . . . . . . 18
2.5 Inferenza attiva . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 Autismo e bilanciamento tra inferenza percettiva e attiva . . . 21

3 Computazione affettiva e autismo 24


3.1 Che cos’è la computazione affettiva . . . . . . . . . . . . . . . 24
3.2 Una prospettiva per l’autismo . . . . . . . . . . . . . . . . . . 25
3.3 Agenti robotici . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.3.1 Esempio 1: Tito . . . . . . . . . . . . . . . . . . . . . . 26
3.3.2 Esempio 2: Nao e il Progetto ARIA . . . . . . . . . . . 32
3.3.3 Esempio 3: Kaspar e il Progetto AuRoRA . . . . . . . 36
3.4 Agenti virtuali: i serious game, una diversa tecnologia . . . . . 44
3.4.1 Emotiplay . . . . . . . . . . . . . . . . . . . . . . . . . 44

4 Modellazione e valutazione dell’interazione 52


4.1 Alcune questioni generali relative all’interazione sociale . . . . 52

4
4.1.1 Il modello del percettore Bayesiano ottimo . . . . . . . 58
4.2 Bukimi no tani: il problema dell’Uncanny Valley . . . . . . . . 66
4.3 Una spiegazione Bayesiana dell’Uncanny Valley . . . . . . . . 69
4.4 Un modello per l’Uncanny Valley nell’autismo e per i conse-
guenti effetti nell’utilizzo di robot terapeutici . . . . . . . . . . 73

Conclusione 80

A Inferenza Bayesiana 84
A.1 Gaussiane . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A.2 Modelli generativi . . . . . . . . . . . . . . . . . . . . . . . . . 87

B Calcolo del valore atteso del target nel modello Bayesiano


della percezione 89
B.1 Caso di una categoria . . . . . . . . . . . . . . . . . . . . . . . 89
B.2 Caso di più categorie . . . . . . . . . . . . . . . . . . . . . . . 91

Elenco delle figure 96

Bibliografia 98

5
Introduzione

L’autismo è un disordine pervasivo dello sviluppo neurologico che si presenta


fin dalla primissima infanzia e che perdura nel corso dell’intera vita. Le carat-
teristiche estremamente eterogenee di tale condizione fanno sı̀ che si parli più
correttamente di disturbo dello spettro autistico (Autism Spectrum Disorder
ASD). Nonostante le differenze, tuttavia, si possono individuare alcune aree
che risultano a vari livelli problematiche in tutta la popolazione autistica:
da una parte quelle della comunicazione e dell’interazione sociale, dall’altra
quelle relative agli interessi che si manifestano con schemi comportamentali
circoscritti e ripetitivi.
A causa delle caratteristiche strutturali del disordine, non è pensabile tro-
vare una “cura”, sono però possibili e auspicabili interventi terapeutici che
vadano nella direzione di incrementare quelle abilità sociali di cui il soggetto
autistico è carente, al fine di meglio navigare nel mondo esterno.
In questa prospettiva, nell’ultima ventina di anni, si è affermato l’utilizzo di
metodologie d’intervento supportate da agenti artificiali (robot, avatar, ecc.)
che possiamo classificare nel campo della computazione affettiva (CA), dove
per CA si intende quell’insieme di modelli e di tecnologie informatiche pro-
gettati in modo da riconoscere e/o esprimere stati emotivi.
Gli esempi sono molti e anche in questa tesi se ne analizzano alcuni. Punto di
partenza generale è la constatazione che robot, video games e simili esercita-
no una grande attrazione nelle persone autistiche (soprattutto nei bambini).
L’idea è che agenti artificiali, più semplici e prevedibili rispetto agli esseri
umani, riducano l’ansia che questi ultimi comportano, facilitando l’appren-
dimento di attività di attenzione e comunicazione reciproche.
Queste esperienze sono senza dubbio importanti, tuttavia le valutazioni sul-
l’interazione con l’agente artificiale avvengono a posteriori, secondo un pro-
cedimento euristico condizionato da fattori contingenti, come il numero for-
zatamente limitato dei partecipanti o il tempo circoscritto delle ricerche.
Sarebbe quindi interessante pensare a un modello valutativo dell’efficacia po-
tenziale di tali strumenti, e dunque a uno strumento teorico di predizione, in

6
contrapposizione ad una valutazione ex post più tradizionale. Un modello di
questo tipo potrebbe essere utile nella progettazione di agenti artificiali e di
protocolli terapeutici futuri.
Ipotesi centrale di questa tesi è quindi la possibilità di individuare, nei limi-
ti della complessità del problema, un quadro teorico entro cui formalizzare
l’interazione tra il soggetto autistico e l’agente artificiale. A tal fine risulta
utile adottare un approccio di tipo Bayesiano, sempre più utilizzato peraltro
nel campo delle neuroscienze per modellare i rapporti tra il sistema neurale
e il mondo esterno. Tale approccio pare infatti adatto a formalizzare le ca-
ratteristiche cognitive e le risposte emotive nel caso di autismo, permettendo
una valutazione predittiva delle strategie terapeutiche supportate da agenti
artificiali.
Nel Capitolo 1 si affronta il tema dell’autismo da una prospettiva storica, a
partire dalla sua prima definizione negli anni ’40 del secolo scorso ad oggi, e
se ne descrivono le caratteristiche di fondo.
Nel Capitolo 2 si delineano le difficoltà inerenti alla comprensione dei mecca-
nismi alla base della complessa sintomatologia autistica. Si introduce quindi
il concetto di modello inferenziale Bayesiano e di come tale modello dia una
spiegazione della cognizione in caso di autismo nei termini di inferenza non
ottimale. Una definizione più formale dell’inferenza Bayesiana viene riman-
data all’Appendice A.
Nel Capitolo 3 si parte dall’idea di Computazione Affettiva e delle sue appli-
cazioni nel campo delle terapie per l’autismo. Si prosegue quindi con alcuni
esempi di studi a riguardo, in cui vengono utilizzati agenti artificiali in forma
di robot e avatar, e nei quali la valutazione sull’interazione avviene sperimen-
talmente a posteriori.
Nel Capitolo 4 viene infine affrontato il problema della modellazione e della
valutazione a priori dell’interazione sociale. È definito il modello del per-
cettore Bayesiano ottimo che tiene conto delle categorizzazioni operate dal
soggetto nella percezione di uno stimolo. Viene quindi esaminata, sempre da
un punto di vista Bayesiano, la reazione emotiva suscitata nel soggetto da
un agente artificiale, sia nel caso di neurotipicità che di autismo.

7
Capitolo 1

Autismo e interazione sociale

1.1 Lo spettro autistico


Per spettro autistico si intende oggi una condizione neurologica che caratte-
rizza alcuni individui fin da bambini. Tale condizione viene spesso indicata
in modo semplificato con “autismo”. Tuttavia la denominazione Condizio-
ne dello Spettro Autistico risponde in modo più preciso alle caratteristiche
estremamente varie di tale diagnosi. Si spazia infatti dall’autismo a basso
funzionamento, dove può mancare completamente la parola, fino alla sin-
drome di Asperger, che caratterizza persone spesso dotate di un’intelligenza
superiore alla media.
La definizione “autismo” fu impiegata per la prima volta negli anni ’40 dallo
psicologo infantile Leo Kanner, austriaco di nascita ma naturalizzato statu-
nitense [1], e dal pediatra viennese Hans Asperger [2].
I due medici coniarono in modo indipendente tale definizione dal greco “autòs”
(sé), poiché i loro piccoli pazienti sembravano vivere in un mondo loro,
separato dagli altri.
Nell’idea di Asperger era già presente il concetto di spettro, anche se non ne
adoperò la parola. Affermava infatti che parevano esistere quasi tante varietà
di autismo quante persone autistiche, “dal genio particolarmente originale [...]
all’individuo più severamente affetto, ritardato mentalmente, disturbato nel
contatto, simile a un automa” [2]1 .
Inoltre non aveva dubbi sul fatto che ci fosse un dato di ereditarietà, benché
1
Nella traduzione inglese di U. Frith [3], citato in Neurotribù [4], traduzione italiana di
C. Mangione.

8
fosse altrettanto sicuro che gli elementi in gioco per un insieme cosı̀ comples-
so di comportamenti dovessero essere plurimi.
In tale complessità, oltre ai numerosi elementi invalidanti, vedeva a volte
capacità fuori dalla norma. Battezzò tali punti di forza “intelligenza autisti-
ca”, pur riconoscendo che nella maggior parte dei casi gli aspetti positivi non
bilanciassero quelli negativi.
Pensava quindi che l’intervento sui bambini autistici dovesse essere persona-
lizzato, volto a valorizzare i loro doni e contemporaneamente a facilitare il
loro stare in un mondo diverso da loro.
Quando la sua tesi di dottorato fu pubblicata, nel giugno del ’44, Asperger
era arruolato nella Wehrmacht. In Austria e in Germania i bambini come
quelli da lui descritti venivano soppressi.
Negli stessi anni Kanner, ormai figura di rilievo nella psichiatria infantile
statunitense, pubblicava “Autistic Disurbances of Affective Contact” nel nu-
mero del giugno ’43 della rivista “The Nervous Child” [1].
L’articolo si basava sull’osservazione di alcuni bambini con caratteristiche
simili a quelle dei piccoli pazienti di Asperger. Tuttavia, la sua concezione
in quel momento e negli anni successivi si differenziava da quella del medico
viennese per alcuni importanti fattori.
La sindrome non veniva inquadrata in un ampio spettro con caratteristi-
che variegate bensı̀ come una rara patologia unitaria e soprattutto tra le
cause dell’autismo indicava il comportamento freddo e perfezionista dei ge-
nitori.
Per diversi decenni il modello di Kanner prevalse, corroborato tra gli al-
tri dalle tesi di un altro viennese naturalizzato negli Stati Uniti, Bruno
Bettelheim. Già negli anni ’50 e ancor più nel libro “La Fortezza Vuota”
[5], l’autismo veniva da lui imputato principalmente all’inadeguatezza della
madre (la cosiddetta madre frigorifero).
Questa concezione è durata a lungo, non solo causando in tanti genitori
dolore e sensi di colpa, ma anche ripercuotendosi negativamente sulla ricerca
nel campo dell’intervento a favore della popolazione autistica.
Fortunatamente negli ultimi decenni la teoria psicogenetica è stata progres-
sivamente abbandonata. È ormai convinzione diffusa che si tratti di un di-
sturbo neurobiologico con una probabile base genetica multifattoriale [4].
Parallelamente è anche emerso il concetto di neurodiversità, l’idea cioè che gli
autismi e altre condizioni come la dislessia siano variazioni cognitive presenti
in natura, che possano avere dei punti di forza e che abbiano giocato un ruolo
non secondario nell’evoluzione tecnologica e culturale umana.
A questi risultati hanno contribuito in modo importante diverse biografie e

9
autobiografie di persone nello spettro, illuminanti riguardo alle loro partico-
larità cognitive e sensoriali (tra le tante [6] e [7]).
Importante corollario di tutto ciò è che gli interventi a favore delle persone
autistiche non debbano (e non possano) andare nella direzione di una “cura”,
ma piuttosto cercare di fornire un aiuto nella pratica di abilità sociali la cui
cognizione non avviene naturalmente.

1.2 Caratteristiche dello spettro


Le differenze tra le persone diagnosticate nello spettro autistico sono dunque
molte, quello che le lega è avere caratteristiche atipiche, anche se in misura
diversa, in tre aree fondamentali per lo sviluppo umano: l’area dell’intera-
zione sociale, quella della comunicazione verbale e non verbale e quella degli
interessi e dei comportamenti.
Queste caratteristiche permangono nel corso di tutta la vita, tuttavia posso-
no rimanere parzialmente nascoste nella primissima infanzia fino a quando
non vengono svelate dalle aumentate richieste sociali durante lo sviluppo.
Viceversa, in età adulta, alcuni di questi tratti possono essere maschera-
ti dall’esercizio di strategie di copiatura. Ciò rende più semplice la convi-
venza con il mondo esterno ma anche più difficoltosa un’eventuale diagnosi
tardiva.

1.2.1 Interazione sociale ed empatia

Per quanto riguarda l’interazione sociale, il problema fondamentale sembra


essere la mancanza o la carenza di empatia [8]. Con questa parola si inten-
de usualmente la capacità di “mettersi nei panni dell’altro”, percependone lo
stato mentale, che comprende pensieri, punti di vista, intenzioni ed emozioni,
e di rispondere in modo adeguato. L’empatia coinvolge un insieme di stru-
menti cognitivi ed affettivi che ci permettono di dare senso al mondo esterno
e di muoverci al suo interno.
La parte cognitiva dell’empatia, che nel gergo della psicologia cognitiva pren-
de il nome di teoria della mente, è quella risorsa che ci rende possibile co-
struire una rappresentazione degli stati mentali dell’altro (e di sé stessi), dare
loro un senso e prevedere comportamenti futuri.
La parte affettiva implica provare un’emozione in risposta agli stessi stati,
come ad esempio sentire compassione a fronte del dolore altrui.
Questo vale sia su piccola che su grande scala: empatia vuole anche dire

10
capire le convenzioni e il “senso comune” della società in cui viviamo. Ci
permette di fingere e di capire la finzione negli altri, cosı̀ come di distinguere
le apparenze dalla realtà.
Nonostante possano desiderare avere degli amici, quindi, le persone autisti-
che, a vari livelli, hanno difficoltà ad interagire in modo naturale con gli altri,
proprio perché non li capiscono e non li “sentono”.

1.2.2 Comunicazione verbale e non verbale

Strettamente legata alla carenza di empatia è la difficoltà nella comunicazio-


ne. Quando non “sento” e non capisco l’altro, probabilmente non sono in
grado di comunicare in modo adeguato e condiviso.
A livello non verbale questo può voler dire la tendenza ad evitare di incro-
ciare gli sguardi e la mancanza di attenzione condivisa (AC), dove per AC
si intende l’attenzione coordinata tra due persone e uno stesso oggetto. È
quindi carente la capacità di condividere con l’altro l’attenzione su di un
evento esterno, alternando lo sguardo tra il partner e l’oggetto.
Sono spesso limitati i cosiddetti gesti referenziali, come fare “ciao” e dire “sı̀”
o “no” con la testa, cosı̀ come l’espressione e la comprensione di altri codici
comunicativi come il sorriso, la mimica e gli atteggiamenti posturali.
A livello di comunicazione verbale si incontrano differenze abissali tra le varie
persone nello spettro. Il linguaggio può essere completamente assente, oppu-
re molto limitato. Può essere presente ma mostrare strane attitudini, come
una tendenza alla verbosità o al parlare stereotipato e infarcito di luoghi co-
muni, oppure alla ripetizione di brevi frasi o di interi discorsi (ecolalia). Ma
può anche essere normale.

1.2.3 Percezione sensoriale

Un altro tratto neuroatipico presente spesso nelle persone dello spettro è


l’iper- o ipo-sensibilità sensoriale. Non viene considerato un criterio ai fini
diagnostici ma secondo alcuni studi è presente nel 70-80% dei casi [9].
La percezione di suoni, rumori e odori per esempio, è spesso amplificata.
Pertanto i luoghi pieni di luci e confusione suscitano facilmente disagio e
stress. Questo deve essere tenuto in conto quando si progettano ambienti
dove si verranno a trovare persone con autismo. Dall’altra parte la percezione
del dolore fisico risulta a volte attenuata o addirittura soppressa [10].
Un altro tratto frequente è l’iperselettività degli stimoli, per cui spesso le

11
persone autistiche si concentrano su dettagli insoliti o irrilevanti cosı̀ come
su oggetti nello sfondo piuttosto che in primo piano.

1.2.4 Abilità motorie

Cosı̀ come le particolarità percettive, anche i problemi a livelli motorio non


vengono considerati caratteristiche fondamentali dell’autismo. Ciò nonostan-
te sono spesso presenti e possono avere un impatto significativo sulla qualità
della vita.
Si può trattare di difficoltà nei movimenti fini, come scarsa destrezza ma-
nuale o incapacità di compiere rapidamente movimenti successivi e alternati
(diadococinesi: pronazione e supinazione delle mani, flessione o estensione
delle dita, ecc.), oppure anche di equilibrio instabile e ridotto coordinamento
locomotorio [11].
Come per tutte le altre caratteristiche c’è una grande variabilità di questi
aspetti tra le persone nello spettro.

1.2.5 Interessi e comportamenti

Sono frequenti interessi e comportamenti circoscritti, che si possono manife-


stare con movimenti ripetitivi (dondolarsi, sbattere le mani), ossessive preoc-
cupazioni per un’unica attività, come allineare o contare oggetti, o tendenza
a non discostarsi da una routine fissata.
Nei casi a più alto funzionamento questo può a volte sfociare in tratti di genia-
lità, ed è probabile che l’evoluzione dell’umanità non sia esente da contributi
di questo genere.

12
Capitolo 2

Un approccio Bayesiano
all’autismo

I molteplici studi sui disturbi dello spettro autistico si sono concentrati sulle
sue eterogenee caratteristiche comportamentali, cognitive e percettive.
Non esiste tuttavia una teoria universalmente accettata che fornisca una spie-
gazione dei meccanismi alla base della complessa sintomatologia autistica
[12].
Questa mancanza rende difficile una classificazione e quindi una diagnosi e
una proposta terapeutica per le persone nello spettro.
Alcune situazioni sono particolarmente complesse. Come la diagnosi sui bam-
bini, e ancor più sugli adulti, “ad alto funzionamento”, in cui i tipici sintomi
dell’autismo possono essere meno evidenti, ma ciò al prezzo di una costante e
faticosa ricerca di adattamento alla realtà esterna. Se queste persone, quindi,
possono a prima vista mostrare caratteristiche attenuate, la loro capacità di
far fronte alla complessa realtà quotidiana può rimanere fragile. Con una
conseguente costante fatica e probabili effetti collaterali come ansia e depres-
sione.
Difficoltosa è anche la diagnosi nei bambini molto piccoli a rischio, per esem-
pio per consanguineità. Data l’aumentata probabilità genetica di rientrare
nello spettro, uno screening precoce è auspicabile nell’ottica di un’eventuale
intervento tempestivo. La diagnosi in questi casi è tuttavia resa difficile dalla
limitatezza del repertorio di comportamenti osservabili.
Cosı̀ come complessa è la valutazione della disabilità intellettiva negli indi-
vidui non verbali. C’è evidenza che venga spesso sovrastimata con possibili
gravi conseguenze [13].
Sarebbero quindi auspicabili degli strumenti in grado di spiegare i mecca-

14
nismi fondamentali delle molteplici manifestazioni dell’autismo per meglio
poter sviluppare test diagnostici e strategie terapeutiche.

2.1 Modelli Bayesiani


In generale, si può pensare che il cervello tenda a formarsi modelli dell’am-
biente esterno in modo da adattare i comportamenti al fine di una migliore
sopravvivenza [14].
Per comprendere l’organizzazione funzionale del cervello, negli ultimi anni
sta riscuotendo sempre più interesse in psichiatria l’uso di modelli computa-
zionali, e in particolare di architetture basate sull’inferenza Bayesiana che si
propone, analogamente alla percezione, di estrarre significato da input sen-
soriali affetti da rumore [12].
Le caratteristiche tipiche dell’autismo sono lette come conseguenza di ano-
malie fondamentali nella percezione e nell’apprendimento. Tale approccio
computazionale può fornire suggerimenti concreti nella pratica clinica.
Nell’interpretazione Bayesiana della cognizione, le credenze (belief ) sono in-
tese come rappresentazioni probabilistiche del mondo esterno (top-down),
che vengono di volta in volta modificate in base alle esperienze (bottom-up).
Il teorema di Bayes esprime in quale modo l’osservazione di un nuovo dato
aggiorni un belief a priori dando luogo a uno a posteriori. Quest’ultimo rap-
presenta l’inferenza della più probabile spiegazione dell’input osservato, data
la conoscenza precedente, e diventa la convinzione a priori per osservazioni
future.
Il cervello viene quindi interpretato come una macchina inferenziale che si
basa su di un modello generativo interno del mondo esterno. Invertendo il
modello generativo, il cervello può inferire lo stato più probabile del mondo
esterno, dato l’input sensoriale ricevuto.
Inoltre, il modello interno può anche fornire una probabilità riguardo alle
conseguenze all’esterno di un’azione intrapresa.
L’interpretazione della percezione e dei comportamenti secondo una prospet-
tiva Bayesiana è sempre più utilizzata e ha permesso di capire diversi feno-
meni percettivi come le illusioni percettive e l’integrazione multisensoriale.

Nella Figura 2.1, per esempio, percepiamo gli oggetti esterni come concavi e
quello centrale come convesso, nonostante sia un’immagine bidimensionale.
Ciò è dovuto al fatto che crediamo implicitamente che la luce venga dall’alto,
come ci dice il nostro modello interno maturato dalle esperienze passate. Se la

15
L
al uc
ev i
ene
dal
l’
al
to

Gl
iogget
ties
ter
nis
onoc
onc
avi

Figura 2.1: Esempio tipico di illusione percettiva. Adattamento da [15]

luce venisse dal basso, gli oggetti esterni sarebbero convessi e quello centrale
concavo. Ciò che percepiamo è quindi un’interpretazione dell’input sensoriale
basata su di un belief a priori.

2.2 Apprendimento e incertezza


L’aggiornamento del modello interno si basa su di una quantità fondamenta-
le: l’errore di predizione (EP), cioè la differenza tra l’input sensoriale previsto
e quello attuale e può essere interpretato come il grado di “sorpresa” (Figu-
ra 2.2 A).
La riduzione dell’EP può avvenire fondamentalmente in due modi.
Primo, scegliendo un’azione appropriata, come per esempio muovere parti
del corpo (occhi, arti, ecc.) in maniera da avvicinare l’input sensoriale alla
previsione (inferenza attiva, Figura 2.2 B).
Secondo, l’errore, e la sorpresa che ne deriva, possono essere utilizzati per
aggiornare i propri belief (inferenza percettiva, Figura 2.2 C).
Siamo in questo caso in presenza di apprendimento e diventano possibili fu-
ture previsioni più accurate.
È importante sottolineare che non tutti gli EP sono ugualmente significativi.
Il rumore inerente agli organi sensori e la casualità dell’ambiente fanno sı̀
che non sempre gli EP denotino un effettivo cambiamento nella regolarità
(apprendibile) del mondo esterno. Aggiornare completamente i belief a prio-

16
pr
edi
zi
ones
cor
ret
ta

E
P=0

per
cez
ione aggiornamento
delmodello
reali
zzazi
onedel
la int
ernoinaccordo
predizi
onetrami
te conl’EP
azione

Figura 2.2: Inferenza Bayesiana nel cervello. Adattamento da [12]

ri ad ogni input può quindi risultare eccessivo e portare a modelli con poca
capacità di generalizzazione.
Per questo motivo gli aggiornamenti dovrebbero dipendere dal peso di due
quantità.
La precisione del belief a priori dà una misura di quanto riteniamo solida la
nostra previsione, mentre la precisione dell’input tiene conto della casualità
dell’ambiente e del rumore nei dati sensibili. Questi due parametri presi in-
sieme danno una stima di quanto l’EP sia informativo riguardo al reale stato
(nascosto) del mondo esterno.
Il rapporto tra la precisione dell’input e la precisione del modello a priori
viene quindi usato per pesare l’ EP secondo l’equazione:

precisioneinput
∆belief ∝ × EP (2.1)
precisionepriori

Il rapporto di precisione può essere visto come un tasso dinamico di appren-


dimento. È alto quando la fiducia nei dati sensibili (bottom-up) è maggio-
re di quella nella conoscenza a priori (top-down), o analogamente quando

17
l’incertezza della predizione data dal modello interno è maggiore di quella
dell’input. Più il rapporto è alto e più pronunciato sarà l’aggiornamento dei
belief.
Come è intuitivo pensare, i belief sono più sensibili ai nuovi input quando
sappiamo poco del mondo esterno (bassa precisione a priori). Man mano
che accumuliamo esperienza il modello interno diventerà più preciso e quindi
più stabile. D’altra parte, l’EP sarà più significativo quando riteniamo che
l’input sensibile sia preciso.
Una descrizione formale dell’inferenza Bayesiana è data nell’Appendice A.

2.3 Gerarchie cognitive


Il modello presentato risulta però troppo semplice per descrivere l’intera-
zione del cervello con una realtà complessa. D’altra parte è comunemente
riconosciuto che il cervello stesso interagisca con gli stimoli interni ed esterni
secondo un’architettura gerarchica.
Le informazioni passano attraverso le aree corticali sensoriali per aggiornare
i livelli superiori nella gerarchia, che rappresentano informazioni via via più
astratte, generali e su scale temporali e spaziali più ampie.
La struttura gerarchica è una forma naturale per l’inferenza Bayesiana.
Da questo punto di vista, ogni area corticale a un certo livello nella gerarchia
manda una previsione al livello inferiore tramite le connessioni top-down. Il
livello inferiore calcola un EP e tramite le connessioni bottom-up lo manda,
pesato dal rapporto di precisione, al livello superiore che lo userà per aggior-
nare la previsione.
Belief più precisi negli alti livelli comportano una maggiore facilità nell’in-
terpretare nuove esperienze oltre che un freno nella ridefinizione continua del
modello cerebrale del mondo esterno.

2.4 Autismo come inferenza non ottimale


Differenze biologiche nel passaggio delle informazioni che danno luogo a pro-
cessi predittivi causano differenze nella percezione e nel comportamento.
Nel modello descritto, l’inferenza ottimale si basa su di un tasso di appren-
dimento appropriato, che varierà a seconda di quanto già sappiamo riguardo
all’input attuale e al rumore associato all’input stesso.
Diversi studi recenti hanno evidenziato il fatto che un costante alto tasso di

18
apprendimento spieghi molte caratteristiche dell’autismo. Ciò può dipendere
da modelli interni estremamente vaghi (Figura 2.3 B) come anche da un alto
grado di precisione nell’input sensoriale (Figura 2.3 C).

Beliefapri
ori Beli
efapost
eri
ori dis
tri
buzi
one
predizi
onedel aggi
orna
to dell
’i
nput
model l
oint
erno sensi
bil
e

Bel
iefapri
ori Bel
i
efapost
eri
ori
poc
opr ec
iso domina
todal
l’
i
nputs
ens
ibi
l
e

Beli
efapost
eri
ori I
nputsensor
io
dominatodal
l’
i
nput i
perpr
ecis
o
sensi
bil
e

Figura 2.3: Principi di Inferenza Bayesiana. Adattamento da [12]

È importante sottolineare che il cervello compie una stima della precisione


dei belief a priori e degli input. Quindi nel caso dell’autismo non si tratta
di dati sensoriali realmente più precisi. Piuttosto il cervello li considera più
informativi rispetto alle conoscenze a priori.
In sostanza la tendenza degli individui nello spettro sembra quella di un’in-
ferenza più guidata dai dati sensoriali che da un modello interno del mondo
esterno, il quale appare, appunto, incerto.
Molti tratti caratteristici dell’autismo si sposano bene con questa interpre-
tazione.
È tipica la difficoltà a stabilire rappresentazioni astratte e generalizzabili
tramite connessioni significative. Al contrario singole osservazioni vengono
rappresentate in modo preciso e circoscritto. Per esempio il linguaggio viene
inteso in senso troppo letterale e piccole variazioni nella routine conosciuta,
come cambi di orari o spostamento di oggetti, possono essere sufficienti ad
indurre sensazioni di incertezza e di perdita di controllo.

19
In generale è comune la sensazione cronica di essere impreparati per quello
che può succedere a meno che non sia strettamente prestabilito.
Nella stessa ottica si può inquadrare l’attenzione ai dettagli anche se irrile-
vanti e l’incapacità di distinguere informazioni più o meno significative.
La sovrastima dell’EP porta ad un fluttuare costante e ad una grande incer-
tezza nei livelli alti del modello generativo che rappresentano i concetti più
generali ed astratti.
Ancora, un sistema che dà un grosso peso all’EP risponde maggiormente agli
stimoli sensoriali e alle loro variazioni. Questo può spiegare l’ipersensibilità
spesso presente nell’autismo che porta ad evitare certe situazioni ma anche
ad un ridotto adattamento sensoriale1 cosı̀ come ad una diminuita suscetti-
bilità a certe illusioni ottiche.
In definitiva una grande varietà di caratteristiche presenti nello spettro auti-
stico sono consistenti con una costante, maggiore valutazione della precisione
dell’input sensibile rispetto a quella del modello a priori.

2.5 Inferenza attiva


Come già menzionato, per ridurre l’EP il cervello può aggiornare gerarchica-
mente il proprio modello del mondo esterno (Figura 2.2 C) oppure stimolare
un’azione in maniera da avvicinare l’input sensoriale alla previsione, muo-
vendo il corpo o lo sguardo (Figura 2.2 B).
Possiamo quindi distinguere tra inferenza percettiva e attiva, entrambe volte
a diminuire la discrepanza tra il modello dell’ambiente e gli input sensibili.
Nel secondo caso l’agente diventa parte stessa della struttura causale del dato
sensibile.
Azioni di questo genere hanno uno scopo confirmatorio: il sistema nervoso
stimola un’azione che rende vera la nostra previsione sull’ambiente.
Il cervello può spingerci anche ad azioni con un fine investigativo: in ambito
sociale, per esempio, l’interazione con gli altri ci permette di sondare emo-
zioni e intenzioni riducendo l’incertezza sullo stato dell’ambiente.
L’inferenza attiva, quindi, non ha il solo scopo di diminuire l’EP attuale, ma
anche quello futuro. Il nostro interagire con il mondo esterno è profondamen-
te legato all’inferenza percettiva e la minimizzazione dell’EP a lungo termine
implica un continuo bilanciamento tra azione e percezione.
Per intraprendere un’azione invece di aggiornare una previsione percettiva è
necessaria una attenuazione sensoriale, in cui l’attenzione allo stimolo sen-
1
Per adattamento sensoriale si intende la tendenza del cervello a diminuire
progressivamente la risposta ad uno stimolo continuo come un rumore di fondo.

20
soriale viene ridotta.
Il cervello è sempre coinvolto nell’inferenza percettiva ma la sua migliore sti-
ma, in quel determinato contesto, richiede che il corpo si adatti alla previsione
e non che la previsione sia aggiornata.

2.6 Autismo e bilanciamento tra inferenza per-


cettiva e attiva
È dunque importante bilanciare la percezione e l’azione in dipendenza del
contesto.
Le differenze ipotizzate nei soggetti autistici inerenti alla sovrastima della
precisione sensoriale non hanno conseguenze solo nella percezione ma anche
nel comportamento, proprio a causa del bilanciamento anomalo delle due
componenti.
Tratti tipici dello spettro sono difficoltà nei rapporti sociali cosı̀ come com-
portamenti ripetitivi e stereotipati. Questi aspetti hanno a che fare con la
maniera in cui le persone ispezionano il mondo e interagiscono con esso.
Una ridotta attenuazione sensoria, dovuta alla costante sovrastima della pre-
cisione dell’input, porta come conseguenza ad un’indagine prolungata a spese
di un’investigazione attiva dell’ambiente.
È tipico nei bambini con autismo fissarsi a lungo su particolari stimoli visivi
(luci in movimento, piccoli oggetti tondi, pattern geometrici. . . ). Inoltre è
nota la preferenza per la routine e per comportamenti ripetitivi come don-
dolarsi o sbattere le mani.
Questi comportamenti sembrano un modo per continuare ad indagare le in-
formazioni sensoriali, nel primo caso visive e nel secondo corporali. Sono cioè
rassicuranti, e possono essere visti come una strategia per ridurre l’incertezza
della rappresentazione interna del mondo.
Anche dal punto di vista sociale caratteristiche tipiche dell’autismo possono
essere considerate nei termini di come il mondo sensibile viene investigato e
di come percezione ed azione vengono bilanciate.
È tipica per esempio una direzione anomala dello sguardo, sia diretto tra due
persone, sia nel caso di attenzione condivisa2 .
In generale è carente quella che abbiamo indicato come inferenza attiva a
fine investigativo, che ci permette di interagire con gli altri per decifrarne i
comportamenti avendone vantaggi futuri.
2
Attenzione coordinata tra due persone e uno stesso oggetto.

21
Dal punto di vista Bayesiano, in conclusione, il nucleo delle caratteristiche
dei disordini dello spettro autistico risiede nelle anomalie percettive, a loro
volta causate dalla costante sovrastima del rapporto di precisione. Ciò equi-
vale a dire che siamo in presenza di modelli del mondo esterno vaghi e/o di
input sensibili percepiti come molto precisi.
Diversi studi di neuroimaging funzionale permettono di individuare i possi-
bili fondamenti neurofisiologici dei processi computazionali, distinguendo tra
le quantità in gioco come errore di predizione e precisione.
In prospettiva, modelli generativi della percezione e del comportamento in
congiunzione con la neuroimaging funzionale potranno giocare un ruolo chia-
ve nel campo della diagnosi e delle conseguenti scelte terapeutiche per i
disturbi dello spettro autistico cosı̀ come per altri disordini psichiatrici.

22
Capitolo 3

Computazione affettiva e
autismo

3.1 Che cos’è la computazione affettiva


La dicotomia ragione/sentimento pervade da secoli la nostra cultura e le
emozioni sono state considerate per lungo tempo nemiche del pensiero scien-
tifico.
Ormai da diversi decenni, tuttavia, studi interdisciplinari nei campi delle
neuroscienze, dell’antropologia e della psicologia hanno evidenziato quanto
le emozioni siano importanti non solo nell’ambito percettivo e cognitivo ma
anche nel pensiero razionale e nella capacità di prendere decisioni [16].
Pensando di progettare modelli che imitino il funzionamento del cervello
umano, sembra quindi importante tenere conto in qualche modo dell’aspetto
emotivo.
Già dal 19o secolo Charles Darwin [17] e William James [18] proposero teorie
sulle emozioni che influenzano tuttora il pensiero scientifico. Nei decenni a
seguire e a tutt’oggi studi nel campo sono proseguiti ad opera di psicologi,
filosofi e in un secondo tempo neurologi.
È solo negli anni ’80, tuttavia, che ricercatori come S. Turkle [19] iniziarono
ad interrogarsi su come i computer potessero tenere conto degli aspetti affet-
tivi. Ricerche più sistematiche videro la luce nei primi anni ’90 e nel 1997 il
fondamentale lavoro di R. Picard “Affective Computing” [20] stimolò un gran
numero di computer scientist e di ingegneri ad affrontare l’argomento.
La Computazione Affettiva (CA) si caratterizza quindi come il tentativo di
coniugare la scienza informatica con i meccanismi emotivi umani, sulla base

24
delle teorie psicologiche e neurologiche a riguardo.
I due grandi temi sono il riconoscimento delle emozioni dell’utente e l’espressione
di quello che un essere umano percepirebbe come stato emotivo.
L’idea di fondo è che, se un computer riconosce le emozioni dell’utente e
risponde in modo adeguato, allora la qualità dell’interazione migliora, ren-
dendo il sistema più gradevole ed efficace.
Pensiamo per esempio a un sistema d’insegnamento computerizzato che ten-
ga conto degli stati d’animo dello studente. In risposta a una sensazione di
piacere e di interesse potrà decidere di concentrarsi su determinati argomenti
e di proporne livelli più approfonditi. Al contrario, rilevando stress e frustra-
zione, potrà ridimensionare le richieste e fornire suggerimenti incoraggianti,
cosı̀ come potrebbe fare un insegnante umano [20].

3.2 Una prospettiva per l’autismo


L’insegnamento computerizzato è sicuramente uno dei campi in cui la CA
può essere di grande aiuto, ma le possibili applicazioni sono molte.
Tra queste, proprio gli interventi a favore delle persone nello spettro autistico
hanno coinvolto, nell’ultima ventina di anni, numerosi ricercatori. Diverse
ragioni suggeriscono che l’utilizzo di tecnologie di questo tipo, soprattutto
robot ma non solo, siano un utile supporto nelle terapie per gli individui
autistici, in particolare per i bambini.
Tali strumenti possono focalizzarsi sugli elementi di difficoltà, ma anche di
forza, tipici del disordine, creando situazioni o ambienti controllati in cui i
bambini abbiano la possibilità di fare esperienze in maniera più sicura (pre-
vedibile) e piacevole rispetto alle “reali” situazioni sociali, riducendo l’ansia
che queste ultime comportano [21].

3.3 Agenti robotici


Nello specifico i robot sociali stanno emergendo come un valido supporto
in ambito terapeutico. Sono meno complessi e più prevedibili degli umani
e possono occupare uno spazio speciale a metà tra i giocattoli inanimati,
che non portano con sé comportamenti di interazione sociale, e le persone,
più complicate e possibili fonti di stress. In altre parole, i robot possono
produrre segnali sociali (come un sorriso o un saluto) mantenendo contem-

25
poraneamente la semplicità di un oggetto. Utilizzando un robot è più facile
circoscrivere le informazioni e le azioni che devono essere presentate rispetto
ad un operatore umano cosı̀ come eventuali ripetizioni ad oltranza o piccole
variazioni controllate sono meno problematiche.
A tutt’oggi i robot negli interventi con bambini nello spettro vengono uti-
lizzati principalmente come modelli comportamentali di interazione sociale
(comunicazione verbale e non verbale, contatto visivo, attenzione condivisa,
gioco collaborativo, “fare a turni”...) nonché per provvedere un feedback agli
interventi stessi.
Nonostante la maggior parte degli studi mostrino in generale effetti positivi
(miglioramenti nei comportamenti attesi, nei tempi di risposta, apprezzamen-
to e/o interesse per l’interazione col robot), non tutti i bambini con autismo
reagiscono nello stesso modo. Ciò sottolinea la necessità di interventi perso-
nalizzati per questo gruppo cosı̀ eterogeneo. D’altra parte, oltre a rivolgersi
ai bisogni di questi bambini, tali strumenti devono essere sensibili alle richie-
ste dei professionisti del settore (psicologi, insegnanti, terapisti...) al fine di
meglio integrarsi negli interventi terapeutici.
Allo stato attuale i robot per bambini con autismo sembrano ancora lonta-
ni dal raggiungimento del loro pieno potenziale [21], ma le prospettive sono
interessanti.

3.3.1 Esempio 1: Tito

Tito [22] è un robot mobile costruito nel 2007 presso l’Università di Sher-
brooke (Canada).
L’ipotesi sottostante alla sua creazione e allo studio che ne è conseguito è
che un oggetto animato, più prevedibile e meno complicato di una persona,
possa facilitare la comunicazione bidirezionale con bambini autistici (1) ri-
ducendo i meccanismi di sottrazione, (2) aumentando l’attenzione reciproca
e (3) stimolando modalità comunicative simboliche come il linguaggio.
Lo studio si è basato su un gruppo di quattro bambini diagnosticati con
autismo a basso funzionamento. Questi bambini presentano difficoltà nell’i-
mitazione, un severo ritardo nel linguaggio recettivo ed espressivo e interessi
sensomotori (movimenti ripetitivi e stereotipati) che interferiscono con lo
sviluppo degli strumenti comunicativi. Inoltre dimostrano deficit nell’atten-
zione reciproca (evitano di incrociare gli sguardi, non rispondono ai sorrisi)
e nelle convenzioni per comunicare interessi comuni (come muovere la testa
per dire “sı̀” e “no” o la mano per dire “ciao”). La scelta dei bambini, tutti
intorno ai 5 anni, è avvenuta da un gruppo più ampio secondo precisi criteri
come illustrato in [22].

26
Partecipanti R1 R2 E1 E2
Età (anni : mesi) 4 : 4 5: 1 5: 5 5: 0
Comunicazione Non verbale Pre-verbale Non verbale Pre-verbale
Manierismi Sı̀ No Sı̀ No

Tabella 3.1: Partecipanti all studio

Due di questi bambini hanno interagito con un mediatore umano mentre gli
altri due con Tito, secondo uno stesso protocollo.
In Tabella 3.1 sono riassunte le caratteristiche dei quattro bambini: R1 e
R2 hanno interagito con Tito, mentre E1 e E2 col mediatore umano. Per le
loro caratteristiche, il bambino R1 è da paragonare al bambino E1, mentre
il bambino R2 al bambino E2.
Tito è alto 71 centimetri, è rosso, giallo e blu (Figura 3.1), ha le ruote per
muoversi ma si presenta con i piedi per simulare una forma umanoide. Le
braccia possono muoversi su e giù rapidamente e la testa può ruotare (per
dire “no”) e sollevarsi (per esprimere sorpresa). La bocca si può illuminare
(in un sorriso) cosı̀ come anche i capelli in fibra ottica e altre parti del corpo.
In un occhio è inserita una telecamera per poter misurare il contatto ocu-
lare. Può dire alcune frasi tramite messaggi pre-registrati con intonazione
interrogativa, neutra o allegra. Ha un controllo a distanza per le teleopera-
zioni e un microcontrollore interno che permette sequenze di comportamenti
pre-programmati. Alcune di queste sequenze sono: alza il braccio sinistro e
dice “ciao”, indica un oggetto mentre ne dice il nome, fa cadere il cappello
dicendo “dammi il cappello”, si nasconde dicendo “cerca Tito” e una volta
trovato dice “cucù!”, esprime gioia alzando le braccia, illuminando la bocca
e dicendo “felice!”.
Prima dello studio vero e proprio, lo stesso iter è stato condotto con tre
bambini che non facevano parte del gruppo selezionato per mettere a punto
la metodologia. In questa occasione è emersa l’importanza di condurre una
sessione preventiva che permettesse a ciascun bambino di familiarizzare con
il robot fino a non mostrare alcun segno di disagio.
A quel punto lo studio si è svolto tramite 20 sessioni precedute e seguite da
due momenti neutri, secondo uno schema ABA / AB’A, dove A sono i mo-
menti neutri, B le sessioni con Tito come mediatore e B’ quelle con mediatore
umano.
Prima di entrare nella stanza dello studio un educatore spiega al bambino
che seguirà un periodo di gioco e gli mostra un’immagine del mediatore. Poi
lo accompagna ad una sedia nel centro della stanza ai cui piedi viene collo-

27
Figura 3.1: Tito. Da [22]

cato il suo giocattolo preferito. L’educatore si siede vicino alla porta. Nella
stanza c’è un pannello cosı̀ che il mediatore vi si può nascondere dietro.
A questo punto iniziano le sessioni di attività. Nella prima e nell’ultima (A)
il mediatore compie delle azioni senza chiedere al bambino di imitarlo: dice
“ciao”, esprime felicità, indica il cappello, indica sé stesso, mostra la porta e
dice “ciao, ciao”.
Quindi iniziano le venti sessioni B o B’, ognuna delle quali coinvolge tre li-
velli (espressioni del viso, movimenti del corpo e azioni familiari) in cui il
mediatore chiede al bambino di imitarlo. I pattern da imitare sono: (1) (2)
esprimere gioia 2 volte e poi irritazione dopo aver urtato la sedia e fatto “no”
con la testa; (3) sorridere ed esprimere gioia. (4) (5) (6) dire “ciao” 2 volte
e ballare 2 volte; (7) muovere le braccia ed esprimere gioia; (8) muovere le
braccia e dire “ciao”; (9) muoversi in avanti e poi indietro, 2 volte; (10) dire
“ciao” 2 volte e poi muoversi in avanti; (11) dire “ciao”, muoversi in avanti e
poi indietro; (12) (13) dire “ciao”, indicare il cappello e chiederlo indietro, 2
volte; (14) dire ciao, muoversi indietro e indicare la foto del mediatore; (15)
dire “ciao” 2 volte, muoversi indietro e indicare la foto del mediatore; (16)
(17) dire “ciao” ed esprimere tristezza 2 volte dopo aver urtato il pannello;
(18) dire “ciao”, chiedere di indicare la foto del mediatore 2 volte; (19) dire
“ciao”, chiedere di indicare la foto del mediatore e fare “cucù” 2 volte dopo

28
essersi nascosto dietro al pannello; (20) dire “ciao”, chiedere di indicare la
foto del mediatore e fare “cucù” 4 volte.
Il motivo per cui alcune sessioni vengono ripetute è quello di dare la possibi-
lità al bambino di capirle meglio. All’inizio di ogni sessione il mediatore può
essere nascosto dietro al pannello (2, 3, 4, 5, 6, 16, 17) o vicino al bambino
(nelle altre).
Alla fine di ogni sessione il mediatore indica la porta e dice “porta” per far
sapere al bambino che l’attività sta per terminare, quindi fa “ciao” con la
mano e con la voce e va dietro al pannello. L’intervallo tra le sessioni è di 12
secondi.
In tutte le attività, ogni volta che il bambino imita correttamente il media-
tore, questo sorride, alza le braccia e dice “felice!”.
Ogni bambino è stato esposto all’intero ciclo tre volte alla settimana per sette
settimane, tutte le sessioni sono state registrate.
In fase di analisi dei risultati, sono state considerate quattro categorie di
variabili (espressioni o reazioni):
• attenzione verso l’altro (quattro variabili): contatto oculare per più
di tre secondi, prossimità fisica (spostarsi a meno di due braccia dal
mediatore con contatto visivo), imitazione di espressioni del viso (gioia,
rabbia, tristezza) e imitazione di gesti non diretti verso il mediatore.
• convenzioni condivise (quattro variabili): espressioni del viso, gesti,
azioni e parole tutti diretti verso il mediatore.
• mancanza di condivisione (sette variabili): contatto oculare assente
o inferiore ai tre secondi, abbandono dell’area di comunicazione, evita-
re il mediatore, gioco sensomotorio ripetitivo col giocattolo preferito,
manierismi motori, rituali, aggressioni.
• altri fenomeni (quattro variabili): imitazione del rumore fatto dal
mediatore (rumore del motore di Tito), imitazione di parole o gesti fuori
contesto o ogni altro comportamento non elencato nelle altre categorie.
La codifica dicotomica (presenza/assenza) di tali variabili è stata tratta dai
filmati e calcolata su finestre di 12 secondi. Nel caso in cui fossero presenti
sia comportamenti di mancanza che di presenza di attenzione o condivisione,
questi ultimi sono stati privilegiati.
Attenzione verso l’altro. La Figura 3.2 mostra un’analisi delle variabili
relative all’attenzione verso l’altro. I bambini che hanno interagito con Ti-
to (R1 e R2) hanno dimostrato in generale maggior attenzione verso l’altro
rispetto a quelli con il mediatore umano (E1 e E2), tenendo conto che, date
le caratteristiche simili, R1 è da confrontare con E1 e R2 con E2. Ad un’a-
nalisi più approfondita, tuttavia, questo si rivela vero per quanto riguarda il

29
s a

ollr
to
onedi
onever
zi
i
opor
tenz
Pr
at

E
spos
izi
oni

Figura 3.2: Analisi delle variabili per l’attenzione verso l’altro. Da [22]
v
odi
Numer ai
ra i
l
bi a

perlt i
enz
t er
onev ol
s a
’t
lo
r

E
spr
ess
ioni
del
vis
o Mov
iment
idel
cor
po Az
ioni
conogget
ti Az
ioni
senz
aogget
ti

Figura 3.3: Occorrenza delle variabili relative all’imitazione. Da [22]

contatto oculare e la prossimità fisica ma falso per i gesti non diretti verso il
mediatore.
Per quanto riguarda le imitazioni, la Figura 3.3 indica come i bambini ac-
coppiati con Tito (blu e verde) fossero più coinvolti rispetto agli altri (rosso
e giallo). A causa dei deficit severi, i bambini non verbali (blu e rosso) hanno
espresso minore attenzione verso l’altro in tutte le attività.
Convenzioni condivise. Come si può vedere dalla Figura 3.4, i bambini
accoppiati con Tito (blu e verde) hanno imitato più degli altri (rosso e giallo)
le espressioni del viso mentre per quanto riguarda le altre variabili i risultati
sono stati opposti.
In conclusione emerge, come era prevedibile, che i bambini non verbali si
siano rivelati meno interessati e partecipativi dei bambini pre-verbali.

30
i
odi
Numer t
miai
zoni

E
spr
ess
ioni
del
vis
o Mov
iment
idel
cor
po Az
ioni Par
oleopar
ole
appr
ossi
mate

Figura 3.4: Occorrenza delle imitazioni relative alle convenzioni condivise.


Da [22]

Per quanto riguarda le convenzioni condivise, i risultati indicano una maggio-


re difficoltà comunicativa nei bambini accoppiati con Tito. Questo può essere
spiegato da diversi fattori. Primo, la presenza di due bambini non verbali
a bassissimo funzionamento impedisce di osservare l’uso di parole nell’imita-
zione comunicativa. Nel caso dei bambini pre-verbali si può pensare che R2
avesse più difficoltà a capire gli intenti di Tito date le sue limitate capacità di
movimento. Inoltre Tito non è stato utilizzato per imitare il bambino dopo
che quest’ultimo lo ha imitato, rendendo il gioco unidirezionale e mostrando
meno reciprocità rispetto al mediatore umano.
Relativamente all’attenzione verso l’altro lo studio ha indicato un’opposta
tendenza. I partecipanti accoppiati con Tito hanno mostrato meno giochi ri-
petitivi con l’oggetto inanimato (il giocattolo preferito) e maggiore contatto
visivo e vicinanza col robot. Questo conferma l’ipotesi che l’attenzione verso
l’altro sia facilitata dalle caratteristiche invitanti (movimenti, colori, luci) e
dalla prevedibilità di Tito. Quando il robot esprimeva emozioni di gioia o di
tristezza o faceva semplici azioni, i bambini reagivano alla sua voce, alle luci
o ai movimenti guardandolo e avvicinandosi. Inoltre imitavano più facilmen-
te le espressioni facciali di gioia (sorriso). In particolare il bambino R2 ha
mostrato in diversi momenti una buona comprensione e imitazione di alcune
azioni, come rendere il cappello a Tito, indicare la porta e fare “ciao” con
la mano. Tutto ciò a indicare una maggior facilità a capire le espressioni di
Tito data la sua semplicità.

31
3.3.2 Esempio 2: Nao e il Progetto ARIA

Il progetto ARIA (Adaptive Robot-mediated Intervention Architecture [23])


nasce dall’esigenza di sviluppare modalità terapeutiche per i bambini affetti
da autismo personalizzate, data la grande varietà di caratteristiche del grup-
po.
Lo studio si è focalizzato sullo sviluppo di un’architettura mediata da un
robot che stimoli in maniera dinamica l’Attenzione Condivisa (AC), cioè uno
scambio triadico in cui il bambino coordina l’attenzione tra un partner e un
aspetto dell’ambiente.
La scelta di questa abilità sociale è dovuta alla sua fondamentale importanza,
dato che tramite l’AC il bambino ha la possibilità di imparare dagli altri e
da quello che c’è intorno. L’AC è per esempio fondamentale nello sviluppo
del linguaggio.

Figura 3.5: Nao

Elemento centrale del progetto è un robot umanoide. Quello utilizzato è


Nao, costruito da Aldebaran Robotics (Figura 3.5). È di plastica, alto 58
centimetri, gode di 25 gradi di libertà. Si basa su di un sistema chiama-
to NAOqi, a cui si possono collegare moduli esterni sviluppati per esigenze
specifiche. In questo caso le capacità visive di Nao sono aumentate da una
rete di telecamere a infrarossi che servono per tracciare i movimenti della
testa del bambino, come approssimazione della direzione dello sguardo, al

32
fine di monitorarne in tempo reale i comportamenti di AC. Il partecipante
indossa un cappello a cui sono cuciti dei led infrarossi, a cui le telecamere
sono sensibili. Ognuna di esse ha il proprio processore che comunica con un
supervisore (software supervisory controller ). È stata scelta questa modalità
di inferenza dello sguardo piuttosto che la tracciatura oculare (eye tracking)
perché permette movimenti del capo più ampi e una maggior distanza dal-
l’oggetto. Inoltre per rivelare l’AC sono sufficienti coordinate approssimate
dello sguardo.
Il supervisore riceve e invia dati anche da/a Nao, nonché a due schermi posti
ai lati. Questi possono fornire stimoli visivi e/o sonori che includono imma-
gini fisse interessanti per il bambino (come personaggi dei cartoni), video con
contenuti simili o altri eventi audio e video come stimoli addizionali. L’ar-
chitettura del sistema è rappresentata in Figura 3.6.
Il supervisory controller facilita la comunicazione tra i processori delle te-
lecamere, Nao e i controllori degli stimoli audiovisivi utilizzando un’inter-
faccia di rete. Prende anche decisioni sulla base dei dati raccolti dalle
telecamere.

T
elec
amer
afr
ont
ale

T
era
pis
ta
uma
no/r
obot
x

S
mos

cher
her

modx
c
S

T
elec
amer
asx T
elec
amer
adx

Sediaper
i
lpa
rtec
ipante T
elec
amer
aal
soffit
to

Geni
tor
e S
per
iment
ator
e

Figura 3.6: Architettura del sistema ARIA. Adattamento da [23]

Lo studio ha coinvolto un totale di dodici bambini tra i 2 e i 5 anni, di cui


sei con diagnosi di autismo (ASD, Tabella 3.2) e sei neurotipici (TD, Tabel-
la 3.3). Per essere sicuri che i bambini del gruppo TD non avessero alcuna
caratteristica autistica e per quantificare i sintomi nel gruppo ASD, i geni-
tori hanno completato due questionari di screening: il Social Responsiveness

33
Partecipanti ASD1 ASD2 ASD3 ASD4 ASD5 ASD6
(genere) (m) (m) (f) (m) (m) (m)
Età 5.14 3.24 4.92 5.27 4.49 5.17
SRS (soglia 60) 51 58 70 85 81 77
SCQ (soglia 15) 5 11 8 21 20 15

Tabella 3.2: Partecipanti allo studio nello spettro autistico ASD (Autism
Spectrum Disorder)

Partecipanti TD1 TD2 TD3 TD4 TD5 TD6


(genere) (f) (m) (m) (f) (m) (m)
Età 4.72 5.27 4.74 3.20 5.18 2.46
SRS (soglia 60) 47 39 45 46 50 46
SCQ (soglia 15) 2 0 2 5 11 3

Tabella 3.3: Partecipanti allo studio TD (Tipically Developing)

Scale (SRS [24]) e il Social Communication Questionnaire (SCQ [25]). Per


il primo questinario viene considerato neurotipico un valore massimo uguale
a 60, per il secondo a 15.

Ogni bambino prende parte a una sessione che dura approssimativamente


mezz’ora. La tipica sessione consiste in quattro sotto-sessioni di 2/4 minuti
ciascuna: due con un terapista umano e due con Nao alternati (U-N-U-N
oppure N-U-N-U).
All’inizio il ricercatore descrive quello che succederà al partecipante e al (ai)
genitore (genitori). Al bambino viene detto in modo chiaro di riferire al ri-
cercatore o al genitore se non si sente a suo agio e può interrompere tutto in
ogni momento.
Viene quindi fatto sedere e assicurato alla sedia per il tempo della sotto-
sessione. Negli intervalli è incoraggiato ad alzarsi.
La sessione vera e propria si basa su di un protocollo di suggerimenti gerar-
chici, nel senso che fornisce un supporto solo quando necessario.
(1) (2) In un primo momento il suggeritore (terapista umano o robot) dà
un segnale verbale e gira la testa verso uno dei due schermi dove è mostrata
un’immagine. Per esempio, se il partecipante si chiama Max, dice: “Max,
guarda!”. Questa fase viene ripetuta una seconda volta nel caso il bambino
non risponda alla prima. (3) (4) Se dopo la seconda ripetizione il bambino
ancora non guarda verso lo schermo giusto, il suggeritore aumenta il livello di
aiuto aggiungendo alla voce e al movimento della testa un gesto che indica lo

34
schermo. Anche questa fase viene ripetuta due volte se ce ne è bisogno. (5)
Se ancora non c’è la reazione desiderata il suggeritore ripete la sequenza di
azioni e dallo schermo arriva un suggerimento audio. (6) L’eventuale livello
finale aggiunge alla sequenza uno stimolo audio/video dallo schermo.
I risultati dello studio indicano che i bambini di ambedue i gruppi hanno
passato più tempo guardando il robot piuttosto che il terapista. Nel caso del
gruppo ASD hanno guardato Nao per il 52.76% del tempo delle sotto-sessioni
N mentre il terapista umano per il 25.11% del tempo delle sotto-sessioni U.
In Figura 3.7 è indicato quanto ogni bambino nel gruppo ha guardato, in
percentuale, sia Nao che il terapista.
S
ott
o-s
ess
ioni
coni
lter
api
st
auma
no S
ott
o-s
ess
ioni
conNa
o
t
%di r
empoguada l
ndoit a
er s
pit Na
no/
auma o

Figura 3.7: Gruppo ASD, sguardo verso il terapista. Adattamento da [23]

S
ott
o-s
ess
ioni
coni
lter
api
st
auma
no S
ott
o-s
ess
ioni
conNa
o
t
%di r
empoguada l
ndoit a
er s
pit Na
no/
auma o

Figura 3.8: Gruppo TD, sguardo verso il terapista. Adattamento da [23]

Nel gruppo TD, i bambini hanno guardato Nao per il 54.27% e il terapista
umano per il 33.64% del tempo. La Figura 3.8 si riferisce a questo gruppo.

35
Questo risultato indica un orientamento preferenziale significativo nei con-
fronti di Nao per tutti e due i gruppi, leggermente più accentuato nel gruppo
ASD. Come era prevedibile, il terapista umano ha ottenuto invece più atten-
zione nel gruppo TD rispetto all’altro gruppo.
Per quanto riguarda il numero di livelli necessari per raggiungere un compor-
tamento di AC, il gruppo ASD ne ha richiesto in media il 14.58% in più nelle
sessioni con Nao rispetto a quelle col terapista. Il gruppo TD il 9.37%. Un
osservatore addestrato e un genitore hanno notato che i bambini apparivano
eccitati dal robot e dalle sue azioni. Il maggior numero di livelli necessari con
Nao per il successo in entrambi i gruppi può quindi esser dovuto al desiderio
di guardare il robottino più di qualunque altra cosa.
Lo studio soffre di alcune pesanti limitazioni. Il numero esiguo di partecipanti
è forse la maggiore. Inoltre, la breve durata delle sessioni con ogni bambino
non permette di capire se la grande attrattiva del robot sia semplicemente
una questione di novità o se anche col passare del tempo tale attrattiva po-
trebbe rimanere.
Un altro limite è dovuto al cappello. Nella scelta dei partecipanti ha causato
l’esclusione di alcuni bambini a cui dava fastidio e in generale è discretamente
invasivo.
Nonostante tutto, la ricerca suggerisce che sistemi robotici migliorati siano
potenzialmente capaci di catturare l’attenzione dei bambini autistici orien-
tandoli verso abilità sociali come l’attenzione condivisa.

3.3.3 Esempio 3: Kaspar e il Progetto AuRoRA

Il Progetto AuRoRA (Autonomous Robot as a Remedial tool for Autistic


children)1 nasce nel 1998 a opera della Prof. Kerstin Dautenhahn dell’Univer-
sità dell’Hertfordshire [26]. Da allora, molti ricercatori vi hanno contribuito
e continuano a contribuire.
Scopo di AuRoRA è lo studio del potenziale di robot sociali interattivi come
strumenti o “giocattoli” terapeutici nel campo dell’autismo [27]. Il fine è
quello di coinvolgere i bambini con autismo in una varietà di modi, aiutan-
doli a sviluppare e aumentare le loro capacità comunicative e di interazione
sociale.
1
La parola “Remedial” è presente nell’acronimo a causa della relazione del progetto con
il campo della robotica riabilitativa. Tuttavia l’intenzione non è quella di curare l’autismo:
l’autismo non può essere curato e gli sforzi terapeutici sono per aiutare le persone nello
spettro a vivere meglio [26].

36
Figura 3.9: Kaspar

Nel corso del tempo il progetto ha prodotto diversi robot, l’ultimo in ordine
cronologico è Kaspar (Figura 3.9). Kaspar è un robot umanoide alto 60 cm
fissato in posizione seduta. Ha 8 gradi di libertà nella testa e nel collo, 6
nelle braccia e nelle mani e 1 nel torso. La faccia è in silicone, supportata
da un telaio in alluminio. Gli occhi sono dotati di videocamere, le palpebre
possono aprirsi e chiudersi e la bocca si può aprire e sorridere. Comunica
con le persone attraverso i gesti, le espressioni facciali e il linguaggio (tra-
mite messaggi preregistrati). La prima versione risale al 2005 e da allora è
stato usato per studiare diverse forme di interazione uomo-robot nel campo
dell’autismo.
La ricerca qui presentata [28] utilizza Kaspar in modalità completamente
autonoma. L’attività prescelta è quella di un gioco collaborativo con una
coppia di bambini. Punto di partenza è il potenziale osservato nei robot per
incoraggiare abilità sociali nei bambini con autismo unito all’attrazione eser-
citata su di essi dai video games. Oltre a Kaspar, infatti, nello studio sono
utilizzati altri due importanti accessori: uno schermo posto in orizzontale
che mostra un determinato videogioco (Copycat) e tre Nintendo Wii remo-
te controllers (Wiimotes), ognuno allacciato sul braccio di un giocatore per
tracciarne la posizione (Figura 3.10).

37
Figura 3.10: I giocatori, Kaspar e gli accessori del gioco. Da [28]

Due le ipotesi della ricerca:


• Ipotesi 1: L’interazione con un robot autonomo in sessioni di gioco
strutturate ed esplicitamente collaborative tra due bambini con au-
tismo e il robot, può promuovere nei bambini l’impegno sociale e la
collaborazione durante le sessioni di gioco.
• Ipotesi 2: Le abilità sociali che i bambini hanno imparato giocando
tra di loro e con il robot autonomo, possono trasferirsi alle successive
sessioni di gioco collaborativo con altri bambini (senza il robot).
Il video game progettato (Copycat) può essere giocato tra due bambini (inte-
razione diadica) o con l’aggiunta di un terzo giocatore nella forma del robot
umanoide Kaspar (interazione triadica).
A turno ogni partecipante (Kaspar compreso) ha il compito di scegliere una
delle forme che il videogioco propone. A ogni forma corrispondono, per via
del colore uguale, delle figure umane stilizzate col braccio posto in un certo
modo (Figura 3.11). A questo punto il giocatore di turno assume la posizione
relativa alla forma scelta e comunica agli altri di imitarlo. Quando tutti i
partecipanti hanno la giusta posa, la forma scelta si riempie di colore, ruo-
ta su sé stessa lampeggiando mentre si sente una musica allegra. Quindi la
forma sparisce, i giocatori riposano qualche secondo con il braccio abbassato
finché il compito di scegliere e dirigere gli altri passa ad un altro. In ogni
momento, una freccia sullo schermo indica chi sta comandando.
Per farsi imitare, il giocatore di turno può usare gesti e parole. Nel caso non
compia alcuna scelta oppure gli altri non lo imitino, non è stata posta alcuna
limitazione alla possibilità per i bambini di incitare chi non segue corretta-
mente le regole. Nella stanza è anche presente un educatore e anche lui può,
se necessario, dare degli stimoli.

38
Figura 3.11: Uno screenshot di Copycat. Da [28]

In questo gioco i bambini devono imparare a comunicare e a interagire tra di


loro. Il “regista” deve catturare l’attenzione degli altri giocatori e descrivere
la posa, verbalmente o non verbalmente. Chi non è di turno, d’altra parte,
deve riuscire a prestare attenzione al regista e imitarlo. Inoltre, il gioco
richiede che i bambini si alternino scambiandosi di ruolo. Tutte queste sono
grandi sfide per i bambini con autismo. Se li si osserva giocare normalmente
anche in un contesto sociale, infatti, tipicamente staranno per i fatti loro con
il proprio giocattolo.
Per questo motivo i ricercatori hanno pensato ad una architettura del gioco
che facilitasse le cose il più possibile. Lo schermo è posto in orizzontale
in modo che i bambini siano uno di fronte all’altro, le figure sono semplici
e chiare e la direzione della freccia indica in ogni momento chi comanda
il gioco. Ma soprattutto Kaspar è programmato con dei comportamenti
interattivi chiaramente definiti, in modo da aiutare i bambini ad imparare a
prestare attenzione all’altro, a farsi ascoltare e a cambiare di ruolo cosı̀ come
avviene nelle situazioni sociali.
A questo proposito:
• Kaspar saluta sempre i bambini all’inizio e alla fine di ogni sessione,
sorridendo, agitando il braccio sinistro e guardando nella direzione in
cui si aspetta che sia ogni bambino.
• Quando un bambino è di turno e ritarda a scegliere una forma, Kaspar
lo sollecita dicendo ad esempio: “Cosa pensi che dovremmo fare?”.
• Quando un bambino non di turno ritarda nel posare come il regista,
Kaspar gli fa una richiesta diretta, ad esempio: “Scegli la forma indicata

39
dal tuo compagno”.
• Ogni volta che i bambini scelgono una forma (quando è il loro turno),
Kaspar la conferma ad alta voce.
• Ogni volta che Kaspar seleziona la propria forma (quando tocca a lui),
indica di aver preso una decisione (ad esempio: “Ho un’idea”) prima
di agire. Questo per preparare i bambini a prestare attenzione.
• Ogni volta che Kaspar annuncia la forma scelta o quando si congratula
con i bambini per aver imitato la posizione in modo corretto, fa un
grande sorriso e guarda direttamente dove i bambini dovrebbero essere.
Per lo studio sono stati scelti sei bambini tra gli 8 e i 9 anni, cinque maschi
e una femmina. Si è optato per il coinvolgimento di un numero ristretto di
partecipanti, ma per un lungo periodo, al fine di mettere a punto una tec-
nologia autonoma che possa aiutare insegnanti e terapisti nel mondo reale,
dato che la natura di questi processi di apprendimento richiede tempi lunghi.
I sei bambini sono stati diagnosticati a vari livelli di autismo e frequentano
una scuola per esigenze speciali. La scuola ha fornito i dati relativi alle abilità
di espressione e comprensione verbale nonché di interazione sociale secondo
la P-scale (Tabella 3.4), un insieme di criteri utilizzati nelle scuole del Regno
Unito per quei bambini al di sotto del livello 1 del Curriculum Nazionale [29].
La P-scale va da un minimo di P1 a un massimo di P8 .

Partecipanti R M T H Cl C
(genere) (m) (m) (f) (m) (m) (m)
Età 9 9 8 8 9 8
Abilità nell’espressione verbale P7 P6 P6 P8 P6 P6
Abilità nell’ascolto P7 P5 P6 P8 P6 P7
Abilità personali e sociali P7 P5 P4 P7 P5 P5

Tabella 3.4: Partecipanti allo studio. Le abilità sono misurate tramite la


P-scale (Performance scale)

Le sedute si svolgono in una grande e luminosa stanza chiusa, con le finestre


oscurate, per evitare distrazioni. L’unica altra persona presente è un educa-
tore che i bambini conoscono bene. Il suo ruolo è di tenerli focalizzati nel
caso si distraggano, di calmarli se si eccitano troppo e in generale di agire in
caso di bisogno, ma tendenzialmente interviene il meno possibile.
La prima volta il bambino viene istruito sul funzionamento del gioco, e all’i-
nizio di ogni sessione successiva può ripeterne i meccanismi giocando da solo
per rinfrescare la memoria. Durante le sessioni può continuare a giocare o
smettere quando vuole.

40
La ricerca segue questa struttura: in una prima fase (A1) due bambini gio-
cano tra di loro. Dopodiché ogni bambino familiarizza da solo con Kaspar
(F), e questo per tre volte in tre giorni distinti. In questo modo i bambini
si abituano al modo di parlare e di agire del robot minimizzando l’effetto
novità nella sessione successiva (B1) che prevede l’interazione triadica tra
due partecipanti e Kaspar. A questa seguono un’altra fase diadica (A2) e
un’altra triadica (B2). Lo schema risulta quindi:
A1 - F - B1 - A2 - B2
Ogni bambino gioca le quattro fasi A e B con ciascun altro bambino. Ciò
permette di superare gli effetti di eventuali simpatie/antipatie. Dato che i
partecipanti sono sei, le possibili combinazioni risultano 15 per ogni fase A
o B. Inoltre, ogni bambino gioca tre volte da solo con Kaspar. In totale,
quindi, le sessioni sono (15 × 4) + (6 × 3) = 78, mentre ogni bambino gioca
(5 × 4) + 3 = 23 volte. L’alto numero di sessioni riduce l’influenza dell’effetto
novità relativo a Kaspar e al videogioco.
Durante lo studio, le sessioni sono durate in media 6 minuti, al massimo
15. Sono state tutte filmate e alcuni comportamenti d’interesse sono stati
codificati manualmente dalle registrazioni delle fasi A e B.

Figura 3.12: Adattamento da [28]

Come ci si poteva aspettare, nelle sessioni a due ogni bambino ha guarda-


to l’altro decisamente di più dopo aver giocato con Kaspar (A2) rispetto a
prima (A1). Più sorprendente è il fatto che nella fase B2 i bambini abbiano
continuato a guardarsi l’un l’altro più che in A1, nonostante la presenza di
Kaspar (Figura 3.12. Le barrette nere indicano la deviazione standard).
Considerando il tempo impiegato guardando un altro partecipante (sia bam-

41
bino che robot), come ci si poteva aspettare è decisamente maggiore nelle
fasi B (Figura 3.13).

Figura 3.13: Adattamento da [28]

In più, ogni bambino ha alternato lo sguardo tra il gioco e un altro parte-


cipante molto più spesso dopo aver giocato con Kaspar (A2, B2) che non
prima (A1). Inaspettatamente non c’è stata differenza significativa tra A2 e
B2, nonostante si potesse pensare che il robot sarebbe stato più attraente.
E in effetti, i partecipanti hanno mostrato comportamenti affettivi positivi
più spesso interagendo con Kaspar che non con l’altro bambino. Altro dato
interessante, i comportamenti affettivi positivi vicendevoli sono stati decisa-
mente maggiori nella fase A2 rispetto alla fase A1.
Per quanto riguarda il linguaggio, non ci sono state grandi differenze nel nu-
mero di volte in cui i bambini hanno parlato tra le varie fasi, tuttavia in A2
lo hanno fatto molto più spesso guardando l’altro bambino rispetto ad A1
(Figura 3.14).
Ricordando che i bambini coinvolti nello studio hanno tutti una diagnosi di
autismo, anche se a diversi livelli, è importante notare che tutti hanno parte-
cipato attivamente al gioco collaborativo per lassi di tempo estesi e tutti sono
migliorati in modo significativo nei loro comportamenti sociali dopo l’intera-
zione con Kaspar.
Aver mostrato in modo più spiccato comportamenti sociali durante la fase
A2 rispetto alla fase A1 ha implicazioni interessanti. I bambini con autismo
tendono a non guardare la persona con cui interagiscono, anche quando si
tratta di qualcuno che conoscono bene. Il comportamento osservato nelle
sessioni è quindi indicativo di una migliore comunicazione sociale. Questo
perché lo sguardo reciproco è una forma importante di comunicazione non
verbale e svolge un ruolo di rilievo nella sincronizzazione delle azioni e nella

42
Figura 3.14: Adattamento da [28]

regolazione del turn-taking.


Anche l’aumento dei comportamenti affettivi positivi vicendevoli in A2 ri-
spetto ad A1 è un risultato notevole e potrebbe significare che i bambini
volevano condividere il loro gradimento con il compagno. E mostrare spon-
taneamente piacere condiviso è una delle difficoltà tipiche dello spettro auti-
stico.
Inoltre esprimersi verbalmente guardando l’altro partecipante potrebbe signi-
ficare il desiderio di coordinarsi attivamente, anche in questo caso diminuendo
le problematiche tipiche relative alla comunicazione.
Tornando alle due ipotesi di partenza, si può dire che entrambe siano state
verificate.
i bambini si sono effettivamente impegnati con successo con il robot e tra
di loro durante i giochi triadici progettati per promuovere la collaborazione
(ipotesi 1). Hanno inoltre mostrato un miglior comportamento sociale e
si sono impegnati in interazioni diadiche l’uno con l’altro dopo le sessioni
triadiche con il robot (ipotesi 2).
Nel confrontare i comportamenti tra le due sessioni diadiche sono emerse le
seguenti differenze statisticamente significative tra A1 (prima che i bambini
giocassero con Kaspar) e A2 (dopo aver giocato con Kaspar). In A2 i bambini

43
hanno passato più tempo guardando l’altro bambino e impegnandosi nello
sguardo reciproco . In A2 i bambini hanno mostrato un maggior numero di
spostamenti dello sguardo tra bambino e gioco e più espressioni di affetto
positivo e di linguaggio guardando l’altro.

3.4 Agenti virtuali: i serious game, una di-


versa tecnologia
I serious game (SG) sono giochi che affiancano all’intrattenimento elementi
educativi. Hanno in comune lo scopo di creare un’esperienza formativa effica-
ce e piacevole, mentre il genere, la tecnologia, il supporto e il target variano.
Nel campo delle terapie a favore delle persone autistiche sono stati speri-
mentati diversi SG sotto forma di videogiochi per favorire l’apprendimento
di abilità sociali particolarmente difficili per queste persone. Tali giochi uti-
lizzano la propensione a “sistematizzare” tipica degli individui nello spettro
incoraggiandone nel contempo la partecipazione attiva.
Alcuni elementi chiave sono ritenuti importanti per migliorare la motivazione
a giocare con i SG: trame coinvolgenti, obiettivi rivolti a competenze mira-
te, premi e feedback sul progresso negli obiettivi, livelli crescenti di difficoltà,
formazione individualizzata e possibilità di scelta [30].
La ricerca ha dimostrato che gli individui con autismo sono particolarmente
attratti da questi giochi. Inoltre, come per altre tecnologie, l’ambiente sicuro
e controllato della realtà virtuale presentata nei SG è più facilmente com-
prensibile e causa meno ansia rispetto al complesso mondo reale.
Una delle abilità particolarmente ardue per le persone autistiche è quella del
riconoscimento delle emozioni. Alcuni esempi di SG focalizzati su tale ca-
ratteristica sono Mindreading [31], Frankfurt test and training of facial affect
recognition [32] e FaceSay [33]. Questi giochi si concentrano principalmente
sul riconoscimento delle emozioni dalle espressioni del viso, che è un elemento
fondamentale ma non è l’unico.
Qui presentiamo il SG Emotiplay [30] che punta ad insegnare ai bambini
con autismo la comprensione degli stati emotivi anche attraverso la prosodia
vocale e il linguaggio del corpo.

3.4.1 Emotiplay

Emotiplay è un SG disegnato come parte di un progetto europeo su larga


scala (Autism Spectrum Conditions-Inclusion), che esplora la tecnologia per

44
migliorare l’inclusione dei bambini con autismo. Lo studio esaminato ha
valutato i risultati di tale gioco in un contesto interculturale, nel Regno
Unito, in Svezia e in Israele. Nella prima fase è stata utilizzata nel Regno
Unito una versione alfa, più limitata. Nella seconda, in Svezia e in Israele, la
ricerca è invece avvenuta tramite una versione beta, che si è avvalsa dell’intero
insieme di attività per il riconoscimento delle emozioni.
Il gioco include quattro unità principali:
• Unità 1 : Introduzione: quali sono le emozioni?
• Unità 2 : Emozioni di base: felicità, tristezza, paura, rabbia, disgusto.
• Unità 3 : Difficoltà e gioie nella vita scolastica: sorpresa, interesse, noia,
vergogna, orgoglio.
• Unità 4 : Relazioni sociali: gentilezza e ostilità.

Lez
ionedi
fel
ic
ità Lac
asadel
l’
avat
ar

Gi
ocodel
linguaggi
odel
cor
po Gi
ocodel
lees
pres
sioni
fac
cial
i

Figura 3.15: Alcune schermate di Emotiplay. Adattamento da [30]

In figura 3.15 si possono vedere quattro schermate del gioco. Le varie attività
mostrano come si esprimono diverse emozioni tramite il viso, il corpo o la
voce, oppure attraverso una combinazione delle tre cose. Dopodiché viene
chiesto al giocatore di riconoscere l’emozione in causa tra due o più possibi-

45
lità, a seconda del livello a cui si è arrivati 2 .
Emotiplay impiega la maggior parte degli elementi chiave che migliorano la
motivazione a giocare con i SG. La trama del gioco pone l’utente nel ruolo
di un esploratore nella giungla, alla ricerca dei comportamenti umani e delle
espressioni emotive (trame coinvolgenti). Il SG insegna il riconoscimento del-
le emozioni attraverso canali separati (espressioni facciali, prosodia vocale,
linguaggio del corpo), e in più addestra l’utente a integrare questi segnali,
tenendo conto del contesto (obiettivi rivolti a competenze mirate). La possi-
bilità di scelta viene fornita nell’area personale, dove l’utente può progettare
il proprio avatar, inclusi i tratti del volto, l’abbigliamento e gli accessori (pos-
sibilità di scelta). Nelle varie fasi, il giocatore riceve feedback positivi sotto
forma di animazioni, nuovi giochi divertenti, oggetti collezionabili e dena-
ro virtuale che può essere utilizzato per acquistare attrezzature per l’avatar
dell’utente e per la sua casa virtuale (livelli crescenti di difficoltà e premi e
feedback sul progresso negli obiettivi ).

Atti
vità: Atti
vit
à: At
tivi
tà:
es
pres
sionidelvol
to l
inguaggi
odelcor
po i
ntegr
azi
onedeisegnal
i
Comesis
entelara
gaz
za Comesis
entelar
aga
zza Al
l
a nedel
l
as c
ena,c
hecos
aespr
ime
nel
video? nel
video? i
lra
gazzoves
ti
todi
ros
so?

Figura 3.16: Attività di riconoscimento emotivo visivo. Adattamento da [30]

Emotiplay attinge alle capacità “sistematiche” dei bambini con autismo, for-
nendo un ambiente strutturato ma versatile, ricco di elementi e giochi relativi
agli interessi circoscritti del bambino.
In aggiunta al videogioco, è fornita una guida scritta genitore-figlio con atti-
2
Ulteriori dettagli su Emotiplay sono disponibili sul sito www.emotiplay.com, comprese
alcune demo delle attività.

46
vità extra, mirate a consolidare il materiale didattico e a generalizzare nella
vita di tutti i giorni le cose apprese (ad esempio creare un album emozionale
dei membri della famiglia, giocare al “detective emotivo” che riconosca sui
volti, nel linguaggio del corpo e nella voce le emozioni imparate, ecc.).

Fase 1: Regno Unito. A questo primo studio, che ha utilizzato una ver-
sione alfa di Emotiplay, hanno partecipato 15 bambini tra i 6 e i 9 anni con
IQ nella norma (misurato tramite le scale Wechler). La selezione è avvenuta
da un database di volontari, scuole speciali e organizzazioni di supporto per
individui con autismo. Tutti i bambini presentavano una diagnosi di auti-
smo secondo diversi protocolli ufficiali. Le diagnosi sono state ulteriormente
confermate tramite la seconda edizione del Autism Diagnostic Observation
Schedule (ADOS-2) [34]. Tutti i partecipanti hanno soddisfatto i criteri di
soglia di ADOS-2 per l’autismo.
Prima dell’utilizzo di Emotiplay, i bambini e i loro genitori hanno partecipato
a un pre-intervento presso le loro case o presso l’Autism Research Centre di
Cambridge. In questa sessione i genitori hanno compilato due questionari di
screening: il Social Responsiveness Scale (SRS [24]) e il Vineland Adaptive
Behavior Scales (VABS-II [35]) valutando le abilità sociali dei figli. I bambini
hanno invece partecipato a delle attività di riconoscimento delle emozioni con
i ricercatori sempre nell’ottica di misurarne il relativo grado di competenza.
Alla fine del pre-intervento valutativo ai genitori è stata consegnata la guida
attività ed è iniziata la fase SG vera e propria. Ai partecipanti è stato chiesto
di usare Emotiplay per 8 settimane, per almeno 2 ore la settimana. Ogni 2
settimane il team di ricercatori ha monitorato l’utilizzo delle attività extra,
anche se i genitori erano liberi di rivolgersi a loro per ogni dubbio o consiglio
in qualunque momento.
A questo periodo ha fatto seguito un post-intervento valutativo che ha utiliz-
zato gli stessi strumenti del pre-intervento: compilazione dei questionari da
parte dei genitori e attività di riconoscimento delle emozioni per i bambini.
Ai genitori è anche stato chiesto conto dell’efficacia del sistema, dell’idoneità
per i loro figli, della facilità di utilizzo e di eventuali altri commenti. Queste
indicazioni sono state utilizzate per l’ottimizzazione della versione beta.
Come mostra la figura 3.17, le prestazioni (misurate tramite i vari criteri
utilizzati) dopo 8 settimane di gioco con Emotiplay sono risultate notevol-
mente migliorate e i genitori hanno dato valutazioni maggiori nei questionari
di screening oltre a giudicare in modo sostanzialmente positivo l’effetto sui
figli, l’idoneità, la capacità motivazionale e la facilità d’uso del gioco.
Fase 2: Israele e Svezia. In seguito agli incoraggianti risultati britannici

47
Pr
e Pos
t

L
ingua
ggi
odel
cor
po I
ntegr
azi
onedei
segna
li

Figura 3.17: Regno Unito: confronto tra pre- e post-utilizzo di Emotiplay


per linguaggio del corpo e integrazione dei segnali. Adattamento da [30]

e al feedback dei bambini e dei loro genitori, è stato effettuato un secondo


studio con una versione migliorata di Emotiplay, che includeva altri giochi,
una più estesa possibilità di premi e una migliore stabilità del sistema. In
Israele e in Svezia, inoltre, la ricerca è stata condotta confrontando i parteci-
panti con un gruppo di controllo formato da bambini con autismo che hanno
continuato a seguire il normale percorso terapeutico.
In Svezia sono stati selezionati 40 bambini, in Israele 43, tutti tra i 6 e i 9
anni e tutti con diagnosi di autismo ad alto funzionamento secondo diversi
protocolli ufficiali. Come per il Regno Unito, tali diagnosi sono state confer-
mate tramite ADOS-2. L’inclusione nel gruppo che ha utilizzato il SG o nel
gruppo di controllo è avvenuta casualmente (rispettivamente 23 e 20 in Israe-
le, 20 e 20 in Svezia). Per motivi diversi, 9 bambini non hanno completato
lo studio, riducendo i partecipanti ai gruppi SG a 18 israeliani e 16 svedesi.
I gruppi erano comparabili localmente per età, sesso, punteggi ADOS-2 e
punteggi della Scala d’intelligenza Wechsler.
Anche in questo caso si è svolto un pre-intervento con compilazione dei que-
stionari da parte dei genitori e attività di riconoscimento delle emozioni per
i bambini, dopodiché si è passati alla fase Emotiplay corredata da attività
extra genitori/figli e in seguito al post-intervento.
Anche i gruppi di controllo hanno completato il pre-intervento valutativo
e, 8 settimane dopo, il post-intervento, senza utilizzare però Emotiplay nel
periodo di mezzo3 .
3
Sono stati comunque introdotti alla fine di tutto al SG e ai loro genitori è stata fornita
la guida attività, con l’incoraggiamento a rivolgersi ai ricercatori quando ne sentissero il
desiderio.

48
I
sra
ele S
vez
ia
G
I
nru
p
t
ep
ro
v
eS
nG
to G
Cr
ou
p
np
to
r
od
li
c
l
oon
tro
ll
o G
I
nr
tu
p
ep
ro
v
eS
nG
t
o Gr
Cu
op
np
t
ro
od
l
li
c
oon
tro
ll
o

At
ti
vi
tà:
es
pre
ssi
oni
del
vol
to

At
ti
vi
tà:
es
pre
ssi
oni
voc
ali

At
ti
vi

:
l
in
guag
giod
elc
orp
o

Figura 3.18: Israele e Svezia: media e (deviazione standard) dei punteggi


nelle attività di riconoscimento delle emozioni nel pre- e nel post-intervento.
Adattamento da [30]

In figura 3.18 si possono vedere i risultati della ricerca (misurati tramite


i vari criteri utilizzati). Mentre nel gruppo di controllo i dati rimangono
pressoché invariati, nel gruppo che ha utilizzato Emotiplay i miglioramenti
sono evidenti.
La ricerca conferma i precedenti studi sull’efficacia dei SG per l’allenamen-
to al riconoscimento delle emozioni nei bambini con autismo e ne estende il
campo. Infatti, i SG precedenti si erano concentrati principalmente sull’in-
segnamento di tali abilità dall’esame dei volti, trascurando altre modalità
espressive. Sebbene questo canale comunicativo sia fondamentale, tuttavia
rappresenta solo un pezzo del puzzle di comprensione dell’emozione. Il lin-
guaggio del corpo e la prosodia vocale sono due ulteriori fattori importanti:
i gesti e i cambiamenti posturali sono tra i principali segnali che mediano la
comunicazione non verbale, fornendo agli osservatori spunti informativi sugli
stati soggettivi e sulle intenzioni altrui.
Dal canto suo il modo in cui le persone utilizzano la voce ha molto a che fare
con le emozioni che provano.
Inoltre, ci sono evidenze del fatto che molte delle esperienze percettive ati-
piche riportate dalle persone con autismo derivino dall’incapacità di filtrare,
elaborare e integrare in modo efficiente le informazioni provenienti da diversi
canali sensoriali che si presentano simultaneamente.
Quindi, è vitale fornire interventi che mettano in risalto tutte le modalità
di riconoscimento delle emozioni nella loro integrazione. Emotiplay mira a

49
rispondere a questa esigenza e i risultati dello studio forniscono una prima
dimostrazione della sua efficacia.
In conclusione è interessante anche notare come questa ricerca si avvenuta in
tre paesi con tre diverse lingue, al contrario della maggior parte degli studi
analoghi che vengono effettuati e testati in paesi anglofoni, anche se gli ef-
fetti interculturali possono essere limitati dalla relativa somiglianza tra le tre
culture occidentali esaminate.

50
Capitolo 4

Modellazione e valutazione
dell’interazione

4.1 Alcune questioni generali relative all’in-


terazione sociale
Nel Capitolo 2 abbiamo delineato, a livello cognitivo, la sindrome autistica da
un punto di vista Bayesiano; successivamente, nel Capitolo 3, abbiamo pre-
sentato alcuni studi sulla possibilità di progettare agenti artificiali (in forma
di robot, avatar, ecc.) che possano eventualmente essere di supporto a tera-
pie dell’autismo. Il problema centrale che dunque immediatamente si pone è
quello di una valutazione dell’efficacia potenziale di tali soluzioni: problema
che rimanda quello cogente della loro accettabilità da parte del soggetto au-
tistico. Utilizziamo qui il termine efficacia potenziale per sottolineare la pos-
sibilità di definire un modello, e dunque uno strumento teorico di predizione,
in contrapposizione ad una valutazione ex post più tradizionale.
In altri termini: è possibile, nei limiti imposti dalla complessità del proble-
ma, delineare un quadro teorico dei fattori di interazione soggetto autisti-
co/agente?
In tale prospettiva conviene ricondursi alla questione più generale dell’inte-
razione sociale fra agenti (quali che siano: naturali o artificiali). Uno schema
di principio è mostrato in Figura 4.1.
Considerati due agenti, diciamo A1 e A2 , il processo (dinamico) di interazio-
ne sociale ha a suo fondamento un processo di mutua percezione sociale che

52
i
nter
azi
one
soci
al
e

per
cez
ione
soci
al
e

c
ogni
zi
one

a
zioni
fac
cia
li a
zioni
fac
cia
li
a
tti
vaz
ione r
is
pec
chi
amet
o a
tti
vaz
ione
neur
ale neur
ale
condi
visa condi
vis
a
a
zioni
aut
onome a
zioni
aut
onome

emoz
ione

Figura 4.1: Uno schema generale di interazione sociale

coinvolge A1 e A2 . La percezione sociale è modulata in forma esogena da


fattori contestuali (cultura, situazione, status sociale, ecc.); in forma endoge-
na, si fonda sulla struttura individuale, cognitiva ed emozionale, del singolo
agente.
Vi sono sostanzialmente due approcci alla percezione e alla comprensione
(understanding) di segnali sociali non verbali (espressioni facciali, posture
del corpo, prosodia vocale), ovvero quelli più rilevanti dal nostro punto di
vista [36]: il primo enfatizza i processi inferenziali che consentono l’interpre-
tazione del segnale percepito (noto in letteratura come approccio Theory-
Theory, T-T); il secondo, pone al cuore della comprensione una “simulazione
interna” basata su una riattivazione (re-enactement) nell’agente percipiente
delle componenti neurali e fisiologiche “come se” (as if ) quest’ultimo espe-
risse in prima persona l’esperienza emotiva dell’agente con cui interagisce e
che ha causato l’emissione dei segnali sociali percepiti (approccio Simulation
Theory, S-T). L’approccio S-T ha il vantaggio di offrire un modello dota-
to di notevole potenza esplicativa/predittiva per quanto concerne un tema
fondamentale del processo di interazione: l’empatia. Alla base del processo
di empatia vi è infatti la capacità del rispecchiamento (mirroring, [37]) di
un agente nell’altro, una funzionalità sperimentalmente riscontrabile nella
forma primigenia del processo di imitazione (mimicry), attivo fin dai primi
giorni di vita in esseri umani e scimmie (ma per una discussione generale e
approfondita si rimanda a [37; 36]). Un esempio di mirroring posturale spon-

53
taneo, tipico di una situazione di flirting, é immediatamente riconoscibile in
Figura 4.1.
La radice del meccanismo simulativo affonda ovviamente nella circostanza
per cui i due agenti condividono non semplicemente abilità cognitive e cultu-
rali, ma e soprattutto gli stessi meccanismi neurobiologici e, in ultima istanza,
corporei governati dalle componenti somato-motorie e viscero-motorie del si-
stema nervoso centrale e periferico. In buona sostanza, l’interazione si fonda,
per dirla con Gallese [38], su una “shared manifold”. Per chiarire meglio, si
consideri l’aspetto specifico della percezione sociale dei volti (per esempio nel
corso di un’interazione diadica, come rappresentata in Figura 4.1), aspetto
peraltro di notevole rilevanza nel quadro della sindrome autistica.
In estrema sintesi, secondo il modello di Adolph [39], alla presentazione dello
stimolo (es.: l’espressione facciale generata da A1 e osservata da A2 , al tempo
t = 0 ms), nell’agente osservatore si sviluppa un processo di comprensione
dello stimolo che evolve nei seguenti stadi:
1. t < 120 ms: si innesca una elaborazione veloce, subcorticale, delle parti
salienti dello stimolo (il volto) che attivano aree visive primarie e amig-
dala (sistema limbico/emotivo sub corticale); l’amigdala segnala verso
il sistema periferico attivando l’attività di nuclei del tronco encefalico
che controllano reazioni somato-motorie e viscero-motorie.
2. 120 ≤ t < 170 ms: il processo percettivo visivo coinvolge aree visive
secondarie, quali l’area fusiforme dei volti (FFA) e il solco temporale
superiore (STS); contemporaneamente si attivano le aree premotorie,
l’insula (componente corticale che mappa lo stato viscero-motorio del
corpo) e le regioni corticali orbito-frontali (OFC).
3. t ≥ 170 ms: vengono attivate aree associative secondarie e lo stato cor-
rente del corpo (somato-motorio e viscero-motorio) è utilizzato come
“chiave” di accesso per il recupero di rappresentazioni concettuali più
astratte (cognitive); queste ultime consentono una concettualizzazio-
ne/categorizzazione dello stimolo percepito in un’emozione sulla base
di quella esperita internamente (understanding).
Una rappresentazione schematica dell’“architettura” neurobiologica di sup-
porto all’evoluzione del processo, nella fattispecie agli stadi 1 e 2 di Adolph,
è stata discussa in [40] ed è riportata in Figura 4.2; in questa vengono eviden-
ziate le vie principali che sono alla base della comprensione di un’espressione
facciale affettiva: la via visiva, che comprende cortecce visive primarie e se-
condarie (in particolare la FFA, per il processing di caratteristiche facciali
statiche e il solco temporale superiore, STS, per l’analisi delle caratteristiche
dinamiche delle espressioni); la via visuomotoria supportata dal sistema dei

54
vi
avi
suomot
ori
a

s
is
tema
affet
ti
vo
cent
ral
e
vi
avi
si
va

vi
avi
scer
Ar
eedelt
ronco
encef
ali
co

omot
ori
a
Figura 4.2: Architettura del sistema neurale distribuito per la percezione di
espressioni facciali affettive (lato dell’agente osservatore). Le doppie frecce
indicano proiezioni “forward” e “backward” tra aree neurali. L’architettura
comprende un network per la percezione dell’azione basato sul sistema mir-
ror umano (MNS), rappresentato dal complesso IPL, IFG/VPMC. Questo
media tra il risultato dell’elaborazione visiva dello stimolo lungo la via vi-
siva (retina, nucleo genicolato laterale LGN, cortecce visive primarie, OFA,
FFA, STS) e la rappresentazione motoria interna dell’azione facciale costrui-
ta dall’ MNS attraverso l’interfaccia del solco temporale superiore (STS). L’
MNS fornisce l’input per attivare il sistema affettivo centrale (core affect)
costituito dall’insula anteriore (AIns) e dalle cortecce orbito-frontali (OFC).
Il core affect coordina la dinamica delle attività della via visuomotoria - STS,
IPL, IFG/VPMC, aree corticali motorie M1/M3/M4, area motoria supplem-
netare SMA e nuclei motori sub-corticali nel tronco encefalico (brainstem) -
e visceromotoria - insula posteriore (PIns), ipotalamo (HYP), nuclei visce-
romotori del tronco encefalico, sistema nervoso autonomico (ANS). Questo
avviene sia modulando in feedback le rappresentazioni percettive dell’osser-
vatore sia generando e modulando la risposta emotiva del medesimo. Le linee
punteggiate rappresentano le proiezioni subcorticali che attraverso la via dua-
le del collicolo superiore (SC) e le regioni pulvinari proiettano direttamente
alle aree limbiche per innescare rapidamente la reazione affettiva (stadio 1 di
Adolph). Da [40]

55
neuroni specchio (mirror neuron system MNS, in particolare il lobulo parie-
tale inferiore IPL, il giro frontale inferiore IFG, e le cortecce ventro-mediali
posteriori VPMC), che presiede alle azioni motorie (attivazione dei muscoli
facciali); la via visceromotoria che controlla il sistema nervoso autonomico
(ANS) e le reazioni fisiologiche (battito cardiaco, sudorazione, ecc.); il siste-
ma affettivo centrale che modula azioni e propriocezioni motorie e viscerali
è rappresentato dal network che coinvolge amigdala (Amy), cortecce insulari
anteriore e posteriore (AIns, Pins) e regione corticale orbito-frontale (OFC).
La figura, come specificato poc’anzi, funge da supporto neurobiologico ai pri-
mi due stadi del processo di percezione (simulativa) dell’espressione facciale
ed è necessaria per lo stadio finale di comprensione e categorizzazione dello
stimolo percettivo, più precipuamente cognitivo.
È chiaro a questo punto che l’origine delle “incertezze”, sintetizzabili formal-
mente nel modello Bayesiano dello spettro autistico in termini di precisioni
e probabilità a priori (Capitolo 2), hanno origini profonde nella struttura
neurobiologica dell’agente, e possono scaturire da disfunzioni a diversi livelli
del network complessivo che regola la dinamica della percezione sociale . Per
esempio, è stato più volte sottolineato il ruolo di un diverso funzionamento
del solco temporale superiore (STS) in soggetti autistici rispetto a soggetti
a sviluppo tipico. Quest’evidenza è anche di interesse rispetto alle teorie
dell’autismo basate su disfunzione del sistema di mirroring, essendo l’STS
parte del sistema di “rispecchiamento” o, quantomeno, l’interfaccia tra il
sottosistema di percezione visiva (e uditiva) e il MNS umano.
Ritorniamo alla questione della valutazione di efficacia di un agente artifi-
ciale posto in interazione con un agente naturale (umano) e, nella fattispe-
cie, con un agente autistico. Sulla scorta della discussione precedentemente
sviluppata sono, in linea di principio, praticabili due approcci:
1. valutazione mediante un modello generale, ma dettagliato nella simu-
lazione, del soggetto autistico;
2. valutazione mediante un modello sintetico della risposta del soggetto
basato su alcune variabili essenziali di risposta comportamentale.
Perseguire la prima strada, significherebbe modificare lo schema generale del-
l’interazione con quello rappresentato in Figura 4.3.
Tale schema, ovviamente, pone seri problemi da un punto di vista epistemo-
logico, perché l’ipotesi fondante è la condivisione del sistema neurobiologico
(shared manifold) che ovviamente non è soddisfatta a meno di assumere una
posizione strettamente funzionalista: qualsiasi modello (interno) dell’agente
artificiale che sia funzionalmente equivalente all’agente naturale può essere
utilizzato per costruire uno spazio condiviso.

56
i
nter
azi
one
soci
al
e

per
cez
ione
soci
al
e

c
ogni
zi
one

a
zioni
fac
cia
li a
zioni
fac
cia
li
att
iva
zione r
is
pec
chi
amet
o a
tti
vaz
ione
neural
e neur
ale

” “ ” “
a
zioni
aut
onome a
zioni
aut
onome

emoz
ione

Figura 4.3: Interazione sociale tra un soggetto autistico e un agente (caso


generale)

La seconda ipotesi invece comporta più semplicemente la possibilità di avere


un modello di valutazione delle reazioni dell’agente naturale in interazio-
ne con un agente artificiale che è in grado di produrrre stimoli osservabili
(espressioni facciali, posture, ecc.). L’agente naturale reagisce comunque sul-
la base delle proprie osservazioni/percezioni innescando reazioni emotive e
comportamentali come se vi fosse (in modo maggiore o minore) una “shared
manifold”. Tali reazioni possono dunque essere quantificate e sintetizzate
mediante un insieme di variabili essenziali che catturano i tratti salienti della
sua reazione allo stimolo. Tale schema è delineato in Figura 4.4.
Nella tesi qui presentata, e in coerenza con l’approccio metodologico intro-
dotto nel Capitolo 2, considereremo nel seguito il problema della valutazione
sintetica mediante variabili funzionali essenziali. A tale scopo conviene sem-
plificare il processo a livello di architettura funzionale, come rappresentato
in Figura 4.5.
Lo schema pertanto ci riconduce a considerare la reazione dell’agente
naturale (es.: il soggetto autistico) relativamente ai seguenti aspetti:
1. il processo di percezione e categorizzazione del comportamento espresso
dall’agente artificiale;
2. la reazione immediata in termini di dimensioni affettiva e cognitiva
dell’agente naturale conseguente allo stimolo percepito.

57
i
nter
azi
one
soci
al
e

per
cez
ione
soci
al
e

c
ogni
zi
one

a
zioni
fac
cia
li a
zioni
fac
cia
li

r
is
pec
chi
ament
o

a
zioni
aut
onome

emoz
ione

Figura 4.4: Interazione sociale tra un soggetto autistico e un agente: l’agente


non é basato su un modello affettivo completo, ma é in grado di interagire
mediante azioni facciali e corporee percepite dall’osservatore autistico

Il primo punto implica la possibilità di costruire un modello ottimo (Baye-


siano) del percettore. Il secondo punto, verrà risolto mediante la definizione
di una misura quantitativa della tensione affettiva (empatia o sgradevolezza)
che scaturisce in risposta allo stimolo elaborato dal percettore ottimo.
In sintesi, possiamo riassumere le precedenti considerazioni riconducendo il
problema di modellare una valutazione della percezione sociale di un agente
artificiale da parte di un osservatore umano allo schema presentato in Figura
4.6.
Nel paragrafo che segue affronteremo il problema del percettore. Nella sezione
4.2 e successive discuteremo il modello di risposta emotiva.

4.1.1 Il modello del percettore Bayesiano ottimo

È da lungo tempo risaputo che le categorie influenzino la percezione. Studi in


questo senso nel campo del linguaggio risalgono ai lontani anni ’50, quando
fu notato che si riesce a discernere bene tra diverse categorie di consonanti
occlusive mentre è molto difficile fare distinzioni all’interno della stessa cate-
goria [41]. Più recentemente, simili effetti sono stati descritti anche in altri

58
Figura 4.5: Architettura funzionale del sistema per la percezione di espres-
sioni affettive. Lo schema astrae dai dettagli neurobiologici rappresentati
nell’architettura neurale di Figura 4.2, ponendo tuttavia in evidenza le re-
lazioni funzionali. Le frecce 1 → 2 → 3 → 4 e 6 → 5 → 4 indicano
proiezioni in avanti o “forward”, da bassi livelli di elaborazione (bottom-
up); 1 ← 2 ← 3 ← 4 e 6 ← 5 ← 4 denotano proiezioni “backward”,
dall’alto verso il basso (top-down). Si noti come il sistema percettivo intera-
gisca con un sistema esteso che coinvolge i sottosistemi emozionali (riquadro
punteggiato) e cognitivi di alto livello. L’interazione è guidata attraverso
la mediazione visuomotoria di una componente per la percezione dell’azio-
ne. Quest’ultima trasforma l’informazione visiva dell’azione facciale nella
rappresentazione somatomotoria interna all’osservatore. Parallelamente l’at-
tivazione della via visuomotoria innesca la reazione visceromotoria attraverso
la mediazione dello spazio affettivo centrale (core affect). Da lı̀ in poi il loop
di simulazione interna evolve nel tempo per supportare il processo di percezio-
ne affettiva. Le linee grigie tratteggiate distinguono i vari livelli di controllo
gerarchico del processo.

59
Figura 4.6: Percezione di un agente artificiale e conseguente risposta emotiva

ambiti, come i colori, le espressioni del viso e i volti familiari.


Tornando al linguaggio, il ruolo delle categorie fonetiche relativamente alle
vocali è più controverso. La percezione delle vocali, infatti, appare più come
un continuo che come un insieme di categorie separate. Tale continuo, tut-
tavia, mostra una caratteristica particolare che Kuhl e i suoi colleghi hanno
denominato effetto del magnete percettivo [42].
Il concetto è che i prototipi dei suoni della lingua nativa “attirano” verso
di sé suoni parlati simili, riducendo la possibilità di discriminarli. Lo spazio
percettivo quindi si concentra in prossimità dei prototipi mentre si espande
ai confini tra le categorie.
Feldman e i suoi colleghi hanno utilizzato un modello Bayesiano per spiegare
il motivo di tale fenomeno, che indicano come la conseguenza della soluzione
ottimale al problema statistico della percezione di un segnale affetto da ru-
more [43].
Obiettivo di chi ascolta, nel percepire un suono parlato, è quello di recuperare
i dettagli fonetici della “produzione target” di chi parla, cioè quello che chi
parla ha in testa quando pronuncia un suono parlato o analogamente quel-
lo che pronuncia ma scevro da rumore. L’ascoltatore deduce questo target
utilizzando le informazioni che sono a sua disposizione dal segnale vocale e
dalla sua precedente conoscenza delle categorie fonetiche.
Le categorie fonetiche sono definite nel modello come distribuzioni di suo-
ni parlati. Quando chi parla produce un tale suono, sceglie una categoria
fonetica e quindi articola un suono da quella categoria. All’interno della ca-

60
tegoria fonetica può utilizzare una specifica scelta di suoni per trasmettere
anche informazioni affettive o di altro tipo. Poiché ci sono diversi fattori
che potrebbe voler trasmettere, e dato che ogni fattore può causare picco-
le fluttuazioni acustiche, assumiamo che la combinazione di questi fattori si
avvicini ad una distribuzione gaussiana. Le categorie fonetiche nel modello
sono quindi distribuzioni gaussiane dei suoni vocali target.
Da parte sua chi ascolta percepisce un suono modificato a causa di vari tipi
di rumore (articolatorio, acustico e percettivo). La combinazione di questi
fattori viene approssimata attraverso un rumore gaussiano, in modo che il
suono ascoltato sia normalmente distribuito attorno alla produzione target di
chi parla. Formulata in questo modo, la percezione di suoni parlati diventa
un problema di inferenza statistica.
Senza alcuna informazione preventiva sulle categorie fonetiche, la percezione
degli ascoltatori dovrebbe essere imparziale, dato che i suoni del discorso,
affetti da rumore distribuito in modo normale, hanno la stessa probabilità di
essere spostati in entrambe le direzioni. In questo caso, la strategia più sicu-
ra per chi ascolta è quella di indentificare la produzione target con il suono
che hanno sentito. Tuttavia, gli ascoltatori esperti sanno che è più probabi-
le sentire suoni vicini ai centri delle categorie fonetiche rispetto a suoni più
lontani. Il modo ottimale di utilizzare la conoscenza delle categorie fonetiche
per compensare un segnale vocale rumoroso è quindi quello di distorcere la
percezione verso il centro di una categoria, cioè verso le produzioni target
più probabili.

(
a) (
b)

S
timol
oper
cepi
to S
timol
oper
cepi
to

Figura 4.7: Relazioni previste tra spazio acustico e spazio percettivo in caso
di (a) una categoria e (b) due categorie. Adattamento da [43]

In un ipotetico linguaggio con una sola categoria fonetica questa distorsione


farà sı̀ che tutto lo spazio percettivo si restringa verso il centro della catego-
ria. Il modello percettivo risultante è mostrato nella Figura 4.7 (a).
Nel caso (realistico) di più categorie, chi ascolta deve determinare a quali di
queste può verosimilmente appartenere il suono ascoltato. A quel punto può
inferire il suono target di chi ha parlato sulla base della struttura delle catego-

61
rie individuate. Se è certo della categoria, la percezione del suono dovrebbe
essere attirata verso la sua media, come nel caso dell’ipotetico linguaggio
precedente. Ciò concentra lo spazio percettivo delle aree non ambigue. In
caso contrario, l’ascoltatore dovrà considerare tutte le categorie che avreb-
bero potuto generare il suono, pesandone però l’influenza con la probabilità
che il suono venga da quella categoria. Questo assicura (nel caso di uguale
frequenza e varianza) che le categorie vicine abbiano peso maggiore rispetto
a quelle lontane.
La percezione di un suono esattamente al confine tra due categorie verrà
spinta contemporaneamente verso le loro medie, annullando una l’effetto del-
l’altra. La percezione di un suono vicino al confine, sarà spinta verso la me-
dia più prossima, ma l’effetto verrà mitigato dall’altra categoria. Lo schema
percettivo per il caso di due categorie è mostrato in Figura 4.7 (b).
Lo schema di distorsione percettiva individuato dal modello risulta qualita-
tivamente simile all’effetto del magnete percettivo. I suoni parlati vicini ai
centri delle categorie si proiettano nello spazio percettivo in maniera serra-
ta, e ciò si accorda con l’equivalenza acquisita nella lingua madre all’interno
di una categoria. I suoni vicini ai confini tra le categorie vengono mappati
in modo più distanziato, e questo è consistente con la maggiore capacità di
distinguere tra categorie.
Possiamo formalizzare il modello nei termini di un modello generativo Baye-
siano, rappresentato nel modello grafico probabilistico (PGM, Probabilistic
Graphical Model) di Figura 4.8 dove vengono utilizzate le seguenti variabili
aleatorie (per semplicità notazionale nel seguito non utilizzeremo la distin-
zione, più corretta, fra variabile aleatoria X e la realizzazione della variabile
aleatoria X = x):
• c: la categoria da cui può essere campionato uno stimolo di interesse
(target), necessariamente una variabile aleatoria discreta;
• T : lo stimolo target (ideale);
• S: lo stimolo target effettivamente osservato, ovvero T affetto/corrotto
da rumore (“interno” al percettore e/o “esterno”, dipendente dalle
condizioni di osservazione);
Il PGM di Figura 4.8 formalizza il problema definendo la probabilità con-
giunta p(S, T, c) mediante la seguente fattorizzazione:
p(S, T, c) = p(S|T, c)p(T |c)p(c) = p(S|T )p(T |c)p(c) (4.1)

dove p(S|T ) rappresenta il processo di generazione dello stimolo a partire dal


target (ovvero il rumore), p(T |c) la generazione del target dalla categoria, e
p(c) la probabilità a priori del percettore sulle categorie adottate.

62
Figura 4.8: Un modello generativo per il percettore Bayesiano ottimo

A partire dall’Equazione 4.1 è possibile in linea di principio, mediante la re-


gola di Bayes, risolvere il problema percettivo di inferire lo stimolo target T ,
da quello affetto da rumore S, ovvero determinare la distribuzione p(T |S, c).
A tale scopo è necessario specificare le probabilità condizionate p(S|T ) e
p(T |c) che nel seguito si assumono distribuite con legge normale N (µ, σ 2 ).
Consideriamo quindi un generico stimolo S affetto da rumore con varianza
del rumore σS2 , un target T e una categoria c con varianza σc2 .
Nel caso specifico della percezione del linguaggio, S corrisponde al suono
percepito dall’ascoltatore, σS2 alla varianza relativa al rumore articolatorio,
acustico e percettivo del suono, T è il suono target, c le categorie fonetiche e
σc2 la varianza all’interno della categoria c.
Ci basiamo su di un modello generativo in cui T è estratto da una categoria
c distribuita normalmente con media µc :

T |c ∼ N (µc , σc2 ) (4.2)

63
Il segnale percepito non è direttamente T ma S, affetto da rumore, ed è di-
stribuito normalmente intorno alla produzione target con varianza σS2 :

S|T ∼ N (T, σS2 ) (4.3)

Possiamo notare che, integrando su T , abbiamo:

S|c ∼ N (µc , σc2 + σS2 ) (4.4)

cioè gli stimoli osservati sono distribuiti normalmente intorno alla media del-
la categoria µc con varianza che è uguale alla somma della varianza della
categoria (σc2 ) e di quella del rumore (σS2 ).
A questo punto possiamo usare l’inferenza Bayesiana per ricostruire il segna-
le target dal segnale con rumore.

Iniziamo dal caso di un’unica categoria, ovvero assumiamo con certezza


p(c) = 1.
Dobbiamo inferire la produzione target T dato lo stimolo S e la categoria c.
A partire dall’Equazione 4.1, utilizzando la regola di Bayes:

p(T |S, c) ∝ p(S|T )p(T |c) (4.5)

La distribuzione p(S|T ) (likelihood), data dall’intervento del rumore (equa-


zione 4.3), assegna la maggiore probabilità a S. Il belief a priori p(T |c), dato
dalla struttura della categoria (equazione 4.2), assegna la maggiore probabi-
lità alla media della categoria.
La parte destra dell’equazione 4.5 può essere semplificata portando a una
distribuzione normale (vedi Appendice B):

σc2 S + σS2 µc σc2 σS2


 
p(T |S, c) = N , 2 (4.6)
σc2 + σS2 σc + σS2

che è la distribuzione di probabilità a posteriori, la cui media è compresa tra


lo stimolo S e la media della categoria µc .
Il valore atteso di T è dunque la media della distribuzione:

64
σc2 S + σS2 µc
E[T |S, c] = (4.7)
σc2 + σS2

Data una categoria, la soluzione ottimale al problema statistico di inferire


una produzione target, prodotta da una Gaussiana, da un segnale affetto da
rumore, distribuito normalmente intorno al target, è la media ponderata del
segnale e della media della categoria. Il peso è determinato dal rapporto
della varianza della categoria e di quella del rumore.
Questa equazione formalizza il concetto del magnete percettivo: la media del-
la categoria µc attira la percezione del segnale verso il centro della categoria,
concentrando attorno ad essa lo spazio percettivo (Figura 4.7 (a)).
Nel caso generale di più categorie, una volta percepito uno stimolo, dob-
biamo considerare la probabilità che arrivi da una certa categoria utilizzando
la regola di Bayes:

p(S|c)p(c)
p(c|S) = P (4.8)
c p(S|c)p(c)

dove p(S|c) è data dall’equazione 4.4 e p(c) è la probabilità a priori della


categoria c.
Per calcolare la probabilità a posteriori, sommiamo sulle categorie:

X
p(T |S) = p(T |S, c)p(c|S) (4.9)
c

Il primo termine a destra è dato dalla Gaussiana 4.6, mentre il secondo dal-
l’equazione 4.8.
La distribuzione a posteriori p(T |S) è quindi una miscela di Gaussiane, e
ognuna di esse rappresenta la soluzione per una singola categoria. Restrin-
gendo l’analisi a categorie con uguale varianza σc2 , la media della distribuzione
a posteriori risulta essere (vedi Appendice B):

X σc2 S + σS2 µc
E[T |S] = p(c|S) 2 (4.10)
c
σc + σS2

65
avendo le categorie uguale varianza σc2 , possiamo riscriverla come:

σc2 σS2 X
E[T |S] = 2 S+ 2 p(c|S)µc (4.11)
σc + σS2 σc + σS2 c

L’equazione 4.11 fornisce la soluzione nel caso di più categorie. Tale soluzione
è una media ponderata dello stimolo S e delle medie µc di tutte le categorie
che potrebbero aver prodotto S. Quando siamo certi della categoria, questa
equazione si riduce alla 4.7, e la percezione di S è distorta verso la media
della sua categoria.
Tuttavia, quando S si trova al confine tra due categorie, la soluzione ottimale
è influenzata da entrambe le loro medie, ognuna delle quali indebolisce l’ef-
fetto dell’altra. Il concentramento dello spazio percettivo è quindi maggiore
dove la categoria è certa (nel suo centro), e più debole ai confini (Figura 4.7
(b)).
Qualitativamente, l’effetto del magnete percettivo emerge dunque come so-
luzione ottimale al problema della percezione di un segnale affetto da rumo-
re.

4.2 Bukimi no tani: il problema dell’Uncan-


ny Valley
Nel 1970 Masahiro Mori, professore di robotica presso l’Istituto di Tecnologia
di Tokyo, scrisse un saggio dal titolo “Bukimi no tani” [44].
Lo scritto trattava delle reazioni suscitate nelle persone dai robot e dagli
artefatti a imitazione delle caratteristiche umane in genere, e in particolare
del fatto che, aumentando la similitudine a tali caratteristiche, il senso di af-
finità aumenta fino ad un punto critico in cui la reazione passa dall’empatia
a un senso di sgradevolezza che precipita in un minimo, il bukimi no tami
appunto.
Nella prima traduzione inglese il concetto venne reso come “The Uncan-
ny Valley” (la valle misteriosa, sconcertante), e tale rimase essendo entrato
nel vocabolario scientifico, anche se uno dei traduttori, Karl MacDorman, di-
chiarò che era stata una prima definizione approssimativa. Più esatto sarebbe
stato parlare di “eeriness” (qualcosa di inquietante, perturbante, sgradevole).
Sebbene le copie del saggio siano circolate tra i ricercatori, una versione in-
glese completa, autorizzata e rivista da Mori apparve solo nel 2012, ad opera
di Karl MacDorman e Norri Kageki [45].

66
Unc
annyv
all
ey Per
sonas
ana

Robotgi
oca
ttol
o
kan)

Ma
rionet
taBunr
aku
n
hiwa

Roboti
ndus
tri
al
e
t
Affini S
à(

S
imi
l
itudi
neuma
na
Ma
nopr
otes
ica

Figura 4.9: Uncanny valley. Adattamento da [45]

Nella sua analisi Mori parte dai robot industriali, che possono magari esten-
dere, contrarre o ruotare un braccio ma che non hanno alcuna similitudine
esteriore con un essere umano. Questo fa sı̀ che difficilmente le persone
sentano familiarità nei loro confronti. Se li si individuasse su un grafico di
“affinità”, si troverebbero quindi vicino all’origine (Figura 4.9). D’altra par-
te, obiettivo di chi li progetta è la funzionalità.
Diverso è il discorso per un robot giocattolo, in cui l’aspetto è fondamentale.
Inizierà ad avere una qualche somiglianza con gli esseri umani, probabilmente
con un viso, due braccia e due gambe. I bambini sembrano provare attacca-
mento per robot di questo genere. In Figura 4.9 si troveranno quindi a più
di metà strada tra l’origine e il primo massimo.
Mori passa quindi a considerare gli arti artificiali, prendendo come esempio
la mano. Già nel 1970 erano disponibili protesi che assomigliavano molto a
una vera mano, simulando a volte pieghe della pelle, unghie, vene e perfino
impronte digitali. Si potrebbe quindi pensare che una tale protesi salga nel
grafico di “affinità”. Invece non è cosı̀. Pensando di stringere una mano di
questo genere probabilmente saremmo a disagio per la sua presa senza ossa,
la sua consistenza e la sua freddezza, perdendo il senso affinità, e la mano
diventerebbe “perturbante”. In termini matematici, questo può essere rap-
presentato da un valore negativo. Pertanto, in questo caso, l’aspetto della
mano protesica è abbastanza simile a quella umana, ma il livello di affinità è
negativo, e si posiziona vicino al fondo dell’uncanny valley nella Figura 4.9.

67
Viceversa, le marionette Bunraku 1 sono poco realistiche considerando l’altez-
za, l’aspetto della pelle eccetera. Tuttavia, vedendole muoversi in teatro da
una certa distanza, le reali dimensioni perdono importanza e il loro aspetto
totale, inclusi i movimenti delle mani e degli occhi, risulta vicino a quello di
un essere umano. E in effetti normalmente gli spettatori provano per loro un
alto grado di affinità.
Se oltre all’aspetto si pensa al movimento, il grafico si modifica (Figura 4.10)2 .
Il movimento è una caratteristica fondamentale per gli esseri viventi, e quindi

i
n Unc
annyv
all
ey Per
sonas
ana
movi
ment
o
f
ermi

Robotuma
noi
de Per
sonama
lat
a
n)

e
a

t
mor
k

Ma
rionet
taBunr
aku
wa

Ani
ma l
e
n
hi

Roboti
ndus
tri
aei
l mbal
samato
S
à(

Ma
scheaOk
r ina
t
Affini

Bambol
a

S
imi
l
itudineumana
MascheaY
r as
eOt
oko Ma
nopr
otes
ica
Ma
nomi
oel
ett
ri
ca
Zombi

Figura 4.10: Uncanny valley nel caso statico e dinamico. Adattamento da


[45]

anche per gli artefatti che li imitano. Se spegniamo l’interruttore, il robot


industriale diventa un qualsiasi macchinario sporco di grasso. Quando è in
funzione, i suoi movimenti potranno invece ispirarci un minimo di affinità.
Al lato opposto, quando la mano artificiale inizia a muoversi, il senso di
sgradevolezza si intensifica: già in quegli anni erano in commercio protesi di
mano mioelettriche, in grado cioè di sfruttare le deboli correnti bioelettriche
generate dall’attività muscolare per compiere movimenti. Facilmente, veden-
do muoversi una di queste mani, proveremmo un forte senso di inquietudine.
1
Bunraku è una forma tradizionale giapponese di teatro delle marionette. Queste so-
no in genere alte circa un metro, hanno costumi elaborati e vengono controllate da tre
burattinai vestiti di nero.
2
La maschera Yase Otoko raffigura il volto di un uomo emaciato e rappresenta un
fantasma dall’inferno. La maschera Okina rappresenta un vecchio. Ambedue vengono
utilizzate nel Noh, antica forma di teatro giapponese.

68
In presenza di movimento, quindi, il grafico cambia forma, amplificando
picchi e valli.
Una persona sana è rappresentata nel secondo massimo della curva tratteg-
giata (in movimento). Quando moriamo, non ci muoviamo più e il corpo
diventa freddo. La morte può essere vista come una discesa dal secondo
massimo del grafico tratteggiato (in movimento) al fondo dell’uncanny val-
ley di quello continuo (fermo), come indicato dalla freccia (sperando di non
scendere nell’uncanny valley della curva relativa al movimento...).
Mori pensa che questa discesa aiuti a spiegare il fenomeno da lui individuato.
La sensazione perturbante farebbe parte dall’istinto di conservazione, proteg-
gendoci dai pericoli “vicini”, simili ma diversi da noi, che includono membri
di specie diverse, cadaveri e altre entità con cui potremmo venire in stretto
contatto.
In conclusione il suo augurio è che una più profonda comprensione dell’Un-
canny Valley ci aiuti a capire meglio che cosa ci renda umani e a progettare
agenti artificiali con cui le persone possano relazionarsi piacevolmente.

4.3 Una spiegazione Bayesiana dell’Uncanny


Valley
L’ipotesi dell’uncanny valley suscita da molti anni un grande interesse. Tut-
tavia, gli studi a riguardo sono spesso discordi: alcuni ricercatori hanno fallito
nel trovarne evidenza empirica, altri invece hanno ottenuto risultati positivi.
Secondo Moore [46], queste differenze potrebbero dipendere dalla poca chia-
rezza riguardo alla quantità che Mori pone nell’asse verticale (shinwakan,
vedi Figura 4.10), come si vedrà in seguito.
Alcune ricerche, inoltre, ipotizzano cause diverse per il fenomeno. Per esem-
pio, è stato suggerito un legame tra “senso di sgradevolezza” e risposte emo-
tive associate alla paura (principalmente paura della morte). Questo spieghe-
rebbe come mai un effetto potenzialmente universale possa essere oscurato
dalle differenze tra reazioni emotive in funzione delle diverse tipologie uma-
ne e delle diverse sensibilità. Un’altra possibile spiegazione è che l’uncanny
valley derivi dalla discrepanza tra diversi segnali sensori, e recenti risultati di
risonanza magnetica funzionale (fMRI, functional Magnetic Resonance Ima-
ging) sembrano supportare tale ipotesi. In generale, comunque, i risultati
ottenuti si basano fondamentalmente su ricerche empiriche senza proporne
un modello matematico.

69
Nella sua ricerca Moore ipotizza che l’effetto sia una particolare manifesta-
zione di un fenomeno più generale, in cui la percezione viene distorta dalla
categorizzazione, e amplia il risultato di Feldman precedentemente descritto
[43], per darne una spiegazione anche a livello matematico [46].
Il modello di Feldman rende conto dell’effetto del magnete percettivo, cioè
del fatto che siamo più sensibili alle differenze quando percepiamo segnali che
si collocano ai confini tra categorie. Di per sé questo non illumina riguardo
al senso di sgradevolezza che si prova venendo a contatto con particolari sti-
moli. L’ipotesi di Moore è che, in presenza di uno stimolo che reca segnali
multipli, possa accadere che le distorsioni percettive dei vari segnali indotte
ai confini tra categorie non siano allineate. Questa distorsione differenziale si
manifesterebbe in una sorta di “tensione percettiva”, che a sua volta darebbe
origine al senso di fastidio.
In particolare, il modello ampliato rivela che i conflitti tra segnali si possano
manifestare in differenze tra le medie e le varianze delle relative distribuzioni,
e questo può dare luogo a livelli disuguali di incertezza. Per esempio, un ro-
bot umanoide può sembrare del tutto umano nei tratti del volto, ma piccole
anomalie nel movimento degli occhi possono ingenerare incertezza riguardo a
quel particolare segnale, provocando una tensione percettiva e un certo senso
di inquietudine.
Secondo Moore, per ottenere la curva di Mori (Figura 4.10), è necessario por-
re una categoria che rappresenti la percezione “target” (es.: “umano”) con
media della relativa distribuzione a un estremo del continuum dello stimolo.
Bisogna poi aggiungere una seconda categoria che rappresenti la percezione
di sottofondo (es.: “non umano”), la cui distribuzione si sovrapponga alla
prima.
Per mantenere la monotonicità della curva base di risposta (una funzione

(
a) (
b)
)

)
S

S
(

(
ap

ap

c
ategor
iat
arget c
ategor
iat
arget
nz

nz
e

e
r

r
r

r
o

o
c

c
c

c
o

o
àdi

àdi

c
ategor
iadi
sot
tof
ondo
c
ategor
iadi
sot
tof
ondo
t

f
ami
l
iar
it
à
i

t
i
bil

bil
ba

ba
o

o
r

r
P

f
ami
l
iar
it
à
S
timol
oS S
timol
oS

Figura 4.11: Probabilità di occorrenza di stimoli diversi data una categoria


di “sottofondo” più (a) o meno (b) piatta. Adattamento da [46]

70
crescente che associ bassa/alta familiarità a bassa/alta somiglianza umana),
la distribuzione di sottofondo deve avere un andamento tendenzialmente piat-
to (Figura 4.11 (a)). Se tale distribuzione è meno appiattita, si osserva un
avvallamento verso i confini dello stimolo (Figura 4.11 (b)), che riflette un
certo grado di “non familiarità”, quindi di imprevedibilità, associato allo sti-
molo verso i confini della categoria. Questo avvallamento non può assumere
valori negativi (si tratta di probabilità) e di per sé non rappresenta l’uncanny
valley. È infatti un risultato intermedio che cattura la “familiarità”, che è
solo una parte del “shinwakan” di Mori.
Il modello suggerisce che ci siano due variabili chiave che si relazionano al-
l’asse verticale (“shinwakan”) di Mori: la probabilità globale di occorrenza
di un particolare stimolo e l’eventuale tensione percettiva che può nascere da
segnali discordanti.
Questo modello, oltre a dare conto dell’uncanny valley, risolve anche la confu-
sione rispetto all’asse verticale del grafico di Mori: la “familiarità” è definita
matematicamente come la probabilità di occorrenza di uno stimolo, mentre
“l’affinità” (cioè l’asse verticale di Mori) è definita come una funzione sia
della “familiarità” che della “tensione percettiva”.

Più formalmente. La distorsione prodotta dall’effetto del magnete percetti-


vo lungo una singola dimensione, può essere modellata da una funzione di
“spiazzamento”:

D[S] = E[T |S] − S (4.12)

dove E[T |S] è il valore atteso della produzione target dato lo stimolo S come
individuato da Feldman e colleghi (equazione 4.10) [43].
La funzione di spiazzamento D[S] rappresenta una misura della distorsione
percettiva rispetto alle categorie. Un valore diverso da zero (positivo o ne-
gativo) indica che lo stimolo viene percepito con un valore differente rispetto
al suo valore fisico. Chiaramente, D[S] = 0 indica assenza di distorsione.
Nel caso in cui ci siano stimoli multipli, la distorsione percettiva differenziale
può essere calcolata con:

V [S] = E[D[Si ]2 ] − (E[D[Si ]])2 (4.13)

che misura essenzialmente la varianza tra le distorsioni presenti in ogni sin-


golo segnale. V [S] indica quindi la “tensione percettiva” causata dalle di-
storsioni differenziate di segnali in conflitto. Se i segnali sono concordi nel

71
(
a) (
b)
aVS
[]

c
oni
tt
otr
aisegna
li
v

]
i

cr
esc
ent
e
t

S
t

[
àF
c
re

t
Affini
i
nsonepe

c
oni
tt
otr
aisegna
li
e

cr
esc
ent
e
T

S
timol
oS S
timol
oS

Figura 4.12: Tensione percettiva (a) e affinità (b). Adattamento da [46]

posizionamento rispetto alle categorie, V [S] è uguale a zero per tutti gli S.
In caso contrario, lo stimolo S non è completamente coerente nella posizione
che i segnali che lo compongono assumono rispetto alle categorie stesse.
V [S] quindi aumenta tanto maggiore è il conflitto percettivo. Il modello
ipotizza che la funzione F [S]:

F [S] = p(S) − k · V [S] (4.14)

corrisponda all’asse verticale (shinwakan, “affinità”) di Mori. k è un peso che


riflette la sensibilità di chi percepisce lo stimolo conflittuale. Se k è piccolo
o addirittura uguale a zero, l’osservatore non nota (o non si interessa) se i
segnali sono in conflitto. Viceversa, un alto valore di k implica una marcata
sensibilità a eventuali discordanze. È quindi una proprietà dell’osservatore e
non dello stimolo.
La Figura 4.12 illustra come, al variare dell’incertezza differenziale associata
ai segnali di due dimensioni percettive (per la distribuzione di Figura 4.11
(a)), si modifica la tensione percettiva V [S] (Figura 4.12 (a)) e di conseguenza
il senso di affinità F [S] (Figura 4.12 (b)). Come si può notare, gradi crescenti
di incertezza portano nei pressi dei confini della categoria a un aumento nella
funzione di tensione percettiva e a una diminuzione in quella di affinità, con
valori negativi di quest’ultima nei casi estremi.
La forma del secondo grafico è notevolmente simile al grafico dell’uncanny
valley (Figura 4.10), e la misura dell’affinità risulta corrispondere alla nozione
di “shinwakan” originariamente proposta da Mori.
Un altro aspetto indagato da Mori è l’amplificazione della curva nel caso
di movimento. Probabilmente, la maniera più semplice di spiegare questo

72
fenomeno è il fatto che, nel caso dinamico, l’informazione sulla categoria sia
più chiara. La distribuzione associata ad una categoria target in movimento
sarebbe più concentrata intorno alla media (quindi avrebbe varianza minore)
rispetto al caso statico.

a
rtef
att
ofer
mo
t
Affini [
àFS]

a
rtef
att
oinmovi
ment
o

S
timol
oS

Figura 4.13: Affinità nel caso statico e dinamico. Adattamento da [46]

L’output del modello è raffigurato in Figura 4.13: mantenendo gli altri para-
metri costanti, una diminuzione della varianza della categoria target, deter-
mina maggiore affinità agli estremi della curva e un avvallamento maggiore
nella zona dell’uncanny valley di Mori.
In conclusione, sebbene l’ipotesi originale di Mori (e gran parte della succes-
siva ricerca a riguardo) si sia preoccupata della reazione agli artefatti simili
all’uomo, il modello qui illustrato fornisce un spiegazione matematica più
generale che può illuminare riguardo a una serie di situazioni del mondo rea-
le in cui segnali percettivi contrastanti danno luogo a reazioni negative, di
paura, raccapriccio o addirittura violente. Possiamo leggere da questo punto
di vista il disgusto per il cibo avariato, le reazioni negative a individui che si
distaccano in qualche modo dalla norma, come la paura per i clown ma anche
atteggiamenti di discriminazione e in generale di paura per il “diverso”.

4.4 Un modello per l’Uncanny Valley nell’au-


tismo e per i conseguenti effetti nell’uti-
lizzo di robot terapeutici
Abbiamo visto come il modello di Moore dia una spiegazione del senso di
inquietudine che uno stimolo contraddittorio può suscitare, come nel caso

73
di agenti artificiali (robot, avatar, ecc.) con caratteristiche molto simili agli
esseri umani [46].
D’altra parte, tali agenti sono ormai largamente utilizzati nella terapie per
l’autismo, visto che sembra siano particolarmente graditi ai bambini nello
spettro, e che il loro utilizzo li coinvolga e motivi favorendo l’apprendimento
di abilità sociali, come abbiamo visto nel Capitolo 3. Per esempio, il robot
Kaspar del progetto AuRoRA ([28], Figura 3.9), per tanti versi simile a un
bambino vero, viene spesso percepito come un po’ inquietante da persone
neurotipiche, mentre bambini con autismo hanno risposto ad esso positiva-
mente. Pare quindi che questi bambini non siano turbati dai robot con un
aspetto quasi umano, sebbene si sentano a disagio a interagire con la maggior
parte delle persone.

Uncanny
)

va
ll
e y
a t
ffinià

Aut
is
mo
aemoi
tva(

c
omplet
ament
e compl
eta
ment
e
t
s

a
rtic
ial
e umano
Rs
ipo

Figura 4.14: Uncanny valley nel caso di neurotipicità (blu) e di autismo


(rosso). Adattamento da [47]

Ueyama [47] analizza la questione ipotizzando che gli individui autistici ca-
tegorizzino l’“umano” in maniera differente rispetto agli altri. Studi che
utilizzano la risonanza magnetica funzionale (fMRI) hanno messo peraltro
in luce come queste persone percepiscano gli esseri umani avvalendosi di
processi neurali diversi, per esempio non attivando o solo debolmente l’area
fusiforme dei volti (FFA) normalmente impiegata nel riconoscimento facciale.
Un’ulteriore ipotesi è che, in caso di autismo, l’interazione sociale, definita
come la risposta emotiva alle persone, possa essere migliorata imparando a
classificarle allo stesso modo degli individui neurotipici. Date queste premes-
se, nella sua ricerca adatta il modello Bayesiano di Moore, ipotizzando che

74
la curva dell’affinità nel caso di autismo presenti più un dirupo (cliff ) che
una vallata (Figura 4.14), spostando la zona in cui il grafico inizia a scendere
verso la sgradevolezza dalle parti del “completamente umano”.
L’interazione soggetto autistico/agente sembra quindi più difficile nel caso di
agente naturale, Ueyama ipotizza di conseguenza che la categoria “umano”
sia spostata per queste persone a una posizione estrema (Figura 4.15), au-
mentandone quindi il valore della media.

(
a)Neur
oti
pic
ità (
b)Aut
is
mo
)

)
S

S
àp(

c
ategor
ia

àp(
c
ategor
ia

uma no” “
uma no”
t

t
i

i
l

l
bi

bi
ba

ba

Spos
tament
o
o

o
r

r
P

ca
tegor
ia
P

ca
tegor
ia
dis
ott
ofondo dis
ott
ofondo

S
timol
o S
timol
o

Figura 4.15: Probabilità delle categorie percepite nel caso (a) neurotipico e
(b) autistico. Adattamento da [47]

Le categorie percettive sono considerate innate, tuttavia i loro confini possono


modificarsi tramite apprendimento. Il processo può avvenire tra le categorie
o all’interno di una singola categoria e può essere descritto come espansione
o compressione categorica rispettivamente.
Dato che l’ampiezza dei confini delle categorie è determinata dalla varianza,
si assume che la varianza della categoria “umano” possa aggiornarsi tramite
esperienze di umanità percepita attraverso l’interazione con robot terapeuti-
ci.
Per fornire evidenza computazionale all’ ipotesi, Ueyama presenta una simu-
lazione numerica di un processo terapeutico di apprendimento. Il modello di
partenza è appunto quello di Moore, in cui sono presenti due categorie (c1 =
“non umano” e c2 = “umano”) e lo stimolo percepito è Sp , che coinvolge due
tipi di segnali (S1 e S2 ). La risposta emotiva complessiva è definita come
combinazione lineare dei segnali S1 e S2 :

75
Y [S1 , S2 ] = β · F [S1 ] + (1 − β) · F [S2 ], (4.15)

dove F [S] è la funzione “affinità” definita dall’equazione di Moore 4.14 e β il


tasso di attenzione posto nel caso più generale (ovvero di indeterminazione
a priori del valore dello stimolo) al valore di β = 0.5. È importante notare
come il parametro β formalizzi sinteticamente il comportamento attentivo del
percettore, e nel contempo, tramite l’equazione 4.15, ne moduli la risposta
emotiva complessiva.
Nel processo l’aggiornamento avviene iterativamente ad ogni prova secondo
la regola di apprendimento:

(σc(k+1)
2
)2 = (σc(k)
2
)2 + γ · p(c2 |Sp )[(Sp − µc2 )2 − (σc(k)
2
)2 ] (4.16)

dove k è il numero della prova, Sp lo stimolo presentato e γ un parametro di


apprendimento proporzionale alla risposta emotiva:

γ = δ · Y [S1 , S2 ] (4.17)

δ è un paramentro di scala posto a 0.1. Si assume quindi che il processo


di apprendimento dipenda dalla risposta emotiva: nel caso Y [S1 , S2 ] diventi
positiva l’apprendimento è favorito, al contrario inibito.
La probabilità a posteriori p(c2 |Sp ) rappresenta l’effetto dello stimolo presen-
tato Sp sulls categoria umana percepita c2 , e viene definita come combina-
zione lineare dell’effetto dei due segnali S1 e S2 , in modo simile all’equazione
4.15:

p(c2 |Sp ) = β · p(c2 |S1 ) + (1 − β) · p(c2 |S2 ) (4.18)

La ricerca simula quindi numericamente un processo terapeutico assistito da


robot per esaminarne le conseguenze sulla risposta emotiva. L’effetto del-
l’uncanny valley è riprodotto prevedendo il comportamento autistico con lo
spostamento a destra della categoria “umano”, come si può vedere grafica-
mente in Figura 4.16. La media della categoria è posta al valore di µc2 = 1
nel caso neurotipico e di µc2 = 1.25 nel caso di autismo. È evidente come

76
Figura 4.16: Previsioni dell’effetto dell’Uncanny valley secondo il modello
di Moore. Risposta emotiva in funzione dello stimolo e della media della
categoria “umana”, a sinistra rappresentata tridimensionalmente e a destra
attraverso i colori su superficie piana. Adattamento da [47]

l’uncanny valley nell’autismo slitti di conseguenza.


Lo stimolo presentato Sp è definito come impressione visiva del robot
terapeutico e può assumere valori da 0 (completamente machine-like) a 1
(completamente human-like).
La categoria “umano” (la sua varianza) è risultata influenzata dagli stimoli
compresi tra 0.25 e 0.5 nel caso neurotipico (Figura 4.17 (a)), mentre tra 0.5
e 0.8 nel caso di autismo (Figura 4.17 (b)). In entrambi i casi, la varianza
indotta è maggiore per i valori minori degli stimoli efficaci (Figura 4.17 (c)).
Osservando le curve relative all’uncanny valley (caso neurotipico) e all’un-
canny cliff (caso autistico) nel corso delle prove, si nota che, per certi parti-
colari stimoli, gli avvallamenti gradualmente diminuiscono di profondità fino
a scomparire dopo 500 prove (Figura 4.18).
Nel caso neurotipico, ciò avviene quando lo stimolo presentato Sp è com-
preso tra 0.25 e 0.5. Questo risultato può indicare un effetto “abitudine”, e
realmente il background delle persone può influenzare notevolmente la perce-
zione dell’uncanny valley. Chi ha dimestichezza con computer grafica e robot
probabilmente è meno turbato dall’aspetto umano di un artefatto.
Nel caso di autismo, lo stimolo presentato si è rivelato efficace se compreso
tra 0.5 e 0.8. In questo range, normalmente si cade nell’uncanny valley, non
però nel caso di autismo. L’ipotesi è che una terapia di questo tipo possa
quindi risultare benaccetta dalle persone nello spettro e che sia in grado di
indurre adattamento alle categorie percettive e, di conseguenza, modificare
le risposte emotive generate dall’uncanny cliff, nella direzione di una migliore
interazione sociale.

77
(
a)Neur
oti
pic
ità (
c)

mo
pii
ct

i
Auts
ti
p

o
2
oS

2
2

a c2
ac

ur
o
t

nz
nz

Ne
l
a
mo
nt

a
a

i
i

r
r
i
e

a
t

a
s

V
S

V
e
pr

n°pr
ova S
timol
opr
esent
atoSp
n°pr
ova

(
b)Aut
is
mo
oSp

2
a c2
o
t

nz
l
a
mo
nt

i
ra
i
e
t
s

a
S
e

V
pr

n°pr
ova
n°pr
ova

Figura 4.17: Effetti della terapia assistita da robot sulla varianza per la
categoria umana: (a-b) a sinistra in funzione del numero di prove e degli
stimoli presentati, a destra le curve di apprendimento per alcuni degli stimoli
presentati: (a) nella condizione tipica e (b) nella condizione di autismo. (c)
I valori finali della varianza appresa dopo 500 prove rispetto allo stimolo
presentato. Adattamento da [47]

(
a) (
b)
)

)
à

à
t

t
ffini

pr
ove
ffini
a

a
a(

a(
v

v
i

i
t

t
mo

mo
ae

ae
t

t
s

s
po

po
s

s
i

pr
ove
R

S
timol
o S
timol
o

Figura 4.18: Esempi di curve Stimolo/Risposta emotiva dopo diverse quan-


tità di prove nel caso (a) neurotipico, con uno stimolo presentato Sp = 0.4 e
(b) autistico, con uno stimolo presentato Sp = 0.7. Adattamento da [47]

78
Conclusioni

Una delle caratteristiche principali del disturbo dello spettro autistico (ASD)
è la problematicità dell’interazione sociale, specialmente nell’elaborazione
delle informazioni emotive.
Robot e altri agenti artificiali, che possiamo genericamente classificare nel
campo della computazione affettiva, vengono sempre più utilizzati per in-
centivare nei bambini con autismo l’apprendimento di attività di attenzione
e comunicazione reciproche, in considerazione del fatto che sembrano eser-
citare su di essi una grande attrattiva e suscitare meno ansia rispetto agli
agenti umani. Gli studi a riguardo sono numerosi, e anche in questa tesi ne
abbiamo presentati alcuni [22; 23; 28; 30], tuttavia i risultati, benché inte-
ressanti, sono ancora frammentari, basandosi su ricerche limitate nel numero
dei partecipanti e nel tempo e soprattutto compiendo valutazioni euristiche
dell’efficacia di tali interventi difficilmente generalizzabili.
La tesi si è quindi proposta di individuare, nei limiti della complessità del
problema, un quadro teorico entro cui formalizzare le caratteristiche cognitive
e le modalità di interazione del soggetto autistico, fornendo evidenza com-
putazionale alla valutazione delle terapie assistite da agenti artificiali per i
bambini nello spettro autistico.
I principali risultati ottenuti sono riassumibili come segue.
1. Il primo consiste nell’individuazione di un approccio Bayesiano, tipi-
camente non considerato nella computazione affettiva, ai meccanismi
alla base della complessa sintomatologia autistica [12]. Tale approccio
risulta utile in generale per formalizzare le interazioni tra il sistema
neurale e gli stimoli che vengono dall’esterno, tramite l’utilizzo di un
modello generativo inferenziale.
Nel caso specifico, le difficoltà comportamentali, cognitive e percettive
inerenti all’autismo sono lette nei termini di una costante supervaluta-
zione degli input sensoriali (bottom-up) e di modelli interni (top-down)
dell’ambiente esterno vaghi e imprecisi. Queste caratteristiche deter-

80
minano incertezza nella comprensione razionale ed emotiva del mondo
che ci circonda. Le altre persone appaiono difficili da decifrare e cosı̀ le
interazioni sociali si fanno problematiche. Dall’altra parte la routine,
gli input chiari e prevedibili cosı̀ come i comportamenti stereotipati so-
no percepiti come rassicuranti.

2. Entrando più nello specifico dell’interazione diadica con un agente arti-


ficiale (robot, avatar, ecc.), abbiamo identificato la questione dell’“uncanny
valley” come possibile framework entro cui modellare la reazione emo-
tiva all’agente e valutare formalmente l’efficacia dell’interazione.
Tale questione, introdotta per la prima volta nel 1970 da Masahiro Mori
[44], descrive la sensazione di inquietudine suscitata da un agente arti-
ficiale quando quest’ultimo si presenta con caratteristiche di “umanità”
molto accentuate. La curva dell’“affinità” (shinwakan in giapponese),
in funzione del grado di “umanità”, risulta crescente fino a un punto
critico in cui precipita in un minimo, l’uncanny valley appunto (bukimi
no tani), per poi risalire ad un massimo assoluto in presenza di un es-
sere umano. Sperimentalmente, si è osservato che molti bambini nello
spettro autistico non percepiscono la zona normalmente dell’uncanny
valley come sgradevole, mentre sono a disagio a interagire con la mag-
gior parte delle persone.

3. Per modellare queste situazioni, abbiamo proseguito nell’utilizzo del-


l’inferenza Bayesiana. Il percorso logico è partito dal modello del per-
cettore Bayesiano ottimo di Feldman [43], che formalizza la classifi-
cazione in categorie delle percezioni, definendone matematicamente la
soluzione ottima.
Con Moore [46] abbiamo esteso poi il modello per includere il fenomeno
dell’uncanny valley. L’ipotesi alla base del suo studio è che, in presenza
di uno stimolo che reca segnali multipli, possa accadere che le distorsio-
ni percettive dei vari segnali indotte ai confini tra categorie non siano
allineate, causando una tensione percettiva che darebbe origine al senso
di fastidio. Viene quindi definita una funzione di spiazzamento come
differenza tra il valore atteso della produzione target dato un segnale
e il segnale stesso, e una funzione di distorsione percettiva differenzia-
le (tensione percettiva) che misura essenzialmente la varianza tra gli
spiazzamenti presenti in ogni singolo segnale. Quest’ultima è utilizzata
infine per ridefinire l’asse verticale del grafico dell’uncanny valley (shi-
nwakan) come differenza tra la probabilità di occorrenza di uno stimolo
(familiarità) e la tensione percettiva che esso provoca pesata dalla sen-
sibilità del percettore.

81
4. Tornando al percettore autistico, abbiamo utilizzato il modello di Ueya-
ma [47] che ipotizza che la curva dell’affinità, nel caso di autismo, pre-
senti più un dirupo (cliff ) che una vallata (valley), spostando la zona
in cui il grafico inizia a scendere verso la sgradevolezza dalle parti del
“completamente umano”. Adattando il modello Bayesiano di Moore,
Ueyama propone una simulazione numerica di un processo terapeuti-
co iterativo di apprendimento supportato da un agente artificiale per
esaminarne gli effetti sulla risposta emotiva. Ad ogni iterazione, cioè
interazione teorica con l’agente, la varianza della categoria “umano”
interna al percettore viene aggiornata. L’idea è che, presentando sti-
moli adeguati, la terapia induca adattamento alle categorie percettive,
e di conseguenza modifichi le curve della risposta emotiva. I risulta-
ti della simulazione indicano che, nel caso di autismo, questo avviene
per agenti (stimoli) simili agli esseri umani, normalmente percepiti co-
me “uncanny”. Robot e altri agenti “quasi umani” paiono quindi utili
candidati nelle terapie per l’autismo.
Gli esempi di studi nel campo dell’interazione tra agenti artificiali e soggetti
autistici sono ormai numerosi. Come si è detto, le relative valutazioni del-
l’efficacia seguono normalmente un percorso euristico. Un approccio come
quello suggerito in questa tesi potrebbe integrarsi in modo vantaggioso con
tali ricerche, non solo nelle valutazioni finali, ma anche e forse principalmente
nella progettazione degli agenti e dei protocolli terapeutici.
Le problematiche relative all’autismo sono molte e complesse, e non bisogna
neanche dimenticare i punti di forza di questa atipicità neurologica. Una più
stretta collaborazione tra computazione affettiva, ricerche sul campo, neu-
roscienze, modelli computazionali e anche persone nello spettro potrà forse
essere positiva per tutti.

82
Appendice A

Inferenza Bayesiana

Consideriamo una quantità x e la distribuzione p(x) che descrive il nostro


belief sui valori attesi di x. Se osserviamo un nuovo dato y connesso a x,
possiamo aggiornare il nostro belief su x tramite l’inferenza Bayesiana.
La distribuzione di probabilità p(y|x) (likelihood) specifica la probabilità di
osservare y dato x. Dopo aver osservato un nuovo dato y, il nostro belief ag-
giornato riguardo a x è dato dalla distribuzione a posteriori p(x|y). Possiamo
calcolare tale distribuzione tramite la regola di Bayes:

p(y|x)p(x)
p(x|y) = (A.1)
p(y)

Il denominatore p(y) assicura che p(x|y) sommi 1 su tutti i possibili valori di


x (quindi sia una distribuzione di probabilità). Marginalizzando può essere
scritto come:

Z
p(y) = p(y|x)p(x)dx (A.2)

Wolpert e Ghahramani [48] usano il gioco del tennis come esempio.


Immaginiamo di dover rispondere al servizio dell’avversario. Per prepararci a
ribattere dovremo stimare la posizione x della pallina quando toccherà terra.
Possiamo farlo usando semplicemente la traiettoria y della pallina, cercando
il valore di x che massimizzi la probabilità p(y|x) (stima della massima ve-
rosimiglianza).

84
Figura A.1: Stima della posizione della pallina quando toccherà terra. In
rosso la distribuzione likelihood p(y|x), in blu il belief a priori p(x). Il belief
a posteriori è rappresentato dall’ellissi bianca con la pallina al centro a indi-
care la stima di massima verosimiglianza. Tale stima può essere aggiornata
tramite una nuova informazione sulla traiettoria (pallina gialla). Da [49]

È anche possibile stimare l’incertezza di tale stima e queste due quantità


daranno luogo alla distribuzione likelihood (in rosso in Figura A.1).
Prima che l’avversario colpisca, possiamo già avere un’idea di dove manderà
la pallina. Se per esempio batte da destra, tenderà a direzionarla lungo la
linea. Possiamo indicare tale belief con la distribuzione a priori p(x) (in blu
in Figura A.1).
Possiamo trovare la distribuzione a posteriori p(x|y) tramite la regola di
Bayes che combina in modo ottimale la conoscenza a priori (“lungo la linea”)
con il dato sensibile (informazione visuale della traiettoria). Il massimo di
tale distribuzione sarà la nostra migliore stima del punto in cui la pallina
toccherà terra.
Man mano che vediamo avanzare la pallina verso di noi, possiamo aggiornare
la nostra stima applicando la regola di Bayes in modo ricorsivo:

p(yn |xn )p(xn |Yn−1 )


p(xn |Yn ) = (A.3)
p(Yn )

dove Yn = {y1 , y2 , ..., yn } rappresenta le osservazioni fino al tempo n. Il no-


stro belief a priori, cioè prima di osservare yn , è il belief a posteriori dopo

85
Figura A.2: Esempio di regola di Bayes per le gaussiane. Da [49]

aver osservato tutti i dati fino al momento n − 1, p(xn |Yn−1 ).

A.1 Gaussiane
Se le variabili casuali x e y sono distribuite in modo normale, l’inferenza
Bayesiana assume forme semplici. È conveniente usare la variabile casuale
precisione definita come l’inverso della varianza.
Data una distribuzione gaussiana a priori con media µ0 e precisione λ0 e
una distribuzione gaussiana likelihood con media µL e precisione λL , la
distribuzione a posteriori sarà una gaussiana con media µ e precisione λ:

λ0 λL
µ= µ0 + µL λ = λ0 + λL (A.4)
λ λ

quindi le precisioni si sommano e anche le medie ma pesate dalle relative


precisioni, come illustrato nell’esempio di Figura A.2: la distribuzione a priori
p(x) (blu) ha media µ0 = 20 e precisione λ0 = 1, la likelihood p(y|x) (rossa)
ha media µL = 25 e precisione λL = 3. La distribuzione a posteriori p(x|y)
(viola) risulta quindi avere media µ = 23, 75 e precisione λ = 4. È più vicina
alla likelihood perché quest’ultima ha precisione maggiore.

86
Figura A.3: Esempio di Grafo Aciclico Diretto (DAG). Da [49]

A.2 Modelli generativi


Se al posto di un’unica variabile nascosta x e di un unico dato osservato y
avessimo più in generale variabili multiple, potremmo rappresentare le rela-
tive relazioni tramite modelli generativi probabilistici e modelli grafici asso-
ciati. Nel caso di assenza di cicli si parla di Grafi Aciclici Diretti (Directed
Acyclic Graphs DAGs).
La probabilità congiunta di tutte le variabili x = [x1 , x2 , ..., xn ] può essere
scritta come:

n
Y
p(x) = p(xk |pa[xk ]) (A.5)
k=1

dove pa[xk ] sono i genitori (parents) di xk .


Nell’esempio di Figura A.3 abbiamo:

p(x) = p(x1 )p(x2 )p(x3 |x1 )p(x4 |x1 , x2 )p(x5 |x4 ) (A.6)

Le probabilità delle singole variabili possono essere ottenute tramite margi-


nalizzazione, per esempio:

87
ZZZZ
p(x4 ) = p(x1 , x2 , x3 , x4 , x5 ) dx1 dx2 dx3 dx5 (A.7)

In un modello gerarchico del cervello, x4 potrebbe essere l’attività di una


regione cerebrale a un livello alto. Se conoscessimo la variabile x1 (per esem-
pio un input sensorio), la marginalizzazione produrrebbe la distribuzione di
probabilità a posteriori:

ZZZ
p(x4 |x1 ) = p(x1 , x2 , x3 , x4 , x5 ) dx2 dx3 dx5 (A.8)

L’equazione A.8 ci dice come stimare x4 dato l’input sensorio x1 . Un’interes-


sante quantità nell’inferenza Bayesiana è il logaritmo negativo della densità
congiunta:

E(x) = − log p(x) (A.9)

che prende il nome di energia.


Quando la probabilità congiunta assume valori alti, l’energia è bassa. Da-
to che le distribuzioni a posteriori sono semplicemente densità congiunte
normalizzate, anche valori a posteriori con energia minima hanno massima
probabilità e l’inferenza può essere vista come un processo di minimizzazione
dell’energia.

88
Appendice B

Calcolo del valore atteso del


target nel modello Bayesiano
della percezione

Sviluppiamo in modo esplicito il calcolo del valore atteso E[T |S] utilizzato
in [43].

B.1 Caso di una categoria


Dato un modello generativo dove p(T |c) = N (µc , σc2 ) e p(S|T ) = N (T, σS2 ),
usiamo la regola di Bayes p(T |S, c) ∝ p(S|T )p(T |c) per esprimere la proba-
bilità a posteriori:

(T − µc )2 (S − T )2
   
1 1
p(T |S, c) ∝ p exp − ×p exp − (B.1)
2πσc2 2σc2 2πσS2 2σS2

Le costanti di normalizzazione possono essere eliminate trattandosi di pro-


porzionalità:

(T − µc )2 (S − T )2
 
p(T |S, c) ∝ exp − − (B.2)
2σc2 2σS2

89
Svolgendo nell’esponente i quadrati ed eliminando i termini che non dipen-
dono da T otteniamo:

T2 T2
 
2T µc 2ST
p(T |S, c) ∝ exp − 2 + + − 2 (B.3)
2σc 2σc2 2σS2 2σS

Raccogliendo nell’esponente T 2 e T abbiamo:

 2
σc + σS2 2 2(σc2 S + σS2 µc )

p(T |S, c) ∝ exp − T + T (B.4)
2σc2 σS2 2σc2 σS2

che riscritta diventa:

σc2 S+σS2µ
T2 − 2 c
!
2 2
σc +σS
T
p(T |S, c) ∝ exp − σ2 σ2
(B.5)
2 σ2c+σS2
c S

Per completare il quadrato a denominatore nell’esponente, moltiplichiamo


per la costante (la proporzionalità è preservata poiché il nuovo termine non
dipende da T ):

(σc2 S+σS
2 µ )2
c
!
2 2 )2
(σc +σS
exp − σ2 σ2
(B.6)
2 σ2c+σS2
c S

ottenendo:

 2
σc2 S+σS2µ
c
T− 2 2
σc +σS
!
p(T |S, c) ∝ exp − σ2 σ2
(B.7)
2 σ2c+σS2
c S

che ha la forma di una Gaussiana con

90
σc2 S + σS2 µc σc2 σS2
media = varianza = (B.8)
σc2 + σS2 σc2 + σS2

La distribuzione a posteriori risulta quindi essere:

σc2 S + σS2 µc σc2 σS2


 
p(T |S, c) = N , 2 (B.9)
σc2 + σS2 σc + σS2

e il valore atteso di T è la media della distribuzione Gaussiana:

σc2 S + σS2 µc
E[T |S, c] = (B.10)
σc2 + σS2

B.2 Caso di più categorie


Per trovare il valore atteso del target T Rdato il segnale S nel caso di più cate-
gorie, utilizziamo la formula E[T |S] =P T p(T |S)dT , dove p(T |S) è calcolata
sommando sulle categorie: p(T |S) = c p(T |S, c)p(c|S).
Il valore atteso diventa:

Z X
E[T |S] = T p(T |S, c)p(c|S)dT (B.11)
c

Possiamo portare T nella sommatoria e scambiare quest’ultima con l’integra-


le:

XZ
E[T |S] = T p(T |S, c)p(c|S)dT (B.12)
c

Dato che p(c|S) non dipende da T , possiamo scrivere:

X Z
E[T |S] = p(c|S) T p(T |S, c)dT (B.13)
c

91
R
dove T p(T |S, c)dT denota il valore atteso E[T |S, c] nel caso di una categoria
(equazione B.10).
Nel caso di più categorie, quindi, il valore atteso risulta:

X σc2 S + σS2 µc
E[T |S] = p(c|S) (B.14)
c
σc2 + σS2

92
Elenco delle figure

2.1 Esempio tipico di illusione percettiva. Adattamento da [15] . . 16


2.2 Inferenza Bayesiana nel cervello. Adattamento da [12] . . . . . 17
2.3 Principi di Inferenza Bayesiana. Adattamento da [12] . . . . . 19

3.1 Tito. Da [22] . . . . . . . . . . . . . . . . . . . . . . . . . . . 28


3.2 Analisi delle variabili per l’attenzione verso l’altro. Da [22] . . 30
3.3 Occorrenza delle variabili relative all’imitazione. Da [22] . . . 30
3.4 Occorrenza delle imitazioni relative alle convenzioni condivise.
Da [22] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.5 Nao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.6 Architettura del sistema ARIA. Adattamento da [23] . . . . . 33
3.7 Gruppo ASD, sguardo verso il terapista. Adattamento da [23] 35
3.8 Gruppo TD, sguardo verso il terapista. Adattamento da [23] . 35
3.9 Kaspar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.10 I giocatori, Kaspar e gli accessori del gioco. Da [28] . . . . . . 38
3.11 Uno screenshot di Copycat. Da [28] . . . . . . . . . . . . . . . 39
3.12 Adattamento da [28] . . . . . . . . . . . . . . . . . . . . . . . 41
3.13 Adattamento da [28] . . . . . . . . . . . . . . . . . . . . . . . 42
3.14 Adattamento da [28] . . . . . . . . . . . . . . . . . . . . . . . 43
3.15 Alcune schermate di Emotiplay. Adattamento da [30] . . . . . 45
3.16 Attività di riconoscimento emotivo visivo. Adattamento da [30] 46
3.17 Regno Unito: confronto tra pre- e post-utilizzo di Emotiplay
per linguaggio del corpo e integrazione dei segnali. Adatta-
mento da [30] . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.18 Israele e Svezia: media e (deviazione standard) dei punteggi
nelle attività di riconoscimento delle emozioni nel pre- e nel
post-intervento. Adattamento da [30] . . . . . . . . . . . . . . 49

4.1 Uno schema generale di interazione sociale . . . . . . . . . . . 53

94
4.2 Architettura del sistema neurale distribuito per la percezio-
ne di espressioni facciali affettive (lato dell’agente osservato-
re). Le doppie frecce indicano proiezioni “forward” e “back-
ward” tra aree neurali. L’architettura comprende un network
per la percezione dell’azione basato sul sistema mirror umano
(MNS), rappresentato dal complesso IPL, IFG/VPMC. Que-
sto media tra il risultato dell’elaborazione visiva dello stimolo
lungo la via visiva (retina, nucleo genicolato laterale LGN,
cortecce visive primarie, OFA, FFA, STS) e la rappresenta-
zione motoria interna dell’azione facciale costruita dall’ MNS
attraverso l’interfaccia del solco temporale superiore (STS). L’
MNS fornisce l’input per attivare il sistema affettivo centrale
(core affect) costituito dall’insula anteriore (AIns) e dalle cor-
tecce orbito-frontali (OFC). Il core affect coordina la dinamica
delle attività della via visuomotoria - STS, IPL, IFG/VPMC,
aree corticali motorie M1/M3/M4, area motoria supplemne-
tare SMA e nuclei motori sub-corticali nel tronco encefalico
(brainstem) - e visceromotoria - insula posteriore (PIns), ipo-
talamo (HYP), nuclei visceromotori del tronco encefalico, si-
stema nervoso autonomico (ANS). Questo avviene sia modu-
lando in feedback le rappresentazioni percettive dell’osserva-
tore sia generando e modulando la risposta emotiva del mede-
simo. Le linee punteggiate rappresentano le proiezioni subcor-
ticali che attraverso la via duale del collicolo superiore (SC)
e le regioni pulvinari proiettano direttamente alle aree limbi-
che per innescare rapidamente la reazione affettiva (stadio 1
di Adolph). Da [40] . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3 Interazione sociale tra un soggetto autistico e un agente (caso
generale) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4 Interazione sociale tra un soggetto autistico e un agente: l’a-
gente non é basato su un modello affettivo completo, ma é in
grado di interagire mediante azioni facciali e corporee perce-
pite dall’osservatore autistico . . . . . . . . . . . . . . . . . . 58
59
4.6 Percezione di un agente artificiale e conseguente risposta emotiva 60
4.7 Relazioni previste tra spazio acustico e spazio percettivo in
caso di (a) una categoria e (b) due categorie. Adattamento da
[43] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.8 Un modello generativo per il percettore Bayesiano ottimo . . . 63
4.9 Uncanny valley. Adattamento da [45] . . . . . . . . . . . . . . 67

95
4.10 Uncanny valley nel caso statico e dinamico. Adattamento da
[45] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.11 Probabilità di occorrenza di stimoli diversi data una categoria
di “sottofondo” più (a) o meno (b) piatta. Adattamento da [46] 70
4.12 Tensione percettiva (a) e affinità (b). Adattamento da [46] . . 72
4.13 Affinità nel caso statico e dinamico. Adattamento da [46] . . . 73
4.14 Uncanny valley nel caso di neurotipicità (blu) e di autismo
(rosso). Adattamento da [47] . . . . . . . . . . . . . . . . . . . 74
4.15 Probabilità delle categorie percepite nel caso (a) neurotipico e
(b) autistico. Adattamento da [47] . . . . . . . . . . . . . . . 75
4.16 Previsioni dell’effetto dell’Uncanny valley secondo il modello
di Moore. Risposta emotiva in funzione dello stimolo e della
media della categoria “umana”, a sinistra rappresentata tri-
dimensionalmente e a destra attraverso i colori su superficie
piana. Adattamento da [47] . . . . . . . . . . . . . . . . . . . 77
4.17 Effetti della terapia assistita da robot sulla varianza per la ca-
tegoria umana: (a-b) a sinistra in funzione del numero di prove
e degli stimoli presentati, a destra le curve di apprendimento
per alcuni degli stimoli presentati: (a) nella condizione tipica
e (b) nella condizione di autismo. (c) I valori finali della va-
rianza appresa dopo 500 prove rispetto allo stimolo presentato.
Adattamento da [47] . . . . . . . . . . . . . . . . . . . . . . . 78
4.18 Esempi di curve Stimolo/Risposta emotiva dopo diverse quan-
tità di prove nel caso (a) neurotipico, con uno stimolo pre-
sentato Sp = 0.4 e (b) autistico, con uno stimolo presentato
Sp = 0.7. Adattamento da [47] . . . . . . . . . . . . . . . . . . 78

A.1 Stima della posizione della pallina quando toccherà terra. In


rosso la distribuzione likelihood p(y|x), in blu il belief a priori
p(x). Il belief a posteriori è rappresentato dall’ellissi bianca
con la pallina al centro a indicare la stima di massima ve-
rosimiglianza. Tale stima può essere aggiornata tramite una
nuova informazione sulla traiettoria (pallina gialla). Da [49] . . 85
A.2 Esempio di regola di Bayes per le gaussiane. Da [49] . . . . . . 86
A.3 Esempio di Grafo Aciclico Diretto (DAG). Da [49] . . . . . . . 87

96
Bibliografia

[1] L. Kanner et al., “Autistic disturbances of affective contact,” Nervous


child, vol. 2, no. 3, pp. 217–250, 1943.

[2] H. Asperger, “Die autistischen psychopathen” im kindesalter,” Archiv



für psychiatrie und nervenkrankheiten, vol. 117, no. 1, pp. 76–136, 1944.

[3] H. Asperger and U. Frith, Autistic psychopathy’in childhood. Cambridge


University Press, 1991.

[4] S. Silberman, Neurotribù: I talenti dell’autismo e il futuro della


neurodiversità. LSWR, 2016.

[5] B. Bettelheim, Empty fortress. Simon and Schuster, 1967.

[6] C. C. Park, The siege: The first eight years of an autistic child. Little,
Brown, 1972.

[7] T. Grandin, Emergence, labeled autistic. Academic Therapy Pubns,


1986.

[8] R. El Kaliouby, R. Picard, and S. Baron-Cohen, “Affective computing


and autism,” Annals of the New York Academy of Sciences, vol. 1093,
no. 1, pp. 228–248, 2006.

[9] G. 7, “l’ipersensibilita nel mondo autistico,” 2016. [Onli-


ne]. Available: http://www.designhub.it/cometa/lipersensibilita-nel-
mondo-autistico-gruppo-7.html

[10] O. Sacks, An Anthropologist on Mars: Seven Paradoxical Tales. Alfred


A. Knopf, 1995.

[11] E. Gowen and A. Hamilton, “Motor abilities in autism: a review using a


computational context,” Journal of autism and developmental disorders,
vol. 43, no. 2, pp. 323–344, 2013.

98
[12] H. Haker, M. Schneebeli, and K. E. Stephan, “Can bayesian theories of
autism spectrum disorder help improve clinical practice?” Frontiers in
psychiatry, vol. 7, p. 107, 2016.

[13] A.-M. Nader, V. Courchesne, M. Dawson, and I. Soulières, “Does wisc-iv


underestimate the intelligence of autistic children?” Journal of autism
and developmental disorders, vol. 46, no. 5, pp. 1582–1589, 2016.

[14] C. J. Palmer, R. P. Lawson, and J. Hohwy, “Bayesian approaches to


autism: Towards volatility, action, and behavior.” Psychological bulletin,
vol. 143, no. 5, p. 521, 2017.

[15] F. H. Petzschner, L. A. Weber, T. Gard, and K. E. Stephan, “Compu-


tational psychosomatics and computational psychiatry: Toward a joint
framework for differential diagnosis,” Biological psychiatry, vol. 82, no. 6,
pp. 421–430, 2017.

[16] R. A. Calvo and S. D’Mello, “Affect detection: An interdisciplinary


review of models, methods, and their applications,” IEEE Transactions
on affective computing, vol. 1, no. 1, pp. 18–37, 2010.

[17] C. Darwin, “(1965). the expression of the emotions in man and animals.
chicago: University of chicago press.” 1872.

[18] W. James, “What is an emotion?” Mind, vol. 9, no. 34, pp. 188–205,
1884.

[19] S. Turkle, “The second self: The human spirit in a computer culture,”
1984.

[20] R. W. Picard, Affective computing. MIT press Cambridge, 1997, vol.


252.

[21] C. A. Huijnen, M. A. Lexis, R. Jansens, and L. P. de Witte, “Map-


ping robots to therapy and educational objectives for children with au-
tism spectrum disorder,” Journal of autism and developmental disorders,
vol. 46, no. 6, pp. 2100–2114, 2016.

[22] A. Duquette, F. Michaud, and H. Mercier, “Exploring the use of a mobile


robot as an imitation agent with children with low-functioning autism,”
Autonomous Robots, vol. 24, no. 2, pp. 147–157, 2008.

99
[23] T. Esubalew, U. Lahiri, A. R. Swanson, J. A. Crittendon, Z. E. Warren,
N. Sarkar et al., “A step towards developing adaptive robot-mediated in-
tervention architecture (aria) for children with autism,” IEEE Transac-
tions on Neural Systems and Rehabilitation Engineering, vol. 21, no. 2,
pp. 289–299, 2013.

[24] J. N. Constantino and C. P. Gruber, Social responsiveness scale (SRS).


Western Psychological Services Torrance, CA, 2012.

[25] M. Rutter, A. Bailey, and C. Lord, The social communication


questionnaire: Manual. Western Psychological Services, 2003.

[26] C. L. C. Adaptive Systems Research Group, University of Hertfordshire,


“The aurora project.” [Online]. Available: http://aurora.herts.ac.uk/

[27] K. Dautenhahn, “Roles and functions of robots in human society: im-


plications from research in autism therapy,” Robotica, vol. 21, no. 4, pp.
443–452, 2003.

[28] J. Wainer, B. Robins, F. Amirabdollahian, and K. Dautenhahn, “Using


the humanoid robot kaspar to autonomously play triadic games and
facilitate collaborative play among children with autism,” IEEE Tran-
sactions on Autonomous Mental Development, vol. 6, no. 3, pp. 183–199,
2014.

[29] Qualifications and C. Authority, The P scales: Level descriptors P1 to


P8, 2009.

[30] S. Fridenson-Hayo, S. Berggren, A. Lassalle, S. Tal, D. Pigat, N. Meir-


Goren, H. O’Reilly, S. Ben-Zur, S. Bölte, S. Baron-Cohen et al., “‘emoti-
play’: a serious game for learning about emotions in children with auti-
sm: results of a cross-cultural evaluation,” European child & adolescent
psychiatry, vol. 26, no. 8, pp. 979–992, 2017.

[31] S. Baron-Cohen, O. Golan, S. Wheelwright, and J. Hill, Mind reading:


the interactive guide to emotions. Jessica Kingsley Limited, London,
2004.

[32] S. Bölte, A. Ciaramidaro, S. Schlitt, D. Hainz, D. Kliemann, A. Beyer,


F. Poustka, C. Freitag, and H. Walter, “Training-induced plasticity of
the social brain in autism spectrum disorder,” The British Journal of
Psychiatry, vol. 207, no. 2, pp. 149–157, 2015.

100
[33] I. M. Hopkins, M. W. Gower, T. A. Perez, D. S. Smith, F. R. Amthor,
F. C. Wimsatt, and F. J. Biasini, “Avatar assistant: Improving social
skills in students with an asd through a computer-based intervention,”
Journal of autism and developmental disorders, vol. 41, no. 11, pp. 1543–
1555, 2011.
[34] C. Lord, M. Rutter, P. DiLavore, S. Risi, K. Gotham, and S. Bishop,
Autism diagnostic observation schedule 2nd edn. Western Psychological
Services, Los Angeles, 2012.
[35] S. Sparrow, D. Cicchetti, and D. Balla, Vineland adaptive behavior scales
2nd edn. American Guidance Service, Circle Pines, 2005.
[36] A. I. Goldman and C. S. Sripada, “Simulationist models of face-based
emotion recognition,” Cognition, vol. 94, no. 3, pp. 193–213, 2005.
[37] G. Rizzolatti and C. Sinigaglia, “The mirror mechanism: a basic prin-
ciple of brain function,” Nature Reviews Neuroscience, vol. 17, no. 12,
pp. 757–765, 2016.
[38] V. Gallese, “The ’shared manifold’ hypothesis. From mirror neurons to
empathy,” Journal of consciousness studies, vol. 8, no. 5-7, pp. 33–50,
2001.
[39] R. Adolphs, “Recognizing emotion from facial expressions: Psy-
chological and neurological mechanisms,” Behavioral and cognitive
neuroscience reviews, vol. 1, no. 1, pp. 21–62, 2002.
[40] G. Boccignone, D. Conte, V. Cuculo, A. D’Amelio, G. Grossi, and
R. Lanzarotti, “Deep construction of an affective latent space via multi-
modal enactment,” IEEE Transactions on Cognitive and Developmental
Systems, pp. 1–1, 2018.
[41] A. M. Liberman, K. S. Harris, H. S. Hoffman, and B. C. Griffith, “The
discrimination of speech sounds within and across phoneme boundaries.”
Journal of experimental psychology, vol. 54, no. 5, p. 358, 1957.
[42] P. K. Kuhl, “Human adults and human infants show a “perceptual ma-
gnet effect” for the prototypes of speech categories, monkeys do not,”
Perception & psychophysics, vol. 50, no. 2, pp. 93–107, 1991.
[43] N. H. Feldman, T. L. Griffiths, and J. L. Morgan, “The influence of
categories on perception: Explaining the perceptual magnet effect as
optimal statistical inference.” Psychological review, vol. 116, no. 4, p.
752, 2009.

101
[44] M. Mori, “Bukimi no tani (the uncanny valley),” Energy, vol. 7, pp.
33–35, 1970.

[45] M. Mori, K. F. MacDorman, and N. Kageki, “The uncanny valley [from


the field],” IEEE Robotics & Automation Magazine, vol. 19, no. 2, pp.
98–100, 2012.

[46] R. K. Moore, “A bayesian explanation of the ‘uncanny valley’effect and


related psychological phenomena,” Scientific reports, vol. 2, p. 864, 2012.

[47] Y. Ueyama, “A bayesian model of the uncanny valley effect for explai-
ning the effects of therapeutic robots in autism spectrum disorder,” PloS
one, vol. 10, no. 9, p. e0138642, 2015.

[48] D. M. Wolpert and Z. Ghahramani, “Bayes rule in perception, action


and cognition,” The Oxford Companion to the Mind. Oxford University
Press (http://eprints. pascal-network. org/archive/00001354/), 2005.

[49] W. Penny, “Bayesian models of brain and behaviour,” ISRN


Biomathematics, vol. 2012, 2012.

102

Potrebbero piacerti anche