Sei sulla pagina 1di 14

De Cesarei 23.3.

2020

L’altra volta avevamo cominciato a entrare nel tema delle INFERENZE e vi avevo parlato della raccolta di
informazione globale, locale e della sequenza di queste informazioni.
C’è una domanda che sottende a tutto quello che abbiamo detto finora, nel senso che noi abbiamo
raccontato (nella 1° parte del corso) qualcosa rispetto a come funziona la ns. sensazione, e poi qualcosa
rispetto alla separazione ,e poi rispetto al raggruppamento abbiamo detto qualcosa che ha a che
vedere con la psicologia della gestalt: vi ho fatto vedere I PRINCIPI DI RAGGRUPPAMENTO
secondo la Gestalt.
In realtà l’integrazione e il raggruppamento di caratteristiche, -dopo che ne abbiamo parlato a
proposito della Gestalt- “ci è uscito dalla porta ma è rientrato dalla finestra” perché in realtà c’è
stato anche un altro momento in cui noi abbiamo parlato di mettere assieme delle caratteristiche
di oggetti, e quel momento è quando abbiamo parlato della ricerca visiva.

Per quanto riguarda la ricerca visiva vi ho distinto 2 situazioni:


-una situazione in cui sulla base di 1 sola caratteristica io posso dire che qualcosa è presente (es: è
presente una linea verticale oppure è presente una X ed è verde)
-e altre situazioni in cui io invece non posso dirlo altrettanto rapidamente ma devo esaminare
TUTTI gli elementi presenti nella scena.
Avevamo distinto le 2 situazioni e:
-una l’avevamo indicata come elaborazione + efficace, o parallela, o situazione preattentiva
-l’altra come situazione attentiva, elaborazione seriale e meno efficace.

Ma quello che in realtà distingue le 2 caratteristiche -per cui io avevo iniziato a parlarvi di
elaborazione seriale e parallela- è che nell’elaborazione parallela c’è un ruolo variamente giocato
dalle caratteristiche dello stimolo target: quanto è visibile lo stimolo target, qual è il suo
contrasto, qual è la sua forma, ecc. ma c’è anche un grosso ruolo legato a tutti gli altri stimoli non

target.
Cosa fanno gli stimoli non target ?
Condividono delle features e le 2 o + caratteristiche che noi dobbiamo individuare: per es. essere
una X ed essere verde; ce ne sono alcuni che condividono il fatto di essere X ed altri il fatto di
essere verde ? questo non ha nulla a che vedere con il target ! questo ha a che vedere con il tipo di
“distrattore” che ho! Per questo io vi avevo detto: guardate che nel caso dell’elaborazione
seriale, quello slop – cioè il fatto che + distrattori ho, e + vengo rallentato- è legata alle
caratteristiche dei distrattori (non certo del target che poveretto rimane sempre lo stesso) .
In più c’era l’altro effetto cumulativo legato al fatto che il target sia presente o non sia presente.
(Ovviamente se io devo cercare 100 oggetti per poi concludere che non è presente niente, ci
impiegherò + tempo rispetto a quando devo cercare un numero variabile -ma in media la metà-
per poi concludere che è presente.
Avevamo infatti distinto: “quando il target era presente” rispetto a “quando non era presente”.

Ma la differenza che c’è tra il ruolo degli stimoli non target e il ruolo dello stimolo target, c’è
solamente per l’elaborazione seriale o anche per quella parallela?
Questa differenza -come ve l’ho descritta- c’è per l’elaborazione seriale, cioè quella di cui
abbiamo parlato finora.
Per quanto riguarda invece l’elaborazione parallela -cioè quella in cui fa pop-out quindi c’è 1 solo
pallino verde e tutto il resto sono stimoli rossi- in quel caso non c’è lo stesso tipo di effetto degli
stimoli non target, che si osserva nell’elaborazione seriale. Nell’elaborazione parallela ci sono degli
1
altri effetti, per es. legati al crowding e legati ad altri tipi di fenomeni, più sensoriali, ma non c’è lo
stesso tipo di effetto attentivo.
E dal punto di vista della differenza tra target presente e target assente, una quota di differenza
tra risposta “presente-assente” è spiegata -come vi ho detto l’altra volta- dal fatto di dover esaminare
tutti gli oggetti presenti in una scena.
Un’altra quota di risposta è legata a un bias decisionale che è stato osservato, quasi sempre, per
cui in qualunque situazione, a livello decisionale, si impiega + tempo a rispondere che qualcosa
“è assente”, che non a rispondere che qualcosa “è presente”.
E un bias decisionale, non un bias attentivo.

Ho fatto questa premessa perché oggi ripartiamo di nuovo dai PROCESSI PREATTENTIVI e
ATTENTIVI, cioè quello di cui abbiamo parlato quando parlavamo della RICERCA VISIVA, ma oggi
ma ne parliamo in un altro senso: ne parliamo rispetto al RUOLO CHE L’ATTENZIONE HA NELLA
COSTRUZIONE DEGLI OGGETTI .

Quello di cui stiamo parlando in queste lezioni è:


“COME FACCIAMO AD AVERE DEGLI OGGETTI SIGNIFICATIVI NEL NS CAMPO VISIVO”
Significativi vuol dire che le varie parti sono coerenti tra loro, possibilmente hanno una relazione
con delle conoscenze a priori, per es. a livello semantico, o con qualcosa che dobbiamo fare,
quindi ci permettono  molti di voi mi avevano risposto che “identificare uno stimolo” è poterci
fare qualcosa che ha a che vedere con i miei obiettivi del momento.
E una delle domande è:
COME FACCIO A COMBINARE IN UN UNICO OGGETTO TUTTE le CARATTERISTICHE DIVERSE CHE
RAGGIUNGONO LA MIA SENSAZIONE?
Quindi riprendiamo di nuovo la ricerca attentiva e preattentiva e ad un certo punto riparleremo di
“slop” (ma ve ne ho già parlato per cui lo ritengo assodato).
Quello che mi interessa ora è:
COME FA IL SISTEMA , nella condizione seriale, A COMBINARE CARATTERISTICHE DIVERSE IN UN
UNICO OGGETTO?
Per es: forma:-> cerchio colore: -> verde
E partiamo da un altro fenomeno che non è il fenomeno della ricerca visiva -perché infatti la teoria
di integrazione di attributi -attributi è features, caratteristiche- si basa essenzialmente, dal punto di
vista dei dati, su 2 fenomeni:
- Il visual search (che vi ho descritto)
- La congiunzione illusoria

La congiunzione illusoria è quel fenomeno che si verifica nel momento in cui il mondo di fronte a
noi è il mondo come lo conosciamo, quindi un mondo ricco di oggetti molto diversi fra loro, con
caratteristiche diverse: quando voi guardate la stanza di fronte a voi non vedete un campo vuoto
con delle X e dei pallini, ma vedete tanti oggetti diversi: hanno forme diverse e alcuni sono molto
colorati, altri sono poco colorati. E andando a un paradigma sperimentale, potremmo avere 3
forme : un cerchio rosso, un quadrato verde e un triangolo blu. Su questo siamo tutti d’accordo
tuttavia succede che in condizioni poco ideali -ad es. quando noi guardiamo qualcosa con la coda
dell’occhio- noi erroneamente possiamo attribuire colore e forma al medesimo oggetto , cioè ad
es. quando vado in macchina, o quando sto correndo, e guardo qualcosa con la coda dell’occhio,
posso in questo caso avere l’impressione di aver visto un cerchio verde: in realtà il cerchio verde
non c’era! È vero che c’era un cerchio e ed è vero che c’era un qualcosa di verde  e il mio
sistema cos’ha fatto?
2
Il sistema ha integrato in maniera illusoria cioè errata infatti ha integrato 2 attributi, cioè
2 caratteristiche appartenenti a 2 diversi oggetti  fenomeno della congiunzione illusoria
Il vs libro fa un es. un po’ diverso, legato alla lettura che consiste in questo:
la parola risultante è “Bologna” la persona sta guardando una pagina e ha l’impressione di
leggere la parola “Bologna”, in realtà non c’è scritto Bologna, e guardando bene vede che in una
riga c’è scritto “bollente” e nell’altra riga c’è scritto “lasagna”; mettendo assieme Bolo e gna viene
fuori Bologna.
Questo è il fenomeno della congiunzione illusoria ed è un fenomeno che capita abbastanza
spesso: crediamo di vedere qualcosa con la coda dell’occhio, poi verifichiamo meglio e, quando noi
verifichiamo meglio siamo ovviamente in grado – perché a quel punto abbiamo tutte le risorse
attentive- di vedere che il cerchio c’era ma era rosso (anziché verde) e il quadrato c’era ed era
verde.
Questo è il fenomeno della congiunzione illusoria, quindi diamone una spiegazione.
La cosa interessante del Modello dell’integrazione degli attributi ossia la Teoria proposta da
Treisman e Gelade- è che attraverso un unico modello che è quello che vi ho un po’ descritto l’altra volta e che
oggi vi descrivo un po’ meglio, riesce a spiegare sia il fenomeno del visual search ossia il fatto che quando
devo cercare delle combinazioni di attributi il mio rallentamento è proporzionale al numero di
distrattori, (mentre questo rallentamento non accade se devo cercare 1 solo attributo) sia il
fenomeno della congiunzione illusoria.
E quando un modello riesce a spiegare + di 1 fenomeno è senz’altro un “buon” modello.
Ovviamente questo modello ha anche dei limiti ma adesso vediamo i pregi.
Quindi c’è questo fenomeno della congiunzione illusoria per cui quando noi guardiamo qualcosa
con la coda dell’occhio il ns sistema visivo cerca di trovare delle regolarità, cerca di creare degli
oggetti, delle parole, ecc. (perché ovviamente non possiamo vivere in un mondo scombinato,
perché se tutte le caratteristiche del mondo fossero tra loro scombinate noi impazziremmo) quindi
anche se guardiamo con la coda dell’occhio il ns sistema visivo non può limitarsi a fare un elenco di
caratteristiche del tipo: c’era un cerchio, c’era un quadrato, c’era il rosso, c’era il verde ecc.) quindi
per forza di cose deve darci l’idea che abbiamo visto delle forme geometriche colorate.
Quindi il ns sistema percettivo cerca di creare coerenza, di creare “oggetti”.

Esaminiamo il modello della Treisman:


questo è quello che avevamo già detto l’altra volta parlando del visual search:
il sistema visivo analizza separatamente informazioni relative a diverse dimensioni: forma, colore
(ed altre che vedremo dopo) e per fare questo non ha bisogno dell’ attenzione.
Successivamente però -dopo che c’è stata questa fase iniziale- queste informazioni vengono
integrate tra loro per costruire un modello dell’input visivo.
A questo punto se io devo costruire un modello accurato di quello che avevo visto in un
determinato punto, - se io vado a vedere in un visual search punto per punto cosa c’è- io ho
bisogno dell’ attenzione per integrare  la forma con il colore di ciascun item.
E l’integrazione richiede un tempo proporzionale all’informazione da integrare: se ho molti
distrattori impiego molto tempo, se ne ho pochi, impiego poco tempo.
Inoltre maggiore è il numero degli elementi e più tempo servirà per eseguire un compito,
indipendentemente dal fatto che il target sia presente o assente.

Quindi vedete che fin qui non abbiamo aggiunto molto a quanto avevamo già detto , ma c’è il fatto
che comincia ad esserci una strana consonanza tra le parole che sto usando per descrivere il visual
search e quelle che sto usando per descrivere la congiunzione illusoria: in tutti i casi parlo di

3
caratteristiche , in tutti i casi parlo di integrazione di caratteristiche e in tutti i casi parlo di
attenzione o risorse che sono necessarie per compiere questa operazione di 23:33

L’aspetto-chiave del modello della integrazione degli attributi di Teisman è :


che alcune di queste caratteristiche/features - colore, dimensione, orientamento (ad es: 1 linea
verticale rispetto a delle linee orizzontali) sono rappresentate in parallelo, da moduli specializzati (che
sanno fare solo 1 cosa) e tra loro indipendenti (che non comunicano tra loro).
“alcune caratteristiche (colore,dimensione,orientamento) sono rappresentate in parallelo, da
moduli specializzati e tra loro indipendenti”.
Cosa vuol dire?
vuol dire che io ho 3 processi separati tra loro, che non si parlano, sono rappresentati in parallelo
(separati tra di loro) da moduli specializzati (che sanno fare solo 1 cosa) e sono tra loro
indipendenti. Quindi ci sarà 1 di questi moduli che è bravissimo ma solo a raccogliere le differenze
rispetto al colore, ma non capisce nulla rispetto alla dimensione/forma e non capisce nulla rispetto
all’orientamento o rispetto a qualunque altra caratteristica dell’immagine; è solamente capace di
cogliere le differenze di colore!
Ci sarà poi un altro tipo di modulo che rileva differenze rispetto alla dimensione, e poi un altro che
rileva differenze rispetto alla forma, e un altro rispetto all’orientamento.
Quindi ci sono una serie di moduli che derivano direttamente dalla sensazione -cioè che
prendono i loro input direttamente dalla sensazione- e rilevano solo quello a cui sono sensibili.
Il 1° stadio si ha dopo la sensazione e perciò c’è una serie di processi specializzati (poi vedremo
quanti sono) ciascuno specializzato a fare solo 1 cosa.

E cosa fanno questi MODULI?


I moduli costruiscono delle mappe.
Queste mappe sono delle mappe che vuol dire “ che cosa c’è nel campo visivo in termini di”:
il modulo del colore mi dirà che colore c’è nel campo visivo: ad es. mi dirà che davanti a me c’è un
qualcosa di nero, attorno a me c’è una cosa sul marroncino, sopra c’è qualcosa di bianco ecc.
Il modulo del colore non darà un significato a queste cose che sono attorno a me, però mi crea una
mappa del colore di quello che ho intorno.
Nello stesso momento e allo stesso modo c’è un altro modulo che si occupa di creare delle scale di
dimensione cioè di tutte le cose che ho di fronte rileva ciò che è grande e ciò che è piccolo, ossia
quali parti del mio campo visivo sono occupate da oggetti piccoli e quali da oggetti grandi.
Nello stesso momento e allo stesso modo c’è un altro modulo che si occupa della forma degli
oggetti,
E nello stesso momento e allo stesso modo c’è un altro modulo che si occupa dell’orientamento.
Quindi ciascun modulo si occupa di fare una MAPPA di caratteristiche del campo visivo e
ciascuna di queste mappe racconta solo 1 aspetto specifico del mondo che c’è nel mio campo
visivo: o che forme ci sono, o che dimensioni ci sono, o che colori ci sono ecc.
Quindi ci sono molte MAPPE DI CARATTERISTICHE/FEATURES e queste mappe sono il 1° stadio di
elaborazione. E sono rappresentate in parallelo (in parallelo, se vi ricordate, parlando di sinistra
(31;07) assonanze, è esattamente il termine della ricerca parallela: quella che, sia che io abbia 1
distrattore sia che ne abbia 1000, funziona allo stesso modo.
E c’è un motivo per questo: perchè una ricerca che vuol essere svolta sulla base di 1 sola di queste
mappe -si comporterà appunto in maniera parallela- potrà essere risolta indipendentemente da
stadi successivi di elaborazione. (dopo vi faccio vedere 2-3 slide con l’esempio della ricerca parallela, e che
collega questo con il visual search)

4
Quindi abbiamo una serie di moduli che creano delle mappe,  dopodichè passato questo stadio
in cui abbiamo tante mappe abbiamo bisogno di mettere assieme l’informazione e questo viene
fatto attraverso la MAPPA PRINCIPALE delle POSIZIONI, che è la mappa definitiva, quella più
completa perché è quella che integra tutto il resto dell’informazione, ed è quella a cui noi
abbiamo accesso quando cerchiamo qualcosa nel ns campo visivo.

Ripeto:
mappe di features  contengono 2 tipi di informazione:
-la 1° informazione è se una determinata caratteristica è presente (es. c’è qualcosa di rosso;
risponde solo a questa domanda)
-in secondo luogo è una mappa, quindi una mappa a parallelo informazione spaziale quindi
la 2° informazione che è presente è un’informazione spaziale cioè quel qualcosa di rosso dove
diavolo è? Quindi C’è! ma a noi non è accessibile. Infatti qual è l’altro fenomeno che si verifica nel
visual search?
Nel caso del visual search parallelo (quello più semplice, quello con la linea di ricerca piatta)
voi siete in grado di rispondermi sempre se qualcosa è presente, ci mettete sempre lo stesso
tempo, ma se io vi chiedo: adesso però dimmi dov’era? non siete in grado di dirmelo! (se ve lo
presento per poco tempo e mascherato, ovviamente).
Quindi: l’informazione che “qualcosa è presente”  quella è accessibile per il compito
L’informazione di “dov’è”  rimane da qualche parte, ma non è accessibile per il compito

Quindi le MAPPE DI CARATTERISTICHE possono essere informative rispetto alla “presenza” di una
caratteristica (c’è o non c’è qualcosa di rosso) ma NON forniscono informazioni su “dove si trova”
e quali altre caratteristiche abbia l’oggetto.
Quindi posso dire che c’è qualcosa di rosso ma non posso dire se è un triangolo o un quadrato, e
non posso dire se è orientato in un verso o nell’altro, non posso dire se è grande o piccolo ecc.

La MAPPA PRINCIPALE delle POSIZIONI rappresenta “dove “ si trovano gli elementi, ma non “cosa
si trova” in una determinata posizione.
Quindi prima avevamo tutte le caratteristiche ma non la posizione.
Ora abbiamo la posizione ma non le caratteristiche.
E quindi cosa richiede? richiede di localizzare le caratteristiche e accoppiare caratteristiche e
posizioni in modo appropriato.

Secondo la Feature Integration Theory il ruolo dell’ attenzione è critico nello stabilire il modo in
cui costruiamo gli oggetti .
Perché? cosa fa l’attenzione? L’ATTENZIONE si muove nella mappa delle posizioni. Una volta che
è arrivata a una posizione -es. voglio capire che cosa si trova in un certo punto del campo visivo- la
mia mappa delle posizioni richiama da tutte le altre mappe tutto quello che c’è, collegato a quel
punto.
Quindi l’ATTENZIONE si muove su un punto della MAPPA DELLE POSIZIONI .
(richiede che l’attenzione si sposti su ciascun punto della mappa delle posizioni, e una volta che ci
va, richiami -per quel particolare punto- tutte le informazioni da tutte le altre mappe. E
ovviamente escludo le informazioni di tutti gli altri oggetti!
Quindi le caratteristiche selezionate entrano a far parte di una rappresentazione temporanea
dell’oggetto a cui sto prestando attenzione.

5
Mostra slide: qui c’è un po’ tutto. Se lo guardiamo dal basso verso l’alto ritroviamo tutto quello di
cui abbiamo parlato finora. (poi ho anche degli altri esempi che vi faccio comparire pezzetto dopo pezzetto)
Partendo dal basso voi avete una scena visiva e in questo caso 40:35 pattern di stimoli (sono stimoli
semplici ma potrebbe essere anche il tavolo di casa vostra, in quanto è assolutamente uguale)
Questa scena visiva è complessa: ha diversi oggetti, diverse forme, diversi colori. E cosa succede?
Succede che il mio sistema visivo crea una serie di mappe di features: in questo caso ne crea 5:
una mappa del colore che distingue il rosso dal verde, una mappa che ha a che vedere con
l’orientamento, una mappa che ha a che vedere con il movimento, una con la profondità, e una
che ha a che vedere con la curvatura.
Diciamo che per il ns compito ci possono essere utili la curvatura e il colore, perché la curvatura
può distinguere il cerchio dal quadrato, e il colore può distinguere il rosso dal verde. Comunque
sia, guardando il pattern e sapendo che io devo andare a cercare il quadrato verde, voi capite
subito che siamo nella situazione di una ricerca seriale e siamo nella situazione di una ricerca
seriale perché non mi basta sapere che è verde, perchè ho molti stimoli verdi, e non mi basta
sapere che è quadrato, perché ho molti stimoli quadrati. Quindi deve andare ad esaminare gli
oggetti di una scena e integrare l’informazione che ha a che vedere con la forma ,con
l’informazione che ha a che vedere con il colore.
E’ esattamente quello che accade al livello successivo cioè La Master Maps Locations.
Vedete che di suo la Mappa Principale delle Posizioni è una tela bianca! Su cui si va a disegnare
quello che c’è nel mondo là fuori!

Allora succede che la mia attenzione -un po’ come un fascio di luce, (spot light è la torcia), va a
illuminare un’area del mio campo visivo: quella lì che vedete in basso a sx.
Nel momento in cui va a vedere quell’area lì del campo visivo, la mia Mappa Principale delle
Posizioni chiama a raccolta tutte le sue mappe subordinate (colore, orientamento, movimento,
profondità e curvatura) e va a chiedere a ciascuna di queste mappe “cosa c’è in quella posizione
lì”. Notate che l’informazione di “cosa c’è in ciascun punto” , non può saltare il passaggio della
Mappa Principale delle Posizioni 44:40  deve passare per forza da lì ! A quel punto, nel
momento in cui l’attentional spot light ha indicato quel punto ed è andato a raccogliere
informazioni da tutte le altre mappe, cosa fa con tutte queste informazioni ? la integra , e trova
che in quel punto lì c’è un qualcosa di verde, che è orientato parallelamente al campo visivo, non è
in movimento, non è profondo, e non è curvo.
A quel punto il vs attentional spot light dice: in questa posizione c’è quello che ho descritto finora :
un quadrato verde. Quindi la vs percezione qual è? Che lì c’è un quadrato verde.
E visto che voi stavate cercando proprio un quadrato verde,  si passa all’ultimo stadio che è
quello dell’object refornition cioè riconoscete l’oggetto e rispondete che è presente.
A questo punto voi sapete 2 cose in più:
-sapete che l’oggetto c’è
-sapete dov’è
Domanda: chi integra le informazioni? le informazioni vengono integrate dall’attenzione che
agisce a livello di MAPPA DELLA POSIZIONE
Domanda: Quindi l’attenzione non è/non coincide con la mappa della posizione? No, perché se
l’attenzione fosse la mappa della posizione allora io avrei che tutta l’informazione presente su
tutto quanto il campo visivo sarebbe integrata! In realtà l’attenzione spaziale è un qualcosa -in
questo caso qui è un fascio di luce- che può essere rivolto ad aree diverse del campo visivo e che
permette, per quest’area, di integrare l’informazione relativa a tutto quello che si trova in quel
punto. Quindi l’attenzione NON coincide con la mappa della posizione, però l’attenzione coincide

6
con qualcosa che può agire a livello “spaziale”. E agendo a livello spaziale può anche permettermi
di INTEGRARE tutto quello che si trova in un determinato punto.

Domanda: la mia informazione integrata rimane o sparisce? Ovviamente rimane.

Per capire meglio torniamo all’esempio in cui voi state leggendo una pagina e credete di aver letto
la parola “Bologna”; poi andate a vedere meglio -e quindi spostate la vs attenzione legata alla
fovea ma non necessariamente, infatti in questo caso può coincidere anche con altre
manipolazioni dell’attenzione spaziale- e riguardando meglio la pagina vedete che in realtà c’è
scritto bollente e lasagna  e una volta che l’avete visto, non ci cascate più! (una volta che voi
avete costruito il mondo attorno a voi, questo mondo ha una sua permanenza)

Risposta a domanda: prima c’è quella pre-attentiva e poi c’è quella tardiva; quella pre-attentiva ha
a che vedere con le mappe di features mentre quella attentiva ha a che vedere con l’integrazione
degli attributi.

Domanda: quindi la mappa principale delle informazioni -relativamente al punto dove è puntato il
focus attentivo- (e solo relativamente a quello) integra le informazioni delle varie mappe di
features, e permette quindi il riconoscimento dell’oggetto.
Questo per lo stesso motivo per cui prima dicevo che la mappa delle posizioni non coincide con
l’attenzione! La Mappa principale delle Posizioni è bianca, è come una tela bianca dove si va a
disegnare quello che c’è nel mondo là fuori. E si va a disegnare sulla base dell’informazione
raccolta nelle varie sottomappe.

Torno indietro di un paio di slide perchè vi voglio far notare una cosa.
Quando vi ho parlato delle mappe di features vi ho detto 2 cose:
1) che rispondono al fatto che una determinata feature sia presente o non sia presente (c’è o non c’è
. qualcosa di rosso)
2) che l’informazione spaziale rispetto a “dove” si trova quella feature non è accessibile ma è
implicita
COSA VUOL DIRE QUESTO?
Questo vuol dire che se voi non utilizzate la mappa principale delle posizioni non siete in grado di
dire “dov’è” il vs stimolo target né in una situazione di ricerca congiunta, né in una situazione di
ricerca di stimoli semplici.
Ma per quale motivo hanno dovuto aggiungere il fatto che contiene la posizione implicita degli
oggetti?
Perché se quell’informazione lì non ci fosse, sarebbe persa! Da qualche parte, la mia informazione
di “dove si trova il colore di ciascun oggetto”, la devo mantenere! Perché o la mantengo o la
perdo! Non ho altre alternative. Quindi se io non posso accedere a livello attentivo, ma ci posso
accedere a livello attentivo quando vado a prestare attenzione a ciascun punto del campo visivo,
allora vuol dire che da qualche parte c’era, che da qualche parte era accessibile -> e alla mia
mappa delle posizioni era accessibile.
Quindi è per questo che sotto la Master maps of locations ho della features maps e non delle
features detectors ! avrebbero potuto essere dei semplici detector -tipo un interruttore della luce
che mi dice “c’è rosso” o “non c’è rosso”, “c’è curvo” o “non c’è curvo”- però in quel caso non
avrei avuto alcuna informazione, né implicita né esplicita, su “dove” sono presenti quelle
caratteristiche che io stavo andando a cercare nella scena.

7
Vi faccio anche questo esempio: questa è una situazione più semplice.
Compito: trovare il quadrato verde.
Vi ho fatto l’esempio sulla sx , e possiamo dire che è un esempio facile perché pur essendoci molti
quadrati e molti cerchi, in realtà c’è 1 solo stimolo verde.  quindi questo è l’esempio classico
della ricerca parallela , quello che si chiama il pop out, -> cioè quello che a prescindere da quanti
distrattori ci metto/sono, io sarò sempre veloce a rispondere, allo stesso modo.
Ora cerchiamo di vedere come il modello della integrazione degli attributi vede questo processo.
Intanto vi dico che abbiamo 2 livelli: quello pre-attentivo delle mappe delle caratteristiche
e quello attentivo della mappa delle posizioni
A livello di mappe delle caratteristiche vi ho distinto tra:
-una mappa dove ci sono tutte le informazioni relative alla forma (sono presenti cerchi, quadrati ecc)
-e una mappa dove ci sono tutte le informazioni relative al colore (sono presenti cose rosse, cose verdi)
Come funziona?
Funziona che la mappa delle caratteristiche non è in grado di distinguere uno stimolo target da
uno stimolo no target. Quindi a livello di quella della “forma” disgraziatamente non sono in grado
di distinguere uno stimolo target, da uno stimolo no target -> perché ho molti quadrati e ho molti
cerchi e perché la mia mappa della “forma” non ha idea della differenza che c’è tra il rosso e il
verde  perché lei si occupa solo della forma. A tutto il resto è completamente cieca!
Dopodichè ho un’altra mappa delle caratteristiche, sempre a livello pre-attentivo, che è la mappa
del colore. Quella del colore è in grado di distinguere gli stimoli target da quelli no target, e quindi
è in grado di dirmi: “attenzione qui c’è qualcosa di verde”; quindi io sulla base di questo dato, se
devo rispondere semplicemente che “c’è qualcosa” posso rapidamente dire: “c’è”! senza dover
passare dalla mappa delle posizioni. (attenzione però: non dico dov’è, dico solo che c’è)
Inverso invece è il discorso per questo tipo di rappresentazione: oltre che il colore, che non è in
grado di distinguere il target dal no target, -> per la forma distingue il target dal non target
quindi anche in questo caso posso dire che “c’è”.
In entrambi i casi noi siamo in grado di rilevare la presenza di un target, cioè dire se è presente o
assente. Tuttavia se l’informazione è tolta rapidamente -ad es. tramite il mascheramento visivo,
oppure se state andando per strada rapidamente- NON siete in grado di localizzarlo, non siete in
grado di dire dove si trova. (video con un esempio: dovete dire se c’è il quadrato verde. Vi sta
facendo vedere un pattern di quadrati e cerchi che sparisce e viene sostituito rapidamente da una
figura senza senso che è verde con delle linee sopra. Questo era il pattern e in condizioni normali
cioè sperimentali non è difficile dire che lo stimolo è presente. Tuttavia è impossibile dire “dove si
trova”. Tenete presente che questo vale per molte situazioni diverse: ora stiamo parlando di
quadrati cerchi ecc. ma si può fare anche con gli oggetti reali )
Ci sono stati degli studi degli anni 60 che hanno indagato qual è il tempo minimo per riconoscere
quello che c’è in un’immagine: ne è emerso che: in situazioni estremamente degradate, quindi
visto per poco tempo, o magari mascherato, o magari “piccolo”, o magari molto nella periferia del
campo visivo,  le persone erano comunque in grado di dire se nel campo visivo ci fosse un
animale o una persona. E questo dato sembrava interessante ma anche molto controverso perché
se il sistema visivo fa già così fatica a mettere assieme l’informazione che una cosa è il verde e
un’altra cosa è un quadrato, figuriamoci come fa a mettere assieme tutta la varietà di informazioni
che servono per capire che quella cosa che ho davanti è una persona o un animale. E infatti
attorno al 2006 si riapre il dibattito tra gli autori di questo studio e la Treisman. E uno degli
“attacchi” della Treisman era proprio legato al tipo di informazione che le persone potevano
cogliere ! perché quello che questi ricercatori affermavano era che le persone fossero in grado di
rilevare in maniera molto rapida il fatto di avere di fronte un animale o altre cose. La Treisman
dice: “ok va benissimo, ma è un fenomeno che non mi racconta nulla a proposito di attenzione o di
8
binding the features, perché se io vado a chiedere ai vs soggetti “dov’è”? oppure “che tipo di
animale era? oppure “guardava verso dx o verso sx”?, ovvero tutte caratteristiche che richiedono
un binding, ecco che i soggetti, anche se in generale erano molto bravi a distinguere “animali” da
“distrattori”,  andavano a caso.
Quindi questo è un fenomeno molto pervasivo e ha a che vedere sia con stimoli semplici di
laboratorio, che con stimoli più complessi (come ad es. le caratteristiche di una bocca o dei denti
o delle zampe) che possono fungere da cue, ossia da cose che queste famose mappe possono
rilevare: ad es. se io devo distinguere degli animali da altre cose, potrei avere dei rilevatori di
caratteristiche biologiche, quindi anche quelli potrebbero far parte delle mie mappe, comunque
sia il funzionamento del sistema sarà sempre lo stesso e cioè:
-in una 1° fase rilevo 1 cosa alla volta: ogni mappa coglie solo 1 aspetto di quello che ho di fronte!
-successivamente è necessaria l’attenzione per integrare posizione e stimolo, oppure una e l’altra
caratteristica di uno stimolo.
Rispetto all’informazione relativa alla posizione, passiamo un attimo all’altra situazione, cioè quella
in cui c’è una ricerca di una congiunzione: ad es. 1 quadrato verde in una situazione di questo tipo
dove avete molti quadrati e molti oggetti verdi quindi né la forma né il colore sono in grado di
distinguere il target dal non target. E questa è una pessima notizia, perché vuol dire che
il sistema visivo non riesce ad eseguire il compito e quindi deve impegnarsi di più ossia deve
utilizzare l’attenzione.  E quindi serve l’attenzione spaziale selettiva,-> che va a guardare
rispetto alla mappa delle posizioni che cosa c’è in quel particolare punto: e una mappa dirà lì c’è
un cerchio (notate che il cerchio non è colorato), l’altra mappa dirà che lì c’è qualcosa di verde (lì
ho usato una forma un po’ diversa),  e il momento in cui io vado a vedere quel punto lì
raccolgo le 2 informazioni, e il mio risultato è che : in quel punto c’è un cerchio verde.
Ma disgraziatamente io invece stavo cercando qualcos’altro, e allora muovo la mia attenzione
da un’altra parte del campo visivo -per es. lì- e una delle due mappe mi dirà che lì c’è un quadrato,
l’altra mi dice che c’è qualcosa di verde,  integro/metto assieme le due caratteristiche e trovo
un quadrato verde, ossia il mio target!
A quel punto però attenzione: io so 2 cose:
-so che c’è il target
-e so anche dov’è  mentre prima non sapevo dov’era !

Quindi attraverso la ricerca seriale è possibile :


-sia operare un’integrazione delle caratteristiche (cerchio + verde=cerchio verde)
-sia essere consapevoli della posizione degli oggetti (dove si trovano) Perché? Perché si tratta di
attenzione spaziale selettiva cioè attenzione selettiva che agisce nello spazio.
E l’altra cosa che vi dicevo è che:
le mappe di features contengono -ma noi non riusciamo ad usare direttamente- un’informazione
relativa alla posizione; e quell’informazione ci deve essere per forza altrimenti me la sarei persa!

Risposta a domanda: la congiunzione illusoria NON richiede attenzione ed è quindi un qualcosa


che “crea l’illusione di aver visto qualcosa”, ma semplicemente solo perché sono presenti -in
maniera grossolana- delle informazioni relative alla presenza di 2 caratteristiche.

Domanda/Risposta: se nelle mappe di features non ci fosse l’informazione implicita della


posizione del target -in realtà di ciascun oggetto- non si riuscirebbe in alcun modo a individuare
tale posizione

Andiamo avanti
9
Quindi nel caso del ns …..1:15:05 che dovevamo trovarci in questa cosa molto complessa, in realtà
noi siamo pieni di mappe che vanno ad analizzare tutto quello che c’è là dentro, perciò è il ns focus
attentivo che si deve spostare da una parte all’altra del campo visivo, per mettere assieme
l’informazione relativa al colore della maglietta, relativa agli occhiali ecc.

Adesso vi faccio vedere rapidamente dei numeri e voi dovete leggere i numeri presentati al centro
del monitor. Mi sapete dire che lettere c’erano e di che colore erano?
Mi avete risposto XO azzurri: la X c’era mentre la O azzurra non c’era.
L blu=la L blu è una congiunzione illusoria
N rossa = è una congiunzione illusoria
E questo perché avviene?
avviene perché in una situazione in cui il vs sistema visivo è occupato a fare altro, perché
dovevate: leggere i numeri presentati in verticale al centro, che tra l’altro erano presentati per
poco tempo ed erano tutti vicini uno all’altro, e soprattutto non vi avevo dato nessun altra
informazione rispetto a quello che vi potevate aspettare ai lati dell’immagine.
Quindi è successo che i vs sistemi percettivi -ovviamente tutti quanti avete visto che c’era
dell’altra roba, e vi siete anche accorti che quest’altra roba era abbastanza colorata, (c’era
qualcosa di rosso, di blu ecc) e vi siete anche accorti che probabilmente queste cose erano delle
lettere. La maggior parte di voi avrà fatto delle associazioni colore lettera più o meno con un livello
di certezza: ->vedete che qui si ritorna ancora a quello di cui parlavamo nelle lezioni sulla
percezione, in cui vi dicevo guardate che la risposta a un compito dipende sia da quello che la
persona ha visto, sia da quello che si sente di rispondere: io penso che 2 di voi che possono aver
avuto la stessa percezione, in realtà 1 possa aver risposto “non sono sicuro” oppure addirittura
non aver risposto niente, e l’altro possa essersi lanciato a dire “scrivo che ho visto una P verde
perché secondo me ho visto quella”.
Tutto questo ha fatto in modo che ognuno di voi avesse l’idea che erano presenti delle lettere
colorate, cioè tutti avete avuto la percezione che c’erano delle lettere colorate,  Invece quello
che non tutti siete riusciti a fare è stato fare un binding corretto per ogni posizione “di che
lettera c’era e di che colore c’era”, nel senso che nel momento in cui la ns attenzione era altrove,
l’informazione del colore e l’informazione della forma si sono spostate, cioè non hanno coinciso
bene,  E nel momento in cui vi ho chiesto di ricostruire l’informazione -non avendola
sott’occhio- voi l’avete ricostruita in maniera approssimativa.

E quindi il fenomeno della congiunzione illusoria è spiegato da Treisman attraverso


l’integrazione di mappe di features.

L’altra cosa è quella di cui abbiamo già parlato l’altra volta:

-La ricerca di caratteristiche  pop out quindi funzione piatta…1:23:09 perché


se io ho pochi distrattori  impiego poco tempo a dire che qualcosa è presente
se ho moltissimi distrattori  impiego comunque poco tempo, la funzione è pressappoco piatta.

-La ricerca di congiunzioni  invece richiede ricerca seriale e l’inclinazione è maggiore di ZERO
(come abbiamo visto la scorsa settimana)

10
Ora concludo dicendovi che:

l’idea di Treisman è stata in auge per molto tempo e poi si è evoluta, proprio perché presentava
dei limiti anche abbastanza importanti, e forse ve ne sarete resi conto sia ascoltando quello che
dicevo io, sia negli esempi che vi facevo vedere.
Perché io vi dicevo: immaginate diversi tipi di moduli poi alle volte vi facevo vedere degli scenari in
cui era la forma, altri in cui era il colore, però non era sempre facile o difficile nello stesso modo,
rilevare quello che doveva fare pop out !
Quindi diciamo che si parte da quella che era stata l’idea iniziale e inizialmente Treisman aveva
rilevato che un modulo poteva essere legato all’orientamento, uno poteva essere legato alla
dimensione, uno alla forma, uno al colore, ma ovviamente la domanda sovraordinata è:

Quali sono le caratteristiche che possono essere usate per una ricerca di caratteristiche ?
cioè quali sono i miei “primitivi” nella rappresentazione del mondo.

In generale che cos’è una caratteristica?


Una caratteristica può essere qualunque cosa? Anche complessa? o ha la necessità di essere
semplice? Ha la necessità di essere innata?
E, nei termini quindi di Treisman, quali sono le feature maps
Io vi ho fatto gli esempi di forma e di colore; forma e colore ha senso che possano essere dei
moduli più o meno stabili. Però può funzionare anche con le lettere? Boh, forse sì, forse no, poi vi
farò vedere degli esempi con le lettere.
Può funzionare anche con forme biologiche? prima vi ho raccontato qualcosa, ossia con forme
biologiche sembra che funzioni in maniera simile, nel senso che nel momento in cui io ho delle
caratteristiche -come occhi, zampe, denti- che possono far rilevare che c’è qualcosa, allora posso
avere degli effetti simili (a quelli che abbiamo visto prima): quindi posso essere rapido nel dire che
“qualcosa c’è”, ma non essere altrettanto bravo a dire “dove” si trova.
Vediamo questo esempio:
guardate a sx: è presente 1 pezzo diverso dagli altri?
Siamo tutti veloci nel dire che qualcosa c’è! ossia che c’è 1 pezzo diverso dagli altri, nonostante ci
siano molti distrattori diversi : semplicemente perché molti mattoncini guardano tutti da una parte
e 1 da un’altra parte.
Vediamo l’esempio di fianco:
Quello a dx e quello a sx sono “facili” nella stessa maniera?
A dx è più difficile! Quindi bisogna aggiungere alle features che già avevamo, anche la
caratteristica di “essere un oggetto tridimensionale”.
Poiché noi viviamo in un mondo tridimensionale è ok se noi -alle caratteristiche che avevamo già-
aggiungiamo anche la caratteristica ”tridimensionalità”.

Vediamo quest’altro esempio:


Guardate a sx: dovete trovare i “bamp” cioè i…..
A dx invece cercate la 1:28:30….cioè quello che non è il ??….. fatto in quella maniera lì.
Da un punto di vista percettivo voi state sempre guardando delle forme che sono grossomodo
senza senso, perché un cerchio fatto in un modo o fatto nell’altro non per questo vuol dire una
cosa diversa, resta pur sempre un cerchio. E da tutte e 2 le parti ne avete 1 dissimile rispetto ad
altri, quindi non varia poi molto! Però è innegabile affermare che a sx sia più facile che non a dx!
Quindi c’è qualcosa di cui noi siamo + veloci a rilevare la “presenza” che non “l’assenza” però io
farei fatica a dirmi cosa sia questo “bamp”!
11
Quindi vedete che ora le cose stanno diventando più complicate, perché di questo “bamp” farei
fatica a definirlo e a definirne l’importanza ad es. evolutiva (se ad es. vuol essere una caratteristica
innata).
Poi anche qui facciamo più fatica a identificare l’assenza che non la presenza di quel trattino. Lì
può essere un problema legato alla quantità di informazioni.
Ora guardiamo questo: dovete trovare a dx o a sx una lettera orientata diversamente dalle altre.
A sx dovete trovare una “F” al contrario cioè orientata all’opposto delle altre F.
A dx dovete trovare una “F” orientata correttamente.
Questa volta è più facile a dx che non a sx perché siamo più veloci a rilevare la presenza della
lettera orientata nel modo che noi conosciamo, posta in mezzo a distrattori che ci disturbano
poco.

Ora guardiamo questo: dovete trovare a dx e a sx una lettera orientata al contrario.


Questa simmetria -per cui a sx è più facile- è riscontrabile nei popoli che utilizzano un alfabeto
latino (tedeschi, italiani) ma non nelle persone che utilizzano anche l’alfabeto cirillico (l’alfabeto delle
lingue slave e russe) . Per cui questa lettera che visivamente è come una N speculare, fa parte
dell’alfabeto normalmente utilizzato. Quindi nel momento in cui tutti i distrattori assumono un
significato – qui e nell’esempio precedente- allora la loro “forza” è diversa . Ma attenzione allora
per noi questo ha un’altra implicazione! L’implicazione che ha è che questi
“rilevatori”/”moduli” che noi abbiamo, non funzionano solo su caratteristiche che sono “innate”
e quindi legate “all’evoluzione” , legate al mondo che è tridimensionale ecc ecc., ma possono
essere anche apprese sulla base del fatto che noi utilizziamo dei linguaggi scritti, o addirittura
utilizziamo un tipo di linguaggio scritto oppure un altro-> e quindi  è un qualcosa di molto più
flessibile, rispetto a dei “moduli innati” come inizialmente sembrava essere postulato nella
Teoria della Treisman.

Questa è carina perché vi rende immediatamente evidente che trovare la linea verticale è più
facile a sx che a dx . Perché? perché non conta solo quanti distrattori ci sono, ma conta
soprattutto “dove” sono! Ricordiamoci che esiste anche un contesto spaziale, cioè-> ogni stimolo
rispetto a quello che gli stanno vicino. (a dx è vicino al centro).
C’è un contesto di ricerca locale che facilita la ricerca nel campo visivo.

Quindi in sintesi: molte proprietà degli oggetti sono in grado di determinare una ricerca
EFFICIENTE ora non si usa più il termine “preattentivo” e “attentivo”, “parallelo” e “seriale”, ma
si preferisce usare il termine “più o meno efficiente”, e questo per molteplici ragioni (io ve ne ho
fatte vedere alcune ma ce ne sono delle altre).
Possiamo dire che: quello che ora viene definito “efficiente” si avvicina molto a quello che era
considerato parallelo
E quello che “non è efficiente” si avvicina molto a quello che era considerato seriale

(se nell’esame mi scrivete preattentivo attentivo parallelo e seriale va benissimo comunque, però
in generale si preferisce il termine di: efficiente o non efficiente).

In realtà molti studi hanno dimostrato che io non posso andare avanti a creare moduli all’infinito,
per spiegare qualunque effetto di visual search abbia davanti, quindi ad un certo punto mi devo
fermare! E quello che è stato proposto in questi ultimi anni è 1:37:26…controllo dinamico, per cui
il sistema visivo può riconfigurarsi, per creare dei moduli “al momento”, eseguire alcuni tipi di
ricerche in maniera “efficiente”. Quindi creare rapidamente un modulo che ad es. mi serve a
12
trovare le “F”; non ho un modulo innato per le F-> però lo posso creare. E lo creo sulla base dei
miei obiettivi e ovviamente della salienza bottom up di quello che mi arriva dal mondo esterno.

Quindi la Feature Integration Theory (FIT) è importante perché spiega 2 fenomeni:


-come si costruisce il mondo esterno
-e come noi raggruppiamo gli oggetti

E di raggruppamento di oggetti ne abbiamo parlato in 2 momenti:


-parlando della ….. (prima), e parlando della Integration Theory (ora)

L’altra cosa che ci dice è:


-come il sistema utilizza l’ATTENZIONE per muoversi ed esaminare stimoli complessi nel proprio
campo visivo.

Domanda collega: quindi lei ci sta dicendo che noi abbiamo moduli innati, moduli appresi e moduli
che creiamo al momento?
Risposta: l’idea originale della Treisman era che i moduli fossero “innati”.
Per quanto riguarda i “moduli appresi” è qualcosa che è stato osservato, e lo abbiamo visto con
gli esempi che vi ho fatto vedere con le lettere.
Per quanto riguarda i “moduli che creiamo al momento” è qualcosa che si può osservare
sperimentalmente.

Quindi in realtà è difficile disambiguare, perché una volta che io sono in grado di creare “qualcosa”
“al momento”, questo può funzionare esattamente come se fosse un modulo innato .
Quello che però a me interessa è che il mio sistema percettivo è sufficientemente sensibile per
adeguarsi alle richieste delle attività che sto svolgendo in OGNI momento. (FINE)

13
14