Sei sulla pagina 1di 6

Capitolo 4: Riconoscimento di oggetti

Riconoscere un oggetto significa categorizzarlo. Innanzitutto sappiamo che la mente umana


rappresenta delle categorie degli oggetti in maniera gerarchica. Ad esempio una certa entità può
esser riconosciuta come appartenente alla categoria delle ‘’penne’’ o più specificatamente delle
‘’penne stilografiche’’; in base a questa distinzione possiamo dividere le categorie di base e le
categorie subordinate, ovvero di queste ultime fanno parte oggetti più specifici che generalmente
potrebbero rientrare anche nelle categorie di base.

Il livello della gerarchia in cui si situa spontaneamente il riconoscimento viene definito categoria in
entrata e può variare a seconda delle persone; ad esempio se una persona comune vede un merlo
lo contrappone alla categoria di base degli uccelli, ma se una persona esperta di volatili vede un
merlo lo mette in una categoria subordinata dei merli, dei quali è possibile che ce ne siano anche
di più varianti. Però ad esempio anche chi non è esperto di volatili saprà riconoscere un pinguino e
non lo porrà nella categoria degli uccelli. Quindi sembra che la categoria in entrata dipenda da
quanto l’oggetto è tipico di quella categoria e anche da quanto l’oggetto ci è familiare.

Inoltre la distinzione dei diversi livelli in cui può avvenire un riconoscimento è utile anche perché il
riconoscimento di un oggetto può rappresentare che un messo per associare l’oggetto alle
rappresentazioni che descrivono i suoi utilizzi (es: ‘serve a scrivere’ (penna)). In questo senso il
riconoscimento può essere considerato anche come il processo che serve a percepire le funzioni
delle entità con le quali veniamo a contatto abitualmente . Naturalmente tali funzioni legate agli
oggetti che riconosciamo sono strettamente legate al livello in cui siamo in grado di categorizzarli.

Anche se i sistemi di riconoscimento e di categorizzazione sono ampli, la nostra mente possiede


dei sistemi di riconoscimento assai efficienti per cui risulta molto facile riconoscere gli oggetti della
vita quotidiana. Oltre alla velocità un’altra caratteristica della nostra mente al livello di
riconoscimento è l’adattabilità, infatti non importa quanto un oggetto cambi un po’ di forma o
cambi colore, noi per la maggior parte delle volte tenderemo a riconoscerlo e a classificarlo in base
alla sua funzione.

Riconoscimento e punti di vista: Nel processo di riconoscimento l’informazione raccolta dai


sistemi percettivi viene confrontata con delle rappresentazioni di tali oggetti già presenti nella
memoria. Ma l’info percettiva varia a seconda dei cambiamenti di posizione fra l’oggetto e il punto
di vista dell’osservatore. Si pensi ad una tazza la quale è un insieme strutturato di parti, ovvero una
parte cava a cui è attaccato un cilindro curvo ovvero il manico; tale tazza di caffè può essere
osservata da vari punti di vista, ma come fa il nostro sistema di riconoscimento a riconoscere
comunque la tazza da punti di vista differenti?

Le descrizioni strutturali: una delle possibili soluzioni si può riscontrare nel fatto che la tazza di
caffè viene riconosciuta perche, indipendente dalle continue variazioni nelle proiezioni retiniche
ovvero nelle proiezioni della retina del nostro occhio, il nostro sistema di riconoscimento riesce a
ricostruire sempre la stessa descrizione della struttura tridimensionale dell’oggetto, tale
descrizione strutturale viene confrontata con le info già apprese su tale oggetto, raccolte quindi
dalla memoria, e quindi l’oggetto viene riconosciuto in quanto tale dopo che vi è un equilibrio tra
riconoscimento esterno strutturale e riconoscimento interno da parte della memoria.

Uno dei personaggi che ha avuto maggior influenza in questo campo fu David Marr il quale
affermò l’esistenza di particolari reti neurali capaci di rilevare relazioni sempre più articolate fra i
contorni. Marr inoltre formulò il MODELLO A TRE STADI secondo il quale l’elaborazione dell’info
visiva inizia con una rappresentazione di contorni ai vari livelli di dettaglio, proseguendo poi con
l’integrazione di tali contorni con le informazioni fornite dalla percezione di profondità a cui si
trova l’oggetto, dal movimento, dalle ombre e culmina con una descrizione completa della
struttura tridimensionale dell’oggetto. Marr definì questi tre stadi: abbozzo primario, abbozzo a
due dimensioni e mezza e modello tridimensionale 3D. Quindi tale gerarchia prevedeva un
passaggio da una rappresentazione a due dimensioni ad una a tre dimensioni, passando attraverso
il modello intermedio definito ‘’a due dimensioni e mezza’’. Con tale stadio intermedio Marr
voleva sottolineare che il sistema percettivo può rappresentare le posizioni nello spazio in base a
due punti di riferimento: il primo è la posizione del punto di vista occupato dallo spettatore, il
secondo è il sistema astratto delle 3 coordinate geometriche ovvero larghezza lunghezza e altezza.
Quindi in tale modello di Marr il passaggio dall’abbozzo a due dimensioni e mezzo a quello 3D un
passaggio riferito al punto di vista dell’osservatore (2D) al punto di vista di un sistema riferito a tali
coordinate, quindi concentrato sull’oggetto. Secondo Marr tale passaggio è favorito da una
ricostruzione che parte dall’abbozzo a due D e mezzo e si conclude con la costruzione di volumi
definiti cilindri generalizzati.

Un altro studioso che proseguì tali studi fu Irving Biederman il quale come Marr pensava che il
riconoscimento di un oggetto fosse preceduto da una fase costruita sulla rappresentazione
dell’osservatore, inoltre condivideva anche il fatto che la rappresentazione utilizzata per il
riconoscimento di oggetti sia una descrizione strutturale. In molti altri aspetti il modello di
Biederman differisce da quello di Marr: secondo il quale dopo l’abbozzo primario, la successiva
costruzione della descrizione strutturale non si limita ad usare assi di simmetria delle superfici ma
sfrutta un’altra classe di specifiche proprietà utili ovvero le proprietà non accidentali o PNA. Tali
proprietà non accidentali fanno riferimento a certe proprietà geometriche presenti sulla
proiezione retinica, corrispondenti ad un aggetto tridimensionale; quindi si tratta di proprietà
retiniche che tendono ad essere altamente diagnostiche per quanto riguarda la struttura
proiettata dell’oggetto. Inoltre Biederman ha utilizzato tale pna potenzialmente disponibili sulla
retina per definire un repertorio limitato di PRIMITIVE VOLUMETRICHE da lui definite che Geoni.

I templates: I Templates in inglese sono delle sagome di cartone o in metallo che si usano per
ritagliare un'altra sagoma. Tali template venivano utilizzati per il riconoscimento di stili topografici,
quindi venivano definiti come dei modelli subito riconoscibili, quindi automatici. Però le ricerche
dimostrarono dei limiti di questi template poiché si vide che il confronto rispetto ad un template
puro e semplice funziona bene solo con un numero limitato di stili tipografici e con un numero
limitato di grandezze. Dato che si è visto che anche con immagini semplici come i caratteri
tipografici il modello di riconoscimento a template risultava difficile da applicare può risultare
strano come invece esso sia usato per spiegare il processo di riconoscimento di tutti gli oggetti,
anche quelli più complessi. Infatti secondo molti ricercatori la rappresentazione interna utilizzata
per il riconoscimento non è costituita da descrizioni della struttura 3D degli oggetti ma da una
sorta di Template Arricchito; quindi non una semplice sagoma ma una specie di fotografia
dell’oggetto da un determinato punto di vista. La rapp dell’oggetto quindi non è indipendente dal
punto di vista ma vi è inevitabilmente legata ad esso. Quindi l’idea che il riconoscimento potrebbe
utilizzare non descrizioni strutturali ma templates legati al punto di vista dell’osservatore trae
maggior forza dalle prove empiriche; ad esempio si è visto che da alcuni punti di vista detti
Canonici il riconoscimento è più veloce e accurato mentre la prestazione decade in maniera
graduale man mano che ci si sposta dal pdv privilegiato. Infine sembra ormai accertato che nel
lobo temporale del cervello si trovano delle unità neurali che sembrano essere l’equivalente di un
template, ossia che rispondono bene a oggetti specifici presentati ad uno specifico pdv. Se il
riconoscimento dovesse essere basato solo sui templates, allora il nostro cervello ne dovrebbe
contenere un’infinità, uno per ogni possibile oggetto visto da innumerevoli pdv, invece contano
anche le caratteristiche dell’oggetto, varianti a seconda di quali parti sono visibili da un
determinato pdv, anche se il riconoscimento dell’oggetto avviene comunque.

Rotazioni mentali: Una soluzione venne trovata da Roger Shepard assieme ai suoi collaboratori.
L’idea di base era quella di prendere un’immagine che raffigura un oggetto complesso e non
familiare, accoppiandola con altre figure in 3D ma ruotate in diverso angolo. Ad un certo numero
di persone sono state mostrate tali due figure 3D uguali ma viste da pdv differenti, chiedendo loro
di decidere se sono uguali o differenti le figure. Il compito è stato ben svolto dai soggetti
dell’esperimento, provocando un risultato il quale ha portato alla formulazione del fatto che il
tempo di risposta varia linearmente i funzione dell’entità della rotazione; se la rotazione fra le due
immagini varia di poco esse sono più facilmente definite come immagine del medesimo oggetto,
all’aumentare della rotazione la risposta diventa sempre più lenta. Shepard interpretò tale
risultato formulando il concetto di Rotazione Mentale, poichè secondo Shepard i soggetti per
decidere se le due figure sono uguali o meno, essi utilizzano un processo interno analogo al
ruotare fisicamente l’oggetto a velocità costante. D’altro canto la maggioranza di ricercatori oggi
ritiene che sia proprio il processo di trasformazione delle rappresentazioni interne quello che
consente di superare il problema de template. Infatti la teoria dei templates odierna dimostra che
vi è un numero limitato di templates che rappresentano l’oggetto solamente da alcuni pdv critici, e
che si basano su meccanismi simili alla rotazione mentale ipotizzata da shepard.

Uno o più meccanismi di riconoscimento?

Oggi gran parte degli esperti di riconoscimento concorda sul fatto che né la teoria della descrizione
strutturale né quella dei templates siano sufficientemente soddisfacenti. I ricercatori si dividono
fra due posizioni: secondo una posizione la via d’uscita del dilemma potrebbe essere un modello
IBRIDO che utilizza meccanismi diversi in condizioni diverse, quindi il riconoscimento di un oggetto
sarebbe basato in parte su templates e in paste sulla teoria delle descrizioni strutturali. Per molti
altri ricercatori invece questa soluzione non è soddisfacente perché tale modello ibrido è
considerato poco economico da una punto di vista cognitivo. Piuttosto si tende a prefrrire
completamente il modello basato sui templates. Inoltre, l’ipotesi generale su cui lavorano i
ricercatori si basa sull’esistenza di alcune reti neurali che favorendo alcuni tipi di codifica
dell’oggetto possono essere in grado di far interagire diversi templates per riconoscere gli oggetti
anche da pdv nuovi.

Riconoscimento dei volti:

secondo molti ricercatori la mente umana comprende un meccanismo speciale per il


riconoscimento dei volti, differente dal riconoscimento degli oggetti. Innanzitutto sono stati
descritti casi di pazienti che per lesioni cerebrali dimostrano capacità visive sostanzialmente
normali ma sono incapaci di riconoscere e discriminare i volti. È probabile che ciò sia dato dalla
lesione di parti del cervello deputate al riconoscimento dei volti e che quindi esse siano differenti
delle aree deputate al riconoscimento degli oggetti.

Inoltre il fatto che il neonato dopo pochi giorni di vita sarebbe in grado di riconoscere quindi un
insieme di linee che crea un volto dallo stesso insieme di linee distribuite diversamente, potrebbe
indicare che possediamo una percezione innata per il riconoscimento di volti.

Si è visto però che tale riconoscimento di volti viene rallentato quando il volto viene presentato
sottosopra, mentre non ci è difficile riconoscere una casa anche se capovolta. Questo effetto
inversione sembra indicare che quando vediamo un viso capovolto sappiamo riconoscerlo come
viso ma non siamo più in grado di stabilire a quale persona appartenga. Quindi sappiamo che tale
immagine fa parte della categoria dei volti umani ma non riusciamo a capire di che specifico
esemplare si tratti.

Percepire le funzioni di oggetti sconosciuti:

Non è ovvio come il processo di riconoscimento di oggetti noti sia simile al processo di
riconoscimento di oggetti sconosciuti. Si potrebbe immaginare la possibilità che il processo di
riconoscimento di oggetti nuovi si basi su analogie con oggetti già noti. Tale ipotesi delle analogie
presuppone però che in memoria vi siano almeno alcune rappresentazioni di oggetti noti, ma
prima di essere noti anche questi dovevano essere ignoti e questo produce un regresso all’infinito.
Per uscire da questo circolo vizioso occorre individuare una forma di riconoscimento che non
richiede l’accesso a conoscenze già presenti in memoria. James J. Gibson è stato il rpimo a far
notare che nella struttura spaziale e temporale dell’assetto ottico sono disponibili informazioni in
grado di specificare direttamente a un organismo quali azioni possono essere svolte su un
determinato oggetto. Per riferirsi a tali proprietà Gibson coniò un neologismo ovvero
‘’affordance’’ ovvero offrire o rendere disponibile. Ad esempio determinate proprietà spazio-
temporali dell’assetto ottico specificherebbero che un oggetto può essere afferrato con la mano o
che può essere utilizzato per determinate funzioni. Il processo mediante il quale si svilupperebbe la
sensibilità a tali informazioni avrebbe luogo nel corso dello sviluppo motorio, così non sarebbe dunque
necessario l’utilizzo di modelli interni, poiché il sistema visivo potrebbe raccogliere direttamente tali
informazioni che un dato oggetto ha senza confrontarlo con alcuna categoria. Quindi secondo tale teorie
alle persone riconoscono una sedia sulla quale ci si può sedere o una scala sulla quale ci si può salire in
funzione all’info ottica disponibile sulle dimensioni e sulla forma degli oggetto percepiti ma anche sulla
relazione fra il mondo e le possibilità motorie dell’osservatore.

Potrebbero piacerti anche