Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
La traduzione automatica è quel processo messo in atto da un software che, dato un testo
di partenza, produce automaticamente un testo di arrivo senza nessun intervento umano
(comprendendo la traduzione sia di testi scritti che di testi orali).
Realizzare un software di traduzione significa disporre non solo di un sistema di analisi
automatico della lingua, ma anche e soprattutto di uno strumento capace di ridurre al minimo
l’ambiguità e la complessità intrinseca al linguaggio naturale.
1. Definizioni.
Il termine Traduzione automatica corrisponde al termine inglese Machine translation o
Automatic translation.
Il termine viene usato per indicare unicamente i sistemi di traduzione che traduco da una
lingua naturale ad un’altra senza alcun intervento umano. La traduzione automatica viene
generalmente intesa come un sottocampo del trattamento automatico del linguaggio
naturale e della linguistica computazionale, il cui obiettivo è quello di sviluppare modelli di
funzionamento del linguaggio naturale che possono essere tradotti in programmi eseguibili
dal calcolatore e che consentano a quest’ultimo di acquisire le competenze necessarie per
comunicare direttamente nella nostra lingua.
I sistemi di traduzione automatica sono stati progettati per rispondere a questo scopo e
possono dare risultati qualitativamente non trascurabili ed economicamente vantaggiosi.
Le potenzialità dei sistemi sono state incrementate dalla loro integrazione all’interno di
ambienti di lavoro e piattaforme online che includono altri strumenti di ausilio al traduttore:
- memorie di traduzione → ovvero archivi testuali digitalizzati di testi originali allineati
con le corrispondenti traduzioni;
- strumenti per la gestione di terminologia;
- glossari;
- strumenti per la revisioni di testi;
- dizionari elettrici.
Grazie a queste piattaforme la traduzione automatica assolve la sua funzione di
dissemination tool in quanto è possibile per l’utente usare una serie di strumenti tecnologici
per produrre delle traduzioni pubblicabili prodotte mediante la revisione dei risultati.
Uno dei primi servizi di questo tipo è GOOGLE TRANSLATOR TOOLKIT in cui si mette a
disposizione il motore di traduzione automatica google traduttore all’interno di un ambiente
di traduzione in cui gli utenti possono usare memorie di traduzione, glossari e un’interfaccia
per la revisione dei testi.
La traduzione automatica come INFORMATION TOOL, quindi come strumento per facilitare
l’accesso alle informazioni, riguarda la possibilità di utilizzarla in sistemi di ricerca e recupero
di informazioni. In questo modo gli utenti possono recuperare documenti o pagine web in
una lingua diversa che vengono poi tradotti nella lingua dell’utente su richiesta: questo
processo è basato su due fasi, ovvero la traduzione automatica della chiave di ricerca e
quella dei documenti reperiti durante la ricerca.
La traduzione automatica come ASSIMILATION TOOL, quindi come strumento immediato
di comprensione di un testo straniero, viene usata per tradurre testi brevi o pagine web allo
scopo di comprendere in linea di massima un testo scritto in una lingua sconosciuta
all’utente grazie alla traduzione grezza fornita dal sistema.
Il primo sistema ad essere offerto con questa modalità sul web è stato Babel Fish.
Oltre a questi usi della traduzione automatica, sono state individuate due ulteriori impieghi
da parte degli utenti:
- la traduzione automatica come strumento di intrattenimento, entertainment tool
- la traduzione automatica viene utilizzata spesso come strumento per l'apprendimento
di una lingua straniera, learning tool.
Le tecnologie proposte come servizio sul cloud presentano notevoli vantaggi in quanto è
possibile collaborare all'interno di un gruppo di lavoro condividendo gli stessi strumenti e
risorse, gli stessi documenti e infine gli stessi ambienti sempre aggiornati.
Si distinguono quattro diverse tipologie cloud di servizi di traduzione automatica/assistita:
CATFORD → ipnotizza che le equivalenze traduttive possano essere espresse sotto forma
di regole di traduzione e formalizzabili come istruzioni per algoritmi traduttivi.
NIDA → invece, nel sistema proposto, possiamo notare la somiglianza con l’architettura dei
sistemi a transfer di traduzione automatica. Infatti si tratti di un modello a 3 fasi :
1. ANALISI → l traduttore analizza il testo di partenza per in un primo momento interpretare
il messaggio attraverso la trasformazione della struttura superficiale del testo in quella
profonda e l’individuazione delle frasi kernel.
2. TRANSFER → trasferiamo il messaggio del testo di partenza nella lingua d’arrivo.
3. RISTRUTTURAZIONE → abbiamo la ristrutturazione del messaggio secondo le
caratteristiche proprie della lingua d’arrivo.
↳ Nida e Catford sono gli unici che più si avvicinano a un approccio scientifico e tecnologico.
Bisogna sottolineare in un primo momento che le teorie della traduzione e quelle relative
alla traduzione automatica sono discipline totalmente separate e presentano pochi punti in
contatto.
Questo perché gli approcci alla traduzione automatica raramente hanno preso in
considerazione gli apporti della teoria della traduzione a questo si aggiunge anche la
carenza di ricerche sulle tecnologie per la traduzione nell’ambito della teoria della traduzione
che è stata rilevata solo in tempi recenti. Inoltre, lo sviluppo delle competenze tecnologiche
sia riconosciuto come ‘indispensabili’ nella formazione dei traduttori.
Una prima indicazione che la teoria della traduzione all’epoca avrebbe dovuto occuparsi
delle tecnologie per la traduzione proviene proprio dalla mappa di Holmes.
A questo, Toury suggerisce la necessità di ampliare la branca sugli studi applicati,
considerando tutti gli strumenti necessari per colmare la distanza tra teoria e pratica della
traduzione come: l’insegnamento della traduzione, la valutazione della qualità e lo sviluppo
di applicazioni al supporto del traduttore.
Ma al di là di questo, potremmo notare che all’interno di questa mappa la traduzione
automatica trova poco spazio di riflessione sugli studi della traduzione, questo può essere
sancito anche dal fatto che parliamo delle prime fasi della traduzione in cui non si avvertiva
l’urgenza di occuparsi di un fenomeno come quello della traduzione applicata alla tecnologia
che avrebbe poi mutato e cambiato nel tempo.
Solo verso la fine degli anni '80 notiamo un incremento di interesse verso le tecnologie della
traduzione, dovuto dal fatto che questo periodo segna un momento di svolta nell’evoluzione
della traduzione automatica per 3 motivi:
• la sperimentazione da parte di gruppi di ricerca con lo sviluppo di un primo sistema
statistico;
• l’avvio delle ricerche nel campo della traduzione vocale;
• passaggio da un approccio teorico allo sviluppo di applicazioni utilizzabili nei processi
di traduzione (esempio: le postazioni di lavoro per i traduttori).
JUAN SAGER → L’autore riflette su alcuni aspetti della teoria della traduzione che
contribuiscono ad analizzare le implicazioni dell’introduzione delle tecnologie in un processo
traduttivo di tipo industriale. Affronta gli aspetti rilevanti della teoria della comunicazione per
la traduzione, ovvero gli aspetti teorici. Opera un confronto tra il processo della traduzione
umana e quello della traduzione automatica. Il suo modello si fonda sul concetto di
traduzione come modifica di un testo motivato dalle eventuali necessità di processi industriali
di comunicazione
multilingue. L’attività di traduzione inoltre deve essere intesa come un”process of
understanding” calcolato su 3 specifiche dimensioni: cognitiva, pragmatica e linguistica.
Sottolinea di come la differenza tra traduzione umana e traduzione automatica risiede nelle
differenti
caratteristiche dei due modelli:
- se nella traduzione umana le basi di conoscenza di un traduttore sono flessibili e
consentono al traduttore stesso di risolvere problemi mai incontrati in precedenza e sono in
continua espansione grazie all’esperienza che acquisisce con l’andare del tempo;
- nella traduzione automaticala struttura del computer è rigida e compartimentalizzata
essendo basata su delle connessioni prestabilite.
A proposito di ciò individua anche alcune limitazioni dei sistemi valide ancora con i nuovi
modelli neurali e sottolinea la mancanza di comprensione relativa all’incapacità da parte dei
sistemi automatici di trovare delle soluzioni utilizzando forme alternative, dal momento in cui
si presentano parole o espressioni intraducibili nella LA.
Problema meno frequente con la traduzione umana dato che il traduttore usa parafrasi,
sinonimi, iperonimi quando riscontra difficoltà di traduzione e risolve il problema
immediatamente e con tecniche diverse.
Dunque stiamo parlando di capacità inferenziali che richiedono la considerazione di unità
testuali che siano molto più ampie delle frasi per poter elaborare un tipo di soluzione
adeguata. Le capacità che possiede il traduttore umano sono sconosciute ai sistemi di
traduzione automatica dato che non possiedono conoscenze tali da individuare la funzione
dei testi, la rispettiva tipologia o altre caratteristiche pragmatiche importanti ai fini di una
corretta disambiguazione del messaggio del TP.
Potremmo dire che la traduzione automatica cerca di riprodurre il linguaggio naturale ma in
realtà produce un linguaggio artificiale privo del potenziale creativo, della flessibilità e
multifunzionalità che sono tipici e importanti del linguaggio umano.
La considerazione di Sager era applicabile per i sistemi di allora dato che erano basati su
un set definito di dati lessicali e sintattici. Ma potremmo affermare che al giorno d’oggi il
linguaggio artificiale prodotto dai sistemi si è enormemente evoluto a tal punto di avvicinarsi
al linguaggio umano.
LAURA SALMON → Riprende il raffronto tra intelligenza biologica e artificiale nel processo
traduttivo. Rileva l’esistenza di due categorie di strategie per risolvere i problemi: gli algoritmi
e le euristiche, in quanto afferma che sono proprio le strategie euristiche a far sì che la mente
umana affronti la traduzione diversamente dal computer.
( “scorciatoie cognitive” che consentono di ridurre complessità del contesto decisionale, per
prendere decisioni più semplicemente e rapidamente).
Un primo gruppo riguarda argomenti relativi alla teoria della traduzione di potenziale
interesse per la traduzione automatica. Mette in evidenza il ruolo della struttura informativa
di un testo e come questa possa presentare delle differenze in lingue diverse.
Un secondo gruppo di contributi è relativo alle ricerche sulla traduzione umana che sono
orientate alla traduzione automatica.
È interessante anche il contributo di BIRTE PRAHL e SUSANNE PETZOLT in quanto
secondo le autrici, una migliore comprensione del processo di traduzione umana può
migliorare le prestazioni dei sistemi automatici e dare anche delle indicazioni per una
profonda ed efficace interazione uomo-macchina quando viene utilizzata come strumento a
supporto della traduzione.
Notiamo di come viene discusso il concetto di "problema di traduzione" partendo dalla
istinzione di NORD tra:
- problema traduttivo → si riferisce alla difficoltà inerenti a un testo da tradurre per problemi
di ambiguità indipendentemente dal traduttore.
- difficoltà traduttiva → relativo alle difficoltà traduttive originate da fenomeni linguistici
problematici o da condizioni complesse nel processo traduttivo.
A questi due concetti viene contrapposto il termine translation mismatch usato negli studi
della traduzione automatica per riferirsi alla selezione dell’equivalente traduttivo errato da
parte di un dato sistema di traduzione.
Un altro aspetto importante è quello di distinguere tra potential e actual translation
problems dove i problemi traduttivi potenziali diventano reali quando sono caratterizzati da
4 fattori:
- prendere una decisione durante il processo,
- è presente un deficit informativo,
- in un momento specifico del processo traduttivo
- o in un certo contesto.
Un ultimo concetto discusso anche se brevemente è quello di translation target che indica
ciò che è importante in una data traduzione e dipende dall’ordine effettuato dal committente
in cui vengono precisate le circostanze rilevanti per la traduzioni:
Destinatario, tipologia testuale e funzione del testo tradotto.
Il translation target determina ciò che è rilevante e deve essere trasferito dal TP al TA in
base alla rilevanza dell’informazione.
Individuano infine due possibili strategie in assenza di informazioni che potrebbero essere
usate come modello per la traduzione automatica:
- reduction strategy→ facendo riferimento a un informazione non rilevante e si può usare
una generalizzazione;
- achievement strategy → ovvero informazione rilevante, il traduttore prova ad ottenere più
informazioni.
PAUL BENNET→ Ritiene che la traduzione automatica nonostante produca traduzioni non
comparabili a quelle umane può offrire spunti rispetto a una comprensione più accurata degli
aspetti psicolinguistici del processo traduttivo umano.
Il sistema di traduzione automatica mette in relazione: un testo di partenza (input) con un
testo d’arrivo (output) utilizzando una base di conoscenza (knowledge) sia monolingue che
bilingue per l’elaborazione del linguaggio naturale (processing).
Potremmo affermare che, anche se lentamente, la traduzione automatica a partire dalla fine
del secolo scorso ha iniziato ad assumere la propria importanza, continua ad essere in
continua evoluzione, continua ad essere considerata come una disciplina a sé stante in
quanto caratterizzata da elementi comuni con discipline come l’informatica e la linguistica
computazionale.
Di fatti, sottolineiamo che tutti i temi che cominciano ad essere sviluppati in questo periodo
diventeranno poi il principale punto di contatto tra: gli studi sulla traduzione automatica e
quelli sulla traduzione che riguardano:
- la formazione dei traduttori alla luce delle nuove competenze richieste dall’affermarsi delle
nuove tecnologie;
- qualità della traduzione automatica a confronto con quella umana.
Diventano particolarmente rilevanti per la professione del traduttore: la disponibilità di
sistemi commerciali, l’emergere dei sistemi di traduzione automatica online e l’uso della
traduzione nella formazione dei traduttori.
L'attuale rapido progresso delle tecnologie e la loro diffusa adozione nell'ambito della
traduzione tecnica e in nel settore della localizzazione sono tali da far ipotizzare una svolta
tecnologica: non si tratta di una semplice constatazione dell'importanza delle tecnologie nel
lavoro del traduttore, ma riflette una visione in cui l'uso generalizzato di tutte le forme di
tecnologia nelle diverse fasi del lavoro ridefinisce il prodotto, il processo, influisce sugli scopi
della traduzione, sull'approccio cognitivo del traduttore, sulle modalità di lavoro e infine sulla
sua posizione sociale.
Uno studio condotto da CHRISTENSEN sui contributi di alcune riviste che si collocano
nell'ambito dei Translation studies e finalizzato a valutare in quale misura l'adozione della
tecnologia si rifletta nelle ricerche condotte nell'ambito dei Translation Studies, conferma
che le tecnologie della traduzione sono ormai parte integrante delle ricerche anche se la
prospettiva raramente è teorica, focalizzandosi piuttosto su aspetti che riguardano la
formazione dei traduttori, le pratiche lavorative o il prodotto.
MICHAEL CRONIN approfondisce la riflessione sulla traduzione nell'era digitale e tratta tutti
i diversi aspetti dell'uso delle tecnologie ai tempi di oggi, come ad esempio la traduzione
automatica online, il web semantico, le traduzioni ottenute attraverso l'uso del
crowdsourcing. Il libro si propone di esplorare i diversi aspetti legati alla rivoluzione
tecnologica dal punto di vista storico, sociale e culturale, suggerendo che i Translation
Studies possono contribuire a meglio comprendere le trasformazioni della società.
Cronin sottolinea come nell'era digitale queste siano fortemente sbilanciate in favore del
cosiddetto global English, ovvero l'inglese come lingua franca di un mondo
globalizzato. Ciò corrisponde a una visione in cui le lingue vengono rappresentate in termini
puramente strumentali,e così anche la traduzione, che è finalizzata trasportare un
messaggio da una lingua A a una lingua B nel più breve tempo possibile.
La disponibilità dei sistemi di traduzione automatica online rafforza questa visione
utilitaristica. Se da un lato la traduzione, assistita da potenti mezzi tecnologici, risponde al
suo scopo di rimuovere le barriere linguistiche,
dall'altro invece c'è da chiedersi quale sia la reale natura degli interessi economici in gioco
nell'economia digitale.
La traduzione però non è più appannaggio dei soli traduttori: pertanto così come altre forme
di conoscenza vengono condivise sul web tramite pratiche collaborative, la traduzione si
trasforma in wiki-translation, cioè rapida disseminazione di pratiche tipiche dei social
network nel campo della traduzione, generando da un lato nuove
necessità di traduzione ma dall'altro chiamando in causa pratiche lavorative nuove, mediate
dalle tecnologie.
Le tre principali caratteristiche di questa forma di traduzione sono:
- translation prosumption → riguarda la partecipazione attiva degli utenti delle tecnologie
per la traduzione presenti sul web alla creazione di contenuti multilingui, senza nessun
intervento da parte dei traduttori.
- post-print translation literacy → riguarda il modo in cui i contenuti vengono consumati.
pluri-subjectivity→ fa riferimento a una dimensione corale e comunitaria della traduzione
che ha due risvolti: da un lato un processo de-umanizzato per via dell'uso delle tecnologie,
dall'altro l'adozione delle tecnologie come strumento di intervento politico da parte di gruppi
di persone che usano strategicamente le risorse tecnologiche per creare contenuti ritenuti
rilevanti per una causa azione politica o sociale.
4. Approcci cognitivi.
Altri studiosi si sono interessati agli aspetti cognitivi del processo di traduzione e in
particolare a determinare se l'uso delle tecnologie influisca sul processo decisionale. In
questo filone si inseriscono le riflessioni di RISKU, che rileva che le tecnologie non devono
essere considerate come artefatti isolati, ma devono essere intesi come parte di una
complessa rete in cui i computer funzionano come estensione della memoria e delle
conoscenze degli esseri umani.
L'approccio sociologico, che indaga il ruolo degli agenti nel processo di traduzione,
considerandoli come parte di un più ampio sistema di relazioni sociali, considera la
tecnologia come agente non-umano ma che comunque ha un ruolo nel contesto sociale
della traduzione.
Tuttavia, come afferma OLOHAN, le teorie sociali della traduzione non trattano
adeguatamente il ruolo del la tecnologia e hanno trascurato il fatto che esse riflettano
relazioni moniche di potere.
L'autore propone di adottare la prospettiva dei Science and Technology Studies per
comprendere come l'obbligatorietà dell'adozione delle tecnologie siano condizionate dai
discorsi di gruppi sociali egemoni. Le scelte tecnologiche non sono mai neutrali: la scelta
di un certo modello rispetto ad un altro favorisce alcuni gruppi e indebolisce altri. In definitiva
la tecnologia opera in un sistema di capitalismo globale anche nel settore della traduzione
con conseguenze importanti sul lavoro dei traduttori, che vedono svalutata la loro
professionalità principalmente in termini economici dato che i lavori loro commissionati
riguardano la revisione di testi già pre-tradotti dalle tecnologie della traduzione.
È proprio questo aspetto che viene approfondito dagli studi critici della traduzione, un filone
di ricerca che riguarda la crescente limitazione del ruolo del traduttore che con
l'introduzione della tecnologia ha visto progressivamente restringere il suo intervento a una
serie di esercizi di pure e semplici sostituzioni linguistiche.
La tecnologia, e in particolare le tecnologie cloud che hanno consentito di avere degli
ambienti di lavoro su Internet aperti e gratuiti, ha però anche fatto sì che il lavoro dei traduttori
venisse riutilizzato per scopi di addestramento e miglioramento dei sistemi; ciò ha una serie
di implicazioni etiche, dal momento che questo contributo di fatto non viene riconosciuto né
moralmente né economicamente.
DOROTHY KENNY, ad esempio, solleva la questione che vi siano degli obblighi etici da
parte di chi sviluppa tecnologie rispetto all'uso dei contenuti prodotti dagli utenti, soprattutto
quando questi vengono riutilizzati per migliorare il processo di traduzione automatica, come
nel caso dell'approccio statistico.
Il ruolo dei traduttori nella creazione dei corpora paralleli necessari per l'addestramento dei
sistemi è ignorato. Questo argomento viene ripreso da vari altri studiosi, tra cui Moorkens:
vengono suggerite alcune contromisure, come ad esempio un'azione collettiva per
massimizzare gli sforzi contro pratiche che tendono a indebolire la categoria e la
rivendicazione della proprietà intellettuale dei dati prodotti durante il processo di traduzione.
O'HAGAN effettua invece un'analisi critica delle nuove pratiche di traduzione fondate sulla
tecnologia. Analizza la una nuova forma emergente di traduzione che basandosi sulle
tecnologie per sostenere una attività di traduzione fa si che questa sia aperta all'apporto di
partecipanti su vasta scala come nel caso di Wikipedia e Facebook.
Se da un lato gli utenti di Internet possono disporre di ambienti tecnologici per condividere
dei progetti di traduzione, dall'altro le tecnologie pongono dei limiti all'autonomia attraverso
dei meccanismi di controllo dell'operato di chi traduce: in Wikipedia è concesso un livello
alto di autonomia agli utenti, ma dipende dal grado di conoscenze tecniche dei membri della
comunità, mentre Facebook costringe chi collabora a localizzare la sua interfaccia o a
migliorare il suo sistema di traduzione automatica a operare secondo degli schemi
predefiniti, limitandone dunque la libertà di azione.
La traduzione automatica ripropone in termini moderni uno dei più antichi sogni dell’uomo,
ovvero la possibilità di costruire una macchina intelligente in grado di pensare e agire come
un essere umano. Negli ultimi anni si è avuta una svolta nella diffusione dei sistemi di
traduzione automatica: infatti, mentre in passato questo tipo di tecnologia era adottato da
un numero limitato di utenti, ora invece, grazie alla diffusione dei servizi online, ha raggiunto
una notevole popolarità presso il grande pubblico.
2. Precursori.
Le idee di Ramon Llull furono riprese successivamente da LEIBNIZ che sviluppò la prima
idea di un dizionario basato su codici numerici per tradurre da e verso altre lingue.
Il primo vero impulso allo sviluppo di sistemi di traduzione automatica si ebbe solo nel
1933, quando GEORGES ARTSROUNI, brevettò una macchina per tradurre dal nome
Cerveau mécanique → un dispositivo meccanico azionato da un motore elettrico per
registrare e recuperare informazioni su un'ampia striscia di carta che passava dietro una
tastiera. La progettò per utilizzarla per dietro una tastiera. ferroviari, i conti bancari, e
soprattutto come dizionario meccanico n linea del nastro conteneva una parola sorgente
(nella lingua di partenza) e le equivalenze in diverse altre lingue (lingue di arrivo); ad ogni
entrata corrispondevano delle perforazioni su un secondo nastro, di carta o di metallo che
funzionavano come meccanismo di selezione.
Sempre nel 1933, SMIRNOV-TROJANSKIJ sviluppò un primo prototipo di traduttore
meccanico, modellato su una sequenza di tre diverse fasi del processo di traduzione.
Nella prima fase un traduttore, madrelingua della lingua di partenza, effettuava l'analisi
logica delle parole e della loro funzione sintattica nel testo di partenza: tutte le parole flesse
venivano sostituite dalle equivalenti forme canoniche (ad esempio il nominativo per i
sostantivi, l'infinito per i verbi, ecc.).
Nella seconda fase, la macchina trasformava le seforme canoniche e di funzioni in
sequenze analoghe nella lingua di arrivo.
Nella terza e ultima fase, un traduttore monolingue della lingua di arrivo convertiva il risultato
della fase precedente nel testo corrispondente nella lingua di arrivo.
La macchina ideata da Trojanskij era a tutti gli effetti un dizionario automatico, ma l'inventore
riteneva che anche il processo di analisi logica potesse essere automatizzato, mediante la
creazione di una macchina dedicata.
4. Gli inizi.
Il vero inizio della traduzione automatica si ebbe solo con l'avvento del calcolatore e con il
diffondersi delle idee sugli universali linguistici, ovvero regole comuni a tutte le lingue
naturali, che rappresentavano una base ideale per la realizzazione di un software in grado
di tradurre da una lingua naturale ad un'altra senza alcun intervento da parte
dell'uomo.
Gli storici della materia fanno risalire tale inizio alle conversazioni e alla corrispondenza che
ebbe luogo nel 1947 tra ANDREW BOOTH e WARREN WEAVER; il documento prende il
nome di Translation ed è costituito da 12 pagine su metodi e strategie efficienti per la
sperimentazione della traduzione parola per parola. Weaver sottolineava come uno
strumento automatico potesse essere utile per la traduzione di grandi volumi di testi
tecnici. Avanza alcune possibili proposte per risolvere il problema dell'ambiguità del
linguaggio naturale attraverso l'uso del contesto per la soluzione di problemi di polisemia,
considerando il rapporto tra logica e linguaggio scritto, così come il rapporto tra crittografia
e traduzione. L'idea della traduzione-crittografica fu influente per la successiva evoluzione
della traduzione automatica che si è sviluppata a partire dalle tecniche crittografie.
Nel 1951, BAR-HILLEL pubblicò un breve saggio in cui fu chiaro che il sogno di una
traduzione automatica paragonabile qualitativamente a quella umana non era fattibile e che
la ricerca doveva orientarsi verso obiettivi più fattibili, ovvero quella che lui definiva mixed
MT, cioè un processo di traduzione in cui il traduttore umano interviene prima o dopo il
processo traduttivo perché solo in questo modo si può ottenere una traduzione accurata.
Si formarono così agli inizi degli anni '50 negli Stati Uniti e in Europa i primi gruppi di ricerca.
Nel 1954 ebbe luogo la prima dimostrazione di un sistema di traduzione automatica basato
su un vocabolario di 250 parole e 6 regole sintattiche in grado di tradurre in inglese un
insieme di 49 frasi russe. Questo fu il risultato di un progetto dell'università di Georgetown
utilizzando il modello IMB.
La comunità scientifica non condivideva l'approccio negativo nei confronti della traduzione
automatica e iniziarono a formarsi più gruppi di ricerca in Canada e in Europa.
La ricerca in Europa vide come attori principali:
-Francia → dove si sviluppò il sistema Ariane, un sistema a transfer di seconda
generazione. Alla fine degli anni '80 si ebbe la prima realizzazione di un servizio di
traduzione automatica in rete ad uso del grande pubblico.
-Germania → dove si sviluppò il sistema multilingue a transfer che integrava diverse
tecnologie di analisi e generazione del linguaggio naturale.
- Olanda → dove si sviluppò il sistema DLT, un sistema interattivo multilingue che operava
in rete.
Lo sviluppo più interessante degli anni '80 fu però la diffusione dei primi prodotti commerciali
per la traduzione automatica: SYSTRAN e LOGOS; quest'ultima ampliava il numero di
clienti e delle coppie di lingue. Un ulteriore passo in avanti per la commercializzazione dei
sistemi di traduzione automatica/assistita di ebbe con la
progettazione di sistemi che potessero essere utilizzati su personal computer.
Gli anni '90 furono caratterizzati da un pluralismo di orientamenti nella ricerca. Questo
pluralismo si rifletté in una varietà di approcci che videro coesistere sistemi basati sulla
semplice traduzione parola per parola o sull'approccio a transfer con sistemi. In questo
periodo iniziarono anche le ricerche nel campo della traduzione
automatica del parlato.
Dall'inizio degli anni ’90 si andò però affermando un approccio più pragmatico e più attento
alle reali necessità degli utenti: venne abbandonato il mito di una macchina capace di
tradurre come un essere umano, per fornire al pubblico strumenti realmente utilizzabili e
soprattutto realmente di ausilio al processo di traduzione.
Ed è per questo motivo che dalla metà degli anni '90 si ebbe un rapido incremento nel
numero e nelle tipologie di sistemi di traduzione disponibili: traduzione automatica, sistemi
di traduzione assistita, ambienti di lavoro per il traduttore, memorie di traduzione, sistemi on-
line forniti su Internet.
Fino agli anni ‘90, tutta la tecnologia si basava su approcci che usano risorse linguistiche,
dizionari e grammatiche.
Questo approccio è chiamato APPROCCIO A REGOLE che raggruppa 3 diverse strategie:
– metodo a traduzione diretta → che trasferisce il testo di partenza nella lingua di arrivo
mediante regole molto semplici;
– metodo a interlingua → che usa una rappresentazione astratta del significato;
– approccio a transfer → che si fonda su una rappresentazione astratta intermedia e usa
informazioni morfologiche, sintattiche e talvolta anche semantiche. Prevede 3 fasi: analisi,
transfer e ristrutturazione.
Sistemi a transfer.
I SISTEMI A TRANSFER si strutturano di 3 fasi:
- analisi → l traduttore analizza il testo di partenza per interpretare il messaggio attraverso
la trasformazione della struttura superficiale del testo in quella profonda e l’individuazione
delle frasi kernel.
- transfer → trasferiamo il messaggio del testo di partenza nella lingua d’arrivo.
-ristrutturazione (o generazione) → abbiamo la ristrutturazione del messaggio secondo le
caratteristiche proprie della lingua d’arrivo.
Analisi e generazione sono due moduli indipendenti dalla specifica coppia di lingue e
possono essere riutilizzati per altre coppie, mentre il transfer è specifico di una coppia.
A differenza dei SISTEMI DIRETTI, i sistemi a transfer sono caratterizzati da una maggiore
modularità e riutilizzabilità dei dati linguistici, non essendo le diverse componenti legate
alle coppie linguistiche se non il modulo transfer strettamente inteso.
A differenza dei SISTEMI A INTERLINGUA, il modulo transfer consente una maggiore
flessibilità nella definizione della rappresentazione intermedia: non è infatti necessario
arrivare ad un grado di astrazione tale da definire una struttura universalmente valida per
tutte le lingue (indipendente da qualsiasi lingua), ma è sufficiente definire una
rappresentazione intermedia valida per una specifica coppia di lingue. Sistema utilizzato per
SYSTRAN e LOGOS.
Sistemi a interlingua.
I SISTEMI A INTERLINGUA si basano sulla convinzione che sia possibile convertire testi
da e verso una rappresentazione comune a più di una lingua. I sistemi a interlingua
consistono in due fasi:
– analisi → la prima fase è rappresentata dal passaggio dalla lingua di partenza
all’interlingua. Il processo di analisi della lingua di partenza a livello lessicale, semantico e
sintattico ha come risultato una rappresentazione astratta.
– generazione → la seconda fase è rappresentata dal passaggio dall’interlingua alla lingua
di arrivo.
Sono caratterizzati da:
– moduli di analisi e generazione indipendenti → l’analisi della lingua di partenza produce
una rappresentazione indipendente sia dalla lingua di partenza che dalla lingua di arrivo
perché si utilizzano linguaggi formali o artificiali.
– possibilità di aggiungere “in modo economico” nuove lingue → i sistemi a interlingua
sono per definizione sistemi multilingui, in quanto la rappresentazione astratta essendo
indipendente dalle specifiche lingue naturali è di fatto comune a tutte le lingue.
2. Approcci empirici.
Sistemi statistico.
L'APPROCCIO STATISTICO è stato il modello predominante nella traduzione automatica
fino a qualche anno fa (es. Google Traduttore e Bing...). È basato su dati (data-driven) e
tecniche di apprendimento automatico (machine learning) e sul principio della probabilità
di distribuzione p(e|f), dove e nella lingua di arrivo è la traduzione statisticamente più
frequente di una stringa nella lingua di partenza.
Nei sistemi statistici non viene usata alcuna conoscenza linguistica esplicita, cioè dizionari
o grammatiche; ma la fonte principale principale di informazioni linguistiche è fornita da
corpora paralleli e corpora monolingui.
- Corpora paralleli → modello traduttivo per computare nella lingua di arrivo le traduzioni
più frequenti per una parola o per una stringa di parole contigue della lingua di partenza.
- Corpora monolingui → modello linguistico della lingua di arrivo per misurare quanto è
probabile che una determinata parola o sequenza di parole, il loro ordine e i costrutti
grammaticali corrispondano all’uso reale nella lingua di arrivo.
Durante la fase di traduzione, il sistema segmenta il testo in sequenze di parole e produce
in base al translation model tutte le possibili ipotesi di traduzione computando le sequenze
di parole più frequenti nella lingua di arrivo che corrispondono alle sequenze di parole
identificate nel testo di partenza. Successivamente il sistema calcola in base al language
model quali frasi nella lingua di arrivo ottenute dalla ricombinazione dei segmenti tradotti
tendono ad apparire più frequentemente nella lingua di arrivo.
Ci sono tre diversi tipi di approcci statistici:
– basato sulla parola;
– su una sequenza di parole;
– su modelli sintattici.
Problema delle possibili asimmetrie tra le lingue è stato affrontato raffinando i modelli
mediante:
– criterio della fertilità → che indica il probabile numero di parole nella lingua di arrivo
corrispondenti ad una parola nella lingua di partenza;
– criterio della distorsione → che permette di avere delle posizioni vuote durante
l’allineamento da eventualmente riempire con parole non presenti nel testo di partenza.
Non vengono generalmente impiegate informazioni linguistiche. Ma alcuni studi hanno
riconsiderato la loro importanza per migliorare i risultati →
MODELLO FATTORIZZATO → le informazioni linguistiche sono integrate nella fase di pre-
processing o post-processing del sistema per migliorare i risultati.
Sistemi ibridi.
Un'altra tendenza è rappresentata dall'integrazione in SISTEMI IBRIDI di approcci linguistici
con approcci di tipo statistico.
SISTEMI STATISTICI
– Vantaggi → la possibilità di un rapido sviluppo a basso costo e, se addestrati in maniera
appropriata, con corpora paralleli e monolingui, dalla relativa fruibilità delle traduzioni.
– Svantaggio → necessità di disporre di grandi quantità di dati.
SISTEMI BASATI SU REGOLE
– Vantaggi → le risorse linguistiche forniscono una descrizione dei fenomeni linguistici e
producono meno imprecisioni, possono più facilmente essere controllate, corrette e usate
anche per altre applicazioni di trattamento automatico del linguaggio
– Svantaggi → cicli di sviluppo lenti, da alti costi e dalla mancanza di robustezza se l’input
contiene errori.
Tre diversi tipi di architettura:
– accoppiamento di sistemi (seriali o paralleli);
– adattamenti delle architetture, che integrano nuove componenti nelle architetture di tipo
statistico o a regole linguistiche, sia mediante pre/post-editing, o attraverso modifiche
sostanziali del sistema;
– reali sistemi ibridi, che combinano componenti appartenenti a paradigmi differenti:
identificazione di blocchi di parole nella LP, trasformazione dei blocchi nella LA tramite
risorse bilingue e generazione della frase nella LA.
Sistemi neurali.
La TRADUZIONE AUTOMATICA NEURALE è basata su un modello matematico utilizzato
per applicazioni di intelligenza artificiale composto da neuroni artificiali.
I sistemi neurali anno la capacità di modellare direttamente e senza passaggi intermedi
l’associazione di un testo nella lingua di partenza alla traduzione in una lingua di arrivo.
Sono costituiti da gruppi definiti di neuroni artificiali, solitamente indicati con il termine livelli
(layer), connessi tra loro:
- livello di input
- livello nascosto → livello intermedio tra il livello di input e di output, dove avvengono le
operazioni di calcolodella soluzione. Le reti possono essere costituite da livelli nascosti,
ovvero non visibili come output, necessari per il cosiddetto deep learning, ovvero il processo
di apprendimento e trasmissione delle informazioni a livello profondo nella rete. I livelli
nascosti aumentano in funzione della complessità della rete;
- livello di output
Ogni neurone artificiale rappresenta un nodo della rete e ogni nodo è connesso ad altri nodi
su livelli successivi.
Ogni connessione della rete prende un input e lo moltiplica per un peso, che può essere
inteso come l’impatto (o la forza) che un determinato nodo esercita sul nodo successivo, a
cui è collegato. La trasmissione di informazioni avviene attraverso l’invio di stimoli
finalizzati all’attivazione dei neuroni che si trovano su diversi livelli, posti in sequenza.
L’output di una rete neurale può essere definita come una rete di concetti, rappresentati da
valori numerici che quanto più sono prossimi tanto più indicano che i concetti sono correlati.
I sistemi neurali utilizzano il contesto dell’intera frase per estrapolare le informazioni
sintattiche e semantiche necessarie a modellizzare la traduzione.
Architettura → SEQ2SEQ (ovvero dall’inglese sequence to sequence), composta da un
codificatore che converte una frase in un vettore di “significato” trasferito nella fase ad un
decodificatore che produce una traduzione.
Le reti neurali apprendono autonomamente dai dati e sono in grado di imparare dagli errori,
correggendo automaticamente i parametri durante la fase di apprendimento, che
generalmente dura poche settimane.
L’apprendimento avviene comparando l’output generato dal sistema con dei riferimenti
corretti attraverso la minimizzazione della cosiddetta funzione obiettivo o di costo che calcola
la differenza tra un risultato previsto e il risultato ottenuto.
CAPITOLO 5: IL PROCESSO DI TRADUZIONE AUTOMATICA E KE COMPETENZE DEL
TRADUTTORE.
A testimonianza del fatto che le commesse relative al miglioramento delle traduzioni
automatiche siano ormai considerate una quota importante del mercato dei servizi, nel 2017
è stato emesso uno standard internazionale che sancisce il post-editing come servizio di
traduzione a se stante, definendo anche i requisiti e le competenze dei post-editor.
Il processo di traduzione basato sulla traduzione automatica richiede una organizzazione
diversa e competenze ed abilità tecnologiche e procedurali specifiche da parte dei traduttori.
L’intervento umano avviene o prima della traduzione automatica nella fase di pre-editing o
dopo in quella del post-editing.
2. Post editing.
L’uso della tecnologia agevola il lavoro del traduttore perché non deve più tradurre da
zero ma si può avvalere di un testo pre-tradotto dalla macchina e quindi apportare i
miglioramenti necessari nella fase di post-editing; può avvalersi delle tecnologie cloud per
accedere a piattaforme online su cui condividere lavori, strumenti e risorse con altri colleghi.
Ora sembra sempre più concretizzarsi l'idea di strumenti molto più intelligenti dotati di
conoscenze linguistiche rispetto al contesto. Infatti si parla di transcreation → processo di
traduzione che si colloca fra la traduzione e il copywriting e che richiede un mix articolato
di competenze, ma soprattutto la creatività del traduttore.
Chi è il post-editor? → KOBY afferma che chiaramente deve essere un traduttore perché
solo un traduttore può giudicare l'accuratezza di una traduzione, in quanto è in grado di
rilevare gli errori nella traduzione automatica; haun fondo di conoscenze sul trasferimento
transnazionale di concetti e ha a disposizione risorse tecniche che
sa come usare in caso di dubbi.
In tempi recenti è stata sperimentata la possibilità di usare post-editor monolingui, senza
alcuna conoscenza della lingua di partenza, specialmente se sono supportati da strumenti
per l’analisi linguistica delle frasi di partenza.
PYM sottolinea la necessità di riconfigurare il ruolo e la funzione del traduttore. Si
suggeriscono una lista iniziale di 10 competenze di base articolate su 3 ambiti che si
riferiscono principalmente alla competenza del "saper fare" (know-how) del traduttore:
learning to learn, learning to trust and mistrust data, e learning to revise with attention
to detail.
RICO PÉREZ & TORREJÓN forniscono invece una descrizione dettagliata del profilo,
delle competenze e delle abilità del post-editor: competenze liguistiche, competenze di base
e competenze strumentali→ cioè abilità tecniche che consentono al post-editor di avvalersi
delle tecnologie; quindi sono competenze riguardo la conoscenze dei sistemi di traduzione
automatica, la gestione della terminologia, la manutenzione dei dizionari, la valutazione della
qualità, il pre-editing mediante linguaggi controllati e conoscenze di programmazione.
Nell’ambito dell’European Master's in Translation (EMT), è stato elaborato l’EMT
Competence Framework → un quadro di riferimento riguardante le competenze necessarie
per un traduttore, divenuto uno standard.
Oltre a saper utilizzare le principali applicazioni per il lavoro d'ufficio e i motori di ricerca, i
traduttori devono:
- conoscere i principi basilari della traduzione automatica e di traduzione assistita e del
loro impatto sui processi di traduzione;
- valutare la rilevanza dei sistemi di traduzione automatica nel processo di traduzione e
adottare il sistema più appropriato quando necessario;
- adottare altri strumenti a supporto delle tecnologie linguistiche e di traduzione come
ad esempio i software di gestione del processo di traduzione.
CAPITOLO 6: QUALITÀ E VALUTAZIONE DELLA TRADUZIONE.
1. Dal rapporto ALPAC al Framework for the evaluation of machine translation in ISLE.
Anche se la qualità non è ancora comparabile alla traduzione umana, la traduzione
automatica e la traduzione assistita sono sempre più integrati nel processo di traduzione.
L’uso di questi strumenti, in particolare in ambito industriale, ha un vantaggio significativo in
termini di tempo e costi.
La valutazione della qualità è una delle preoccupazioni principali degli sviluppatori e ancor
più degli utenti; ma se la valutazione della traduzione umana non è un compito semplice, la
valutazione di quella automatica lo è ancora di più. Il vero problema è che ancora c'è poco
accordo su quali siano i parametri da considerare quando bisogna valutare le traduzioni
grezze.
Primo tentativo di valutare la traduzione automatica risale al rapporto ALPAC del 1996 per
studiare la fattibilità della traduzione automatica e soprattutto i risultati ottenuti in termini di
qualità, velocità e costi. Non c'erano allora ancora modi affidabili per valutare la qualità,
perciò si fece riferimento ad un esperimento condotto da JOHN CARROLL che confrontava
traduzione automatica e traduzione umana. L’esperimento di valutazione della traduzione di
frasi selezionate dal russo all’inglese si basava su criteri di intelligibilità e fedeltà.
Intellegibilità → una traduzione che può essere letta agevolmente ed è facilmente
comprensibile, similmente a qualsiasi testo nativo nella lingua di arrivo; viene dunque usata
per valutare la traduzione automatica come testo indipendente nella lingua di arrivo, senza
alcun confronto con il testo di partenza.
Fedeltà → usato in connessione con il concetto di accuratezza, senza però definirlo con
precisione. La fedeltà si valuta confrontando il testo di arrivo con quello di partenza, di cui si
misura il grado di informatività; se per capire la traduzione è necessario ricorrere al testo
originale allora la traduzione è di scarsa qualità.
Un documento importante rispetto al dibattito sulle metodologie da adottare nella
valutazione è il VAN SLYPE REPORT, ovvero studio commissionato dalla Commissione
Europea. Lo studio pone l’accento sul fatto che la qualità è un concetto relativo: la qualità
della traduzione non è un concetto assoluto e deve essere essere
valutata applicando diversi criteri; criteri che illuminano ogni aspetto speciale della qualità
della traduzione (tenendo conto della natura specifica della traduzione automatica, che è un
prodotto molto diverso dalla traduzione umana).
La valutazione deve essere condotta su due livelli:
– macrovalutazione (o valutazione complessiva) → con lo scopo di valutare il grado di
accettabilità del sistema di traduzione, confrontare la qualità di sistemi diversi o di versioni
diverse di uno stesso sistema e infine valutare l’usabilità del sistema di traduzione
automatica.
– microvalutazione (o valutazione dettagliata) → con lo scopo di valutare la migliorabilità
del sistema e stabilire una strategia di miglioramento.
Per ogni livello vengono enumerati i diversi criteri di qualità.
Per la macrovalutazione:
– criteri a livello cognitivo → intelligibilità, fedeltà, coerenza, usabilità e accettabilità;
– criteri a livello linguistico → ricostruzione della relazione semantica, sintattica e
coerenza semantica, qualità assoluta, valutazione sintattica e analisi degli errori.
Per la microvalutazione si ricorre all’analisi degli errori e allo sforzo necessario per la
revisione, analisi delle cause degli errori e delle possibilità di miglioramento del
sistema
Si ha quindi un'evoluzione del processo di valutazione della traduzione umana che non tiene
conto solo di criteri linguistici ma anche criteri di tipo socio-situazionale. Si passa da un
concetto di qualità di tipo statico, misurato confrontando il risultato della traduzione umana,
a un concetto di qualità più dinamico, che tenga conto di un uso diverso della traduzione
automatica rispetto a quella umana.
Questa tendenza è confermata da LEHRBERGER & BOURBEAU i quali presentano
una metodologia generale per la valutazione della traduzione automatica. I fattori da tenere
in considerazione per la valutazione sono:
– costi dell’acquisizione del sistema di traduzione automatica;
– tempi totali per la realizzazione dell’intero processo costituito da varie fasi;
– qualità valutata in base ai tre criteri di fedeltà, intelligibilità, stile appropriato rispetto all’uso
del testo;
– migliorabilità del sistema, valutabile in base alla performance delle diverse componenti
così come dell’intero sistema;
– estensibilità ad altri domini e ad altre coppie di lingue;
– facilità d’uso.
3. Metriche automatiche.
Dagli anni 2000 utilizzo di metriche automatiche attraverso programmi software, come ad
esempio BLEU, NIST, METEOR e Word Error Rate, che usano una serie di criteri
formalizzati per valutare la traduzione automatica sulla base di un corpus di riferimento o
gold standard, costituito da testi tradotti da traduttori umani.
Si basano sul principio di similarità della traduzione automatica rispetto alla traduzione
umana, computando la distanza tra il corpus di riferimento e i risultati della traduzione
automatica.
La valutazione della similarità si basa su precision e recall.
• BLEU → è la metrica più utilizzata: inizialmente sviluppata per l’inglese,
confronta i risultati della traduzione automatica con un corpus di riferimento costituito
da testi tradotti da traduttori umani.
La qualità si misura segmentando il testo prodotto dalla traduzione automatica in segmenti
costituiti da n-grammi, generalmente variabili da 1 a 4, e confrontando il numero di segmenti
così ottenuti con il corpus di riferimento per individuare i segmenti condivisi tra il prodotto
della traduzione automatica e il testo appartenente al corpus di riferimento.
Se i due testi condividono lo stesso numero di segmenti allora il voto BLEU equivale a 1,
mentre se non ci sono segmenti condivisi il valore è 0. Quindi quanto più il valore è vicino a
1 tanto più la traduzione automatica viene considerata qualitativamente buona.
NIST → è una metrica di valutazione che si basa sugli stessi principi di BLEU. A segmenti
rari viene attribuito un peso maggiore nel computo del punteggio, in quanto maggiormente
informativi: ad esempio alla sequenza credit card viene attribuito un peso maggiore della
sequenza of the METEOR → individua le parole lessicali (principalmente nomi, verbi e
aggettivi) in comune tra il testo tradotto automaticamente e il testo di riferimento
corrispondente. Una volta individuate, il sistema cerca di identificare le sequenze più lunghe
che si riferiscono a queste e che sono condivise tra i due testi. Quanto più alto è il numero
di segmenti condivisi, e dunque quanto più il valore del punteggio si avvicina a 1, tanto più
la qualità del testo tradotto automaticamente si avvicina a quello di riferimento.
WORD ERROR RATE (WER) → si basa invece sul calcolo degli scostamenti tra un testo
tradotto e il testo di riferimento, dunque sul numero di parole differenti tra questi due. Le
differenze computate riguardano parole sostituite (S) cancellate (D), inserite (I) sul numero
totale di parole (N) del testo di riferimento.
La comunità dei Translation Studies non guarda di buon occhio questo tipo di valutazione
per varie ragioni:
– la valutazione si basa su informazioni molto esigue;
– quasi tutte le metriche non considerano che la forma superficiale delle parole, non
vagliando altri aspetti come adesempio la grammaticalità del testo, la fruibilità, il registro o
lo stile;
– basandosi su sequenze limitate di parole, la similarità tra la traduzione automatica e il testo
di riferimento può essere anche molto alta benché si tratti di una traduzione scorretta, in
quanto basata solo sulla presenza delle sequenze condivise con il testo di riferimento;
– La qualità del corpus di riferimento usato per la valutazione, di cui non sempre è chiara la
provenienza ed accertata la validazione qualitativa
4. Approcci recenti.
Nuove metodologie per la valutazione sono basate ancora sui concetti di adeguatezza e
fruibilità.
Il concetto di FRUIBILITÀ coincide con il significato che gli viene attribuito anche nei
Translation Studies, ovvero si riferisce alle proprietà linguistiche (grammatica, ortografia e
coesione) del testo tradotto come testo indipendente nella lingua di arrivo; il concetto di
adeguatezza assume un significato totalmente differente rispetto a quello correntemente
attribuito dagli studiosi della traduzione.
Approcci più recenti alla misurazione della qualità della traduzione automatica:
TAUS DYNAMIC QUALITY FRAMEWORK → La qualità della traduzione è considerata
dinamica in quanto i requisiti di qualità della traduzione cambiano a seconda del tipo di
contenuto, lo scopo del contenuto e il suo pubblico.
CAPITOLO 7: LA TRADUZIONE AUTOMATICA + CROWDSOURCING.
1. Definizioni.
Il termine crowdsourcing indica quella attività che si basa sul contributo di una moltitudine
di persone su base volontaristica o a pagamento. Parola è composta da crowd, che si
riferisce alle persone che partecipano ad una attività, e outsourcing, che indica
l’esternalizzazione della stessa.
Il crowdsourcing è un tipo di attività partecipativa online in cui un individuo, un'istituzione,
un'organizzazione non-profit o un'azienda propone ad un gruppo di individui di varia
conoscenza, eterogeneità e numero, attraverso una chiamata aperta e flessibile, l'impegno
volontario di un compito.
2. Crowdsourcing e traduzione.
Dal 2006 ad oggi questa forma di uso dell'intelligenza collettiva nel campo della traduzione
ha dato l'avvio a pratiche collaborative di traduzione su larga scala. C'è un coinvolgimento
attivo di traduttori, anche non professionisti, per localizzare prodotti in genere open-source
e piattaforme online.
Internet ha enfatizzato la natura collaborativa del compito di traduzione attraverso forme di
interazione che prevedono l'uso della tecnologia, a partire dall'impiego di internet alle
piattaforme che agevolano la comunicazione.
La maggior parte delle attività richieste online riguardano le attività di localizzazione.
Un esempio è Facebook con l'applicazione Translate Facebook.
Gli utenti del social network possono contribuire al processo di traduzione. Si localizza
l’interfaccia in tutte le lingue in pochissimo tempo a costo zero. Il sistema registra i contributi
dati dall’utente e propone come corrispettivo una serie di traguardi. Per ogni traguardo
raggiunto (voto per 25 traduzioni, pubblicazione di 5 traduzioni, etc.) l’utente ottiene un
badge che rappresenta una sorta di remunerazione morale per il contributo che ha dato alla
comunità del social network. Grazie a questo approccio Facebook ha localizzato la sua
interfaccia in oltre un centinaio di lingue, anche in lingue normalmente poco appetibili dal
punto di vista commerciale, come le lingue minoritarie.
Il crowdsourcing non è stata utilizzata solo per attività di traduzione o localizzazione fini a se
stesse, bensì anche per la creazione di basi di dati utili per il miglioramento delle
tecnologie per la traduzione.
Generalmente le iniziative di crowdsourcing avvengono mediante l’uso di piattaforme come
Crowdcrafting, Amazon Mechanical Turk, o Crowdflower.
Queste piattaforme consentono l'accesso a costi contenuti a una forza lavoro internazionale
di grandi dimensioni per la creazione di risorse e lo svolgimento di attività con tempi di
realizzazione molto veloci, come ad esempio il post-editing, la valutazione delle traduzioni
automatiche e l’annotazione di corpora, che generalmente invece sono molto dispendiose e
richiedono molto tempo.
Scomposizione di una attività in microattività, che possono essere svolte dai volontari
presenti sulla piattaforma a loro piacimento secondo i propri ritmi con obiettivi di guadagno
del tutto personali in base al tempo dedicato.
I vantaggi per gli sviluppatori che attingono ai dati creati da ampi gruppi di volontari o utenti
sul web allo scopo di arricchire e migliorare le diverse applicazioni di traduzione
automatica/assistita sono notevoli:
– zero spese generali per l'assunzione di lavoratori,
– accesso a una forza lavoro ampia e a basso costo,
– sistema di micropagamento facile,
– tempi di consegna brevi, in quanto le attività vengono completate in parallelo da molte
persone,
– accesso a madrelingua di molte lingue rare
Ci sono varie forme di crowdsourcing per la raccolta di dati linguistici:
- Lavoro meccanizzato → quando si richiede l’esecuzione di un compito ben definito, come
ad esempio traduzioni di frasi o l’annotazione di dati linguistici su piattaforme come ad
esempio Amazon Mechanical Turk e CrowdFlower e per cui viene anche data una
ricompensa in denaro;
- Wisdom of the crowd → quando volontari si prestano liberamente a condividere le loro
conoscenze per eseguire dei compiti, rispondere a domande o spiegare qualcosa ad altre
persone.
Esempi di questo tipo sono Wikipedia e Yahoo! Answer;
- Giochi con uno scopo → quando si usa un gioco per raccogliere dati linguistici. In questo
contesto non sono richieste conoscenze specifiche e l’utente, immerso nell’ambiente del
gioco, deve effettuare delle scelte ben precise per vincere una competizione.
Esempi di questo genere sono Phrase Detectives e JeuxDeMots.
Crowdsourcing esplicito.
Il crowdsourcing è esplicito quando il contributo da parte degli utenti viene fornito
consapevolmente, come nel caso del lavoro meccanizzato o del wisdom of the crowd. La
motivazione alla partecipazione ad attività di crowdsourcing esplicito è dettata ad esempio
dall’apprendimento di una lingua straniera o dall’acquisizione di maggiori conoscenze
rispetto ad un processo di traduzione o di localizzazione.
Generalmente le pratiche di crowdsourcing esplicito vengono effettuate seguendo un iter
ben preciso:
– i contenuti da produrre sono condivisi sul web.
– professionisti, volontari occasionali e non professionisti eseguono il compito, che può
essere successivamente affidato a professionisti esperti per una eventuale revisione e
validazione, secondo la tipologia e le finalità delcompito;
– i professionisti sono generalmente pagati in modo convenzionale, mentre i volontari,
lavorando gratuitamente, sono remunerati attraverso forme non convenzionali di
gratificazione sociale.
Esempi di crowdsourcing esplicito:
– la produzione di risorse linguistiche, come ad esempio corpora paralleli, dizionari, risorse
terminologiche etc.
– attività di post-editing di traduzioni automatiche e– valutazione della qualità della
traduzione.
Diverso è il caso di Google Translator Toolkit, in cui è possibile ottenere una traduzione
automatica, rivederla immagazzinare in memoria le versioni finali delle traduzioni. L’utente
ha la possibilità di usare una propria memoria di traduzioni o di usare la memoria globale
condivisa.
• vantaggi per l’utente → archivio gratuito su cui gestire i suoi lavori di traduzione,
avvalendosi di quanto
precedentemente tradotto anche da altri,
• vantaggi per Google → testi rivisti dagli utenti, da utilizzare quale corpus di riferimento nel
processo di traduzione automatica.
Il crowdsourcing per attività di post-editing dei risultati della traduzione automatica è stato
presentato nel progetto “Collaborative Translation Framework” (CTF).
L'uso del crowdsourcing è basato sulla collaborazione di studenti stranieri come revisori
della traduzione automatica della versione inglese del sito web dell’università giapponese
prodotta da Microsoft Translator nelle lingue degli studenti. Le attività di post-editing sono
state effettuate usando le funzionalità della piattaforma; in questo modo è stato possibile
localizzare la versione inglese del sito in nove diverse lingue in due mesi senza costi grazie
alla collaborazione degli studenti, che partecipando a questo progetto si sono sentiti parte
di una comunità.
Crowdsourcing implicito.
Il crowdsourcing è implicito quando gli utenti non sono consapevoli di fornire un contributo;
come ad esempio nei giochi con uno scopo, in cui eseguono dei compiti senza
necessariamente essere a conoscenza del fatto che i loro contributi verranno raccolti ed
usati.
4. Questioni di qualità.
L'uso del crowsourcing per la raccolta dei dati linguistici pone una serie di problemi non
indifferenti:
– affidabilità dei dati
– usabilità dei dati.
Ad esempio i Turkers sulla piattaforma Amazon sono anonimi, e quindi è difficile identificare
la nazionalità, la lingua madre e il grado di istruzione di chi presta la propria opera per
tradurre testi. C'è rischio che i Turkers usino a loro volta la traduzione automatica, e quindi
che i testi tradotti siano il risultato di un processo automatico compromettendo in tal modo i
dati raccolti. Sono stati effettuati studi sulla questione e si è cercato in qualche modo di porre
rimedio attraverso dei meccanismi di controllo.
Altri problemi sono di natura etica quando il crowdsourcing è usato a fini commerciali. I dati
prodotti dai volontari gratuitamente vengono usati poi per produrre servizi o prodotti a
pagamento da parte delle società che adottano questo approccio per ridurre notevolmente i
costi rispetto le prestazioni di professionisti del settore.