Sei sulla pagina 1di 27

CAPITOLO 1

La traduzione automatica è quel processo messo in atto da un software che, dato un testo
di partenza, produce automaticamente un testo di arrivo senza nessun intervento umano
(comprendendo la traduzione sia di testi scritti che di testi orali).
Realizzare un software di traduzione significa disporre non solo di un sistema di analisi
automatico della lingua, ma anche e soprattutto di uno strumento capace di ridurre al minimo
l’ambiguità e la complessità intrinseca al linguaggio naturale.

1. Definizioni.
Il termine Traduzione automatica corrisponde al termine inglese Machine translation o
Automatic translation.
Il termine viene usato per indicare unicamente i sistemi di traduzione che traduco da una
lingua naturale ad un’altra senza alcun intervento umano. La traduzione automatica viene
generalmente intesa come un sottocampo del trattamento automatico del linguaggio
naturale e della linguistica computazionale, il cui obiettivo è quello di sviluppare modelli di
funzionamento del linguaggio naturale che possono essere tradotti in programmi eseguibili
dal calcolatore e che consentano a quest’ultimo di acquisire le competenze necessarie per
comunicare direttamente nella nostra lingua.

Nella classificazione di Hutchins e Somers, la traduzione umana e quella automatica


sono poste a due estremi di un continuum in cui sono previste diverse forme di interazione
uomo-macchina, caratterizzate da un maggior o minor grado di coinvolgimento dell’essere
umano o al contrario di automazione del processo.
In questa rappresentazione, la traduzione automatica corrisponde alla fully automatic highly
quality translation, che implica il massimo grado di automazione del processo e nessun
intervento umano.
I primi sistemi di traduzione automatica sono stati sviluppati per ottenere traduzioni di qualità
comparabile a quella umana, ma di fatto questo obiettivo non è stato ancora raggiunto, infatti
si dice che il risultato di una traduzione automatica non è necessariamente di buona qualità
ed è per questo che viene definito “traduzione grezza”, dovendo necessariamente essere
revisionato per raggiungere i livelli qualitativi della traduzione umana.
Una traduzione di alta qualità richiede infatti il coinvolgimento dell’essere umano, mediante
interventi preliminari sui testi da tradurre (pre-editing) e per renderli più facilmente
traducibili, o mediante la revisione (post-editing) della traduzione grezza prodotta dai
sistemi.
La traduzione automatica si differenzia dalla Computer-assisted translation che comprende:
- Human-aided machine translation → sistemi che effettuano la traduzione ma
richiedono necessariamente il supporto umano durante il processo per risolvere
problemi relativi al testo di partenza e al testo di arrivo;
- Machine-aided human translation→ indica qualsiasi strumento di ausilio ad un
processo traduttivo governato dall’essere umano (correttori ortografici, grammaticali
e stilistici, dizionari, enciclopedie).

L’ultima edizione del Compedium of translation software di Hutchins propone una


categorizzazione in base all’uso della traduzione automatica:
- uso domestico → software per la traduzione automatica in cui le unità di input sono
frasi complete in una lingua naturale e le unità di output sono rispettivamente frasi
complete di un’altra lingua;
- uso professionale → sistema progettato per l’uso da parte di traduttori professionisti;
- uso aziendale → sistema progettato per Intranet aziendale a supporto di un team di
traduttori;
- siti web → sistema progettato per siti web aziendali per fornire la traduzione online di
pagine web;
- dispositivi mobili → sistema progettato per l’uso con palmari e dispositivi mobili;
Infine è possibile distinguere diverse tipologie di sistemi in base all’approccio adottato:
approcci linguistici o a regole (sistemi diretti, transfer); approcci empirici (sistemi basati su
esempi); approcci ibridi, che prevedono l’adozione combinata dei due approcci precedenti.

2. . Usi della traduzione automatica


Hutchins individua 4 usi principali della traduzione automatica:
• DISSEMINATION TOOL
• INFORMATION TOOL
• ASSIMILATION TOOL
• INTERCHANGE TOOL

La traduzione automatica come DISSEMINATION TOOL si riferisce all’uso della traduzione


grezza come base per una traduzione finita. Si tratta dello scopo principale per cui vengono
utilizzati i sistemi di traduzione automatica, inseriti all’interno di un ciclo completo di
traduzione che ha come risultato la produzione di traduzioni pubblicabili.
La traduzione automatica è in questo senso solo una fase di un processo più ampio di
traduzione, suddiviso in più stadi: analisi della traduzione e reperimento del materiale di
riferimento, addestramento del sistema di traduzione automatica, preparazione del testo da
sottoporre a traduzione automatica, traduzione automatica vera e propria, revisione del
risultato da parte di professionisti e controllo qualità.

I sistemi di traduzione automatica sono stati progettati per rispondere a questo scopo e
possono dare risultati qualitativamente non trascurabili ed economicamente vantaggiosi.

Le potenzialità dei sistemi sono state incrementate dalla loro integrazione all’interno di
ambienti di lavoro e piattaforme online che includono altri strumenti di ausilio al traduttore:
- memorie di traduzione → ovvero archivi testuali digitalizzati di testi originali allineati
con le corrispondenti traduzioni;
- strumenti per la gestione di terminologia;
- glossari;
- strumenti per la revisioni di testi;
- dizionari elettrici.
Grazie a queste piattaforme la traduzione automatica assolve la sua funzione di
dissemination tool in quanto è possibile per l’utente usare una serie di strumenti tecnologici
per produrre delle traduzioni pubblicabili prodotte mediante la revisione dei risultati.

Uno dei primi servizi di questo tipo è GOOGLE TRANSLATOR TOOLKIT in cui si mette a
disposizione il motore di traduzione automatica google traduttore all’interno di un ambiente
di traduzione in cui gli utenti possono usare memorie di traduzione, glossari e un’interfaccia
per la revisione dei testi.

La traduzione automatica come INFORMATION TOOL, quindi come strumento per facilitare
l’accesso alle informazioni, riguarda la possibilità di utilizzarla in sistemi di ricerca e recupero
di informazioni. In questo modo gli utenti possono recuperare documenti o pagine web in
una lingua diversa che vengono poi tradotti nella lingua dell’utente su richiesta: questo
processo è basato su due fasi, ovvero la traduzione automatica della chiave di ricerca e
quella dei documenti reperiti durante la ricerca.
La traduzione automatica come ASSIMILATION TOOL, quindi come strumento immediato
di comprensione di un testo straniero, viene usata per tradurre testi brevi o pagine web allo
scopo di comprendere in linea di massima un testo scritto in una lingua sconosciuta
all’utente grazie alla traduzione grezza fornita dal sistema.
Il primo sistema ad essere offerto con questa modalità sul web è stato Babel Fish.

La traduzione automatica come INTERCHANGE TOOL, quindi per il rapido interscambio di


informazioni, viene invece utilizzata in contesti in cui la comunicazione tra persone che
parlano lingue diverse deve avvenire in tempo reale, come ad esempio nelle discussioni
delle chatroom, e quindi la traduzione tradizionale, ovvero mediante il ricorso a traduttori
professionisti, è assolutamente fuori discussione.

Oltre a questi usi della traduzione automatica, sono state individuate due ulteriori impieghi
da parte degli utenti:
- la traduzione automatica come strumento di intrattenimento, entertainment tool
- la traduzione automatica viene utilizzata spesso come strumento per l'apprendimento
di una lingua straniera, learning tool.

3. Modelli cloud di traduzione automatica.


La traduzione automatica ha raggiunto la popolarità presso il grande pubblico grazie ad
Internet, e che a partire da Babel Fish si sono diffusi rapidamente servizi online di traduzione
automatica basati sulle possibilità offerte dal cosiddetto cloud computing (in italiano "nuvola
informatica') per memorizzare, archiviare ed elaborare dati in un luogo virtuale, cui si può
accedere in qualsiasi momento.

Le tecnologie proposte come servizio sul cloud presentano notevoli vantaggi in quanto è
possibile collaborare all'interno di un gruppo di lavoro condividendo gli stessi strumenti e
risorse, gli stessi documenti e infine gli stessi ambienti sempre aggiornati.
Si distinguono quattro diverse tipologie cloud di servizi di traduzione automatica/assistita:

- traduzione automatica → Google Traduttore rappresenta sicuramente l'esempio più


indicativo: l'utente si collega al servizio per tradurre gratuitamente in tempo reale per
ottenere delle traduzioni a scopo informativo a costo zero e in tempi rapidissimi. Il
limite di questa tipologia di offerta è dato dall'impossibilità da parte degli utenti di
personalizzare il motore di traduzione automatica per ottenere risultati
qualitativamente migliori.
- traduzione assistita → è quella rappresentata da servizi di sola traduzione assistita,
tipicamente memorie di traduzione, ovvero quelle applicazioni che consentono di
creare, gestire, manutenere e usare corpora paralleli di testi originali allineati con le
corrispondenti traduzioni allo scopo di riutilizzare quanto tradotto in precedenza per
nuove traduzioni. Attualmente i software di memorie di traduzione sono largamente
usati dai traduttori e dalle società di traduzione e rappresentano la tecnologia più
diffusa nel processo di traduzione, in particolar modo, per traduzioni di tipo tecnico-
scientifico.
- traduzione automatica e assistita → integrazione di diverse tipologie di tecnologie per
la traduzione per mettere a disposizione degli utenti ambienti collaborativi di
traduzione in cui è possibile utilizzare varie applicazioni, dalla traduzione automatica
a strumenti per la gestione di terminologia e glossari e infine strumenti per la revisione
dei testi.
Uno dei primi servizi di questo tipo appresentato dal summenzionato Google Translator
Toolkit, che mette a disposizione il motore di traduzione automatico Google Traduttore
all'interno di un ambiente di traduzione, in cui gli utenti possono usare memorie di
traduzione, glossari e un'interfaccia per la revisione dei testi. Si tratta un circolo virtuoso in
cui l'utente usa le traduzioni "grezze" proposte dall'interazione di traduzione automatica e
memorie di traduzione per elaborare delle traduzioni finite.
- traduzione automatica/assistita e strumenti per la gestione dei progetti di traduzione
oltre alla disponibilità delle tradizionali applicazioni di traduzione assistita e
automatica, vengono integrate funzioni tipiche di ambienti di gestione dei lavori di
traduzione: come ad esempio la creazione e la gestione di un gruppo di traduzione,
la distribuzione dei contenuti da tradurre e il monitoraggio dello stato di avanzamento
del processo di traduzione, strumenti per la valutazione della qualità ecc.
CAPITOLO 2: TRADUZIONE AUTOMATICA E TEORIE DELLA TRADUZIONE
1. Traduzione automatica e teorie linguistiche della traduzione.
In una fase iniziale degli studi sulla traduzione, quando a prevalere era l’approccio
linguistico, ovvero intorno agli anni '60 e '70, sono state elaborate alcune formulazioni
teoriche sul concetto di EQUIVALENZA TRADUTTIVA e su quello di traduzione da parte
di studiosi come Catford e Nida che rivelano un certo interesse per la tecnologia.

CATFORD → ipnotizza che le equivalenze traduttive possano essere espresse sotto forma
di regole di traduzione e formalizzabili come istruzioni per algoritmi traduttivi.

NIDA → invece, nel sistema proposto, possiamo notare la somiglianza con l’architettura dei
sistemi a transfer di traduzione automatica. Infatti si tratti di un modello a 3 fasi :
1. ANALISI → l traduttore analizza il testo di partenza per in un primo momento interpretare
il messaggio attraverso la trasformazione della struttura superficiale del testo in quella
profonda e l’individuazione delle frasi kernel.
2. TRANSFER → trasferiamo il messaggio del testo di partenza nella lingua d’arrivo.
3. RISTRUTTURAZIONE → abbiamo la ristrutturazione del messaggio secondo le
caratteristiche proprie della lingua d’arrivo.

↳ Nida e Catford sono gli unici che più si avvicinano a un approccio scientifico e tecnologico.

2. Traduzione Automatica e gli studi teorici e applicati della traduzione.

Bisogna sottolineare in un primo momento che le teorie della traduzione e quelle relative
alla traduzione automatica sono discipline totalmente separate e presentano pochi punti in
contatto.
Questo perché gli approcci alla traduzione automatica raramente hanno preso in
considerazione gli apporti della teoria della traduzione a questo si aggiunge anche la
carenza di ricerche sulle tecnologie per la traduzione nell’ambito della teoria della traduzione
che è stata rilevata solo in tempi recenti. Inoltre, lo sviluppo delle competenze tecnologiche
sia riconosciuto come ‘indispensabili’ nella formazione dei traduttori.

Una prima indicazione che la teoria della traduzione all’epoca avrebbe dovuto occuparsi
delle tecnologie per la traduzione proviene proprio dalla mappa di Holmes.
A questo, Toury suggerisce la necessità di ampliare la branca sugli studi applicati,
considerando tutti gli strumenti necessari per colmare la distanza tra teoria e pratica della
traduzione come: l’insegnamento della traduzione, la valutazione della qualità e lo sviluppo
di applicazioni al supporto del traduttore.
Ma al di là di questo, potremmo notare che all’interno di questa mappa la traduzione
automatica trova poco spazio di riflessione sugli studi della traduzione, questo può essere
sancito anche dal fatto che parliamo delle prime fasi della traduzione in cui non si avvertiva
l’urgenza di occuparsi di un fenomeno come quello della traduzione applicata alla tecnologia
che avrebbe poi mutato e cambiato nel tempo.

Solo verso la fine degli anni '80 notiamo un incremento di interesse verso le tecnologie della
traduzione, dovuto dal fatto che questo periodo segna un momento di svolta nell’evoluzione
della traduzione automatica per 3 motivi:
• la sperimentazione da parte di gruppi di ricerca con lo sviluppo di un primo sistema
statistico;
• l’avvio delle ricerche nel campo della traduzione vocale;
• passaggio da un approccio teorico allo sviluppo di applicazioni utilizzabili nei processi
di traduzione (esempio: le postazioni di lavoro per i traduttori).

Ritroviamo qui diverse figure importanti:


WOLFRAM WILL → evidenza che la traduzione è una specifica forma dell’elaborazione
cognitiva di un testo.
Descrive le relative difficoltà che si incontrano nel voler definire le capacità cognitive che egli
stesso individua con la metafora, in cui sottolinea che si tratta di un costrutto ipotetico in
quanto i processi mentali che si attivano nella mente di un traduttore sono oscuri e non
osservabili scientificamente.
E al contempo, è difficile riprodurre gli stessi meccanismi in un programma di traduzione
automatica dato i processi cognitivi non sono formalizzabili mediante algoritmi.
Questo perché le soluzioni adottate dai programmi sono deterministiche, limitate alla base
di dati archiviati.
La macchina può tradurre solo testi o porzioni di testi che sono già stati tradotti in
precedenza.

JUAN SAGER → L’autore riflette su alcuni aspetti della teoria della traduzione che
contribuiscono ad analizzare le implicazioni dell’introduzione delle tecnologie in un processo
traduttivo di tipo industriale. Affronta gli aspetti rilevanti della teoria della comunicazione per
la traduzione, ovvero gli aspetti teorici. Opera un confronto tra il processo della traduzione
umana e quello della traduzione automatica. Il suo modello si fonda sul concetto di
traduzione come modifica di un testo motivato dalle eventuali necessità di processi industriali
di comunicazione
multilingue. L’attività di traduzione inoltre deve essere intesa come un”process of
understanding” calcolato su 3 specifiche dimensioni: cognitiva, pragmatica e linguistica.
Sottolinea di come la differenza tra traduzione umana e traduzione automatica risiede nelle
differenti
caratteristiche dei due modelli:
- se nella traduzione umana le basi di conoscenza di un traduttore sono flessibili e
consentono al traduttore stesso di risolvere problemi mai incontrati in precedenza e sono in
continua espansione grazie all’esperienza che acquisisce con l’andare del tempo;
- nella traduzione automaticala struttura del computer è rigida e compartimentalizzata
essendo basata su delle connessioni prestabilite.
A proposito di ciò individua anche alcune limitazioni dei sistemi valide ancora con i nuovi
modelli neurali e sottolinea la mancanza di comprensione relativa all’incapacità da parte dei
sistemi automatici di trovare delle soluzioni utilizzando forme alternative, dal momento in cui
si presentano parole o espressioni intraducibili nella LA.
Problema meno frequente con la traduzione umana dato che il traduttore usa parafrasi,
sinonimi, iperonimi quando riscontra difficoltà di traduzione e risolve il problema
immediatamente e con tecniche diverse.
Dunque stiamo parlando di capacità inferenziali che richiedono la considerazione di unità
testuali che siano molto più ampie delle frasi per poter elaborare un tipo di soluzione
adeguata. Le capacità che possiede il traduttore umano sono sconosciute ai sistemi di
traduzione automatica dato che non possiedono conoscenze tali da individuare la funzione
dei testi, la rispettiva tipologia o altre caratteristiche pragmatiche importanti ai fini di una
corretta disambiguazione del messaggio del TP.
Potremmo dire che la traduzione automatica cerca di riprodurre il linguaggio naturale ma in
realtà produce un linguaggio artificiale privo del potenziale creativo, della flessibilità e
multifunzionalità che sono tipici e importanti del linguaggio umano.
La considerazione di Sager era applicabile per i sistemi di allora dato che erano basati su
un set definito di dati lessicali e sintattici. Ma potremmo affermare che al giorno d’oggi il
linguaggio artificiale prodotto dai sistemi si è enormemente evoluto a tal punto di avvicinarsi
al linguaggio umano.

LAURA SALMON → Riprende il raffronto tra intelligenza biologica e artificiale nel processo
traduttivo. Rileva l’esistenza di due categorie di strategie per risolvere i problemi: gli algoritmi
e le euristiche, in quanto afferma che sono proprio le strategie euristiche a far sì che la mente
umana affronti la traduzione diversamente dal computer.
( “scorciatoie cognitive” che consentono di ridurre complessità del contesto decisionale, per
prendere decisioni più semplicemente e rapidamente).
Un primo gruppo riguarda argomenti relativi alla teoria della traduzione di potenziale
interesse per la traduzione automatica. Mette in evidenza il ruolo della struttura informativa
di un testo e come questa possa presentare delle differenze in lingue diverse.
Un secondo gruppo di contributi è relativo alle ricerche sulla traduzione umana che sono
orientate alla traduzione automatica.
È interessante anche il contributo di BIRTE PRAHL e SUSANNE PETZOLT in quanto
secondo le autrici, una migliore comprensione del processo di traduzione umana può
migliorare le prestazioni dei sistemi automatici e dare anche delle indicazioni per una
profonda ed efficace interazione uomo-macchina quando viene utilizzata come strumento a
supporto della traduzione.
Notiamo di come viene discusso il concetto di "problema di traduzione" partendo dalla
istinzione di NORD tra:
- problema traduttivo → si riferisce alla difficoltà inerenti a un testo da tradurre per problemi
di ambiguità indipendentemente dal traduttore.
- difficoltà traduttiva → relativo alle difficoltà traduttive originate da fenomeni linguistici
problematici o da condizioni complesse nel processo traduttivo.
A questi due concetti viene contrapposto il termine translation mismatch usato negli studi
della traduzione automatica per riferirsi alla selezione dell’equivalente traduttivo errato da
parte di un dato sistema di traduzione.
Un altro aspetto importante è quello di distinguere tra potential e actual translation
problems dove i problemi traduttivi potenziali diventano reali quando sono caratterizzati da
4 fattori:
- prendere una decisione durante il processo,
- è presente un deficit informativo,
- in un momento specifico del processo traduttivo
- o in un certo contesto.
Un ultimo concetto discusso anche se brevemente è quello di translation target che indica
ciò che è importante in una data traduzione e dipende dall’ordine effettuato dal committente
in cui vengono precisate le circostanze rilevanti per la traduzioni:
Destinatario, tipologia testuale e funzione del testo tradotto.

Il translation target determina ciò che è rilevante e deve essere trasferito dal TP al TA in
base alla rilevanza dell’informazione.
Individuano infine due possibili strategie in assenza di informazioni che potrebbero essere
usate come modello per la traduzione automatica:
- reduction strategy→ facendo riferimento a un informazione non rilevante e si può usare
una generalizzazione;
- achievement strategy → ovvero informazione rilevante, il traduttore prova ad ottenere più
informazioni.
PAUL BENNET→ Ritiene che la traduzione automatica nonostante produca traduzioni non
comparabili a quelle umane può offrire spunti rispetto a una comprensione più accurata degli
aspetti psicolinguistici del processo traduttivo umano.
Il sistema di traduzione automatica mette in relazione: un testo di partenza (input) con un
testo d’arrivo (output) utilizzando una base di conoscenza (knowledge) sia monolingue che
bilingue per l’elaborazione del linguaggio naturale (processing).
Potremmo affermare che, anche se lentamente, la traduzione automatica a partire dalla fine
del secolo scorso ha iniziato ad assumere la propria importanza, continua ad essere in
continua evoluzione, continua ad essere considerata come una disciplina a sé stante in
quanto caratterizzata da elementi comuni con discipline come l’informatica e la linguistica
computazionale.
Di fatti, sottolineiamo che tutti i temi che cominciano ad essere sviluppati in questo periodo
diventeranno poi il principale punto di contatto tra: gli studi sulla traduzione automatica e
quelli sulla traduzione che riguardano:
- la formazione dei traduttori alla luce delle nuove competenze richieste dall’affermarsi delle
nuove tecnologie;
- qualità della traduzione automatica a confronto con quella umana.
Diventano particolarmente rilevanti per la professione del traduttore: la disponibilità di
sistemi commerciali, l’emergere dei sistemi di traduzione automatica online e l’uso della
traduzione nella formazione dei traduttori.

KIN CHIEW QUAH → sente la necessità di rivisitare la mappa di Holmes. Sostituisce la


denominazione translation aids con translation technology indicando le sottocategorie
necessarie per includere tutti gli sviluppi delle tecnologie.
Dunque la traduzione automatica è suddivisa a sua volta in sistemi stand-alone, sistemi
di reti e
strumenti di ausilio alla traduzione con le ulteriori sotto-classificazioni necessarie per dar
conto della varietà degli strumenti disponibili: memorie di traduzione, sistemi per la gestione
della terminologia, dizionari, glossari, sistemi e infine strumenti per la gestione della
documentazione e gestione dei progetti.

3. La svolta tecnologica dei translation studies.

L'attuale rapido progresso delle tecnologie e la loro diffusa adozione nell'ambito della
traduzione tecnica e in nel settore della localizzazione sono tali da far ipotizzare una svolta
tecnologica: non si tratta di una semplice constatazione dell'importanza delle tecnologie nel
lavoro del traduttore, ma riflette una visione in cui l'uso generalizzato di tutte le forme di
tecnologia nelle diverse fasi del lavoro ridefinisce il prodotto, il processo, influisce sugli scopi
della traduzione, sull'approccio cognitivo del traduttore, sulle modalità di lavoro e infine sulla
sua posizione sociale.

Uno studio condotto da CHRISTENSEN sui contributi di alcune riviste che si collocano
nell'ambito dei Translation studies e finalizzato a valutare in quale misura l'adozione della
tecnologia si rifletta nelle ricerche condotte nell'ambito dei Translation Studies, conferma
che le tecnologie della traduzione sono ormai parte integrante delle ricerche anche se la
prospettiva raramente è teorica, focalizzandosi piuttosto su aspetti che riguardano la
formazione dei traduttori, le pratiche lavorative o il prodotto.
MICHAEL CRONIN approfondisce la riflessione sulla traduzione nell'era digitale e tratta tutti
i diversi aspetti dell'uso delle tecnologie ai tempi di oggi, come ad esempio la traduzione
automatica online, il web semantico, le traduzioni ottenute attraverso l'uso del
crowdsourcing. Il libro si propone di esplorare i diversi aspetti legati alla rivoluzione
tecnologica dal punto di vista storico, sociale e culturale, suggerendo che i Translation
Studies possono contribuire a meglio comprendere le trasformazioni della società.
Cronin sottolinea come nell'era digitale queste siano fortemente sbilanciate in favore del
cosiddetto global English, ovvero l'inglese come lingua franca di un mondo
globalizzato. Ciò corrisponde a una visione in cui le lingue vengono rappresentate in termini
puramente strumentali,e così anche la traduzione, che è finalizzata trasportare un
messaggio da una lingua A a una lingua B nel più breve tempo possibile.
La disponibilità dei sistemi di traduzione automatica online rafforza questa visione
utilitaristica. Se da un lato la traduzione, assistita da potenti mezzi tecnologici, risponde al
suo scopo di rimuovere le barriere linguistiche,
dall'altro invece c'è da chiedersi quale sia la reale natura degli interessi economici in gioco
nell'economia digitale.
La traduzione però non è più appannaggio dei soli traduttori: pertanto così come altre forme
di conoscenza vengono condivise sul web tramite pratiche collaborative, la traduzione si
trasforma in wiki-translation, cioè rapida disseminazione di pratiche tipiche dei social
network nel campo della traduzione, generando da un lato nuove
necessità di traduzione ma dall'altro chiamando in causa pratiche lavorative nuove, mediate
dalle tecnologie.
Le tre principali caratteristiche di questa forma di traduzione sono:
- translation prosumption → riguarda la partecipazione attiva degli utenti delle tecnologie
per la traduzione presenti sul web alla creazione di contenuti multilingui, senza nessun
intervento da parte dei traduttori.
- post-print translation literacy → riguarda il modo in cui i contenuti vengono consumati.
pluri-subjectivity→ fa riferimento a una dimensione corale e comunitaria della traduzione
che ha due risvolti: da un lato un processo de-umanizzato per via dell'uso delle tecnologie,
dall'altro l'adozione delle tecnologie come strumento di intervento politico da parte di gruppi
di persone che usano strategicamente le risorse tecnologiche per creare contenuti ritenuti
rilevanti per una causa azione politica o sociale.

4. Approcci cognitivi.

Altri studiosi si sono interessati agli aspetti cognitivi del processo di traduzione e in
particolare a determinare se l'uso delle tecnologie influisca sul processo decisionale. In
questo filone si inseriscono le riflessioni di RISKU, che rileva che le tecnologie non devono
essere considerate come artefatti isolati, ma devono essere intesi come parte di una
complessa rete in cui i computer funzionano come estensione della memoria e delle
conoscenze degli esseri umani.

SHARON O'BRIEN individua alcune tematiche che potrebbero rivelarsi particolarmente


promettenti per gettare luce sul tipo di interazione che si stabilisce tra traduttore e
tecnologie. Alcuni suggerimenti riguardano le ricerche che analizzano la relazione esistente
tra i risultati delle metriche automatiche per la valutazione della qualità e lo sforzo cognitivo
necessario al traduttore nella fase di revisione di un testo tradotto automaticamente, oppure
l'applicazione della stilometria computazionale per verificare l'attribuzione autoriale e
l'omogeneità delle caratteristiche stilistiche dei testi allo scopo di misurare le similarità tra
testi usati negli esperimenti.
5. Approcci sociologici.

L'approccio sociologico, che indaga il ruolo degli agenti nel processo di traduzione,
considerandoli come parte di un più ampio sistema di relazioni sociali, considera la
tecnologia come agente non-umano ma che comunque ha un ruolo nel contesto sociale
della traduzione.
Tuttavia, come afferma OLOHAN, le teorie sociali della traduzione non trattano
adeguatamente il ruolo del la tecnologia e hanno trascurato il fatto che esse riflettano
relazioni moniche di potere.
L'autore propone di adottare la prospettiva dei Science and Technology Studies per
comprendere come l'obbligatorietà dell'adozione delle tecnologie siano condizionate dai
discorsi di gruppi sociali egemoni. Le scelte tecnologiche non sono mai neutrali: la scelta
di un certo modello rispetto ad un altro favorisce alcuni gruppi e indebolisce altri. In definitiva
la tecnologia opera in un sistema di capitalismo globale anche nel settore della traduzione
con conseguenze importanti sul lavoro dei traduttori, che vedono svalutata la loro
professionalità principalmente in termini economici dato che i lavori loro commissionati
riguardano la revisione di testi già pre-tradotti dalle tecnologie della traduzione.
È proprio questo aspetto che viene approfondito dagli studi critici della traduzione, un filone
di ricerca che riguarda la crescente limitazione del ruolo del traduttore che con
l'introduzione della tecnologia ha visto progressivamente restringere il suo intervento a una
serie di esercizi di pure e semplici sostituzioni linguistiche.
La tecnologia, e in particolare le tecnologie cloud che hanno consentito di avere degli
ambienti di lavoro su Internet aperti e gratuiti, ha però anche fatto sì che il lavoro dei traduttori
venisse riutilizzato per scopi di addestramento e miglioramento dei sistemi; ciò ha una serie
di implicazioni etiche, dal momento che questo contributo di fatto non viene riconosciuto né
moralmente né economicamente.

DOROTHY KENNY, ad esempio, solleva la questione che vi siano degli obblighi etici da
parte di chi sviluppa tecnologie rispetto all'uso dei contenuti prodotti dagli utenti, soprattutto
quando questi vengono riutilizzati per migliorare il processo di traduzione automatica, come
nel caso dell'approccio statistico.
Il ruolo dei traduttori nella creazione dei corpora paralleli necessari per l'addestramento dei
sistemi è ignorato. Questo argomento viene ripreso da vari altri studiosi, tra cui Moorkens:
vengono suggerite alcune contromisure, come ad esempio un'azione collettiva per
massimizzare gli sforzi contro pratiche che tendono a indebolire la categoria e la
rivendicazione della proprietà intellettuale dei dati prodotti durante il processo di traduzione.

O'HAGAN effettua invece un'analisi critica delle nuove pratiche di traduzione fondate sulla
tecnologia. Analizza la una nuova forma emergente di traduzione che basandosi sulle
tecnologie per sostenere una attività di traduzione fa si che questa sia aperta all'apporto di
partecipanti su vasta scala come nel caso di Wikipedia e Facebook.
Se da un lato gli utenti di Internet possono disporre di ambienti tecnologici per condividere
dei progetti di traduzione, dall'altro le tecnologie pongono dei limiti all'autonomia attraverso
dei meccanismi di controllo dell'operato di chi traduce: in Wikipedia è concesso un livello
alto di autonomia agli utenti, ma dipende dal grado di conoscenze tecniche dei membri della
comunità, mentre Facebook costringe chi collabora a localizzare la sua interfaccia o a
migliorare il suo sistema di traduzione automatica a operare secondo degli schemi
predefiniti, limitandone dunque la libertà di azione.

CHRISTIAN HARDMEIER osserva come la traduzione automatica di tipo statistico si basi


su un concetto di traduzione invalso negli anni '60 e '70.
Sia i sistemi statistici basati sulla parola che quelli basati sulle cosiddette phrases, così
come i sistemi gerarchici mappano elementi linguistici della lingua di partenza con elementi
della lingua di arrivo che si presume abbiano lo stesso significato o che veicolino lo stesso
messaggio.
CAPITOLO 3: STORIA: DALLA ZAIJRA A GOOGLE TRADUTTORE.

1. Sogno della macchina intelligente.

La traduzione automatica ripropone in termini moderni uno dei più antichi sogni dell’uomo,
ovvero la possibilità di costruire una macchina intelligente in grado di pensare e agire come
un essere umano. Negli ultimi anni si è avuta una svolta nella diffusione dei sistemi di
traduzione automatica: infatti, mentre in passato questo tipo di tecnologia era adottato da
un numero limitato di utenti, ora invece, grazie alla diffusione dei servizi online, ha raggiunto
una notevole popolarità presso il grande pubblico.

2. Precursori.

L'idea di un meccanismo in grado di riprodurre il ragionamento umano sale addirittura al XIII


secolo, quando il filosofo catalano RAMON LLULL, nei suoi viaggi tra Spagna e Africa del
Nord si imbatté nella Zairja, una macchina pensante basata sulle 28 lettere dell'alfabeto
categorie filosofiche, usata dagli astrologi arabi. Llull immagina una versione cristiana della
Zairja, basata su dogmi medievali, destinata a risolvere ogni problema di teologia,
metafisica, morale per arrivare alla verità senza doversi preoccupare di pensare. La
concepisce come strumento in grado di produrre conoscenza per convertire alla fede
cristiana i Musulmani attraverso la logica. A tale scopo inventò le cosiddette rotule Lulliane,
costituite da due o più dischi di carta sovrapposti su cui venivano riportate delle lettere o dei
simboli che si riferivano ad una lista di attributi: i dischi si potevano ruotare singolarmente
per generare un gran numero di combinazioni.

Le idee di Ramon Llull furono riprese successivamente da LEIBNIZ che sviluppò la prima
idea di un dizionario basato su codici numerici per tradurre da e verso altre lingue.

3. Sistemi di traduzione automatica.

Il primo vero impulso allo sviluppo di sistemi di traduzione automatica si ebbe solo nel
1933, quando GEORGES ARTSROUNI, brevettò una macchina per tradurre dal nome
Cerveau mécanique → un dispositivo meccanico azionato da un motore elettrico per
registrare e recuperare informazioni su un'ampia striscia di carta che passava dietro una
tastiera. La progettò per utilizzarla per dietro una tastiera. ferroviari, i conti bancari, e
soprattutto come dizionario meccanico n linea del nastro conteneva una parola sorgente
(nella lingua di partenza) e le equivalenze in diverse altre lingue (lingue di arrivo); ad ogni
entrata corrispondevano delle perforazioni su un secondo nastro, di carta o di metallo che
funzionavano come meccanismo di selezione.
Sempre nel 1933, SMIRNOV-TROJANSKIJ sviluppò un primo prototipo di traduttore
meccanico, modellato su una sequenza di tre diverse fasi del processo di traduzione.
Nella prima fase un traduttore, madrelingua della lingua di partenza, effettuava l'analisi
logica delle parole e della loro funzione sintattica nel testo di partenza: tutte le parole flesse
venivano sostituite dalle equivalenti forme canoniche (ad esempio il nominativo per i
sostantivi, l'infinito per i verbi, ecc.).
Nella seconda fase, la macchina trasformava le seforme canoniche e di funzioni in
sequenze analoghe nella lingua di arrivo.
Nella terza e ultima fase, un traduttore monolingue della lingua di arrivo convertiva il risultato
della fase precedente nel testo corrispondente nella lingua di arrivo.
La macchina ideata da Trojanskij era a tutti gli effetti un dizionario automatico, ma l'inventore
riteneva che anche il processo di analisi logica potesse essere automatizzato, mediante la
creazione di una macchina dedicata.

4. Gli inizi.

Il vero inizio della traduzione automatica si ebbe solo con l'avvento del calcolatore e con il
diffondersi delle idee sugli universali linguistici, ovvero regole comuni a tutte le lingue
naturali, che rappresentavano una base ideale per la realizzazione di un software in grado
di tradurre da una lingua naturale ad un'altra senza alcun intervento da parte
dell'uomo.
Gli storici della materia fanno risalire tale inizio alle conversazioni e alla corrispondenza che
ebbe luogo nel 1947 tra ANDREW BOOTH e WARREN WEAVER; il documento prende il
nome di Translation ed è costituito da 12 pagine su metodi e strategie efficienti per la
sperimentazione della traduzione parola per parola. Weaver sottolineava come uno
strumento automatico potesse essere utile per la traduzione di grandi volumi di testi
tecnici. Avanza alcune possibili proposte per risolvere il problema dell'ambiguità del
linguaggio naturale attraverso l'uso del contesto per la soluzione di problemi di polisemia,
considerando il rapporto tra logica e linguaggio scritto, così come il rapporto tra crittografia
e traduzione. L'idea della traduzione-crittografica fu influente per la successiva evoluzione
della traduzione automatica che si è sviluppata a partire dalle tecniche crittografie.
Nel 1951, BAR-HILLEL pubblicò un breve saggio in cui fu chiaro che il sogno di una
traduzione automatica paragonabile qualitativamente a quella umana non era fattibile e che
la ricerca doveva orientarsi verso obiettivi più fattibili, ovvero quella che lui definiva mixed
MT, cioè un processo di traduzione in cui il traduttore umano interviene prima o dopo il
processo traduttivo perché solo in questo modo si può ottenere una traduzione accurata.
Si formarono così agli inizi degli anni '50 negli Stati Uniti e in Europa i primi gruppi di ricerca.
Nel 1954 ebbe luogo la prima dimostrazione di un sistema di traduzione automatica basato
su un vocabolario di 250 parole e 6 regole sintattiche in grado di tradurre in inglese un
insieme di 49 frasi russe. Questo fu il risultato di un progetto dell'università di Georgetown
utilizzando il modello IMB.

5. Gli anni '50 e '60: euforia iniziale e disillusione.

Dall'esperimento Georgetown-IMB in poi si verificarono importanti progressi nella


progettazione e nel funzionamento di programmi di traduzione. Tra gli anni '50 e '60 si
assistette a un gran fermento. Gruppi di ricerca negli Stati Uniti, Unione Sovietica e Regno
Unito lavoravano alla realizzazione di prototipi per dimostrare la fattibilità di traduzione
automatica.
Nella maggior parte dei casi l'approccio empirico adottato era il metodo della traduzione
diretta, ovvero lo sviluppo di sistemi per tradurre da una lingua di partenza ad un lingua
d'arrivo avvalendosi di semplici regole di corrispondenza e di una analisi sintattica; questo
approccio implicava lo sviluppo di dizionari bilingui che fornissero singole equivalenze più
generiche possibili per le entrate lessicali della lingua di partenza.
Negli anni '60 la ricerca nel campo della traduzione automatica si orientò alla realizzazione
di grammatiche formali concentrandosi sugli aspetti semantici del linguaggio (sull'onda
della grammatica generativa di Chomsky).
Ma divenne evidente che la sintassi da sola rappresentava una base insufficiente per la
traduzione automatica. L'idea del linguaggio universale basato su principi sintattici si
scontrò con il problema dell'ambiguità e complessità del linguaggio naturale. Quindi
superare le barriere semantiche divenne il nuovo problema dei gruppi di ricerca.
La ricerca si orientò verso lo sviluppo di sistemi basati su modelli semantici, che si
ritenevano potessero operare in maniera più efficace rispetto ai modelli sintattici. Alcuni
gruppi esplorarono le possibilità di un approccio a interlingua in cui la rappresentazione
astratta fosse indipendente sia dalla lingua di partenza che dalla lingua di arrivo.
Vennero avviate ricerche linguistiche di base ma la convinzione prevalente era che solo i
progressi nell'intelligenza artificiale avrebbero potuto risolvere dei problemi linguistici e
cognitivi relativi alla traduzione.
L'idea di un metalinguaggio basato su universali linguistici venne abbandonata in favore di
un approccio più pragmatico, ovvero l'approccio a transfer. Questo approccio prevedeva
3 fasi: analisi, transfer e ristrutturazione
In cui il transfer rappresenta il passaggio del messaggio del testo di partenza nella lingua
di arrivo.
Ma l'iniziale euforia iniziò a calare a causa degli scarsi risultati ottenuti dalla ricerca in
questo periodo. In più si affermava che una traduzione automatica di alta qualità era
impossibile da realizzarsi e non vi era la necessità di utilizzare sistemi di traduzione
automatica per la loro scarsa qualità e i costi erano onerosi.

6. Gli anni '70 e '80: la rinascita.

La comunità scientifica non condivideva l'approccio negativo nei confronti della traduzione
automatica e iniziarono a formarsi più gruppi di ricerca in Canada e in Europa.
La ricerca in Europa vide come attori principali:
-Francia → dove si sviluppò il sistema Ariane, un sistema a transfer di seconda
generazione. Alla fine degli anni '80 si ebbe la prima realizzazione di un servizio di
traduzione automatica in rete ad uso del grande pubblico.
-Germania → dove si sviluppò il sistema multilingue a transfer che integrava diverse
tecnologie di analisi e generazione del linguaggio naturale.
- Olanda → dove si sviluppò il sistema DLT, un sistema interattivo multilingue che operava
in rete.
Lo sviluppo più interessante degli anni '80 fu però la diffusione dei primi prodotti commerciali
per la traduzione automatica: SYSTRAN e LOGOS; quest'ultima ampliava il numero di
clienti e delle coppie di lingue. Un ulteriore passo in avanti per la commercializzazione dei
sistemi di traduzione automatica/assistita di ebbe con la
progettazione di sistemi che potessero essere utilizzati su personal computer.

7. Gli anni '90: la tecnologia al servizio del traduttore.

Gli anni '90 furono caratterizzati da un pluralismo di orientamenti nella ricerca. Questo
pluralismo si rifletté in una varietà di approcci che videro coesistere sistemi basati sulla
semplice traduzione parola per parola o sull'approccio a transfer con sistemi. In questo
periodo iniziarono anche le ricerche nel campo della traduzione
automatica del parlato.
Dall'inizio degli anni ’90 si andò però affermando un approccio più pragmatico e più attento
alle reali necessità degli utenti: venne abbandonato il mito di una macchina capace di
tradurre come un essere umano, per fornire al pubblico strumenti realmente utilizzabili e
soprattutto realmente di ausilio al processo di traduzione.
Ed è per questo motivo che dalla metà degli anni '90 si ebbe un rapido incremento nel
numero e nelle tipologie di sistemi di traduzione disponibili: traduzione automatica, sistemi
di traduzione assistita, ambienti di lavoro per il traduttore, memorie di traduzione, sistemi on-
line forniti su Internet.

8. Servizi di traduzione automatica su Internet.

Il continuo progresso della società dell'informazione ha profondamente modificato i modi, i


tempi e i luoghi della comunicazione sia nella sfera pubblica, sia in quella personale. Le
nuove tecnologie dell'informazione e la progressiva digitalizzazione delle informazioni hanno
rivoluzionato:
- i tipi di comunicazione (libri, giornali in forma elettronica, biblioteche con cataloghi
elettronici);
- i metodi di trasmissione (televisione via satellite, Internet);
- i testi scritti (microfilm, database, testi multimediali);
- la comunicazione orale (videotelefono, videoconferenza, telefoni cellulari, telefoni
satellitari).
l fenomeno che più di tutti caratterizza questa rivoluzione è sicuramente l'utilizzo di Internet
come vetrina sul mondo con siti web multilingui. Una conseguenza immediata dell'ampia
diffusione di questo nuovo strumento è comunicazione è diventata veramente globale. Le
barriere geografiche sono state abbattute e la richiesta di localizzare i contenuti e le
informazioni dei siti web è cresciuta in maniera esponenziale.
CAPITOLO 4: L'EVOLUZIONE TECNOLOGICA.
1. Approcci linguistici.

Fino agli anni ‘90, tutta la tecnologia si basava su approcci che usano risorse linguistiche,
dizionari e grammatiche.
Questo approccio è chiamato APPROCCIO A REGOLE che raggruppa 3 diverse strategie:
– metodo a traduzione diretta → che trasferisce il testo di partenza nella lingua di arrivo
mediante regole molto semplici;
– metodo a interlingua → che usa una rappresentazione astratta del significato;
– approccio a transfer → che si fonda su una rappresentazione astratta intermedia e usa
informazioni morfologiche, sintattiche e talvolta anche semantiche. Prevede 3 fasi: analisi,
transfer e ristrutturazione.

Sistemi diretti o di prima generazione.


I SISTEMI DIRETTI o di PRIMA GENERAZIONE si sono sviluppati negli anni ‘50-’60. Si
chiamano diretti in quanto la traduzione viene effettuata direttamente dalla lingua di partenza
nella lingua di arrivo senza alcun passaggio intermedio.
Sono sistemi progettati per una specifica coppia di lingue in un’unica direzione (sistemi
unidirezionali), ovvero i testi di partenza vengono analizzati solo per generare i testi in una
specifica lingua di arrivo.
Questi sistemi sono caratterizzati da:
– processo di traduzione rudimentale → la traduzione viene effettuata tramite una semplice
trasposizione di una sequenza di parole della lingua di partenza in una equivalente
sequenza di parole nella lingua di arrivo;
– mancanza di analisi delle strutture sintattiche o di relazioni semantiche → sono assenti i
moduli di analisi e generazione a livello sintattico e semantico, così come sono stati adottati
nei sistemi indiretti.
In questo tipo di sistemi, il processo di traduzione si consiste di 3 fasi:
– analisi morfologica → analisi del testo della lingua di partenza mediante il riconoscimento
delle forme flesse
delle parole del testo attraverso un processo di lemmatizzazione;
– traduzione mediante l’utilizzo di un dizionario bilingue → si reperisce la
corrispondenza nella lingua di arrivo nel dizionario bilingue;
– riorganizzazione locale del testo → per rispecchiare l’ordine delle parole nella lingua di
arrivo in base a delle semplici regole.
Tra i sistemi a traduzione diretta, MÉTÉO rappresenta un caso di successo perché dimostrò
la fattibilità dellatraduzione automatica traducendo i bollettini del meteo in Canada
dall’inglese al francese. Era un processo composto da quattro fasi:
– decodifica e selezione dei messaggi;
– riconoscimento delle sezioni contenenti i bollettini;
– traduzione tramite software;
– riassemblaggio dei messaggi nella lingua di arrivo.
Sistemi indiretti o di seconda generazione.
I SISTEMI INDIRETTI o di SECONDA GENERAZIONE si avvalgono di un passaggio
intermedio tra l’analisi della lingua di partenza e la generazione nella lingua di arrivo. A
seconda del grado di astrazione di questo passaggio intermedio abbiamo due tipologie di
sistemi indiretti: sistemi a transfer & sistemi a interlingua.

Sistemi a transfer.
I SISTEMI A TRANSFER si strutturano di 3 fasi:
- analisi → l traduttore analizza il testo di partenza per interpretare il messaggio attraverso
la trasformazione della struttura superficiale del testo in quella profonda e l’individuazione
delle frasi kernel.
- transfer → trasferiamo il messaggio del testo di partenza nella lingua d’arrivo.
-ristrutturazione (o generazione) → abbiamo la ristrutturazione del messaggio secondo le
caratteristiche proprie della lingua d’arrivo.
Analisi e generazione sono due moduli indipendenti dalla specifica coppia di lingue e
possono essere riutilizzati per altre coppie, mentre il transfer è specifico di una coppia.
A differenza dei SISTEMI DIRETTI, i sistemi a transfer sono caratterizzati da una maggiore
modularità e riutilizzabilità dei dati linguistici, non essendo le diverse componenti legate
alle coppie linguistiche se non il modulo transfer strettamente inteso.
A differenza dei SISTEMI A INTERLINGUA, il modulo transfer consente una maggiore
flessibilità nella definizione della rappresentazione intermedia: non è infatti necessario
arrivare ad un grado di astrazione tale da definire una struttura universalmente valida per
tutte le lingue (indipendente da qualsiasi lingua), ma è sufficiente definire una
rappresentazione intermedia valida per una specifica coppia di lingue. Sistema utilizzato per
SYSTRAN e LOGOS.

Sistemi a interlingua.
I SISTEMI A INTERLINGUA si basano sulla convinzione che sia possibile convertire testi
da e verso una rappresentazione comune a più di una lingua. I sistemi a interlingua
consistono in due fasi:
– analisi → la prima fase è rappresentata dal passaggio dalla lingua di partenza
all’interlingua. Il processo di analisi della lingua di partenza a livello lessicale, semantico e
sintattico ha come risultato una rappresentazione astratta.
– generazione → la seconda fase è rappresentata dal passaggio dall’interlingua alla lingua
di arrivo.
Sono caratterizzati da:
– moduli di analisi e generazione indipendenti → l’analisi della lingua di partenza produce
una rappresentazione indipendente sia dalla lingua di partenza che dalla lingua di arrivo
perché si utilizzano linguaggi formali o artificiali.
– possibilità di aggiungere “in modo economico” nuove lingue → i sistemi a interlingua
sono per definizione sistemi multilingui, in quanto la rappresentazione astratta essendo
indipendente dalle specifiche lingue naturali è di fatto comune a tutte le lingue.

2. Approcci empirici.

Sistemi basati su esempi.


A differenza dei sistemi linguistici, l'idea di base sviluppata da questo approccio è che i testi
di partenza offrano una immensa base di dati che può essere sfruttata per realizzare la
traduzione di testi.
Fu proposto da MAKATO NAGAO che suggerì di seguire il principio dell’analogia → che
si basa sull'ipotesi che il processo di traduzione umana procede alla decomposizione di un
testo mediante il riconoscimento di stringhe di testo e al richiamo delle corrispondenti
traduzioni, piuttosto che all’analisi linguistica profonda del testo.
Il sistema ricorre ad esempi estratti da un database di testi originali allineati con le
corrispondenti traduzioni ovvero a corpora paralleli. L'idea di base è che si possano tradurre
automaticamente recuperando in un database bilingue traduzioni effettuate in precedenza.
Non prevede regole di tipo sintattico o semantico e non c’è possibilità di scelta tra diverse
proposte di traduzione.
Questo sistema si compone di 3 fasi:
- matching → analisi del testo di partenza per l'individuazione delle unità di traduzione già
presenti nel database bilingue che mostrano una similarità col testo di partenza;
- allineamento → le unità di traduzione identificate nel testo di partenza vengono allineate
con esempi di
traduzione ed estratte dal database bilingue;
- ricombinazione → il sistema propone al traduttore le traduzioni che ha individuato nel
database come traduzioni possibili delle unità di traduzione del testo di partenza.

Sistemi statistico.
L'APPROCCIO STATISTICO è stato il modello predominante nella traduzione automatica
fino a qualche anno fa (es. Google Traduttore e Bing...). È basato su dati (data-driven) e
tecniche di apprendimento automatico (machine learning) e sul principio della probabilità
di distribuzione p(e|f), dove e nella lingua di arrivo è la traduzione statisticamente più
frequente di una stringa nella lingua di partenza.
Nei sistemi statistici non viene usata alcuna conoscenza linguistica esplicita, cioè dizionari
o grammatiche; ma la fonte principale principale di informazioni linguistiche è fornita da
corpora paralleli e corpora monolingui.
- Corpora paralleli → modello traduttivo per computare nella lingua di arrivo le traduzioni
più frequenti per una parola o per una stringa di parole contigue della lingua di partenza.
- Corpora monolingui → modello linguistico della lingua di arrivo per misurare quanto è
probabile che una determinata parola o sequenza di parole, il loro ordine e i costrutti
grammaticali corrispondano all’uso reale nella lingua di arrivo.
Durante la fase di traduzione, il sistema segmenta il testo in sequenze di parole e produce
in base al translation model tutte le possibili ipotesi di traduzione computando le sequenze
di parole più frequenti nella lingua di arrivo che corrispondono alle sequenze di parole
identificate nel testo di partenza. Successivamente il sistema calcola in base al language
model quali frasi nella lingua di arrivo ottenute dalla ricombinazione dei segmenti tradotti
tendono ad apparire più frequentemente nella lingua di arrivo.
Ci sono tre diversi tipi di approcci statistici:
– basato sulla parola;
– su una sequenza di parole;
– su modelli sintattici.

Problema delle possibili asimmetrie tra le lingue è stato affrontato raffinando i modelli
mediante:
– criterio della fertilità → che indica il probabile numero di parole nella lingua di arrivo
corrispondenti ad una parola nella lingua di partenza;
– criterio della distorsione → che permette di avere delle posizioni vuote durante
l’allineamento da eventualmente riempire con parole non presenti nel testo di partenza.
Non vengono generalmente impiegate informazioni linguistiche. Ma alcuni studi hanno
riconsiderato la loro importanza per migliorare i risultati →
MODELLO FATTORIZZATO → le informazioni linguistiche sono integrate nella fase di pre-
processing o post-processing del sistema per migliorare i risultati.

Sistemi ibridi.
Un'altra tendenza è rappresentata dall'integrazione in SISTEMI IBRIDI di approcci linguistici
con approcci di tipo statistico.

SISTEMI STATISTICI
– Vantaggi → la possibilità di un rapido sviluppo a basso costo e, se addestrati in maniera
appropriata, con corpora paralleli e monolingui, dalla relativa fruibilità delle traduzioni.
– Svantaggio → necessità di disporre di grandi quantità di dati.
SISTEMI BASATI SU REGOLE
– Vantaggi → le risorse linguistiche forniscono una descrizione dei fenomeni linguistici e
producono meno imprecisioni, possono più facilmente essere controllate, corrette e usate
anche per altre applicazioni di trattamento automatico del linguaggio
– Svantaggi → cicli di sviluppo lenti, da alti costi e dalla mancanza di robustezza se l’input
contiene errori.
Tre diversi tipi di architettura:
– accoppiamento di sistemi (seriali o paralleli);
– adattamenti delle architetture, che integrano nuove componenti nelle architetture di tipo
statistico o a regole linguistiche, sia mediante pre/post-editing, o attraverso modifiche
sostanziali del sistema;
– reali sistemi ibridi, che combinano componenti appartenenti a paradigmi differenti:
identificazione di blocchi di parole nella LP, trasformazione dei blocchi nella LA tramite
risorse bilingue e generazione della frase nella LA.

Sistemi neurali.
La TRADUZIONE AUTOMATICA NEURALE è basata su un modello matematico utilizzato
per applicazioni di intelligenza artificiale composto da neuroni artificiali.
I sistemi neurali anno la capacità di modellare direttamente e senza passaggi intermedi
l’associazione di un testo nella lingua di partenza alla traduzione in una lingua di arrivo.
Sono costituiti da gruppi definiti di neuroni artificiali, solitamente indicati con il termine livelli
(layer), connessi tra loro:
- livello di input
- livello nascosto → livello intermedio tra il livello di input e di output, dove avvengono le
operazioni di calcolodella soluzione. Le reti possono essere costituite da livelli nascosti,
ovvero non visibili come output, necessari per il cosiddetto deep learning, ovvero il processo
di apprendimento e trasmissione delle informazioni a livello profondo nella rete. I livelli
nascosti aumentano in funzione della complessità della rete;
- livello di output
Ogni neurone artificiale rappresenta un nodo della rete e ogni nodo è connesso ad altri nodi
su livelli successivi.
Ogni connessione della rete prende un input e lo moltiplica per un peso, che può essere
inteso come l’impatto (o la forza) che un determinato nodo esercita sul nodo successivo, a
cui è collegato. La trasmissione di informazioni avviene attraverso l’invio di stimoli
finalizzati all’attivazione dei neuroni che si trovano su diversi livelli, posti in sequenza.
L’output di una rete neurale può essere definita come una rete di concetti, rappresentati da
valori numerici che quanto più sono prossimi tanto più indicano che i concetti sono correlati.
I sistemi neurali utilizzano il contesto dell’intera frase per estrapolare le informazioni
sintattiche e semantiche necessarie a modellizzare la traduzione.
Architettura → SEQ2SEQ (ovvero dall’inglese sequence to sequence), composta da un
codificatore che converte una frase in un vettore di “significato” trasferito nella fase ad un
decodificatore che produce una traduzione.
Le reti neurali apprendono autonomamente dai dati e sono in grado di imparare dagli errori,
correggendo automaticamente i parametri durante la fase di apprendimento, che
generalmente dura poche settimane.
L’apprendimento avviene comparando l’output generato dal sistema con dei riferimenti
corretti attraverso la minimizzazione della cosiddetta funzione obiettivo o di costo che calcola
la differenza tra un risultato previsto e il risultato ottenuto.
CAPITOLO 5: IL PROCESSO DI TRADUZIONE AUTOMATICA E KE COMPETENZE DEL
TRADUTTORE.
A testimonianza del fatto che le commesse relative al miglioramento delle traduzioni
automatiche siano ormai considerate una quota importante del mercato dei servizi, nel 2017
è stato emesso uno standard internazionale che sancisce il post-editing come servizio di
traduzione a se stante, definendo anche i requisiti e le competenze dei post-editor.
Il processo di traduzione basato sulla traduzione automatica richiede una organizzazione
diversa e competenze ed abilità tecnologiche e procedurali specifiche da parte dei traduttori.
L’intervento umano avviene o prima della traduzione automatica nella fase di pre-editing o
dopo in quella del post-editing.

1. Pre-editing e uso dei linguaggi controllati.


Il PRE-EDITING è finalizzato all’ottenimento di un testo di partenza privo delle ambiguità e
complessità che rendono difficile l'elaborazione da parte dei motori di traduzione automatica.
L'obiettivo principale è quello di agire a monte del processo per ridurre i tempi di revisione
del testo di arrivo. Si tratta di una fase monolingue, condotta unicamente sul testo di
partenza, senza necessariamente dover conoscere la lingua in cui il testo verrà tradotto.
Importante è che il pre-editor dovrebbe prevedere le difficoltà che possono avere impatto
negativo sul risultato finale.
Gli interventi riguardano l’eliminazione di:
- errori ortografici e grammaticali;
- parti ambigue o complesse del testo attraverso interventi di esplicitazione:
- semplificazione o normalizzazione (ad esempio nel caso di testi non standard come
discussioni in chat, tweet con uso abbreviazioni e acronimi, uso di espressioni gergali o
dialettali, etc.).
Altra forma di pre-editing riguarda l'uso di linguaggi controllati o semplificati che hanno lo
scopo di semplificare la leggibilità e la riusabilità dei documenti tecnici e di testi specialistici
attraverso una scrittura chiara e coerente. Si tratta di lingue nate a tavolino e derivate da
lingue naturali, come ad esempio l’inglese o il tedesco, sviluppate per rendere la
documentazione tecnica facilmente comprensibile, riducendo la possibilità di interpretazioni
errate da parte dei lettori.
I vantaggi dell'uso dei linguaggi controllati in traduzione sono evidenti: consentono di
redigere testi facilmente elaborabili dai sistemi automatici, e di migliorare la qualità del
risultato finale in termini di comprensibilità, rendendo più efficiente la fase di post-editing.
Uno svantaggio è però rappresentato dal fatto che gli autori sono limitati nella
redazione dei testi e impiegano molto tempo per imparare le regole.

2. Post editing.

Il POST-EDITING consiste nell'attività di revisione di testi tradotti automaticamente. Si


distinguono due diversi livelli di post-editing:
– light post-editing → attività di revisione minima del testo tradotto automaticamente e si
focalizza su errori che comprendono il senso del testo e la corretta interpretazione da parte
del ricevente. Il risultato finale è quello di ottenere un testo comprensibile, ottenuto col
minimo sforzo di revisione. Si utilizzare per ottenere documenti tradotti a uso interno, non
pubblicabili.
– full post-editing → intervento di revisione sul testo tradotto automaticamente che ha
come risultato finale un testo pubblicabile e teoricamente non distinguibile da testi tradotti
da traduttori professionisti.
3. Competenze del traduttore nell'era digitale.

L’uso della tecnologia agevola il lavoro del traduttore perché non deve più tradurre da
zero ma si può avvalere di un testo pre-tradotto dalla macchina e quindi apportare i
miglioramenti necessari nella fase di post-editing; può avvalersi delle tecnologie cloud per
accedere a piattaforme online su cui condividere lavori, strumenti e risorse con altri colleghi.
Ora sembra sempre più concretizzarsi l'idea di strumenti molto più intelligenti dotati di
conoscenze linguistiche rispetto al contesto. Infatti si parla di transcreation → processo di
traduzione che si colloca fra la traduzione e il copywriting e che richiede un mix articolato
di competenze, ma soprattutto la creatività del traduttore.
Chi è il post-editor? → KOBY afferma che chiaramente deve essere un traduttore perché
solo un traduttore può giudicare l'accuratezza di una traduzione, in quanto è in grado di
rilevare gli errori nella traduzione automatica; haun fondo di conoscenze sul trasferimento
transnazionale di concetti e ha a disposizione risorse tecniche che
sa come usare in caso di dubbi.
In tempi recenti è stata sperimentata la possibilità di usare post-editor monolingui, senza
alcuna conoscenza della lingua di partenza, specialmente se sono supportati da strumenti
per l’analisi linguistica delle frasi di partenza.
PYM sottolinea la necessità di riconfigurare il ruolo e la funzione del traduttore. Si
suggeriscono una lista iniziale di 10 competenze di base articolate su 3 ambiti che si
riferiscono principalmente alla competenza del "saper fare" (know-how) del traduttore:
learning to learn, learning to trust and mistrust data, e learning to revise with attention
to detail.

RICO PÉREZ & TORREJÓN forniscono invece una descrizione dettagliata del profilo,
delle competenze e delle abilità del post-editor: competenze liguistiche, competenze di base
e competenze strumentali→ cioè abilità tecniche che consentono al post-editor di avvalersi
delle tecnologie; quindi sono competenze riguardo la conoscenze dei sistemi di traduzione
automatica, la gestione della terminologia, la manutenzione dei dizionari, la valutazione della
qualità, il pre-editing mediante linguaggi controllati e conoscenze di programmazione.
Nell’ambito dell’European Master's in Translation (EMT), è stato elaborato l’EMT
Competence Framework → un quadro di riferimento riguardante le competenze necessarie
per un traduttore, divenuto uno standard.
Oltre a saper utilizzare le principali applicazioni per il lavoro d'ufficio e i motori di ricerca, i
traduttori devono:
- conoscere i principi basilari della traduzione automatica e di traduzione assistita e del
loro impatto sui processi di traduzione;
- valutare la rilevanza dei sistemi di traduzione automatica nel processo di traduzione e
adottare il sistema più appropriato quando necessario;
- adottare altri strumenti a supporto delle tecnologie linguistiche e di traduzione come
ad esempio i software di gestione del processo di traduzione.
CAPITOLO 6: QUALITÀ E VALUTAZIONE DELLA TRADUZIONE.
1. Dal rapporto ALPAC al Framework for the evaluation of machine translation in ISLE.
Anche se la qualità non è ancora comparabile alla traduzione umana, la traduzione
automatica e la traduzione assistita sono sempre più integrati nel processo di traduzione.
L’uso di questi strumenti, in particolare in ambito industriale, ha un vantaggio significativo in
termini di tempo e costi.
La valutazione della qualità è una delle preoccupazioni principali degli sviluppatori e ancor
più degli utenti; ma se la valutazione della traduzione umana non è un compito semplice, la
valutazione di quella automatica lo è ancora di più. Il vero problema è che ancora c'è poco
accordo su quali siano i parametri da considerare quando bisogna valutare le traduzioni
grezze.

Primo tentativo di valutare la traduzione automatica risale al rapporto ALPAC del 1996 per
studiare la fattibilità della traduzione automatica e soprattutto i risultati ottenuti in termini di
qualità, velocità e costi. Non c'erano allora ancora modi affidabili per valutare la qualità,
perciò si fece riferimento ad un esperimento condotto da JOHN CARROLL che confrontava
traduzione automatica e traduzione umana. L’esperimento di valutazione della traduzione di
frasi selezionate dal russo all’inglese si basava su criteri di intelligibilità e fedeltà.
Intellegibilità → una traduzione che può essere letta agevolmente ed è facilmente
comprensibile, similmente a qualsiasi testo nativo nella lingua di arrivo; viene dunque usata
per valutare la traduzione automatica come testo indipendente nella lingua di arrivo, senza
alcun confronto con il testo di partenza.
Fedeltà → usato in connessione con il concetto di accuratezza, senza però definirlo con
precisione. La fedeltà si valuta confrontando il testo di arrivo con quello di partenza, di cui si
misura il grado di informatività; se per capire la traduzione è necessario ricorrere al testo
originale allora la traduzione è di scarsa qualità.
Un documento importante rispetto al dibattito sulle metodologie da adottare nella
valutazione è il VAN SLYPE REPORT, ovvero studio commissionato dalla Commissione
Europea. Lo studio pone l’accento sul fatto che la qualità è un concetto relativo: la qualità
della traduzione non è un concetto assoluto e deve essere essere
valutata applicando diversi criteri; criteri che illuminano ogni aspetto speciale della qualità
della traduzione (tenendo conto della natura specifica della traduzione automatica, che è un
prodotto molto diverso dalla traduzione umana).
La valutazione deve essere condotta su due livelli:
– macrovalutazione (o valutazione complessiva) → con lo scopo di valutare il grado di
accettabilità del sistema di traduzione, confrontare la qualità di sistemi diversi o di versioni
diverse di uno stesso sistema e infine valutare l’usabilità del sistema di traduzione
automatica.
– microvalutazione (o valutazione dettagliata) → con lo scopo di valutare la migliorabilità
del sistema e stabilire una strategia di miglioramento.
Per ogni livello vengono enumerati i diversi criteri di qualità.
Per la macrovalutazione:
– criteri a livello cognitivo → intelligibilità, fedeltà, coerenza, usabilità e accettabilità;
– criteri a livello linguistico → ricostruzione della relazione semantica, sintattica e
coerenza semantica, qualità assoluta, valutazione sintattica e analisi degli errori.
Per la microvalutazione si ricorre all’analisi degli errori e allo sforzo necessario per la
revisione, analisi delle cause degli errori e delle possibilità di miglioramento del
sistema
Si ha quindi un'evoluzione del processo di valutazione della traduzione umana che non tiene
conto solo di criteri linguistici ma anche criteri di tipo socio-situazionale. Si passa da un
concetto di qualità di tipo statico, misurato confrontando il risultato della traduzione umana,
a un concetto di qualità più dinamico, che tenga conto di un uso diverso della traduzione
automatica rispetto a quella umana.
Questa tendenza è confermata da LEHRBERGER & BOURBEAU i quali presentano
una metodologia generale per la valutazione della traduzione automatica. I fattori da tenere
in considerazione per la valutazione sono:
– costi dell’acquisizione del sistema di traduzione automatica;
– tempi totali per la realizzazione dell’intero processo costituito da varie fasi;
– qualità valutata in base ai tre criteri di fedeltà, intelligibilità, stile appropriato rispetto all’uso
del testo;
– migliorabilità del sistema, valutabile in base alla performance delle diverse componenti
così come dell’intero sistema;
– estensibilità ad altri domini e ad altre coppie di lingue;
– facilità d’uso.

2. Metriche di valutazione basate sul giudizio umano.

La prima strategia di metrica di valutazione basata sul giudizio umano è la retro-versione


→ tradurre il testo di partenza in una lingua di arrivo per poi ritradurlo nella lingua di partenza.
Abbandonato perché giudicato non affidabile per tre ragioni :
– se non si conosce la lingua verso cui si traduce, non si è sicuri dove occorre l’errore,
ovvero se è relativo al passaggio dalla lingua di partenza a quella di arrivo o al secondo
passaggio dalla lingua di arrivo nuovamente alla lingua di partenza;
– una cattiva traduzione verso la lingua di arrivo può nondimeno produrre una ragionevole
retroversione;
– la premessa di base della retroversione è in qualche modo falsata: ipotizzando di usare
traduttori umani e non un traduttore automatico, non ci si aspetta di avere lo stesso risultato,
ovvero che la retroversione sia necessariamente uguale al testo di partenza.
Le campagne di valutazione organizzate da ARPA cercano di definire la miglior metrica di
valutazione basata sul giudizio umano. Si tratta di una campagna di valutazione del 1993,
tre criteri:
• fruibilità e veniva valutata solo in base al testo arrivo;
• adeguatezza del testo di arrivo, che veniva giudicata confrontandolo con quello di partenza
e misurava;
• comprensione (successivamente abbondonata per tornare al criterio di informatività).

3. Metriche automatiche.

Dagli anni 2000 utilizzo di metriche automatiche attraverso programmi software, come ad
esempio BLEU, NIST, METEOR e Word Error Rate, che usano una serie di criteri
formalizzati per valutare la traduzione automatica sulla base di un corpus di riferimento o
gold standard, costituito da testi tradotti da traduttori umani.
Si basano sul principio di similarità della traduzione automatica rispetto alla traduzione
umana, computando la distanza tra il corpus di riferimento e i risultati della traduzione
automatica.
La valutazione della similarità si basa su precision e recall.
• BLEU → è la metrica più utilizzata: inizialmente sviluppata per l’inglese,
confronta i risultati della traduzione automatica con un corpus di riferimento costituito
da testi tradotti da traduttori umani.
La qualità si misura segmentando il testo prodotto dalla traduzione automatica in segmenti
costituiti da n-grammi, generalmente variabili da 1 a 4, e confrontando il numero di segmenti
così ottenuti con il corpus di riferimento per individuare i segmenti condivisi tra il prodotto
della traduzione automatica e il testo appartenente al corpus di riferimento.
Se i due testi condividono lo stesso numero di segmenti allora il voto BLEU equivale a 1,
mentre se non ci sono segmenti condivisi il valore è 0. Quindi quanto più il valore è vicino a
1 tanto più la traduzione automatica viene considerata qualitativamente buona.
NIST → è una metrica di valutazione che si basa sugli stessi principi di BLEU. A segmenti
rari viene attribuito un peso maggiore nel computo del punteggio, in quanto maggiormente
informativi: ad esempio alla sequenza credit card viene attribuito un peso maggiore della
sequenza of the METEOR → individua le parole lessicali (principalmente nomi, verbi e
aggettivi) in comune tra il testo tradotto automaticamente e il testo di riferimento
corrispondente. Una volta individuate, il sistema cerca di identificare le sequenze più lunghe
che si riferiscono a queste e che sono condivise tra i due testi. Quanto più alto è il numero
di segmenti condivisi, e dunque quanto più il valore del punteggio si avvicina a 1, tanto più
la qualità del testo tradotto automaticamente si avvicina a quello di riferimento.
WORD ERROR RATE (WER) → si basa invece sul calcolo degli scostamenti tra un testo
tradotto e il testo di riferimento, dunque sul numero di parole differenti tra questi due. Le
differenze computate riguardano parole sostituite (S) cancellate (D), inserite (I) sul numero
totale di parole (N) del testo di riferimento.

La comunità dei Translation Studies non guarda di buon occhio questo tipo di valutazione
per varie ragioni:
– la valutazione si basa su informazioni molto esigue;
– quasi tutte le metriche non considerano che la forma superficiale delle parole, non
vagliando altri aspetti come adesempio la grammaticalità del testo, la fruibilità, il registro o
lo stile;
– basandosi su sequenze limitate di parole, la similarità tra la traduzione automatica e il testo
di riferimento può essere anche molto alta benché si tratti di una traduzione scorretta, in
quanto basata solo sulla presenza delle sequenze condivise con il testo di riferimento;
– La qualità del corpus di riferimento usato per la valutazione, di cui non sempre è chiara la
provenienza ed accertata la validazione qualitativa

4. Approcci recenti.

Nuove metodologie per la valutazione sono basate ancora sui concetti di adeguatezza e
fruibilità.
Il concetto di FRUIBILITÀ coincide con il significato che gli viene attribuito anche nei
Translation Studies, ovvero si riferisce alle proprietà linguistiche (grammatica, ortografia e
coesione) del testo tradotto come testo indipendente nella lingua di arrivo; il concetto di
adeguatezza assume un significato totalmente differente rispetto a quello correntemente
attribuito dagli studiosi della traduzione.
Approcci più recenti alla misurazione della qualità della traduzione automatica:
TAUS DYNAMIC QUALITY FRAMEWORK → La qualità della traduzione è considerata
dinamica in quanto i requisiti di qualità della traduzione cambiano a seconda del tipo di
contenuto, lo scopo del contenuto e il suo pubblico.
CAPITOLO 7: LA TRADUZIONE AUTOMATICA + CROWDSOURCING.
1. Definizioni.

Il termine crowdsourcing indica quella attività che si basa sul contributo di una moltitudine
di persone su base volontaristica o a pagamento. Parola è composta da crowd, che si
riferisce alle persone che partecipano ad una attività, e outsourcing, che indica
l’esternalizzazione della stessa.
Il crowdsourcing è un tipo di attività partecipativa online in cui un individuo, un'istituzione,
un'organizzazione non-profit o un'azienda propone ad un gruppo di individui di varia
conoscenza, eterogeneità e numero, attraverso una chiamata aperta e flessibile, l'impegno
volontario di un compito.

2. Crowdsourcing e traduzione.

Dal 2006 ad oggi questa forma di uso dell'intelligenza collettiva nel campo della traduzione
ha dato l'avvio a pratiche collaborative di traduzione su larga scala. C'è un coinvolgimento
attivo di traduttori, anche non professionisti, per localizzare prodotti in genere open-source
e piattaforme online.
Internet ha enfatizzato la natura collaborativa del compito di traduzione attraverso forme di
interazione che prevedono l'uso della tecnologia, a partire dall'impiego di internet alle
piattaforme che agevolano la comunicazione.
La maggior parte delle attività richieste online riguardano le attività di localizzazione.
Un esempio è Facebook con l'applicazione Translate Facebook.
Gli utenti del social network possono contribuire al processo di traduzione. Si localizza
l’interfaccia in tutte le lingue in pochissimo tempo a costo zero. Il sistema registra i contributi
dati dall’utente e propone come corrispettivo una serie di traguardi. Per ogni traguardo
raggiunto (voto per 25 traduzioni, pubblicazione di 5 traduzioni, etc.) l’utente ottiene un
badge che rappresenta una sorta di remunerazione morale per il contributo che ha dato alla
comunità del social network. Grazie a questo approccio Facebook ha localizzato la sua
interfaccia in oltre un centinaio di lingue, anche in lingue normalmente poco appetibili dal
punto di vista commerciale, come le lingue minoritarie.

3. Crowdsourcing e tecnologie per la traduzione.

Il crowdsourcing non è stata utilizzata solo per attività di traduzione o localizzazione fini a se
stesse, bensì anche per la creazione di basi di dati utili per il miglioramento delle
tecnologie per la traduzione.
Generalmente le iniziative di crowdsourcing avvengono mediante l’uso di piattaforme come
Crowdcrafting, Amazon Mechanical Turk, o Crowdflower.
Queste piattaforme consentono l'accesso a costi contenuti a una forza lavoro internazionale
di grandi dimensioni per la creazione di risorse e lo svolgimento di attività con tempi di
realizzazione molto veloci, come ad esempio il post-editing, la valutazione delle traduzioni
automatiche e l’annotazione di corpora, che generalmente invece sono molto dispendiose e
richiedono molto tempo.
Scomposizione di una attività in microattività, che possono essere svolte dai volontari
presenti sulla piattaforma a loro piacimento secondo i propri ritmi con obiettivi di guadagno
del tutto personali in base al tempo dedicato.
I vantaggi per gli sviluppatori che attingono ai dati creati da ampi gruppi di volontari o utenti
sul web allo scopo di arricchire e migliorare le diverse applicazioni di traduzione
automatica/assistita sono notevoli:
– zero spese generali per l'assunzione di lavoratori,
– accesso a una forza lavoro ampia e a basso costo,
– sistema di micropagamento facile,
– tempi di consegna brevi, in quanto le attività vengono completate in parallelo da molte
persone,
– accesso a madrelingua di molte lingue rare
Ci sono varie forme di crowdsourcing per la raccolta di dati linguistici:
- Lavoro meccanizzato → quando si richiede l’esecuzione di un compito ben definito, come
ad esempio traduzioni di frasi o l’annotazione di dati linguistici su piattaforme come ad
esempio Amazon Mechanical Turk e CrowdFlower e per cui viene anche data una
ricompensa in denaro;
- Wisdom of the crowd → quando volontari si prestano liberamente a condividere le loro
conoscenze per eseguire dei compiti, rispondere a domande o spiegare qualcosa ad altre
persone.
Esempi di questo tipo sono Wikipedia e Yahoo! Answer;
- Giochi con uno scopo → quando si usa un gioco per raccogliere dati linguistici. In questo
contesto non sono richieste conoscenze specifiche e l’utente, immerso nell’ambiente del
gioco, deve effettuare delle scelte ben precise per vincere una competizione.
Esempi di questo genere sono Phrase Detectives e JeuxDeMots.

Crowdsourcing esplicito.
Il crowdsourcing è esplicito quando il contributo da parte degli utenti viene fornito
consapevolmente, come nel caso del lavoro meccanizzato o del wisdom of the crowd. La
motivazione alla partecipazione ad attività di crowdsourcing esplicito è dettata ad esempio
dall’apprendimento di una lingua straniera o dall’acquisizione di maggiori conoscenze
rispetto ad un processo di traduzione o di localizzazione.
Generalmente le pratiche di crowdsourcing esplicito vengono effettuate seguendo un iter
ben preciso:
– i contenuti da produrre sono condivisi sul web.
– professionisti, volontari occasionali e non professionisti eseguono il compito, che può
essere successivamente affidato a professionisti esperti per una eventuale revisione e
validazione, secondo la tipologia e le finalità delcompito;
– i professionisti sono generalmente pagati in modo convenzionale, mentre i volontari,
lavorando gratuitamente, sono remunerati attraverso forme non convenzionali di
gratificazione sociale.
Esempi di crowdsourcing esplicito:
– la produzione di risorse linguistiche, come ad esempio corpora paralleli, dizionari, risorse
terminologiche etc.
– attività di post-editing di traduzioni automatiche e– valutazione della qualità della
traduzione.
Diverso è il caso di Google Translator Toolkit, in cui è possibile ottenere una traduzione
automatica, rivederla immagazzinare in memoria le versioni finali delle traduzioni. L’utente
ha la possibilità di usare una propria memoria di traduzioni o di usare la memoria globale
condivisa.
• vantaggi per l’utente → archivio gratuito su cui gestire i suoi lavori di traduzione,
avvalendosi di quanto
precedentemente tradotto anche da altri,
• vantaggi per Google → testi rivisti dagli utenti, da utilizzare quale corpus di riferimento nel
processo di traduzione automatica.

Il crowdsourcing per attività di post-editing dei risultati della traduzione automatica è stato
presentato nel progetto “Collaborative Translation Framework” (CTF).
L'uso del crowdsourcing è basato sulla collaborazione di studenti stranieri come revisori
della traduzione automatica della versione inglese del sito web dell’università giapponese
prodotta da Microsoft Translator nelle lingue degli studenti. Le attività di post-editing sono
state effettuate usando le funzionalità della piattaforma; in questo modo è stato possibile
localizzare la versione inglese del sito in nove diverse lingue in due mesi senza costi grazie
alla collaborazione degli studenti, che partecipando a questo progetto si sono sentiti parte
di una comunità.

Crowdsourcing implicito.
Il crowdsourcing è implicito quando gli utenti non sono consapevoli di fornire un contributo;
come ad esempio nei giochi con uno scopo, in cui eseguono dei compiti senza
necessariamente essere a conoscenza del fatto che i loro contributi verranno raccolti ed
usati.

4. Questioni di qualità.

L'uso del crowsourcing per la raccolta dei dati linguistici pone una serie di problemi non
indifferenti:
– affidabilità dei dati
– usabilità dei dati.
Ad esempio i Turkers sulla piattaforma Amazon sono anonimi, e quindi è difficile identificare
la nazionalità, la lingua madre e il grado di istruzione di chi presta la propria opera per
tradurre testi. C'è rischio che i Turkers usino a loro volta la traduzione automatica, e quindi
che i testi tradotti siano il risultato di un processo automatico compromettendo in tal modo i
dati raccolti. Sono stati effettuati studi sulla questione e si è cercato in qualche modo di porre
rimedio attraverso dei meccanismi di controllo.

ZAIDAN & CALLISON-BURCH hanno realizzato un processo per rendere più


affidabile l’uso del crowdsourcing:
1. la raccolta di tre diverse traduzioni per una frase in urdu effettuate da tre diversi traduttori;
2. ad ogni traduttore viene richiesto di tradurre 10 frasi per Human Intelligent Task;
3. il testo da tradurre viene proposto come immagine per evitare l’uso della traduzione
automatica attraverso una semplice operazione di copia&incolla del testo;
4. raccolta di informazioni sulla località geografica dei traduttori.

Altri problemi sono di natura etica quando il crowdsourcing è usato a fini commerciali. I dati
prodotti dai volontari gratuitamente vengono usati poi per produrre servizi o prodotti a
pagamento da parte delle società che adottano questo approccio per ridurre notevolmente i
costi rispetto le prestazioni di professionisti del settore.

Potrebbero piacerti anche