Sei sulla pagina 1di 48

Stefano Ondelli

Iuslit/SSLMIT
https://units.academia.edu/StefanoOndelli/

Analisi stilistica computazionale,


distanza intertestuale e traduzioni:
l’identificazione del “traduttese”
Il corpus studiato

Corpus di articoli Corpus di controllo


tradotti in italiano di articoli in italiano
non tradotti

- Argomenti - Argomenti
- Numero articoli - Numero articoli
- Arco cronologico - Arco cronologico
- ecc. - ecc.
Composizione del corpus
(generale)
Subtotale Subtotale Totale
tradotto originale

Articoli 955 1.008 1.963


autori / traduttori 93 93 186
ling. or. Italiano - 1.008 1.008
ling. or. Inglese 447 - 447
ling. or. Francese 50 - 50
ling. or. spagnolo 42 - 42
ling. or. Russo 1 - 1
ling. or. Tedesco 10 - 10
ling. or. non det. 405 - 405
Composizione del corpus
(distribuzione degli articoli - %)

25,00%

20,00%

15,00%
Subcorpus tradotto

10,00% Subcorpus originale

5,00%

0,00%
2001 2002 2003 2004 2005 2006 2007 2008
Composizione del corpus
(dimensione articoli per fasce - %)

60,00%

50,00%

40,00%
Subcorpus tradotto
30,00%
Subcorpus originale
20,00%

10,00%

0,00%
meno di 1000- 1500- 2000- 2500- 3000- più di
1000 1500 2000 2500 3000 3500 3500
Misure lessicometriche
(generale)
Subtotale Subtotale Totale
tradotto originale

N 994.149 997.047 1.991.196

V 54.204 65.019 86.373

V/N
0,05 0,07 0,04
V/N% 5,45 6,52 4,34

Hapax% 45,16 47,59 45,14

N/V 18,34 15,33 23,05


Distribuzione V/N%
articoli di uguale dimensione
Hapax%
in articoli di uguale dimensione
VDB%

100%
16,10% 14,15%
80%

60%
Non-VdB
83,90% 85,85% VdB
40%

20%

0%
Originale Tradotto
Densità lessicale
(generale)
Subtotale Subtotale
Totale
tradotto originale

n % n % n %

Totale
554.027 55,92 555.798 55,91 1.109.825 55,91
parole piene

Totale
429.079 43,31 427.466 43,00 856.545 43,15
parole vuote

Altro 7.679 0,78 10.848 1,09 18.527 0,93

Totale 990.785 100,00 994.112 100,00 1.984.897 100,00


Forestierismi non adattati
Subcorpus Subcorpus
Totale
tradotto originale

n % n % n %

Inglese 3.625 71,65 4.144 76,61 7.769 73,96

Francese 599 11,84 552 10,21 1.151 10,96

Spagnolo 88 1,74 107 1,98 206 1,96

Altre lingue 747 14,77 606 11,20 1.378 13,12

Totale 5.059 100,00 5.409 100,00 10.504 100,00


Perfetto semplice indicativo, condizionale e
congiuntivo

• perfetto semplice indicativo: 57% delle forme


nel subcorpus tradotto;
• modo condizionale: il 57% delle forme nel
subcorpus tradotto;
• modo congiuntivo: 59% delle forme nel
subcorpus tradotto.
Perifrasi stare + gerundio

Subtotale Subtotale
Totale
tradotto originale

n 1.302 921 2.223

d 1,31 0,92 1,12


Frequenza dei pronomi personali
soggetto (totale)
Subtotale Subtotale Totale
tradotto Originale

totale

n 2.414 1.708 4.122

d 2,42 1,71 2,07


Uso di egli/ella
Cortelazzo M. A. (2007): il tipo egli (compreso il femminile ella)

• 3,03% dei pronomi soggetto di terza persona singolare nell’italiano parlato,


• 8,26% nell’italiano letterario,
• 9,76% nell’italiano scritto (letterario e non),
• 64,31% nell’italiano degli studenti delle scuole superiori (oltre l’80% se ci
riferiamo solo ai licei),
• 97,26% nell’italiano giuridico,
• 13,48% l’italiano giornalistico,
• 25,20%’italiano giornalistico nelle traduzioni.

Il divario tra uso scritto generale e uso scritto nelle traduzioni è molto più
elevato se si bada al solo maschile: siamo al 43,91% nelle traduzioni, contro
il 13,79% dello scritto in generale e il 14,81% dello scritto letterario.
Frequenza degli aggettivi e pronomi
possessivi (totale)

Subtotale Subtotale
Totale
tradotto Originale

totale

n
11.461 7.518 18.979
d
11,40 7,48 9,53
Concordanze ad sensum
Subcorpus Subcorpus Totale
tradotto originale
Maggioranza 7 2 9
Parte 48 14 62
Metà 7 6 13
Percentuali 7 6 13
(mezzo) milione 4 7 11
(mezzo) miliardo 0 0 0
Decina 0 2 2
(mezza) dozzina 3 2 5
Totale 69 28 97
Conclusioni: limiti dello studio
Preponderanza dell’inglese come lingua fonte:
• 447 articoli sicuramente tradotti dall’inglese
• 405 che probabilmente hanno la stessa origine
• totale: 852 articoli su un corpus di 955

è ovvio che non si può parlare di “italiano delle


traduzioni” tout court tanto che, anche in presenza
di forestierismi originari di altre lingue (per es. élite,
enclave), è ipotizzabile il ‘transito’ attraverso
l’inglese.
Conclusioni: limiti dello studio
riferimento costante alla legge dell’interferenza
• misure lessicometriche e il VDB: in inglese meno variatio, più
ripetizioni e, a parità di condizioni in diafasia, registro meno elevato;
• forestierismi;
• espressioni politicamente corrette;
• perfetto semplice;
• perifrasi stare + gerundio;
• morfologia pronominale;
• lunghezza dei periodi;
• concordanze ad sensum;
• calchi sintattici;
• (in absentia) connettivi.
Nuove prospettive

La distanza intertestuale
Distanza intertestuale e authorship attribution:
Brunet (1988) e Labbé (2007)


iV A B
fi , A  fi , B
d ( A, B) 
N A  NB
La distanza intertestuale

La distanza tra due testi si misura come si misura la distanza


che separa due punti nello spazio. L'unità di misura è la
"parola". Dati i testi A e B
La distanza intertestuale

Li sovrapponiamo e contiamo il numero delle parole diverse


(zone grigie nello schema qui sotto).
Distanza intertestuale

• A = sopra la panca la N A  N B  12
capra canta, sotto la
panca la capra crepa
VA  VB  7
• B = sopra la panca la
capra canta, sotto la N A B  N A  N B  24
panca la capra crepa

VAB  7
Fattori di influenza

Per ordine decrescente di importanza:

• il genere: orale e scritto, prosa, versi,


commedia e tragedia, ecc.
• l'epoca in cui il testo è stato scritto
• l'autore
• il tema (personaggi, luoghi, motivi principali)
Nuove domande

• Con la DI di Labbé o uno degli altri metodi di


AA è possibile individuare la lingua di partenza
delle traduzioni?
• Quale fattore è dominate tra lingua di
partenza, traduttore e autore? (e come
possiamo disinnescare l’argomento?)
• Qual è il metodo migliore? Per individuare
quale tra i 3 fattori?
• Come occorre preparare i testi?
Corpus generale

Lingua Numero di testi Lingua Numero di testi


italiano 1008 ungherese 22
francese 50 norvegese 16
spagnolo 49 sloveno 12
inglese 49 bulgaro 12
russo 48 romeno 10
tedesco 48 coreano 9
polacco 38 finlandese 8
ceco 37 albanese 7
neerlandese 26 estone 2
danese 25 lituano 2
svedese 23 lettone 1
cinese 22
TOTALE 1524
Misure lessicografiche
• 1524 testi
• N min = 216
• N = 1.629.106 • N max = 6.697
• V = 82.835 • N media = 1.069
• V min = 157
• V/N = 5%
• V max = 2600
• Hapax = • V media = 526
38.675
• V/N media = 51%
• % Hapax =
47% • % Hapax media =
52%
Metadati - 1
LINGUA FREQUENZA TRADUTTORE FREQUE LINGUE
FRANCESE 50 NZA TRADOTTE
INGLESE 49 CP 78 11
SPAGNOLO 49 ADR 65 10
RUSSO 48 NON
TEDESCO 48 DISPONIBILE 31 8
POLACCO 38 GC 28 6
CECO 37 NM 26 7
NEERLANDESE 26 BT 17 3
DANESE 25 FERRARIO 17 1
SVEDESE 23 MA 17 4
UNGHERESE 22 GRONBERG 16 2
CINESE 21 ODA 11 6
TOTALE 436
ALTRI 131 2
Metadati - 2
N° N° Max di Concentrazione
traduttor testi per su traduttore
i traduttore principale
Cinese 7 13 62%
Danese 8 13 52%
Ceco 5 17 46%
Francese 5 21 42%
Russo 9 20 42%
Ungherese 5 8 36%
Polacco 9 12 32%
Neerlandese 13 7 27%
Inglese 15 9 18%
Spagnolo 14 9 18%
Svedese 11 4 17%
Tedesco 17 8 17%
Preparazione del subcorpus:
impatto del contenuto

• Normalizzazione leggera (accenti e maiuscole)

• Normalizzazione completa (tutte le risorse di


TalTac2 : forme grafiche + locuzioni
grammaticali + poliformi + nomi propri + ecc.)
Preparazione del subcorpus:
sterilizzazione del contenuto

• Corpus “Locuzioni”: solo locuzioni


grammaticali (TalTac2)

• Corpus “Grammaticali” (lista di Arjuna Tuzzi)

• Corpus “Locuzioni” + “Grammaticali”


Statistiche lessicografiche

%Hapa
Misura N V V/N Hapax
x
Norm. Leggera 554.052 82.835 15% 21.492 26%
Polirem. 528.460 87.984 17% 22.621 26%
Locuz. 531.795 86.155 16% 22.221 26%
Grammat. 237.279 390 0,20% 25 6%
locuz.
230.135 3.869 16,80% 721 18,60%
+gramm
Campionamenti 1
Nativo vs tradotto
• 516 articoli di Internazionale vs 516 stampa
italiana
• 30 macrotesti da 16/17 articoli ciascuno x 2
• 200 campionamenti di chunks da 3500 tokens

• 39 opere di “giornalista modello” vs 30 opere


di “traduttore modello”
Campionamenti 2
Lingua di partenza
• 436 testi (lingue > 20 articoli)
• 3 macrotesti con tutte le lingue casualmente
(inglese > 15, ungherese max 7)
• 200 campionamenti di chunks da 3500 tokens

• 3 opere di 12 “traduttori modello” in base alla


lingua