Sei sulla pagina 1di 176

Lessico computazionale_libro.

indb 1 03/02/2016 14:46:30


Lessico computazionale_libro.indb 2 03/02/2016 14:46:30
Strumenti di Linguistica Italiana

Nuova serie
5.

Lessico computazionale_libro.indb 3 03/02/2016 14:46:30


Lessico computazionale_libro.indb 4 03/02/2016 14:46:30
Daniel Słapek

LESSICOGRAFIA COMPUTAZIONALE
E TRADUZIONE AUTOMATICA
Costruire un dizionario-macchina

Franco Cesati Editore

Lessico computazionale_libro.indb 5 03/02/2016 14:46:30


Il volume è stato realizzato con il contributo finanziario della Facoltà di Lettere
dell’Università di Wrocław.

Recensito dal prof. Giacomo Ferrari, Università degli Studi del Piemonte Orientale
“Amedeo Avogadro”.

ISBN 978-88-7667-525-6

© 2016 proprietà letteraria riservata


Franco Cesati Editore
via Guasti, 2 - 50134 Firenze

Cover design: ufficio grafico Franco Cesati Editore.

www.francocesatieditore.com – e-mail: info@francocesatieditore.com

Lessico computazionale_libro.indb 6 03/02/2016 14:46:30


INDICE

Introduzione p. 
11

1. Traduzione automatica: storia, contesto disciplinare, quesiti » 17


1.1. Alcuni cenni storici » 17
1.1.1. Evoluzione dei metodi di traduzione automatica » 21
1.2. Contesto disciplinare: linguistica computazionale » 24
1.2.1. Definizione della linguistica computazionale » 26
1.2.2. Livelli di annotazione linguistica » 29
1.2.3. Lessicografia computazionale e traduzione automatica » 31
1.2.4. Tra il dizionario informatizzato e il dizionario-macchina » 33
1.2.5. Linguistica computazionale – un nuovo paradigma linguistico? » 35
1.3. Ambiguità linguistiche » 39
1.3.1. Polisemia » 42

2. Alcuni modelli di rappresentazione dell’unità lessicale » 47


2.1. Combinatoria concettuale di Stanisław Karolak e Krzysztof Bogacki »  48
2.1.1. Predicati e argomenti » 49
2.1.2. Struttura tematico-rematica della frase » 51
2.2. Descrizione lessicografica in termini di “modificato-modificatore” » 52
2.3. Classe di oggetti » 54
2.3.1. Unità minima della descrizione lessicografica e impiego del lessema » 55
2.3.2. Verbi supporto » 56
2.3.3. Restrizione selettiva e classi di oggetti » 57
2.3.4. Struttura di un’entrata lessicale » 59
2.4. Teoria “Senso↔Testo” » 62
2.4.1. Presupposti della metodologia “Senso-Testo” » 62

Lessico computazionale_libro.indb 7 03/02/2016 14:46:30


2.4.2. Parafrasi sinonimica »   64
2.4.3. Entrata lessicale nel Dictionnaire explicatif et combinatoire »   69
2.5. Gestione della conoscenza ontologica »   71
2.5.1. Ontologia linguistica WordNet »   72
2.5.2. Relazioni semantiche e lessicali in WordNet »   74
2.5.3. EuroWordNet e ItalWordNet »   75
2.6. Composizionalità del senso nella teoria del Lessico Generativo »   78
2.6.1. Livelli di rappresentazione semantica »   79
2.6.2. Progetti SIMPLE e CLIPS »   82

3. Approccio Orientato agli Oggetti »   87


3.1. AOO come modello del funzionamento lessicale di una lingua »   87
3.2. Banca dati lessicale – architettura modulare e parametri di valutazione »   90
3.3. Approccio Orientato agli Oggetti »   93
3.3.1. Classe di oggetti: esempio di un’entrata lessicale »   96
3.3.2. Eredità semantica » 101
3.3.3. AOO e altri modelli lessicali » 103
3.4. Disambiguazione verbale » 105

4. Dizionario-macchina: risorse, strumenti e realizzazione del progetto » 113


4.1. Approccio probabilistico e fattibilità del progetto » 113
4.2. Analisi di corpora nel lavoro lessicografico » 116
4.2.1. Corpora italiani » 118
4.2.2. Corpora della lingua polacca » 121
4.3. Nuove tecnologie al servizio della lessicografia: analisi automatica
del corpus » 123
4.3.1. Corpus Query System e SketchEngine » 124
4.3.2. Unitex » 126
4.4. Comprensione del testo e frequenza del lessema » 129
4.4.1. Lessico fondamentale del Grande Dizionario Italiano dell’Uso » 131
4.5. Quadro di riferimento progettuale – lista dei lemmi » 133
4.6. Considerazioni finali: in risposta agli scettici della traduzione
automatica » 140

Lessico computazionale_libro.indb 8 03/02/2016 14:46:30


Conclusioni » 143
Riferimenti bibliografici » 151
Indice dei nomi » 167
Summary » 171

Lessico computazionale_libro.indb 9 03/02/2016 14:46:30


Lessico computazionale_libro.indb 10 03/02/2016 14:46:30
INTRODUZIONE

Il lavoro linguistico di qualsiasi genere in cui si faccia uso del computer è oggi
più che frequente. Sul mercato si vendono sia le applicazioni dirette all’utente
“medio” della lingua, come ad es. i correttori ortografici per gli editori di testi (i
cosiddetti spell-checkers), i dizionari informatizzati (non dizionari-macchina, di cui
parlerò in seguito nel presente lavoro), sia le applicazioni create per un destinata-
rio molto più specializzato: i programmi text-to-speach/speach-to-text, gli strumenti
CAT (Computer Assisted Translation), vari tipi di analizzatori testuali, come tokeni-
zer, tagger, chunker e parser, fra gli altri, dai nomi sempre più ricercati e futuristici.
Già nel 1962 era nato un nuovo ramo della linguistica – la linguistica computazio-
nale (Computational Linguistic, di seguito indicata anche come LC) che ha come
scopo lo sviluppo delle metodologie e delle ricerche linguistiche che si basano sulla
potenza di calcolo del computer. Questa è ovviamente una data convenzionale:
nel 1962 è stata fondata la Association for Machine Translation and Computational
Linguistics, denominata poi Association for Computational Linguistics. Per essere
precisi, non si parla qui di un “nuovo ramo” della linguistica in senso stretto. La
LC prende spunto dalle scoperte nei vari settori della scienza (ai quali si appoggia
fin dalle origini), come statistica, informatica, teoria dei linguaggi formali, intelli-
genza artificiale e altri.
Per capire il motivo per cui le due discipline – la linguistica e l’informatica –
apparentemente alquanto lontane, hanno potuto incontrarsi e infine fondersi in
una nuova disciplina che eredita caratteristiche da entrambe, basta pensare alle
definizioni delle due materie. La linguistica, in ogni suo aspetto, dallo strutturali-
smo saussuriano fino ai più recenti studi nel campo della linguistica cognitiva, è lo
studio scientifico del linguaggio umano. L’informatica, a sua volta, mira a elaborare
i linguaggi di programmazione, con lo scopo di trattare in modo automatico ogni
tipo d’informazione. I linguaggi di programmazione, come FORTRAN, Basic, Pa-
scal, ANSI C, ecc., si caratterizzano per la propria sintassi e grammatica, possono
avere i loro dialetti (p.es. i linguaggi Linux) o addirittura formare famiglie linguisti-
che (ANSI C, C++, C#). I programmi di scrittura vengono spesso forniti di dizio-
nari/glossari e l’informatico stesso lavora come traduttore cercando di program-
mare il software con un linguaggio molto specifico. Oltre, certo, alla somiglianza
terminologica, le due discipline frequentemente accostano in maniera simile i loro

11

Lessico computazionale_libro.indb 11 03/02/2016 14:46:30


campi di ricerca (il paragone di Spina (2001: 8–9) è ovviamente molto riduttivo
riguardo ai linguaggi di programmazione, ma metaforicamente rende bene l’idea;
per approfondimenti sui linguaggi di programmazione si vedano p.es.: Sethi 1996,
Ghezzi – Jazayeri 1997, Succi 2003).
Ad ogni modo, raffrontare il linguaggio naturale a quello informatico è in-
dubbiamente un abuso. In realtà molti aspetti del linguaggio umano depongono
a favore della sua incalcolabilità. Elenchiamo, a titolo d’esempio, la potenziale in-
finitezza dei segni, l’estensibilità dei significati, sinonimie, omonimie, ambiguità
sintattiche, ecc. (Chiari 2007: 11–20; ne parlerò anche nel seguito). Ciò nonostante
le analisi dei testi (e più in generale – delle lingue naturali) eseguite con l’aiuto del
computer sembrano affiorare sempre più di frequente.
La ragione di un tale incremento dell’interesse verso la linguistica computa-
zionale è di natura molto pratica. La nascita dell’Internet, il flusso d’informazione
che ne risulta, il bisogno di accedere a quantità sempre maggiori di documenti, e
chiaramente in maniera sempre più veloce, hanno agevolato lo sviluppo delle me-
todologie computazionali nell’ambito delle ricerche linguistiche. Nel global village,
se vogliamo citare Marshall McLuhan (1984 [1964]), le distanze geografiche non
costituiscono più barriere per la comunicazione internazionale. Tuttavia, l’enorme
diversità linguistica del mondo è il fattore che ancora oggi rende impossibile lo
scambio d’informazione. Ricordiamo che secondo il Word Culture Report 2000
pubblicato dall’UNESCO ci sono 6700 lingue parlate sul nostro globo. Ecco per-
ché oggi il problema della traduzione è diventato di maggiore importanza.
Un buon esempio di riferimento è l’Unione Europea, dove per le traduzioni
tra 23 lingue ufficiali si spendono milioni di euro e la tendenza è sempre crescente,
visto che nel futuro il numero dei paesi membri potrà aumentare. Per affrontare la
necessità di traduzioni veloci si possono offrire alcune soluzioni (Kozłowski 2004:
63–64): a) l’assunzione di un numero sempre più grande di traduttori – la soluzio-
ne chiaramente più costosa, b) l’uso di una sola lingua nella comunicazione inter-
nazionale – soluzione inverosimile per l’UE (e ancor di meno per tutto il mondo)
dove la diversità culturale e linguistica hanno un valore inestimabile, c) l’utilizzo
del computer nel processo della traduzione – la soluzione che, come credo, gioche-
rà un ruolo molto importante nel prossimo futuro.
Proprio per rispondere al bisogno di tradurre velocemente enormi quantità di
testi, negli anni ’40 cominciano i primi tentativi di costruzione di macchine capaci
di tradurre in modo automatico da e verso diverse lingue. L’idea della traduzione
automatica, però, sin dall’inizio suscita particolari controversie. Benché dal primo
pensiero teorico di Warren Weaver (nell’ambito della teoria matematica della co-
municazione) e dai primi tentativi di una traduzione automatica siano già passati
alcuni decenni, ancor oggi molti linguisti ritengono che i risultati delle ricerche
siano insufficienti e la traduzione stessa sia semplicemente impossibile. Infatti, le
lingue naturali, per la loro peculiarità, difficilmente possono essere circoscritte
nei rigidi termini dei linguaggi formali; ciononostante, le traduzioni di qualità

12

Lessico computazionale_libro.indb 12 03/02/2016 14:46:30


minore, che almeno in parte rendono comprensibile un testo per un destinatario
straniero, meritano un momento di ripensamento. Per di più, i risultati delle tra-
duzioni di testi “liberi” differiscono da quelli delle traduzioni di testi specialistici,
le cui strutture e lessico convenzionali consentono una traduzione automatica di
qualità molto soddisfacente.
A seconda del grado di coinvolgimento di un traduttore umano nella deco-
difica interlinguistica di un testo distinguiamo tre tipi di traduzione automatica
(Hedden 1992@): a) Machine Aided Human Translation, in cui tutta la traduzione
viene eseguita dall’uomo e il computer serve da supporto tecnico per facilitare
e velocizzare il processo di traduzione, b) Human Aided Machine Translation, la
traduzione semiautomatica, in cui il testo di partenza viene editato prima, dopo o
nel corso della traduzione, ad esempio attraverso la semplificazione del formato
del documento, l’aggiunta delle informazioni che aiutano l’analisi del testo, ecc.,
c) Fully Automated Machine Translation, ossia la traduzione automatica (di seguito
anche TA), in cui il processo di ricodifica testuale è interamente svolto dal compu-
ter. Nel presente lavoro parlerò dell’ultimo tipo di traduzione.
Ovviamente la TA comporta alcune difficoltà di natura teorica e pratica. In
poche parole, uno dei problemi maggiori è la creazione delle ampie banche dati
lessicali (bi- o multilingui), il cui contenuto permetterà al programma di scegliere
l’equivalente corretto nella lingua target e in conseguenza di tradurre esattamente
il testo. La questione cruciale è lo schema descrittivo che rende univoca un’unità
lessicale. Il modello della descrizione lessicografica per la traduzione automatica
che viene qui proposto è il cosiddetto Approccio Orientato agli Oggetti (nella
versione originale Approche Orientée Objets (AOO), Banyś 2002a, 2002b, 2005).
In questa ottica le unità minime della descrizione semantico-lessicale della lingua
sono le classi degli oggetti, in cui ogni oggetto (lessema) viene descritto attraverso
gli attributi che lo caratterizzano e le operazioni che può svolgere, o che si possono
svolgere su di esso. Il vantaggio di una simile descrizione lessicografica, oltre natu-
ralmente alla disambiguazione, è una rappresentazione dettagliata del contesto di
ogni unità linguistica (quindi la sua cooccorrenza), il che permette di analizzare/
generare tutte le frasi possibili in cui un lessema appare. La metodologia orientata
alle classi di oggetti non si limita alla descrizione dei nomi. La seconda caratteri-
stica funzionale di questa metodologia è la disambiguazione dei verbi attraverso le
classi di oggetti che si trovano nel loro contesto. Ciò significa che questo modello
prende in considerazione tutto il funzionamento lessicale di una lingua (nell’entra-
ta di un verbo ritroviamo le classi di oggetti, nell’entrata di un sostantivo troviamo
gli attributi di ogni tipo e gli operatori verbali), ed è quello che proverò a dimostra-
re nelle pagine che seguono.
Per chiudere questa breve introduzione, precisiamo ancora quali sono gli
obiettivi di questo testo. Si intende in particolare:

13

Lessico computazionale_libro.indb 13 03/02/2016 14:46:30


1) presentare la traduzione automatica all’interno del suo contesto disciplina-
re, con riferimento ai più importanti tratti storici e ai problemi di maggiore
rilievo. Parlerò quindi dell’origine della TA in quanto settore/componente
della linguistica computazionale, nonché delle ambiguità linguistiche che
rendono difficile il trattamento automatico del linguaggio,
2) presentare i più importanti modelli descrittivi del funzionamento lessicale
della lingua, tra cui la grammatica su base semantica di Stanisław Karolak, le
classi di oggetti à la Gaston Gross, la teoria Senso↔Testo di Igor Mel’čuk, il
lessico generativo di James Pustejovsky, la rete semantico-lessicale WordNet
(nella versione italiana ItalWordNet),
3) esporre i principi teorici di un dizionario-macchina bilingue, vale a dire il
modello descrittivo chiamato Approccio Orientato agli Oggetti. A questo
proposito spiegherò la nozione di architettura modulare del sistema e il fe-
nomeno dell’eredità semantica. Mostrerò i risultati dell’analisi di una classe
di oggetti e di un verbo secondo la prospettiva scelta,
4) stabilire i criteri per la scelta dei lemmi nel dizionario-macchina italiano-
polacco e definire il progetto di costruzione di tale dizionario. Presenterò
allora i corpora italiani già esistenti, le liste di frequenza e mostrerò quali
conseguenze comporti la scelta tra un approccio descrittivo e quello pro-
babilistico.

La descrizione della realizzazione dei singoli obiettivi è articolata in quattro ca-


pitoli corrispondenti alle questioni sopra indicate. L’intenzione principale dell’au-
tore, come risulta dallo stesso titolo del libro, è di spiegare le principali questioni
relative alla lessicografia computazionale e alla traduzione automatica e di propor-
re i principi costruttivi per la creazione di un dizionario-macchina destinato alla
traduzione automatica.
Il presente volume si basa sulla tesi di dottorato Principi costruttivi del dizio-
nario macchina italiano-polacco. Approccio Orientato agli Oggetti scritta sotto la di-
rezione del prof. Wiesław Banyś presso il Dipartimento di Linguistica Applicata e
di Traduttologia dell’Istituto di Lingue Romanze e di Traduttologia dell’Università
della Slesia (Polonia).
Devo i miei ringraziamenti ai primi recensori del testo, la prof.ssa Ingebor-
ga Beszterda dell’Università “Adam Mickiewicz” di Poznań e il prof. Roman So-
snowski dell’Università Jagellonica di Cracovia, nonché al prof. Giacomo Ferrari
dell’Università degli Studi del Piemonte Orientale, il quale ha revisionato l’ultima
versione del testo. Tutti loro hanno contribuito in maniera significativa al risultato
finale.

14

Lessico computazionale_libro.indb 14 03/02/2016 14:46:30


Note di redazione

Nel corso del lavoro mi riferisco sia agli autori italiani che stranieri. Nel caso di autori
stranieri mi riferisco, dov’è possibile, alla loro traduzione italiana. Per permettere al lettore
di seguire il vero andamento temporale del pensiero teorico che presento, dopo il riferimen-
to bibliografico dell’edizione italiana tra parentesi quadre riporto anche la data di pubbli-
cazione del testo originale, come p.es.: (de Saussure 1985: 145 [1916]). I riferimenti biblio-
grafici posti alla fine del lavoro, ugualmente, riportano anche dati delle edizioni originali,

-- nel caso di testi stranieri non tradotti in italiano riporto sempre riferimenti biblio-
grafici dell’originale,
-- tra i testi cui faccio riferimento ci sono riviste e materiali disponibili on line; in tal
caso la data di pubblicazione indicata nel corpo del testo viene seguita da una chioc-
ciola, p.es.: Paumier 2002@: 9; il riferimento bibliografico esaustivo si trova nella
sezione Riviste e materiali on line, inclusa nei Riferimenti bibliografici.
-- poiché il lettore modello del presente testo è plurilingue, le citazioni tratte dai testi
non tradotti in lingua italiana vengono riferite come tali; la traduzione italiana ese-
guita dall’autore del presente lavoro viene proposta nella nota a piè di pagina,
-- la traslitterazione dei caratteri cirillici viene eseguita secondo le norme ISO 9: 1995,
-- gli acronimi delle opere lessicografiche ed enciclopediche vengono sciolti nella se-
zione Dizionari e enciclopedie, inclusa nei Riferimenti bibliografici.

Ogni altra norma verrà indicata nel corso del lavoro.

15

Lessico computazionale_libro.indb 15 03/02/2016 14:46:30


Lessico computazionale_libro.indb 16 03/02/2016 14:46:30
1.

Traduzione automatica:
storia, contesto disciplinare, quesiti

1.1. Alcuni cenni storici

I lavori che presentano il contesto storico in cui si sviluppa la traduzione auto-


matica cominciano con le idee seicentesche della lingua universalis (p.es.: Gobbo
2005@, Kozłowski 2003, Hutchins 2004). A questo proposito vale la pena ricordare
soprattutto le proposte di René Descartes, di Gottfried Leibniz, e alcuni progetti
meno remoti che hanno avuto più successo, tanto che ancora oggi se ne risentono
gli echi, come ad esempio l’esperanto di Ludwik Zamenhof1:

a) con Descartes nasce l’idea di una l i n g u a m a t r i c e , attraverso cui si vo-


gliono comprendere tutte le lingue del mondo. La sua base è costituita dalle
parole primitive sinonimiche – tradotte o traducibili (come amare-aimer-
philein...) – cui vengono aggiunti gli affissi: i numeri che indicano l’apparte-
nenza a una categoria grammaticale. Questa matrice deve stabilire “ordine
fra tutti i pensieri che possono entrare nello Spirito umano, allo stesso modo
in cui vi è un ordine naturale stabilito fra i numeri” (Descartes 2005: 426
[1626]).
b) un simile desiderio di creare una matrice linguistica ha condizionato le ricer-
che di Leibniz, il quale riconduce il sapere umano alle idee semplici. Nella
sua ottica tutti i concetti elementari devono essere rappresentati da un nu-
mero, invece i concetti complessi vanno espressi attraverso la combinazione
(quindi il calcolo matematico) di quelli semplici (cfr. Gobbo 2005@: 29).
Con la sua ars combinatoria egli vuole proporre una lingua universale della

1 
Se vogliamo dare un quadro più ampio del pensiero filosofico, il sogno di un’ideale lingua
universale, il cui uso permetterebbe di evitare gli errori della comunicazione, continua in realtà il
pensiero di Aristotele – in questa maniera si vuole riflettere una realtà immutabile della materia
precedente al discorso umano, indipendente dalle forme grafiche o uditive del segno (cfr. Życiński
1983: 12).

17

Lessico computazionale_libro.indb 17 03/02/2016 14:46:30


scienza, partendo dall’elenco dei termini primari per finire a costruire un
alfabeto del pensiero o un’enciclopedia (Leibniz 2000: 400 [1666]; si veda
anche: Eco 1996: 289–314)2.
Già nel 1657 Cave Beck in The universal character parla dei profitti ottenuti nel
campo delle transazioni commerciali grazie allo studio di una lingua universale3.
I guadagni verrebbero ricavati dalle spese solitamente destinate ai traduttori (cfr.
Eco 1996: 266)4 – la motivazione rimane sempre valida dopo oltre tre secoli (si
veda anche l’introduzione a questo lavoro).
c) nei secoli XVIII e XIX il numero delle lingue universali cresce (Couturat
e Leau 1903 presentano un ampio panorama dell’argomento). Tra le lingue
artificiali più conosciute troviamo l’esperanto (la prima esposizione dell’i-
dea in Zamenhof 1887, la prima grammatica in italiano appare già tre anni
dopo in Marignoni 1890), lingua riconosciuta dall’UNESCO, usata oggi da
una grande comunità internazionale di parlanti, il cui numero viene stimato
fino a due milioni. Zamenhof ha creato l’esperanto basandosi sulle lingue
etniche (per cui molti preferiscono l’attributo “pianificata” invece di “artifi-
ciale”; cfr. l’introduzione di De Mauro a Migliorini 1995: 9): la maggior par-
te del vocabolario deriva dalle lingue occidentali (specie le lingue romanze),
la sintassi e la morfologia s’ispirano alle lingue slave, dove ogni regola pro-
viene da una lingua naturale. I morfemi non subiscono alcune modifiche,
per cui, attraverso la loro combinazione, è facile comporre tutte le forme
flesse. L’esperanto ha trovato numerosi sostenitori tra linguisti e filosofi, tra
cui: Jan Baudouin de Courtenay, Otto Jespersen, Bertrand Russel, Rudolph
Carnap (cfr. Eco 1996: 350); Antoine Meillet ha scritto a questo proposito
Tout discussion théorique est vaine: L’Esperanto fonctionne5 (1918: 268); la
sua conclusione, come credo, è sempre valida6.

2 
La filosofia di Leibniz ha influenzato fortemente le ricerche semantiche di Anna Wierzbicka,
l’autrice del metalinguaggio semantico naturale. Wierzbicka suppone che tutti i concetti di una
data lingua siano a) concetti elementari, non altrimenti definibili (indefinibilia), presenti in tutte le
lingue naturali, oppure b) si compongono di detti concetti elementari. Le analisi vogliono stabilire
l’insieme degli elementi primari, quindi costruire “l’alfabeto del pensiero umano” già voluto da
Leibniz (p.es.: Wierzbicka 1991: 26–27, 1996; si veda anche il paragrafo 2.1).
3 
Molte idee della lingua universale affiorano all’epoca in Inghilterra. Il fatto non è casuale:
ricordiamo p.es. l’intenzione di sostituire il latino (ancora in uso comune da parte degli scienziati)
identificato con la Chiesa cattolica e, chiaramente, i motivi commerciali (lo scambio della merce e
l’espansionismo inglese in forte sviluppo).
4 
Sui progetti di una comune lingua filosofica del XVII si veda Migoń 1973.
5 
‘Tutte le discussioni sono inutili: l’esperanto funziona’.
6 
Oggi in esperanto vengono scritti e tradotti i libri, lo si parla in convegni scientifici e addirit-
tura in audizioni televisive; all’Università “Adam Mickiewicz” di Poznań dal 1998 è attivo il corso
Master in interlinguistica (lo studio dell’esperanto), il che conferma l’enorme successo di Zamenhof.

18

Lessico computazionale_libro.indb 18 03/02/2016 14:46:30


Malgrado si possa individuare un certo legame tra i diversi pensieri linguistici
di cui sopra, o addirittura rintracciarne la linea di sviluppo, considerando l’idea
della lingua universale uno spunto per la creazione delle lingue ausiliarie (termine
di Eco) o di diverse forme di un’interlingua, che successivamente hanno facili-
tato lo sviluppo dei linguaggi formali (logici) – condizione indispensabile per la
creazione dei programmi informatici – i pensieri teorici di questo tipo non vanno
considerati come predecessori dei sistemi per la traduzione automatica del testo in
senso stretto. I veri progetti di una macchina traduttrice appaiono all’inizio del XX
secolo con lo sviluppo della tecnologia. A questo riguardo vale la pena ricordare
soprattutto due invenzioni brevettate indipendentemente nello stesso anno (1933)
in Francia e in Russia:
1) George Artsrouni, ingegnere francese, il 22 luglio 1933 ha ottenuto il bre-
vetto per “il cervello meccanico” (cerveau mécanique). La macchina è sta-
ta creata come una memoria universale che permetteva di depositare e di
ritrovare informazioni ivi contenute. Uno dei principali campi di applica-
zione erano i dizionari-macchina destinati alla traduzione di tipo “parola
per parola”, quindi alla traduzione diretta (secondo lo stesso inventore la
macchina poteva essere utile anche nella stesura automatica di orari fer-
roviari, estratti bancari, ecc.). Il congegno era composto di una memoria
dotata del lessico in quattro lingue, un meccanismo di input – la tastiera che
metteva in moto la testa dell’apparecchio, un meccanismo di ricerca e un
meccanismo di output. Il processo di traduzione per mezzo del “cervello”
constava di 5 tappe: 1) l’operatore introduceva la parola tramite tastiera, 2)
il motore avviava i nastri del selettore e della memoria, 3) i nastri si fermava-
no appena trovata la stessa perforazione, 4) il risultato veniva mostrato sullo
“schermo”, e infine 5) il termine veniva cancellato. L’obiettivo di Artsrouni
non era la traduzione del tutto automatica e di alta qualità; la macchina non
doveva sostituire il traduttore, ma aiutare la comunicazione interlinguistica
(Hutchins 2004: 13–14, si veda anche Corbé 1960).
2) Petr Troânskij ha brevettato mašinu dlâ podvora i pečataniâ slov pri perevode
s odnogo âzyka na drugoj7 (riferisco il nome del brevetto n. 40995 del 5 set-
tembre 1933 come in Semenov 2008: 5). La macchina di Troânskij era più
avanzata del “cervello meccanico” astrouniano, perché oltre al dizionario
introduceva i simboli dell’analisi sintattica che avrebbero dovuto rappre-
sentare le relazioni grammaticali universali, quindi propri di tutte le lingue
(inizialmente i simboli erano adottati dall’esperanto). I componenti della
macchina di Troânskij erano quindi: a) dizionario, b) simboli logici: codifica
– interpretazione delle funzioni grammaticali (analisi sintattica), c) parole
ausiliarie, basate principalmente sull’esperanto.

7 
‘[…] macchina per selezionare e scrivere le parole nella traduzione da una lingua verso l’altra’.

19

Lessico computazionale_libro.indb 19 03/02/2016 14:46:30


L’invenzione di Troânskij rimane sconosciuta al di fuori della Russia fino alla
fine degli anni ’50, quando compaiono le prime macchine calcolatrici (i computer).
Le prime ricerche sullo sfruttamento del computer nel processo di traduzione del-
le lingue naturali cominciano appena dopo l’invenzione del computer stesso. John
Hutchins identifica l’inizio di questo tipo di ricerca nel 1947 con i lavori di Warren
Weaver nel campo della teoria matematica della comunicazione (Weaver si basa
sulle teorie di Claude Shannon che riesce a divulgare in un ambiente più ampio
(cfr. Chiari 207: 116–117)). Egli sostiene che, da alcuni punti di vista, la traduzione
automatica assomiglia a un problema crittografico, cioè si riduce alla trasmissione
e alla codifica dell’informazione, come p.es. la trascrizione di un testo scritto in
alfabeto Morse o in altra scrittura segreta.
In pochi anni dalle scoperte di Weaver nelle varie università statunitensi comin-
ciano le ricerche e i primi tentativi di una traduzione automatica (la maggior parte
basata sulle tavole di corrispondenza “parola per parola” che non danno risultati
molto soddisfacenti). La prima presentazione pubblica della traduzione automatica
ha luogo nel 1954 presso l’Università di Georgetown negli Stati Uniti (esperimento
condotto mediante un sistema IBM). La traduzione si basa su un numero ristretto
di regole grammaticali e su un vocabolario di circa 250 parole (dal russo verso l’in-
glese8), ciononostante, la presentazione stessa dà l’avvio a ricerche e a finanziamenti
di ampia portata in tutta l’America e, di conseguenza, in tutto il mondo.
Gli anni che seguono l’esperimento di Georgetown sono anni di ottimismo, di
grandi aspettative riguardo la TM, ma anche di altrettanto grandi delusioni (cfr.
Hutchins 1995: 435): da un lato abbiamo lo sviluppo dei metodi d’analisi sintattica
(parallelamente alla nascita dei modelli linguistici formali9, come la grammatica ge-
nerativa e trasformazionale di Noam Chomsky (1974 [1957])); dall’altro, le “bar-
riere semantiche” impediscono una traduzione di qualità almeno soddisfacente.
Nel 1966 il Comitato ALPAC (Language Processing Advisory Committee) istituito
presso la National Academy of Science, con lo scopo di controllare i finanziamenti
statali nel campo del trattamento automatico del linguaggio, redige un rapporto in
cui sostiene che gli esiti ottenuti nel campo della traduzione automatica non sono
significativi – la TA meno precisa, più lenta, due volte più costosa della traduzione
umana – e che i finanziamenti dello Stato dovrebbero essere impiegati piuttosto
per favorire lo sviluppo delle risorse linguistiche e dei supporti tecnici alla tradu-

8 
La coppia di lingue scelte per la presentazione rispecchia la condizione politica dell’epoca.
I primi lavori eseguiti nel campo della traduzione automatica, infatti, hanno spesso scopi militari,
in questo caso una veloce decodifica dei messaggi dell’esercito antagonista. Solo alcuni anni dopo
appaiono simili progetti anche in Canada e in Europa.
9 
Secondo Józef Życiński (1983: 20) i modelli formali differiscono dai modelli formalizzati
in cui è possibile delimitare l’insieme di frasi corrette dal punto di vista formale e semantico (ciò
grazie al dizionario, alle regole di costruzione delle espressioni complesse in base alle espressioni
semplici, alle regole di definizione delle nuove espressioni con i termini provenienti dal diziona-
rio). Inoltre i linguaggi formali hanno un’interpretazione semantica procedurale priva di ambiguità.

20

Lessico computazionale_libro.indb 20 03/02/2016 14:46:30


zione umana (Piasecki 2008: 252). Il rapporto di ALPAC, anche se comunemente
criticato, ha segnato un periodo di arresto nelle ricerche in questo settore. Un
nuovo stimolo per i progetti di traduzione automatica giunge dalle ricerche nel
campo dell’intelligenza artificiale, soprattutto per quanto riguarda il Trattamento
Automatico del Linguaggio e lo sviluppo dei sistemi di analisi PoS (part of speech),
come gli analizzatori tagger o parser sintattico (di cui parlerò nel paragrafo 1.2), che
hanno agevolato anche il processo di traduzione eseguito dal computer.
Il sistema operativo che ha avuto un particolare successo è Systran (l’ab-
breviazione di System Translation) introdotto inizialmente da US Air Force nel
1970 per la traduzione russo-francese e in seguito anche dalle Comunità Europee
nel 1976 per la coppia di lingue inglese-francese. Systran è stato ideato da Peter
Toma (collaboratore nel progetto di Georgetown) come sistema di “traduzione
diretta”, ma presto è stato sottoposto a diverse modifiche, grazie alle quali è au-
mentata la compatibilità del sistema per l’analisi e per la sintesi di altre lingue; è
stato adoperato da organismi internazionali, come la NATO e l’Unione Europea,
e dalle aziende commerciali come Xerox e General Motors. Il sistema rimane
ancora in uso.
Negli anni ’70 e ’80 appaiono molti altri sistemi di traduzione automatica.
Ricordiamo solo il progetto TAUM inglese-francese (Traduction Automatique de
l’Université de Montréal) con il sistema Météo per la traduzione delle previsioni
del tempo (basati su sintassi e lessico ristretti), il sistema METAL creato presso
l’Università del Texas per la traduzione tedesco-inglese dei testi del settore delle
telecomunicazioni (in seguito integrato con altre lingue) e il CULT dell’Università
Cinese di Hong Kong per i testi matematici dal cinese verso l’inglese tra gli altri.
Per una rassegna dettagliata dei progetti della TA si veda Hutchins 1995.
Fino alla fine degli anni ’80 i sistemi TA si basano prevalentemente su varie
regole linguistiche: sintattiche, lessicali, morfologiche, ecc. A partire dagli anni ’90
la direzione dominante cambia con le ricerche sui metodi statistici nel Trattamento
Automatico del Linguaggio (i primi risultati abbastanza soddisfacenti di una tra-
duzione di questo tipo sono stati presentati dal gruppo IBM già nel 1988) e con
l’uso dei grandi corpora contenenti i testi tradotti in precedenza, la cosiddetta “tra-
duzione basata sugli esempi” (example-based). I due approcci differiscono in modo
radicale dai sistemi precedenti, perché non si servono più delle regole sintattiche
o semantiche per l’analisi del testo e per la scelta dell’equivalente adeguato nella
lingua target. La terza direzione nella TA dell’ultimo decennio del secolo scorso
sono le ricerche sull’interpretazione del parlato attraverso il riconoscimento del
suono e la sintesi.

1.1.1. Evoluzione dei metodi di traduzione automatica

I sistemi di traduzione hanno man mano impiegato, con lo sviluppo delle tecni-
che automatiche, metodi sempre più elaborati di ricodifica testuale. La costruzione

21

Lessico computazionale_libro.indb 21 03/02/2016 14:46:30


del testo della traduzione viene eseguita attraverso metodi simbolici (basati su de-
terminate regole di riscrittura lessicale o transfer grammaticale) o metodi statistici.
Per i metodi simbolici Federico Gobbo distingue tre paradigmi che egli pre-
senta con una piramide (figura 1.1; secondo Gobbo 2005@: 35).

Figura 1.1:
Piramide della traduzione automatica secondo F. Gobbo.

Interlingua

Semantica L(f) Semantica L(e)

Regole L(f) transfer Regole L(e)

Parole L(f) diretta Parole L(e)

1) Il paradigma a traduzione diretta (p.es.: Weaver, Artsrouni): input → toke-


nizzazione (ripartizione del testo) → output. La traduzione viene eseguita
attraverso la segmentazione del testo in parole, dopo di che le parole vengo-
no tradotte una per una.
2) Il paradigma a transfer (p.es.: il sistema Meteo): input → parsing → regole
transfer → output, con le seguenti tappe:  parser: analizza le parti del di-
scorso, effettua un’analisi morfologica,  transfer: vengono applicate le rego-
le di trasformazione dalla lingua di partenza verso la lingua di arrivo,  gene-
razione: il programma genera il testo in uscita. Uno dei maggiori svantaggi
di un simile sistema è la necessità di scrivere le regole di trasformazione per
ogni coppia di lingue. Ciononostante, la maggior parte dei sistemi della TA
applica proprio questo metodo (Jassem 2006: 17).
3) Il paradigma interlingua (p.es.: il sistema UNL): input → analisi → base
di conoscenza → output, con il percorso traduttivo:  analisi: l’input viene
rappresentato in un livello molto astratto,  base di conoscenza: il sistema
organizza il sapere in una rete semantica o in un’ontologia,  generazione:
viene generato il testo in uscita. Il maggiore vantaggio di un simile sistema è
la riusabilità dell’interlingua per ogni coppia di lingue.

In un sistema TA complesso la freccia sinistra della figura 1.1 indica la suc-


cessione delle fasi dell’analisi del testo, la freccia destra – le fasi della generazione
del testo. Lo schema può essere integrato con il livello dell’analisi e della sintesi del
parlato, ma la questione della traduzione del parlato non rientra nelle competenze
di questo lavoro. I sistemi della TA attualmente elaborati integrano i metodi sim-

22

Lessico computazionale_libro.indb 22 03/02/2016 14:46:30


bolici e statistici con le tecniche di apprendimento automatico e di estrazione della
conoscenza da grandi quantità di dati, permettendo in tal modo di eseguire una
traduzione molto soddisfacente. A questo punto citiamo ancora la traduzione per
analogia e la traduzione statistica:

4) la metodologia della traduzione per analogia s’ispira alle tecniche di ap-


prendimento delle lingue straniere: per tradurre nuove espressioni (mai
esaminate prima), si ricorre agli esempi analoghi precedenti, posti nella me-
moria, la cui analisi permette di eseguire, per l’appunto, le nuove traduzioni
(chiaramente la macchina ricorre a una memoria di massa su un supporto
hardware). In questo caso il sistema di traduzione viene fornito di un in-
sieme di traduzioni esemplari e nel processo di traduzione, per ogni frase
presa in esame, trova l’esemplare più adatto, in base al quale procede con
la traduzione10.

Il meccanismo si presenta come segue (ivi: 18–19)11: supponiamo che il dizio-


nario (e la memoria del programma) riporti i seguenti usi del verbo eat: 1. A man
eats vegetables, 2. Acid eats metal. Per tradurre le frasi 3. A man eats potatoes e 4.
Acid eats iron il programma ricorre alle frasi che corrispondono al meglio: rispet-
tivamente la frase 3 corrisponde alla frase 1, e la 4 alla 2. Per trovare le corrispon-
denze occorre creare il modello generale di traduzione del verbo eat, che potrebbe
presentarsi come insieme di formule: S verb O ↔ S’ verb’ O’; S, S’ Wx; O, O’
Wy, dove S e S’ stanno per il soggetto della frase, O e O’ per i complementi ogget-
to. Importante è raggruppare S, S’, O, O’ negli insiemi semanticamente omogenei
(per le frasi 1 e 3: S, S’ Wessere animato, O, O’ Walimentari; per le frasi 2 e 4: S, S’
Wsostanza, O, O’ Wmetallo.

5) La traduzione statistica: la fonte dell’informazione non sono più le regole di


transfer né i dizionari (creati in base alla competenza linguistica del ricerca-
tore), ma grandi corpora (mono, bi- e multilingui, paralleli, ecc.). In base ai
corpora si estraggono i parametri di probabilità per le coocorrenze testuali
di una data parola (quindi per le parole che precedono e seguono) e i para-
metri di probabilità per la traduzione suggerita. I dati servono a produrre la
traduzione più probabile per una data frase di input (ivi: 20).

10 
Jassem nota che la traduzione per analogia è stata adoperata per le lingue del tutto diverse
dal punto di vista sintattico (inglese-giapponese). Il metodo a transfer comporterebbe in questo
caso la necessità di creare un numero elevato di complicate regole (Jassem 2006: 18).
11 
L’autore riporta l’esempio di Makoto Nagao (2003: 352).

23

Lessico computazionale_libro.indb 23 03/02/2016 14:46:30


1.2. Contesto disciplinare: linguistica computazionale

Gli anni ’50 del secolo scorso, ai quali risalgono i primi tentativi di costruire un
linguaggio formale capace di comunicare con le macchine calcolatrici, vengono so-
litamente indicati come il “decennio di nascita” della linguistica computazionale.
Difatti, è allora che, man mano, viene a formarsi la LC come «disciplina di frontie-
ra» (Calzolari – Lenci 2004: 57), la cui interdisciplinarietà si deve, tra l’altro, a due
domande poste al ricercatore che studia il rapporto lingua-computer (cfr. Lenci et
al. 2005: 12): 1) “che cosa il linguaggio naturale può fare per il computer?” e 2)
“in che modo il computer può essere messo al servizio dell’indagine linguistica?”
Dal primo punto di vista, gli studi linguistici permettono di aumentare le ca-
pacità del computer di trattare la struttura e il contenuto dei testi, e di interagire
con l’utente attraverso il linguaggio naturale. Tale direzione di ricerche è propria
soprattutto dell’informatica e dell’ingegneria della lingua. La seconda prospettiva,
invece, è più vicina alla linguistica computazionale, dove le questioni avanzate dai
ricercatori assomigliano ai problemi linguistici “tradizionali” (quindi non compu-
tazionali; ibid.): come funziona la lingua, come viene appresa, come cambia, ecc.
La differenza tra un approccio tradizionale e quello computazionale riguarda le
modalità con cui il linguista si serve del computer per trovare e verificare le ri-
sposte alle suddette domande. Le due direzioni nello studio del rapporto lingua-
computer sono, comunque, interdipendenti e complementari, il che comporta la
complessità di cui si è parlato sopra. Da un lato la LC si affianca all’informatica e
all’ingegneria (le discipline logico-formali), dall’altro, condivide interessi e obiet-
tivi con la linguistica, la psicologia, le scienze cognitive – quindi le scienze umane
in generale (ivi: 13).
Gli studi linguistici che inizialmente si definivano computazionali (o indirizzati
agli scopi computazionali) appartengono a due filoni di ricerca diversi (Calzolari
– Lenci 2004: 57–58). Il primo nasce in Italia e vede come obiettivo l’applicazione
dei metodi statistico-matematici (in altre parole: l’applicazione del computer) all’a-
nalisi del testo scritto. Il pioniere in questo campo è Roberto Busa, il quale, presso
il Centro per l’Automazione dell’Analisi Letteraria, crea il primo corpus elettro-
nico che raccoglie le opere di Tommaso d’Aquino (cfr. Spina 2001: 20–21). Con i
lavori di Busa comincia il settore della LC molto fervido che oggi viene identificato
come “linguistica dei corpora” (nel paragrafo 4.2 parlerò a questo proposito in
maniera più dettagliata)12. Questo paradigma di ricerca presenta una metodologia
di natura empiristica.

12 
Lo studio della lingua basato sulla raccolta dei testi (corpora di dati) comincia ancora pri-
ma dell’invenzione del computer. Già nel Settecento Alexander Cruden pubblica le concordanze
dell’Antico e del Nuovo Testamento (Cruden 1736). Nell’Ottocento, invece, gran parte degli studi
linguistici necessita l’accesso a un numero sempre maggiore di testi su cui effettuare analisi di tipo
comparatistico (per ulteriori approfondimenti in merito si veda Spina 2001: 17–27).

24

Lessico computazionale_libro.indb 24 03/02/2016 14:46:30


La seconda direzione si caratterizza per l’applicazione dei metodi formali allo
studio del linguaggio e si affianca alle ricerche nel campo dell’Intelligenza Artifi-
ciale. Il punto centrale dell’interesse linguistico sono sempre le proprietà del lin-
guaggio naturale, ma studiate con l’aiuto delle grammatiche formali. Ricordiamo
che nel 1957 esce l’opera di Noam Chomsky, Le strutture della sintassi (versione
italiana del 1974), che segna la nascita della grammatica generativa e la cosiddetta
“prima rivoluzione cognitivista” (cfr. Pawelec 2008: 109). Il trattamento automati-
co del linguaggio naturale (TAL) si sviluppa accanto a questa tradizione linguistica
con i primi programmi per l’analisi sintattica, per l’interpretazione semantica au-
tomatica o per la traduzione automatica (Lenci 2005: 14; a questo proposito anche
in Tabossi 1998: 76–90).
In linea di massima, i primi anni di studi nel settore del TAL sono caratterizzati
dal predominio dei metodi logico-deduttivi. Ciò risulta comprensibile, dal momento
che nella tradizione chomskiana i dati quantitativi non hanno alcuna importanza nel-
lo studio della competenza linguistica. Chomsky si limita, almeno nei suoi primi testi,
a elaborare un sistema di regole con cui è possibile manipolare le strutture dei sim-
boli terminali. Questo tipo di approccio all’indagine linguistica riflette, in un certo
modo, il pensiero dominante di allora – il falsificazionismo cominciato con La logica
della scoperta scientifica di Karl Popper (1998 [1934: edizione tedesca; 1959: edizione
inglese più diffusa]; ricordiamo soprattutto la sua critica dell’empirismo di Rudolf
Carnap e di altri rappresentanti del Circolo di Vienna; dagli anni ’70 il falsificazio-
nismo diviene il paradigma principale negli studi linguistici (cfr. Bobrowski 1998:
36)). Di conseguenza, nei primi decenni della LC, creare il modello computazionale
significa creare «sistemi di regole interpretabili dal calcolatore» (Lenci 2005: 15).
Il TAL viene sviluppato sulla base di questi due filoni di ricerca, di tradizione
empirista e razionalista, che per i primi anni vanno sviluppandosi in maniera paral-
lela con pochi contatti reciproci. Il superamento di tale ripartizione degli interessi
è stato possibile grazie al cambiamento del paradigma, iniziato nella LC (e nella
linguistica tradizionale13) nella seconda metà degli anni ’80 (Calzolari – Lenci 2004:
58; Lenci 2005: 16) con un crescente coinvolgimento dei dati statistico-quantitativi
nello studio del linguaggio naturale, e al prevalere dell’approccio neoempirista nel-
le ricerche computazionali.

13 
Un lento spostamento dell’interesse linguistico dalla langue verso la parole comincia con la
pragmalinguistica di John Austin e di John Searl (Austin suppone che lo studio degli atti linguistici,
e della competenza che li riguarda, appartenga all’aspetto langue, possiamo comunque riconoscere
che con i suoi lavori lo studio dei testi (senso largo) riconquista una certa importanza). Oggi nel
paradigma dominante – nella linguistica cognitiva – i dati testuali hanno, senza dubbio, un valore
primario. In Polonia l’interesse dei linguisti cognitivisti si concentra sulla cosiddetta “immagine
linguistica del mondo”, cioè sul modo di percepire il mondo ricavabile, per così dire, dai fatti
linguistici, vale a dire dai testi (cfr. p.es.: Bartmiński – Panasiuk 2010: 382), perciò il cognitivismo
polacco si avvicina piuttosto alla linguistica culturale/antropologica (cfr. Winiarska 2011; per i
paradigmi linguistici si veda anche Bobrowski 1998).

25

Lessico computazionale_libro.indb 25 03/02/2016 14:46:31


Oggi la LC si considera una disciplina matura con una posizione importante
nelle ricerche scientifiche in Italia e nel mondo. Il numero di centri e di gruppi di
ricerca cresce di anno in anno e si organizzano convegni e conferenze sul tema. Tra
i più importanti (secondo Lenci 2005: 17): la conferenza annuale della Association
for Computational Linguistic e la conferenza biennale – International Conference
on Computational Linguistics. In Italia il principale ente che promuove le iniziative
di questo campo è l’Istituto di Linguistica Computazionale “Antonio Zampolli”
del Consiglio Nazionale delle Ricerche di Pisa, ma anche sul resto del territorio
italiano sono stati attivati dipartimenti simili presso le Università statali. Vengono
organizzati seminari, colloqui, scuole (come p.es. il Tavolo di Ricerca sulla Parola
e il Lessico (TRIPLE) del Dipartimento di Linguistica dell’Università degli Stu-
di Roma Tre). L’interesse verso l’aspetto computazionale della linguistica sembra
ancora crescere (per una visione dettagliata della LC si veda anche Ferrari 2004).

1.2.1. Definizione della linguistica computazionale

Nell’ambito della LC maggiore interesse suscitano in particolare: la linguisti-


ca dei corpora, la lessicografia computazionale, gli strumenti dell’analisi del testo
(parser, tagger, ecc.), la traduzione automatica (TA), la sintesi del parlato e gli stru-
menti computazionali per la didattica delle lingue (cfr. Chiari 2007). Sembra co-
munque opportuno precisare la definizione stessa della LC, perché il suo campo di
ricerca viene spesso fatto coincidere con il centro dell’interesse dell’ingegneria del
linguaggio naturale (ILN). D’altro lato, sbagliata, o meglio troppo ampia, è anche
la definizione della LC proposta da Tullio De Mauro, secondo il quale la linguistica
computazionale è «il piano della teoria generale e dell’analisi descrittiva della lin-
gua che sappia avvalersi dei computer» (prefazione di De Mauro a Chiari 2007: 5).
Il nome stesso “linguistica computazionale” appare per la prima volta sul rap-
porto dell’ALPAC di cui si è già parlato. I confini della disciplina non sono ancora
ben precisi (una certa ambiguità riportano anche le varie denominazioni del cam-
po di ricerca, come linguistica computazionale, linguistica informatica, computer
linguistics). Le definizioni più frequenti sono piuttosto ambivalenti: LC come cam-
po di ricerca sulle lingue naturali che fa uso del computer (EJO: 339) o la sopra-
citata definizione di De Mauro. Alcuni autori si limitano a elencare i settori della
disciplina, senza, però, proporre una definizione globale (p.es.: Sproat et al. 2001,
Chiari 2007; a questo proposito si veda anche Piasecki 2008).
È problematico anche il rapporto tra la linguistica computazionale e il
trattamento automatico del linguaggio. Cercherò di esemplificare meglio il
problema: Isabella Chiari considera il TAL «uno dei settori fondanti della lingui-
stica computazionale, tanto da essere da alcuni totalmente identificato con essa»
(2007: 98) e propone come suo dominio di applicazione «lo studio dei sistemi
informatici per la comprensione e la generazione del linguaggio naturale» (ibid.; i
due obiettivi particolari sono: a) l’implementazione in un programma delle regole

26

Lessico computazionale_libro.indb 26 03/02/2016 14:46:31


generali al fine di produrre frasi corrette della lingua, b) analisi automatica della
morfologia, sintassi, ecc. (ivi: 31)). Anche se lo scopo del TAL nella sua definizione
non è sbagliato, il rapporto tra la LC e il TAL è piuttosto inverso. La delimitazio-
ne dei due campi di ricerca, con cui concordo anch’io, viene proposta da Bonnie
Webber, secondo cui la linguistica computazionale, insieme all’ingegneria del lin-
guaggio naturale, è una sottodisciplina del trattamento automatico del linguaggio
(ritroviamo un simile parere in Hausser 1999, Calzolari – Lenci 2004, Lenci 2005,
Piasecki 2008):

Computational work on discourse and dialogue reflects the two general aims
of Natural Language Processing:  that of modeling human understanding
and generation of Natural Language in terms of a system of computation-
al processes. Work in this area is usually called Computational Linguistics;
 that of enabling computers to analyze and generate Natural Language in
order to provide a useful service. Work in this area has been called Applied
Natural Language Processing, Natural Language Engineering, or more re-
cently, Language Technology14 (Webber 2001: 798).

In altre parole, lo scopo globale della LC è quello di: «sviluppare modelli


computazionali della lingua», cioè modelli linguistici calcolabili dal computer, che
permettono al dispositivo di «acquisire le competenze necessarie per comunicare
direttamente nella nostra lingua»15 (Lenci 2005: 11). Per cui gli strumenti informa-
tico-linguistici progettati per questo settore permettono di: a) creare ed elaborare
grandi corpora di vari tipi, b) analizzare automaticamente i testi (lemmetizzazione,
annotazione morfosintattica (PoS tagging), annotazione sintattica (parsing), ecc.; si
veda il seguito), c) estrarre informazione dai corpora con metodi statistico-mate-
matici (Id. 2010a@: 3)16.
L’obiettivo generale è l’analisi automatica del testo (come sopra) che va rag-
giunto su vari livelli (il processamento del testo segue dunque alcune tappe pre-
stabilite dell’analisi linguistica). Questi livelli, la loro ripartizione e il loro funzio-

14 
‘Il lavoro computazionale sul discorso e dialogo riflette due obiettivi generali del trattamen-
to automatico del linguaggio naturale:  quello della modellazione della comprensione umana e
della generazione del linguaggio naturale in termini di un sistema di processi computazionali. Il la-
voro in questo settore di solito viene chiamato “linguistica computazionale”;  quello di permettere
ai computer di analizzare e generare il linguaggio naturale per fornire un servizio utile. Il lavoro in
questo campo è stato chiamato “trattamento automatico applicato del linguaggio naturale”, “inge-
gneria del linguaggio naturale”, o, più recentemente, “tecnologia della lingua”’.
15 
Tra i modelli computazionali troviamo anche i modelli del funzionamento lessicale di una
lingua. Nelle pagine che seguono mi concentrerò, per l’appunto, sulla descrizione lessicografica
computazionale (cap. 2), per arrivare infine (cap. 3) a proporre un modello elaborato apposita-
mente ai fini della traduzione automatica, vale a dire l’Approccio Orientato agli Oggetti.
16 
Si veda anche la definizione della LC proposta dalla Association for Computational Lingui-
stics: https://www.aclweb.org.

27

Lessico computazionale_libro.indb 27 03/02/2016 14:46:31


namento, cambiano a seconda delle necessità per cui il programma informatico
viene creato. Le tappe comuni, o le più generali, del trattamento automatico della
lingua in diversi sistemi sono (Jurafsky – Martin 2000, anche in Piasecki 2008:
258):

1) il riconoscimento vocale (speech recognition), solo nel caso in cui si parta da


una registrazione vocale,
2) la tokenizzazione e la segmentazione: la divisione del testo in unità più pic-
cole. Il “token” è l’unità minima (parola testuale). Il testo viene inoltre ri-
partito (segmentato) in frasi, sintagmi, ecc.,
3) l’analisi morfosintattica: la descrizione formale dei token dal punto di vista
morfologico, il riconoscimento delle occorrenze testuali come rappresentati
di un lemma (lemmatizzazione),
4) la disambiguazione del senso (sense disambiguation): l’attribuzione del sen-
so al token,
5) l’analisi sintattica: la rappresentazione della struttura sintattica di una frase
(di un sintagma), spesso attraverso uno schema ad albero (in base a una
“grammatica locale”),
6) l’analisi semantica: il passaggio dalla struttura lessicale e sintattica alla rap-
presentazione del senso,
7) l’analisi del discorso: analisi del rapporto tra diverse espressioni linguisti-
che, della struttura pragmatica del testo, del pieno significato del testo in
relazione al contesto, ecc.,
8) la sintesi del parlato: nei sistemi che “comunicano” con l’utente.

Le tappe dell’analisi automatica necessitano di diverse risorse linguistiche,


cioè insiemi di dati che rappresentano una lingua naturale nei suoi vari aspetti.
Per quanto riguarda la traduzione automatica, i dizionari bilingui o multilingui
(altrimenti chiamati banche dati lessicali) sono le risorse più importanti, poiché
rendono i termini tanto espliciti da permettere a un programma di scegliere l’e-
quivalente corretto nella lingua target. In questo lavoro cercherò di proporre il
metodo della costruzione di una simile banca dati lessicale per la coppia di lingue
italiano-polacco (lo stesso metodo potrà essere adoperato nella stesura dei diziona-
ri per altre coppie di lingue). La figura 1.2 presenta uno schema riassuntivo delle
tappe dell’analisi automatica della lingua.

28

Lessico computazionale_libro.indb 28 03/02/2016 14:46:31


Figura 1.2.:
Strumenti di analisi e risorse linguistiche in Italian NLP secondo N. Calzolari e A. Lenci (2004: 60).

A questo punto voglio ancora giustificare la scelta della traduzione italiana di


computational linguistic. Il termine “linguistica computazionale” è chiaramente la
traduzione letterale del suo equivalente inglese. Nei testi italiani sull’argomento
appare un termine parallelo – “linguistica informatica”. Se confrontiamo l’aggetti-
vo “informatico” con “computazionale” (in realtà entrambi gli attributi sono pre-
stiti), il primo risulta, senz’altro, meglio integrato con il lessico italiano, almeno per
un utente “medio” della lingua. Nella lingua inglese, da cui i due termini proven-
gono, non esiste però la collocazione di tipo *informatical linguistics. Non trovo
la ragione per cui la disciplina il cui nome nasce nella tradizione anglosassone non
dovrebbe essere tradotta nello spirito di quella tradizione. Ogni altra traduzione
si serve, comunque, di un processo simile: l’unica differenza riguarda il grado di
convenzionalità della struttura (troviamo un problema terminologico simile nelle
traduzioni polacche; si veda Słapek – Chrupała 2010: 64).

1.2.2. Livelli di annotazione linguistica17

 Tokenizzazione: ogni testo destinato all’elaborazione automatica dei dati va


innanzitutto segmentato. Le unità testuali di base vengono chiamate token. I token
sono sia parole ortografiche sia numeri, segni di punteggiatura, abbreviazioni, ecc.
La segmentazione testuale risulta a volte particolarmente difficile, non solo per le
lingue che usano il sistema di scrittura continuo (iconografico, sillabico), ma anche
per le lingue a ortografia segmentata (p.es.: / la / strada / ≠ / La Spezia /; C’era →
C’ / era (esempi di Lenci et al. 2005: 103–104)). Per questo motivo i programmi di

Restano fuori della mia presentazione i livelli di annotazione relativi alla trascrizione del testo
17 

parlato o all’annotazione prosodica e pragmatica che riguardano essenzialmente la lingua parlata.

29

Lessico computazionale_libro.indb 29 03/02/2016 14:46:31


segmentazione del testo, detti “tokenizzatori”, devono servirsi di algoritmi a volte
molto sofisticati.
 Annotazione morfo-sintattica: ha come scopo l’indicazione della categoria
grammaticale (o parte del discorso) di ogni parola (token) nel suo contesto testuale.
L’informazione relativa alla categoria morfologica può essere integrata con ulteriori
dati, come p.es.: persona, numero, genere, tipo di flessione. L’annotazione morfo-
sintattica permette di risolvere il problema di omografie testuali (p.es.: Maria porta
la bicicletta ≠ Maria sta davanti alla porta; Sei stato bravissimo ≠ Lo stato di emer-
genza). Il programma che esegue l’annotazione morfo-sintattica viene chiamato tag-
ger (si veda il comando TAG dei motori di ricerca testuale, paragrafo 4.3.1).
 Lemmatizzazione: l’annotazione morfo-sintattica viene spesso integrata con
la riduzione della forma flessa del lessema alla sua forma di citazione detta “lem-
ma” (Chiari 2007: 70). Abitualmente per le forme di citazione s’intendono: l’in-
finito per i verbi, il singolare maschile per gli aggettivi, il singolare dei sostantivi
(rispettivamente alle voci del dizionario tradizionale). La lemmatizzazione richiede
una precedente (o contemporanea) annotazione morfo-sintattica.
 Annotazione sintattica: è l’informazione riguardante l’analisi sintattica della
frase. Questo tipo di analisi varia a seconda degli approcci teorici e delle gramma-
tiche formali adoperate. Il programma di analisi sintattica è chiamato parser. I cor-
pora annotati con un parser forniscono dati importanti per le analisi linguistiche
molto avanzate (come ad esempio il contesto sintattico preferito da una parola,
tutti gli usi transitivi e intransitivi di un dato verbo, ecc. (Lenci et al. 2005: 215)).
L’esempio di un’analisi sintattica automatica è presentato nella figura 1.3.
Figura 1.3.:
Esempio dell’analisi sintattica eseguita con il TANL Italian Parser (in esame: la prima frase de La
solitudine dei numeri primi di P. Giordano).

 Annotazione semantica: è la codifica del contenuto semantico delle parole


testuali lessicalmente piene. Vista la complessità della questione stessa del signi-
ficato, questo tipo di annotazione può presentarsi sotto diverse forme. I tipi più
frequenti sono: a) l’indicazione delle categorie semantico-concettuali prestabilite,
che possono essere molto generali, come: animato, astratto, evento, umano, ecc., o
assumere un carattere molto specifico a seconda della categorizzazione prescelta,
b) l’indicazione del ruolo semantico che una data parola rappresenta, come p.es.:
agente, paziente, destinatario, tema, ecc. (ibid.).

30

Lessico computazionale_libro.indb 30 03/02/2016 14:46:31


La figura 1.4 presenta l’andamento dell’analisi del testo con la successiva an-
notazione su vari livelli:
Figura 1.4:
Schema riassuntivo dell’annotazione linguistica secondo A. Lenci (2010a@: 13).

1.2.3. Lessicografia computazionale e traduzione automatica

Tutte le applicazioni create nell’ambito della linguistica computazionale de-


vono operare sulle espressioni linguistiche costituite dalle unità lessicali (ovvero
sull’insieme di vocaboli e di locuzioni che costituiscono il lessico di una lingua).
Per cui la LC si concentra in gran parte sull’analisi del lessico (lessicologia) e sulla
creazione dei dizionari compatibili con le applicazioni in merito. La lessicografia
computazionale è dunque un importante (se non il più importante) centro dell’in-
teresse dei linguisti che si occupano di questo settore. I lessicografi si propongono
i seguenti obiettivi: a) l’utilizzo e la ristrutturazione dei dizionari tradizionali a
scopi computazionali/informatici (la descrizione di un’entrata lessicale nei dizio-
nari tradizionali non è sufficiente per i programmi TAL; il solo elenco dei sensi
di un lemma non permette di distinguerli e di servirsene correttamente), b) l’uso
delle tecnologie informatiche nella stesura dei nuovi dizionari (Hanks 2003: 49,
cfr. Chiari 2007: 84).
Distinguiamo due tipi di dizionari elettronici: 1) i dizionari-macchina (è la tra-
duzione del termine inglese machine-readable dictionary proposta da Chiari 2007)
creati per le applicazione del trattamento automatico della lingua, della traduzio-

31

Lessico computazionale_libro.indb 31 03/02/2016 14:46:32


ne automatica, ecc., consentono la lettura dei dati da parte dei software specia-
lizzati, 2) i dizionari informatizzati (machine-tractable dictionary) sono i dizionari
“tradizionali” trascritti sotto forma elettronica. In questo senso i dizionari creati
nell’ambito della lessicografia computazionale non comprendono soltanto le defi-
nizioni esaustive dei sensi né gli esempi dell’uso dei singoli lemmi (naturalmente
possono anche riportare le informazioni di questo tipo), ma più importanti sono
le informazioni esplicite di natura fonetica, sintattica, semantica, ecc., a seconda
del tipo di applicazione che si servirà di un simile dizionario. Dunque lo scopo dei
lessicografi computazionali non è, in un certo senso, la riscrittura dei dizionari a
stampa in forma elettronica. Per creare le banche dati lessicali bisogna riunire le
informazioni esplicitamente contenute nei dizionari su carta (informazioni di tipo
lessicale-semantico, fonetico, morfologico e sintattico), riorganizzarli ed estrarne le
informazioni di natura implicita, come le dipendenze semantiche o la gerarchia les-
sicale, ed eventualmente, se ce n’è bisogno, aggiungere nuove informazioni (Banyś
2002a: 8).
I dizionari-macchina vengono destinati a diverse applicazioni specializzate nel
campo della LC. In breve, i più importanti settori per attuare questo tipo di dizio-
nario elettronico sono (Chiari 2007: 89):

-- le applicazione del Natural Language Processing: si parla qui dei dizionari di


tipo morfo-sintattico di cui si fa uso nei programmi come parser sintattico,
tagger, correttori ortografici, sillabizzatori, ecc.,
-- applicazioni prodotte per la sintesi del parlato, o più in generale, per le
tecnologie del parlato: sono i dizionari-macchina ricchi di informazioni di
natura fonetica (acustica e uditiva) e morfo-sintattica,
-- ontologie e altri programmi per la cosiddetta rappresentazione della cono-
scenza: i dizionari di questo tipo comprendono soprattutto le informazioni
semantiche (i sistemi di base della conoscenza vengono integrati in altri
programmi di NLP),
-- recupero di informazioni (information retrieval) e estrazione di informazioni
(information extraction): i dizionari macchina vengono utilizzati da vari mo-
tori di ricerca (oggi di uso molto comune) per trovare i documenti che pre-
sentino determinate caratteristiche o particolari informazioni ivi contenute,
-- traduzione automatica: le banche dati lessicali rendono possibile la tradu-
zione del testo dalla lingua A verso la lingua B, sono quindi dizionari bilin-
gui o multilingui.

Inoltre, i dizionari-macchina vengono creati come componenti di un solo tipo


di software o di tutte le applicazioni LC. Ciò è possibile grazie alla loro architettura
modulare, di cui parlerò più avanti.
Tra le maggiori difficoltà affrontate nell’ambito della traduzione automatica
troviamo: l’omonimia (assoluta e testuale), le espressioni idiomatiche (fr.: expres-

32

Lessico computazionale_libro.indb 32 03/02/2016 14:46:32


sion figée), l’ambivalenza sintattica e la polisemia (cfr. ivi: 11–22). La questione
dell’omonimia e dell’ambivalenza sintattica viene risolta attraverso una grammati-
ca locale degli analizzatori sintattici, la polisemia e le espressioni idiomatiche en-
trano nell’interesse particolare della lessicografia computazionale, quindi, di con-
seguenza, della traduzione automatica (chiaramente anche gli analizzatori sintattici
possono servirsi di vari dizionari). L’unica via d’uscita che porta a una traduzione
corretta eseguita dal computer è la creazione di ampie banche dati, in altre parole
di dizionari-macchina (vedi sopra), i cui dati lessicali permetteranno al programma
di scegliere l’equivalente adeguato nella lingua target.
In sintesi: il programma creato ai fini della traduzione automatica può essere
composto di due moduli: il primo modulo è responsabile, per così dire, dell’analisi
morfologica e sintattica, il secondo modulo è un dizionario-macchina che permette
di tradurre il testo. I lessicografi si servono dell’analisi dei corpora (i corpora fun-
gono innanzitutto da fonte delle unità lessicali e dei dati statistici), per cui alcuni ri-
cercatori, invece di considerare la linguistica dei corpora un ramo della linguistica
computazionale in senso stretto, preferiscono definirla in termini di componente
ausiliare agli altri settori della LC.
La terminologia anche all’interno, per così dire, del componente “traduzione
automatica” risulta imprecisa. Nei lavori del gruppo di Banyś (p.es.: Chrupała
2007, Żłobińska-Nowak 2008a), di cui fa parte anche questo contributo, anziché
della traduzione automatica (forse per prudenza) si parla della traduzione assistita
(Traduction Assistée par Ordinateur; TAO). In realtà i due termini rimandano a
due approcci diversi: nella traduzione automatica è il computer stesso a svolgere
il processo di traduzione (anche se l’esito di una tale traduzione può essere rivi-
sto da un traduttore umano), nella traduzione assistita è sempre e solo l’uomo a
tradurre il testo; il programma di traduzione assistita (dal francese TAO o più
frequentemente dall’inglese CAT, vedi sopra) aiuta il traduttore solo dal punto di
vista tecnico: divide il testo in segmenti, copia parti del testo, gestisce il glossario,
ecc.). In questo lavoro si parlerà quindi della Traduzione Automatica (cfr. Machi-
ne Aided Human Translation e Fully Automated Machine Translation nell’introdu-
zione al lavoro).

1.2.4. Tra il dizionario informatizzato e il dizionario-macchina

Visto il continuo sviluppo delle tecnologie informatiche che in modo evidente


facilitano la stesura dei dizionari informatizzati (vedi sopra), oggi si richiede che
tali dizionari siano più potenti (più ricchi di lemmi, pieni di esempi d’uso, sem-
plicemente: più completi) di quelli consultabili su carta. I dizionari informatizzati
necessitato quindi di un radicale cambiamento di impostazione strutturale e fun-
zionale riguardo le loro versioni tradizionali. Per dare un esempio eclatante: in un
dizionario elettronico con scopi didattici in cui è possibile navigare attraverso le
parole usate nella definizione del lemma, non è più necessario limitarsi alle 2000

33

Lessico computazionale_libro.indb 33 03/02/2016 14:46:32


parole di base (l’utente potrà facilmente ritrovare il significato di tutte le parole
sconosciute), per cui le definizioni potranno essere redatte in maniera più natura-
le, anche se più complessa; risulta ovvio il superamento del limite dello spazio: la
struttura più larga, quantità maggiore di lemmi, contesti, collocazioni, ecc. (cfr. Lo
Cascio – Nijpels 2006: 545). Tra i dizionari informatizzati italiani che, a mio parere,
meritano un particolare interesse troviamo:

▪ Dizionario Analogico della Lingua Italiana di Donato Feroldi e Elena Dal Pra
(DAZ; edizione CD della Zanichelli, Bologna: 2011)
Il dizionario analogico serve a trovare una parola x a partire da un’altra parola
y, il cui significato rimane collegato con x. Gli obiettivi di un simile dizionario sono
precisi. Sulla copertina del DAZ troviamo: «si rivolge a chi […] ha la necessità
di trovare le parole o le locuzioni giuste: quelle che sfuggono, di cui si avverte la
mancanza o si presume l’esistenza». Le voci del DAZ sono articolate in “rubriche”
che inquadrano sottoinsiemi lessicali “intuitivamente” più correlati all’informazio-
ne cercata, dando così uno strumento molto efficace di ricerca lessicale (p.es. per
cambiare troviamo le seguenti rubriche con esempi: modi: da cima in fondo, radi-
calmente, da un giorno all’altro, caratteristiche: mutevole, erratico, persone: rivol-
gitore, trasformista, relativo a: cambiamento, mutamento, trasformazione, modi di
dire: tanto per cambiare, non è cambiata neppure una virgola, detti e proverbi: il
mondo è bello perché è vario, curiosità: [elettricità] cumulatore, invertitore, ecc.).
Chiaramente le entrate del dizionario sono collegate tra di loro attraverso i link
(collegamenti ipertestuali), il che facilita un’eventuale ulteriore ricerca.

▪ Grande Dizionario Analogico di Raffaele Simone (DGA; edizione CD della To-


rino, UTET, 2011)
DGA è un altro dizionario analogico della lingua italiana che, però, è sorto
con peculiari assunti teorici del curatore dell’opera, come la teoria dei formati
semantici e la teoria delle reti (small-world network di Albert Lászlo Barabási).
Simone vuole riprodurre la competenza semantica dei parlanti che, come sostiene,
si pongono continuamente delle domande lessicali di tipo: Cosa significa? Come
si scrive? Da dove proviene? Le domande cui dovrebbe rispondere un dizionario
analogico riguardano chiaramente le relazioni semantiche e formali tra le parole,
come rapporti di somiglianza tra x e y, le dipendenze semantiche tra x e y, ecc.
L’idea principale è che: «la maggior parte delle parole è legata nella mente da un
numero definito e limitato di relazioni semantiche naturali»18 chiamate dall’autore
“passerelle”, con cui i parlanti si muovono nel lessico (si vedano anche: capp. 2.4,

18 
I fondamenti teorici del DGA qui esposti si basano sul seminario tenuto dall’autore il 25
gennaio 2010 durante il laboratorio di ricerca lessicografica “Triple” presso il Dipartimento di
Linguistica dell’Università Roma Tre.

34

Lessico computazionale_libro.indb 34 03/02/2016 14:46:32


2.6 sulle teorie di Mel’čuk e Pustejovsky). L’obiettivo del lavoro sta nell’identificare
queste passerelle, mentre il dizionario analogico «è una ricostruzione razionale e
rappresentazione ergonomica dei rapporti associativi che collegano le parole tra di
loro, anche se non esiste alcuna relazione superficiale visibile». Nell’elaborazione
del DGA a ogni categoria sono associati dei record-type contenenti liste predefinite
di tipi lemmatici (passerelle), per ogni record-type si sono identificate le relazioni
fondamentali (comuni o specifiche) attraverso cui è possibile spostarsi da una paro-
la all’altra. Purtroppo, benché il DGA sia stato elaborato accuratamente dal punto
di vista metodologico, l’interfaccia della versione informatizzata non rende giustizia
al potenziale scientifico e alle sue basi teoriche; questi si perdono sul piano informa-
tico (cfr. de Carli 2011). Tuttavia, il DGA rimane la più grande raccolta lessicale di
questo tipo per la lingua italiana con un fitto sistema di rinvii tra i lemmi che riporta.

▪ Grande Dizionario Elettronico Italiano-Neerlandese/Neerlandese-Italiano di


Vincenzo Lo Cascio (DIN, edizione CD della Fondazione Italned, Amstelveen:
2005)
DIN è la versione informatizzata e ampliata dello stesso dizionario in forma car-
tacea (uscito in 2 volumi nel 2001, per la casa editrice Zanichelli di Bologna e Van
Dale di Utrecht). Frutto di un lavoro di 25 anni, è un dizionario bilingualizzato19
molto potente, destinato ai due mercati protagonisti. Concepito come una banca
dati relazionale a partire dal componente italiano-neerlandese, in seguito adattato
automaticamente con appositi software. I dati ricavati in questa maniera sono stati
verificati dai redattori e integrati con il materiale proveniente dal successivo com-
ponente neerlandese della banca dati (aggiunta degli esempi, fraseologia, ecc.). Con
l’interfaccia software è possibile navigare da un lemma all’altro in una lingua o da
una lingua all’altra, è possibile trovare le collocazioni, locuzioni o combinazioni che
comprendono il lemma cercato, tutte le frasi della seconda lingua in cui la parola
cercata è stata inserita come equivalente; si possono trovare i lemmi marcati come
appartenenti a un linguaggio settoriale, un registro, una categoria grammaticale,
ecc. Il motore di ricerca permette anche un’analisi personalizzata: è possibile ag-
giungere nuovi esempi, nuove collocazioni o traduzioni. DIN è senz’altro il miglior
esempio del lavoro lessicografico bilingue (o più precisamente: bilingualizzato).

1.2.5. Linguistica computazionale – un nuovo paradigma linguistico?

Il termine “paradigma” è entrato nell’uso comune della filosofia della scienza


(o della metodologia della scienza) attraverso l’opera di Thomas Kuhn, La strut-

19 
Il dizionario bilingualizzato (ing.: bilingualised) nasce come unione delle caratteristiche di
un dizionario monolingue e bilingue: la definizione del lemma viene scritta nella lingua del lemma,
dopo vengono esposti gli equivalenti nella lingua target (cfr. Laufer – Malamed 1994).

35

Lessico computazionale_libro.indb 35 03/02/2016 14:46:32


tura delle rivoluzioni scientifiche (1978 [1962])20. Per rivoluzione s’intende, dopo
Kuhn, il cambiamento delle teorie vigenti, dei metodi di ricerca, degli scopi o ad-
dirittura dello stesso oggetto di studio. In conseguenza alla rivoluzione si negano le
teorie precedenti, si pongono i fondamenti delle nuove teorie e, infine, appare un
nuovo paradigma scientifico. In linea di massima lo stesso termine vuol indicare un
certo consensus omnium: norme, opinioni, presupposti e metodi di ricerca comu-
nemente approvati, condivisi da un gruppo di ricercatori (a questo proposito p.es.:
Amsterdamski 1995: 215, Such – Szcześniak 2006: 98–111)21. Un simile consenso
dell’ambiente accademico è un tratto caratteristico di una disciplina matura e con
una vasta tradizione scientifica.
La concezione sociologica kuhniana del progresso scientifico22 permette di di-
stinguere quattro paradigmi: induzionismo, verificazionismo, falsificazionismo e
postmodernismo. Le loro manifestazioni nell’ambito della linguistica sono rispet-
tivamente: linguistica storico-comparativa, linguistica strutturale, linguistica ge-
nerativa e linguistica cognitiva. Questa classificazione dei paradigmi linguistici di
Ireneusz Bobrowski (1998: 57–80; la classificazione ispirata chiaramente a Kuhn)
non inquadra, comunque, i paradigmi del tutto omogenei. Tanto per ricordare:
1) Le teorie del romanticismo tedesco in cui domina la prospettiva aprioristica e i
presupposti filosofici differiscono essenzialmente dal pensiero neogrammatico, in-
fluenzato soprattutto dal positivismo di August Comte (lo stesso nome Junggram-
matiker ‘giovani grammatici’ esprime il giudizio spregiativo verso i colleghi più
giovani; si veda p.es.: Paveau – Sarfati 2003: 23). 2) Le ricerche condotte presso le
differenti scuole strutturaliste non si concentrano sullo stesso aspetto del linguag-
gio umano. Per Ferdinand de Saussure il lato più importante è il rapporto recipro-
co dei segni linguistici: «nella lingua non vi sono se non differenze» (de Saussure
1985: 145 [1916]); per i praghiani è più importante la funzione del linguaggio; la
glossematica di Luis Hjelmslev ritorna alla definizione logico-matematica di “fun-
zione” in quanto rapporto tra gli elementi, per cui viene anche chiamata “scuola
neosaussuriana”, le modalità di valutazione delle teorie linguistiche lo avvicinano,

20 
Gli studi di Kuhn continuano in realtà la riflessione sul progresso del sapere scientifico. A
questo proposito si distinguono tradizionalmente tre approcci (Such – Szcześniak 2006: 98–100,
ENF: 456–464): a) la visione lineare/cumulativa, secondo cui lo sviluppo scientifico si verifica in
maniera continua, cumulativa (il cumulativismo illimitato di Pierre Duhem e il cumulativismo
limitato di Francis Bacon), b) l’approccio anticumulativo con “l’incommensurabilità scientifica”
(la nozione della rivoluzione permanente di Paul Feyerabend e i primi testi di Karl Popper e l’al-
ternanza evoluzione-rivoluzione di Thomas Kuhn), c) il punto di vista dialettico di Imre Lakatos,
secondo cui le rivoluzioni non marcano una totale rottura con la tradizione scientifica, perché
lasciano alcuni elementi di continuazione nello sviluppo scientifico (ritroviamo un simile parere
nei testi “tardi” di Popper).
21 
Nella tradizione grammaticale il termine “paradigma” indica l’insieme delle forme flesse di
un lessema.
22 
Kuhn nella sua proposta metodologica osserva che il progresso scientifico è almeno in parte
condizionato da fattori esterni, quali storia, cultura e società, di qui l’attributo “sociologica”.

36

Lessico computazionale_libro.indb 36 03/02/2016 14:46:32


però, al falsificazionismo chomskyano; infine lo strutturalismo americano applica
l’induzione come metodo principale di ricerca, per cui dovrebbe essere respinto dal
paradigma verificazionistico (nel senso proposto da Bobrowski). 3) Il falsificazioni-
smo ex definitione non è un paradigma omogeneo e coerente. Difatti, la falsificazio-
ne di una teoria dovrebbe comportare la sua sostituzione con delle ipotesi nuove.
Lo stesso Chomsky ha proposto diversi modelli grammaticali (la grammatica a stati
finiti, la grammatica delle strutture sintagmatiche, la grammatica generativo-trasfor-
mazionale); negli anni ’80 si allontana, però, dal falsificazionismo e le sue proposte
più recenti, la teoria della reggenza e del legame (Government-Binding) nonché il
programma minimalistico, sono solo ulteriori proposte che non falsificano quelle
precedenti, non dovrebbero, quindi, entrare nel paradigma falsificazionistico (nella
versione di Bobrowski del 1998)23. 4) La linguistica cognitiva è forse il paradigma
più diversificato. L’aggettivo “cognitivo” diventa pian piano un termine-sacco in cui
entrano tutte le proposte apparse dopo la pubblicazione di Metafora e vita quoti-
diana di George Lakoff e Mark Johnson (2004 [1980]). Una simile differenziazione
degli studi linguistici trova origine nell’interdisciplinarità della linguistica cognitiva.
Le dimensioni del presente volume non permettono di presentare nemmeno in par-
te gli studi linguistici comunemente definiti come cognitivi24.
Come si presenta la linguistica computazionale all’interno di un così vasto
panorama di ricerche linguistiche? Ho già accennato nell’introduzione a questo
lavoro che la LC non può considerarsi un “nuovo ramo” della linguistica in senso
stretto, perché la sua origine prende le mosse dalle ricerche scientifiche condotte
in altre discipline, quali p.es.: informatica, statistica matematica, intelligenza artifi-
ciale, ecc. Ciò comunque non le nega il diritto di pretendere la posizione di un pa-
radigma a parte (vediamo p.es. la linguistica cognitiva, indubbiamente considerata
un paradigma autonomo, a prescindere dalle diversità di approcci interdisciplinari
al suo interno, o la grammatica generativa che veniva sviluppata parallelamente alle
ricerche sui linguaggi formali e sull’intelligenza artificiale). L’ispirazione da altre
discipline e l’interdisciplinarietà delle ricerche non bastano per confutare lo status

23 
Anche lo stesso Bobrowski parla nei suoi lavori più recenti del non-falsificazionismo di
Chomsky; p.es.: 2009a: 61.
24 
La linguistica cognitiva si occupa particolarmente del rapporto lingua-mente (lingua-pro-
cessi cognitivi). Oggi, accanto a questo paradigma linguistico, si sviluppa – altrettanto dinamico
– il paradigma culturale (antropologico) – mancante nella classificazione di Bobrowski – al centro
del cui interesse troviamo la relazione lingua-cultura. Questa “bipolarità” degli studi linguistici è
una naturale conseguenza nella natura del linguaggio. Come ha scritto Andrzej Bogusławski: «ci
sono, almeno dal punto di vista teorico, due prospettive per vedere le diversità linguistiche: da un
lato, in relazione alla mente e alla cognizione umana e, dall’altro, in relazione alla cultura» (1991:
43; trad. DS). L’esagono delle scienze cognitive proposto negli anni ’70 (si veda la copertina di
Cognitive Science, Walker 1978@) oggi, credo, non basti per illustrare l’interdisciplinarità della
linguistica. Benché tra “le scienze cognitive” sia stata inclusa l’antropologia, è piuttosto l’antropo-
logia fisica di cui si tratta, e non l’antropologia culturale.

37

Lessico computazionale_libro.indb 37 03/02/2016 14:46:32


di paradigma. Inoltre, per la LC il dialogo interparadigmatico e interdisciplinare è
stimolante e del tutto necessario.
Torniamo un attimo al pensiero filosofico di Kuhn. Le sue riflessioni non sono
rimaste esenti da critiche. I commenti riguardano soprattutto il carattere polisemi-
co del termine “paradigma”: da La struttura… non risulta chiaro se il detto con-
sensus debba coinvolgere tutta la comunità scientifica, i rappresentanti di una sola
disciplina, o abbia un senso ancora più ristretto: i ricercatori di un campo molto
specializzato (Amsterdamski 1995: 216). In conseguenza alle critiche, l’autore ha
deciso di precisare il suo punto di vista, per arrivare infine alle seguenti definizione
di “paradigma” (si vedano p.es.: Kuhn 1974: 297, ENF: 457)

1) esemplari (exemplars), paradigmi in senso stretto, cioè le modalità di opera-


zione, le procedure standardizzate di risoluzione del problema,
2) matrici disciplinari (disciplinary matrices), paradigmi in senso ampio, un’im-
magine globale dell’oggetto indagato condivisa da una comunità di scienzia-
ti (nell’ambito di una data disciplina).

Da questa prospettiva potremmo provare ad attribuire alla LC il primo senso


del termine ma risulterebbe comunque ancora troppo impreciso o, addirittura,
ambiguo. A mio parere, parlare della linguistica computazionale come unico para-
digma linguistico finisce con lo svilimento della definizione della stessa LC, da un
lato, e del paradigma, dall’altro. La linguistica computazionale è quel settore della
linguistica che propone alcuni metodi specifici dell’analisi del linguaggio naturale,
o più precisamente della sua manifestazione a forma di testo25. La LC i n q u a d r a
piuttosto certe m o d a l i t à d i t r a t t a m e n t o d e l l e u n i t à l i n g u i s t i c h e
(a ogni livello: testo, frasi, parole, ecc.), non è un paradigma a parte. Sono sicuro
che i ricercatori appartenenti a tutti i paradigmi linguistici possono approfondi-
re e migliorare le loro ricerche, ricorrendo a degli strumenti computazionali. In
tal modo i risultati delle analisi potranno considerarsi più accurati e credibili, in
quanto basati su dati incontestabili (ricordiamo qui l’impostazione metodologica
di Witold Mańczak che ha condizionato le ricerche dell’autore per oltre mezzo
secolo: une assertion confirmée par la statistique ou, exceptionnellement, par l’ex-
périence est considerée comme vrai26; Mańczak 2008: 7). Per di più, credo che oggi

Già nel 1977 Antoni Furdal ha notato che i metodi statistici e algebrici migliorano lo studio
25 

del sistema linguistico. La matematica non entra, però, nello schema dell’interdisciplinarità lingui-
stica proposto dall’autore, perché, come dice, il rapporto linguistica-matematica è unidirezionale:
il confine tra le due discipline appartiene sempre alla linguistica per la quale si adoperano i metodi
del calcolo matematico. È una situazione del tutto diversa rispetto p.es. al rapporto linguistica-
psicologia, dove, in conseguenza alla cooperazione dei due settori, nasce un nuovo ramo della
scienza, interessante sia per i linguisti che per gli psicologi (Furdal 1977: 31).
26 
‘[…] un’affermazione confermata dalle statistiche o, eventualmente, attraverso l’esperimen-
to può considerarsi vera’.

38

Lessico computazionale_libro.indb 38 03/02/2016 14:46:32


nelle ricerche linguistiche sia indispensabile la conoscenza almeno basilare degli
strumenti della LC.

1.3. Ambiguità linguistiche

L’invenzione dei linguaggi formali e la conseguente codificazione di diverse


caratteristiche linguistiche in forma di calcoli sono sicuramente la forza motrice
che ha promosso e facilitato la creazione di strumenti computazionali in grado di
gestire il linguaggio naturale. Questo calcolo deve necessariamente prevedere un
inventario finito di simboli e di regole di combinazione dei simboli (i fenomeni
calcolabili sono infatti facilmente implementabili in un dispositivo elettronico, in-
vece ciò che in qualche modo può ritenersi incalcolabile è molto più difficoltoso
dal punto di vista informatico e, semmai, viene gestito con molta meno facilità da
un apparecchio meccanico). Tra gli aspetti dell’incalcolabilità delle lingue Chiari
elenca: la potenziale infinitezza dei segni, l’estensibilità dei significati, le sinonimie,
le omonimie assolute e testuali, le polirematiche e le collocazioni, le ambiguità
sintattiche, le anafore, i deittici e i quantificatori, la metalinguistica riflessiva, il
problema della conoscenza pragmatica e la differenza tra lo scritto e il parlato
(Chiari 2007: 11–22).
Visto il problema prioritario del lavoro, in seguito mi concentrerò soprattutto
sulle questioni più importanti dal punto di vista della traduzione automatica e della
lessicografia computazionale. Per ambiguità lessicale intendo qui in generale «la
proprietà di una parola di esibire denotazioni diverse a seconda del contesto in cui
si trova» (Ježek 2009@: 11). Il grado di complessità del problema varia chiaramente
da caso a caso.
- Le polirematiche e le collocazioni:
le lingue naturali presentano una certa predilezione di scelta del contesto lessicale
di una data unità linguistica. Possono quindi formare insiemi composti da più di
una sola forma grafica che si comportano come un solo lessema autonomo dal
punto di vista semantico e morfo-sintattico. Queste espressioni vengono definite
polirematiche, p.es.: macchina da scrivere, scala mobile, a gambe levate (le polire-
matiche differiscono a seconda del grado di polirematizzazione; sul problema del
figement si veda p.es.: Chrupała 2008b) o collocazioni che sono «le combinazioni
di parole relativamente più libere delle polirematiche, ma accomunate da una par-
ticolare frequenza d’uso, ossia dalla preferenza per l’occorrenza congiunta dei suoi
componenti» (Chiari 2007: 16; gli esempi delle collocazioni sono: imbucare una
cartolina, obliterare il biglietto, compilare un modulo, ecc.).
La problematicità di questo tipo di unione lessicale per i programmi della tra-
duzione automatica consiste nel fatto che le traduzioni dei due (o più) componenti
delle collocazioni/polirematiche esaminate separatamente possono differire dalla

39

Lessico computazionale_libro.indb 39 03/02/2016 14:46:32


traduzione dell’insieme, p.es. compilare > pl. wypełnić, modulo: pl. moduł o fomu-
larz, compilare un modulo > wypełnić formularz (lo stesso per le traduzioni inglesi:
fill a form e non *compile a module, anche se i successivi equivalenti sono corretti
in altri casi; ivi: 17). Una corretta traduzione è possibile solo quando il programma
è fornito di una banca dati lessicale organizzata in modo tale che lo stesso program-
ma sia in grado di ritrovare anche tutte le collocazioni di una data parola (si veda
il cap. 3).
- La sinonimia:
nel senso più comune la sinonimia è l’uguaglianza del senso tra due o più voca-
boli (p.es. EJO: 580). Chiari aggiunge il fattore contestuale nella definizione del
fenomeno, per cui: sono sinonimici i vocaboli che in un dato contesto linguistico
ed extralinguistico associano lo stesso senso per il locutore (Chiari 2007: 14); p.es.
vocabolario/dizionario nella frase Trova nel dizionario/vocabolario il significato del-
la parola mietitrebbiatrice. La sinonimia è il fenomeno prevalentemente parziale, il
che significa che tra i vari sensi veicolati da una data parola di solito ci sono alcuni
sensi non veicolati dal suo sinonimo (nella frase Nel vocabolario di Gadda si trova-
no numerosi dialettismi la sostituzione vocabolario > dizionario comporterebbe un
radicale cambiamento del senso; ibid.).
Il fenomeno risulta, comunque, ancora più complesso. Secondo Jurij Apresjan
i sinonimi propri (o esatti, nella versione originale: točnye sinonimy) sono le parole
che hanno le stesse definizioni nel dizionario, invece i sinonimi non propri (non
esatti; orig.: netočnye sinonimy) o quasi-sinonimi sono parole le cui definizioni
hanno una parte in comune (Apresjan 1974: 218; l’autore non precisa il termine
“parte”; è intuitivo che si tratta di una parte “notevole”). Tale definizione mette in
rilievo la connotazione della parola. Oltre alle sfumature del significato (p.es.: ini-
zio, principio, esordio), ai registi linguistici (dottore, medico) e alle diversità stilisti-
che relative ai generi testuali adoperati, risulta problematica anche la distribuzione
delle parole sinonimiche (la scelta della parola a seconda del suo contesto lessica-
le). Apresjan analizza le scelte lessicali da tre punti di vista: semantico, lessicale e
morfo-sintattico. Egli constata che per ogni tipo di cui sopra possono verificarsi le
distribuzioni equivalenti (molto rare), inclusive, contrastive e complementari, per
cui in totale ci sono 3 × 4 = 12 tipi di differenze elementari tra i sinonimi lessicali.
La differenza nella distribuzione contestuale spiega il problema della sostituibilità
dei due termini (ivi: 230)27.

27 
La scelta della parola è motivata anche dal contesto pragmatico, p.es. i cosiddetti sinonimi
eufemistici vengono usati per attenuare un’espressione, p.es.: morire > spegnersi.
Nella traduzione automatica la sinonimia non comporta maggiori problemi. Il programma
traduce una data parola a seconda del suo equivalente nella banca dati. È il lessicografo a decidere
quali equivalenti proporre. Per le parole sinonimiche i traducenti possono anche coincidere (ri-
cordo che nella nostra ottica il significato viene comunque definito in un dato contesto lessicale).

40

Lessico computazionale_libro.indb 40 03/02/2016 14:46:32


- L’omonimia:
sono dette omonimiche le parole che sono uguali come significanti, ma che invece
evocano significati del tutto diversi. Si distinguono gli o m o n i m i a s s o l u t i –
parole omografe e omofone appartenenti alla stessa categoria grammaticale e alla
stessa classe flessionale (p.es.: riso: 1. pianta alimentare: riso bianco, riso integrale,
ecc., 2. il ridere, il modo di ridere: sfrenato, beffardo, ecc.) – dagli o m o n i m i t e -
s t u a l i – parole omofone e omografe, ma appartenenti a categorie grammaticale
e/o classi flessionali diverse (p.es.: porta: 1. il sostantivo femminile al singolare, 2. la
3. pers. sing. del verbo portare; risulta che omonimiche sono soltanto alcune forme
flesse dei lessemi; si veda Chiari 2007: 14–15. Gli omonimi testuali vengono anche
definiti intercategoriali; cfr. Ježek 2009@:14). Solitamente le due parole omofone
vengono inserite in un dizionario come due entrate diverse. Le parole polisemiche,
invece, si presentano come una sola entrata con dei sensi diversi (per la polisemia
si veda il seguito: 1.3.1). Il problema della sinonimia testuale viene risolto al livello
dell’annotazione morfo-sintattica, invece l’omonimia assoluta va risolta con un’ac-
curata disambiguazione del senso dei lessemi.
- Le ambiguità sintattiche:
la frase è ambigua dal punto di vista sintattico se è possibile rappresentarla tramite
più di un albero sintattico. In tal modo nella frase La vecchia porta la sbarra (esem-
pio di Chiari 2007: 17) possiamo indicare il suo sintagma nominale la vecchia o la
vecchia porta. La frase isolata rimane ambivalente (in questo caso l’ambivalenza è
dovuta all’omonimia testuale; vedi sopra). I fattori che permettono di interpreta-
re correttamente la frase sono spesso di natura pragmatica, p.es.: il contesto o la
prosodia.
- I riferimenti anaforici/cataforici:
sono le unità testuali che si riferiscono a elementi già presenti nel testo (anafore)
o a elementi che verranno introdotti dopo lo stesso riferimento (catafore). Spesso
l’uso di anafore/catafore è ambiguo e una corretta interpretazione del testo è resa
dal contesto pragmatico in cui un dato testo appare; p.es.: nella frase Marco ha letto
gli articoli con gli occhiali e dopo li ha rimessi nel cassetto il pronome li può riferirsi
sia a gli articoli che a gli occhiali.
Le ambiguità sintattiche e i riferimenti anaforici sono aspetti del linguaggio
trattati al livello morfo-sintattico. La traduzione automatica dipende dunque in
primis da una corretta analisi della frase eseguita con un tagger e con un parser
sintattico. Tra le difficoltà di tipo sintattico per un analizzatore automatico del
testo Chiari suggerisce anche la “metalinguistica riflessiva” (il fatto che la lingua
può essere usata per riferirsi a se stessa). Le frasi metalinguistiche possono risul-
tare problematiche, perché violano certe regole grammaticali (o più in generale
regole formali) adoperate nell’analisi automatica del testo. Un parser sintattico che
riconosce la (non)grammaticità delle frasi, di fronte a un esempio come: Con è un

41

Lessico computazionale_libro.indb 41 03/02/2016 14:46:32


pronome utilizzato per…, potrebbe servirsi di una regola di tipo: “la proposizione
non svolge il ruolo del soggetto” (valida per una buona percentuale delle frasi). Le
frasi metalinguistiche fanno sì che si debba creare delle regole formali molto più
complicate, a meno che non si escluda in generale questo tipo di frasi dalla nostra
considerazione.

1.3.1. Polisemia

Il termine polisemia è stato introdotto da Michel Bréal per definire il fenome-


no linguistico che consiste nell’assumere nuovi significati da parte di una parola
(nella definizione egli propone un criterio diacronico), quindi di “moltiplicare” i
suoi sensi, semblables de forme, mais différents de valeur28 (Bréal 1897: 155; a que-
sto proposito anche in Victorri – Fuchs 1996: 11–12). In linea di massima, si dice
polisemica una singola parola che ha due o più significati (parola è qui un elemento
del lessico di una lingua, quindi lessema, e non parola testuale (realizzazione di
uno o più lessemi) o token (realizzazione concreta di una parola testuale nell’enun-
ciato); si veda Pethö 1999: 2229) correlati tra di loro (p.es. Lyons 1977: 551, DdL:
381, EJO: 447). Il principio della correlazione dei significati può essere omesso
in quanto ridondante, dal momento che due o più significati non correlati non
possono essere coinvolti da un solo lessema; sono allora lessemi differenti ma omo-
nimici o parole testuali omonimiche (si veda sopra: l’omonimia assoluta e testuale).
La relazione tra la polisemia e l’omonimia può essere rappresentata come segue:
polisemia: lessema (significato1 + significato2 + …) ≠ omonimia: parola testuale
(lessema1(significato1) + lessema2 (significato2) + …). Chiaramente il trattamento
del problema varia da teoria a teoria.
▪ La p o l i s e m i a r e g o l a r e : uno degli aspetti caratteristici della polisemia è
la sistematicità di correlazione tra i significati del lessema. Si parla a questo propo-
sito della polisemia regolare (p.es.: Apresjan 1974) o sistematica (p.es.: Nunberg
& Zaenen 1992)30. La regolarità del fenomeno vuol dire che la relazione tra i signi-

28 
‘[…] simili nella forma, ma con valori differenti’.
29 
Alain Polguère propone una distinzione ancora più dettagliata: nella frase What does it take
to take the lead that you now take? egli trova: a) un solo s i g n i f i c a n t e take (forma linguistica
che prescinde dal significato che evoca), b) tre differenti segni linguistici, quindi p a r o l e t e -
s t u a l i (wordform; relazione tra la forma e il significato che evoca): take1 (V; ‘to require’ all’infi-
nito), take2 (V, collocate; ‘to cause to be in a given situation’ all’infinito), take2 (V, collocate; ‘to
cause to be in a given situation’ alla 2. pers. sing. del presente); c) due unità lessicali, quindi l e s -
s e m i : take1 (V ‘to require’) e take2 (V, collocate; ‘to cause to be in a given situation’); d) un solo
v o c a b o l o take: i vocaboli sono raggruppamenti di unità lessicali che hanno significati distinti
ma correlati e che vengono espresse dalle stesse forme (Polguère 2010: 5–6).
30 
La distinzione tra la polisemia regolare e irregolare viene tradizionalmente attribuita a
Apresjan (1974). Il problema era comunque già stato notato da James David McCawley, il quale ne
ha parlato anche esplicitamente (McCawley 1968), o da Stephen Ullmann (1957) che, però, non l’ha
definito in termini di regolarità o di sistematicità (a questo proposito si veda anche Pethö 1999: 26).

42

Lessico computazionale_libro.indb 42 03/02/2016 14:46:32


ficati non si applica a una sola entrata lessicale, ma è ritrovabile in diversi gruppi
di entrate31. Apresjan suppone quindi che la connessione tra i significati si realizzi
tramite uno schema (pattern) comune per almeno due parole in una data lingua. I
pattern regolari sono produttivi, cioè permettono di creare nuovi significati, com-
prensibili a loro volta grazie a detta regolarità. Il fenomeno relativamente vicino
alla polisemia sistematica è la polisemia logica (Pustejovsky 1995) stabilita tramite
la ricostruzione del significato codificato nella semantica del nome (p.es.: hai finito
il bicchiere? (bere), sento i cani (abbaiare), ecc.)
Per quanto concerne il rapporto polisemia–omonimia, alcuni linguisti sosten-
gono che non ci sia una netta distinzione, o un punto di confine, tra i due fenome-
ni: essi formano piuttosto un continuum (uno spettro) del significato (cfr. Victorri
– Fuchs 1996: 13, Pethö 1999: 38). Se prendiamo in considerazione la polisemia
regolare e irregolare, lo stesso spettro si presenterebbe come segue: <—omoni-
mia—|—polisemia  irregolare—|—polisemia regolare —|—monosemia—>
(ibid.). Inoltre, la polisemia regolare è solitamente motivata da uno spostamento
metonimico, la polisemia irregolare è invece motivata metaforicamente.
Per concludere: secondo Bernard Victorri e Catherine Fuchs (1996: 14–17)
la polisemia è uno strumento indispensabile per un corretto funzionamento della
lingua (non solo dal punto di vista dell’economia linguistica o dell’efficacia co-
municativa). Essa comporta un grosso vantaggio nell’espressione linguistica – un
vantaggio di natura almeno triplice, perché a) assicura una grande flessibilità d’e-
spressione, b) insieme alla parafrasi linguistica, comporta un notevole arricchimen-
to dell’espressione stessa (secondo i due autori la polisemia e la parafrasi formano
un insieme inseparabile), c) è un meccanismo potente dell’evoluzione delle lingue.
Insomma: une langue sans polysémie serait une langue rigide, incapable d’évoluer32
(ivi: 17).
Considerando quanto si è detto sopra, la polisemia rimane uno dei punti cru-
ciali degli studi lessicografici; è un fenomeno onnipresente e particolarmente diffi-
cile da rappresentare in un dizionario (specie in un dizionario-macchina). Per dare
adito a un’analisi corretta e a un trattamento automatico realmente funzionante,
invece di “filtrare” il senso tra quelli che sono già stati documentati in diversi di-
zionari, bisogna:

[…] construire d y n a m i q u e m e n t ce sens correct en fonction de l’énoncé


traité. Le lexique ne doit plus être constitué de listes exaustives de sens pos-

31 
Secondo Apresjan (1974: 16): «La polisemia della parola A avente i significati ai e aj è chia-
mata regolare se, in una data lingua, ci è almeno un’altra parola B con i significati bi bj, i quali si
distinguono dal punto di vista semantico l’uno dall’altro esattamente nella stessa maniera come ai
e aj, e se ai e bi, aj e bj non sono sinonimi. La polisemia viene chiamata irregolare se la distinzione
semantica tra ai e aj non si verifica in nessun’altra parola della data lingua» (trad. DS).
32 
‘[…] una lingua priva di polisemia sarebbe rigida, incapace di evolvere’.

43

Lessico computazionale_libro.indb 43 03/02/2016 14:46:32


sibles, mais de « modes d’emploi », de règles, qui indiquent comment con-
struire le sens d’une unité en spécifient les effets de l’existence de telle ou
telle caractéristique dans énoncé qui contient l’unité en question. Cette façon
de procéder se heurte alors à un autre « dogme » des formalismes classiques
utilisés dans le traitment automatique  : la compositionnalité. C’est la rela-
tion entre l’analyse syntaxique et l’analyse sémantique qui est concernée. L e
principe de compositionnalité revient à supporter un
c o u p l a g e é t r o i t e n t r e s y n t a x e e t s é m a n t i q u e 3 3 (Vectirri –
Fuchs: 18–19; la spaziatura espansa è di DS).

Nel capitolo successivo presenterò i modelli lessicografici che, per l’appunto,


seguono il principio dello «stretto accoppiamento tra sintassi e semantica».

Come appendice al primo capitolo aggiungo la tabella 1.1, che presenta alcu-
ni programmi di traduzione automatica con il componente italiano.

Tabella 1.1:
Alcuni traduttori automatici per l’italiano.

Apertium: http://www.apertium.org
La piattaforma è stata creata inizialmente per le traduzioni tra le lingue imparentate:
-- componente italiano: traduce dall’italiano verso il catalano,
-- altre lingue di lavoro (configurazioni scelte): spagnolo, gallego, portoghese, bra-
siliano, occitano, inglese, aragonese, francese, esperanto, gallese, basco, bretone,
norvegese bokmål, norvegese nynorsk, svedese, danese, asturiano, islandese, ma-
cedone, bulgaro.
Google Translate: http://translate.google.com
È il sistema di traduzione più popolare. Traduce oltre 50 lingue (italiano e polacco com-
prese). Dispone di strumenti linguistici molto raffinati.
Linguatec: http://www.linguatec.net
È il software di traduzione e di tecnologia vocale (voice reader) a pagamento (è disponi-
bile una prova gratuita on line). Il programma dispone di un sistema di rilevamento di aree
tematiche (come: politica, architettura, geografia, ecc.) e di lettura del testo:
-- componente italiano da e verso l’inglese,

33 
‘[…] costruire in maniera dinamica il senso a seconda dell’enunciato esaminato. Il lessico
non deve più essere costituito da un elenco esaustivo di possibili sensi, ma di “modalità d’im-
piego”, di regole che indichino come costruire il senso di una data unità, specificando gli effetti
che comportano certe caratteristiche dell’enunciato in cui l’unità appare. Una simile maniera nel
procedere affronta un altro “dogma” dei formalismi classici propri del trattamento automatico
del linguaggio: la composizionalità. È il rapporto tra l’analisi sintattica e l’analisi semantica che va
considerato. Il principio della composizionalità richiede uno stretto accoppiamento tra la sintassi
e la semantica’.

44

Lessico computazionale_libro.indb 44 03/02/2016 14:46:32


-- altre lingue di lavoro (configurazioni scelte): tedesco, francese, brasiliano, spagno-
lo, cinese.
Promt: http://www.online-translator.com
Il sistema traduce i testi e i siti web:
-- componente italiano da e verso inglese e russo,
-- altre lingue di lavoro (configurazioni scelte): tedesco, francese, spagnolo, porto-
ghese.
Reverso: http://www.reverso.net/text_translation.aspx?lang=IT
Il traduttore gratuito on line si limita alla traduzione di testi brevi. Il sito offre i seguenti
servizi supplementari: dizionario, grammatica e congiunzione (per francese, tedesco, spagnolo)
-- componente italiano da e verso: inglese, francese, spagnolo
-- altre lingue di lavoro (configurazioni scelte): tedesco, russo, portoghese, cinese, giap-
ponese, ebraico.
SDL Freetranslation: http://www.freetranslation.com
Il sistema lanciato dai creatori del programma Trados CAT. Offre la traduzione dei testi
digitati direttamente sul sito e dei siti web:
-- componente italiano traduce da e verso: inglese, spagnolo e russo,
-- componente polacco: da e verso l’inglese,
-- altre lingue di lavoro (configurazioni scelte): arabo, cinese, ceco, finlandese, fran-
cese, tedesco, danese, hausa, greco, giapponese, coreano, russo, svedese, ungaro,
norvegese, persiano, portoghese, brasiliano, romeno, serbo, turco, urdu, hindi,
thai, somali.
Systran: http://www.systran.co.uk
Il sito offre, dopo la registrazione, il servizio di traduzione del testo digitato direttamen-
te, delle pagine web, dei formati RSS e dei file caricati on line. Inoltre è possibile caricare un
glossario individuale:
-- componente italiano: il sistema traduce dall’italiano verso: inglese, francese, tede-
sco, portoghese, spagnolo,
-- componente polacco: traduce solo verso l’inglese,
-- altre lingue di lavoro (in configurazioni scelte): arabo, cinese, danese, greco, giap-
ponese, coreano, russo, svedese; configurazioni scelte).

45

Lessico computazionale_libro.indb 45 03/02/2016 14:46:32


Lessico computazionale_libro.indb 46 03/02/2016 14:46:32
2.

Alcuni modelli di rappresentazione dell’unità lessicale

L’architettura di un’entrata lessicale dipende dal modello lessicografico appli-


cato dal costruttore del dizionario. Gli autori dei dizionari-macchina possono ispi-
rarsi ai modelli già esistenti (adoperati per la compilazione dei dizionari tradiziona-
li) o creare un modello del tutto nuovo. La seconda soluzione risulta probabilmente
più opportuna, perché, in tal caso, il lessicografo prende in considerazione le fina-
lità del dizionario già nella fase progettuale del suo lavoro. Il dizionario-macchina
va ristrutturato in modo tale che il computer (o, più precisamente, l’applicazione
che ne farà uso) sia in grado di decodificare l’informazione che esso riporta. Ciò
non significa che l’autore di un nuovo modello lessicografico debba respingere, o
addirittura confutare, i risultati degli studi linguistici precedenti. Alcune delle nuo-
ve soluzioni si limitano a riportare modifiche e perfezionamenti ai modelli cui si
ispirano, e viceversa: i modelli computazionali possono anche migliorare la stesura
dei dizionari su carta.
In questo capitolo parlerò di alcune teorie e modelli linguistici più noti
dell’ambito della lessicografia, in particolare per quanto concerne la lessicografia
computazionale ai fini della traduzione automatica. Presenterò quindi la gramma-
tica su base semantica di Stanisław Karolak e Krzysztof Bogacki, la descrizione les-
sicografica in termini di “modificato-modificatore” di Wiesław Banyś, la nozione
di classe di oggetti di Gaston Gross, la teoria “Senso↔Testo” di Igor Mel’čuk, il
Lessico Generativo di James Pustejovsky e l’ontologia WordNet progettata sotto
la direzione di George A. Miller. I corrispondenti sottocapitoli terminano, laddove
è possibile, con l’illustrazione di un’entrata lessicale tratta dai dizionari che sono
frutto del lavoro dei sopracitati ricercatori e dei loro collaboratori. Cercherò infine
di definire come si manifestano i progetti WordNet e Lessico Generativo all’inter-
no delle ricerche lessicali svolte in Italia.
Nel prossimo capitolo, interamente dedicato all’Approccio Orientato agli Og-
getti, cercherò di illustrare come si presenta la metodologia qui proposta tra quelle
presentate nelle pagine che seguono.

47

Lessico computazionale_libro.indb 47 03/02/2016 14:46:32


2.1. Combinatoria concettuale di Stanisław Karolak e Krzysztof Bogacki

Le ricerche intorno alla struttura predicato-argomenti sono state realizzate da


Stanisław Karolak dagli anni ’70 del secolo scorso (p.es.: Karolak 1974, 1984). I
fondamenti di una metodologia completa denominata in seguito “grammatica su
base semantica” sono stati esposti dallo stesso Karolak insieme a Krzysztof Boga-
cki (si veda l’articolo Fondements d’une grammaire à base sémantique; Bogacki –
Karolak 1991, Karolak 1995). La sintassi semantica (“semantica” viene qui usato
come attributo di “sintassi”), cioè l’insieme di regole universali per la combina-
zione dei concetti, costituisce il componente basilare della grammatica, il quale
domina sulla sintassi strutturale, cioè l’insieme di regole non universali, proprie di
una data lingua (lingue) e in questo senso idiomatiche (p.es.: Karolak 1984: 19). I
concetti si collocano quindi al livello concettuale (semantico) che non corrisponde
pienamente al livello formale (dei simboli) di una data lingua; il livello dei simboli,
tuttavia, dà accesso ai concetti e alle relazioni tra di loro (cfr. Wilk-Racięska 2009:
27). L’asimmetria tra il livello concettuale e quello formale è ben nota, quando: a)
una struttura concettuale viene rappresentata da più di una parola, b) una parola
rappresenta più di una struttura concettuale (è il caso dell’omonimia), c) un dato
concetto costituisce uno degli elementi del significato rappresentato da diverse pa-
role (p.es.: bene fa parte di benefattore, benevolenza, ecc.) o non viene rappresen-
tato affatto sulla superficie (p.es.: il lessema contento inquadra i seguenti concetti:
sensazione, bene, perfettività; ivi: 28).
Tramite la scomposizione semantica (quindi tramite la scomposizione del si-
gnificato delle espressioni linguistiche intese in quanto configurazioni di concet-
ti caratterizzati da diversi gradi di complessità) è possibile esaminare, tra l’altro,
1) strutture concettuali prototipiche delle espressioni linguistiche, 2) gerarchie di
concetti e relazioni tra di loro, 3) come le espressioni linguistiche vengono create
e usate in una data lingua (cfr. Wilk-Racięska 2009: 43). Bisogna sottolineare che
l’utilità della scomposizione semantica non si limita alla definizione delle unità
linguistiche (in questo senso assomiglia alle definizioni linguistiche di Wierzbicka;
si veda il seguito). Gli strumenti che dà la combinatoria karolakiana facilitano l’a-
nalisi delle categorie tradizionalmente intese come grammaticali (si vedano p.es.: la
nota n. 2 sull’aspetto o le ricerche sul sintagma nominale spagnolo e polacco della
sopra citata Joanna Wilk-Racięska: 2009). La grammatica di Karolak è innovativa,
perciò anche interessante, soprattutto perché parte dalle strutture semantiche (al-
tre grammatiche sono solitamente sintattiche) e la lingua, come ricorda Mel’čuk
(1999: 16), è un sistema che serve a esprimere senso. In base a questo assunto, la
linguistica si proporrebbe di studiare come il senso viene espresso attraverso la
lingua.

48

Lessico computazionale_libro.indb 48 03/02/2016 14:46:32


2.1.1. Predicati e argomenti

La combinatoria semantica (il calcolo semantico) è un insieme di regole di co-


occorrenza delle unità linguistiche (Bogacki & Karolak 1991: 311) che coinvolge
due categorie: i predicati e gli argomenti. I predicati equivalgono a concetti e si
situano sul piano semantico della lingua. Gli argomenti individuali appartengono
al piano pragmatico della lingua, perché indicano (nel senso stretto della parola)
oggetti. Dal punto di vista linguistico, gli argomenti veri e propri si manifestano
come nomi propri, pronomi personali della 1a e 2a persona o pronomi dimo-
strativi con funzione deittica. Gli autori della teoria sottolineano che i concet-
ti (predicati) differiscono dai segni predicativi (predicatori) che si comportano
come indici superficiali degli stessi concetti. A differenza dei concetti, gli oggetti
non hanno i loro corrispondenti sul piano formale, per cui, nella grammatica su
base semantica, gli argomenti individuali non si identificano con i sostantivi (ivi:
311–312).

L’existence de règles de cooccurrence est due au caractère syncatégoréma-


tique des concepts, qui n’ayant pas d’autonomie communicative ne peuvent
pas seuls former des propositions. Etant des syncatégorèmes, ils ouvrent, cha-
cun, un nombre de positions d’arguments (cette fois-ci l’acception syntaxique
du terme). Combinés avec des objets ou avec d’autres concepts, ils forment
des structures propositionnelles ou proposition (toujours au sens logique du
terme) qui soustendent les formes linguistique de surface, formes des langues
particulières, les seules accessibles à l’observation directe1 (Karolak 1995: 12).

I predicati possono classificarsi come segue:

-- dal punto di vista quantitativo si distinguono i predicati: 1) monovalenti:


f(x) → Sofia piange, 2) bivalenti: f(x,y) → Marco vede Sofia, 3) trivalen-
ti: f(x,y,z) → Marco dà una rosa a Sofia, 4) quadrivalenti (o tetravalenti):
f(x,y,z,v) → Il fioraio ha venduto la rosa a Marco per 1 euro;
-- dal punto di vista qualitativo si distinguono i predicati: 1) di primo ordine:
che implicano argomenti individuali (Marco vede Sofia → f(x,y)), 2) di or-
dine superiore: che implicano (anche o esclusivamente) proposizioni, dette
argomenti proposizionali (Marco pensa che Sofia sia bella → F(x,p)).

1 
L’esistenza di regole di cooccorrenza è dovuta al carattere sincategorematico dei concetti
che, non avendo autonomia comunicativa, da soli non possono formare proposizioni. Essendo
sincategoremi, aprono un certo numero di posizioni degli argomenti (questa volta nel senso sintat-
tico del termine). Combinati con oggetti o con altri concetti, formano le strutture proposizionali
o proposizioni (sempre nel senso logico del termine) che stanno alla base delle forme linguistiche
superficiali, le forme di lingue particolari, le uniche accessibili nell’osservazione diretta.

49

Lessico computazionale_libro.indb 49 03/02/2016 14:46:32


I predicati di primo ordine vengono indicati con le variabili: f, g, h, k, i predi-
cati di ordine superiore – con le variabili F, G, H, K; invece gli argomenti vengono
indicati con le variabili individuali: x, y, z (che indicano gli oggetti) o con le varia-
bili frastiche p, g, r, s (che sono argomenti proposizionali). Dato che le posizioni
argomentali aperte dal predicato non devono necessariamente essere saturate sulla
superficie, le proposizioni differiscono a seconda del grado di chiusura. Per cui si
distinguono : a) proposizioni aperte, dov’è saturata elusivamente la posizione del
predicato costitutivo, b) proposizioni semichiuse, dove si saturano anche alcune
delle posizioni argomentali, c) proposizioni chiuse, con tutte le posizioni argomen-
tali saturate2.
Karolak e Bogacki sostengono che ci sia un numero limitato di concetti primi-
tivi, non altrimenti definibili e intuitivamente ovvi (Bogacki – Karolak 1991: 314).
Tutti i concetti espressi nelle lingue naturali sono, per l’appunto, elementari (detti
anche indefinibilia) o se ne compongono. Con questa ipotesi gli autori concordano
con Anna Wierzbicka, il cui “metalinguaggio semantico naturale” vuole stabili-
re una lista di primitivi indefinibili. Il metodo d’analisi semantica è la cosiddetta
perifrasi riduttiva, dove il senso di un concetto semanticamente complesso viene
reso tramite la definizione con parole meno complesse. Un simile procedimento
permette di ridurre il significato alle unità sempre meno complesse, fino a trovare
il nucleo semantico della lingua (semantic core). Il miglior metodo per redigere un
simile “alfabeto del pensiero umano” è la costruzione di un certo numero di ap-
prossimazioni e la loro analisi semantica in un largo contesto linguistico e culturale
(Wierzbicka 1991: 26–27). Wierzbicka dà due criteri di estrazione delle unità ele-
mentari: a) il potenziale definitivo, cioè il ruolo che un dato concetto assume nella

I limiti di lunghezza del sottocapitolo non mi permettono di esaminare appieno la teoria


2 

delle strutture predicato-argomenti. Voglio soltanto aggiungere che, a mio avviso, il segno del
genio di Karolak e Bogacki è la loro spiegazione dell’aspetto, il quale, in questa ottica, è una cate-
goria semantica (e non grammaticale o modificatore), vale a dire che l’aspetto è una caratteristica
definita dei concetti e come tale non subisce alcuna modifica. Cito da Karolak: «I morfemi gram-
maticali d’aspetto con funzione autonoma non specificano quali concetti specifici cooccorrono
con quelli rappresentati dalla radice […], essi simbolizzano solo una posizione aperta per tutta
una categoria di concetti specifici compatibili. In altri termini, essi impongono una restrizione
aspettuale alla posizione non saturata […]. I morfemi grammaticali d’aspetto che hanno un valore
autonomo ricevono lo stesso valore secondariamente (contestualmente), e più precisamente, nel
caso in cui le posizioni in merito non sono state saturate. Quando, invece, le posizioni vengono
saturate, detti morfemi perdono la loro autonomia semantica, recuperano il valore riflessivo e di-
ventano ridondanti» (Karolak 1997: 134–135; trad. DS). L’autore dà a questo punto alcuni esempi
di frasi: Gli fu fedele, Gli fu fedele fin alla morte. In questa ottica l’aspetto ha due modalità di rap-
presentazione: «Essendo incorporato in un concetto specifico, viene rappresentato sulla superficie
da un semantema (morfema lessicale), essendo liberato del contenuto concettuale specifico, è reso
da un morfema grammaticale» (ivi: 136). «L’aspetto è una caratteristica immanente dei concetti.
Non sono, quindi, le forme verbali ad avere un aspetto, ma i concetti che appartengono, ciascuno,
a un aspetto e, per conseguenza, non subiscono alcuna modificazione come perfettivizzazione o
imperfettivizzazione» (ivi: 143).

50

Lessico computazionale_libro.indb 50 03/02/2016 14:46:32


definizione di altri concetti, b) l’universalità dell’unità linguistica, cioè il numero di
lingue in cui il dato elemento è stato lessicalizzato (ivi: 17–18; cfr. Bogacki – Karo-
lak 1991: 314–320, Karolak 1995: 25–26)3.
A questo punto mi permetto di ricordare le parole di Sapir: «possiamo pensare
alla lingua come alla guida simbolica alla cultura» (Sapir 1972: 58 [1949]). Il meta-
linguaggio semantico naturale di Wierzbicka assieme alla scomposizione semantica
di Karolak possono, credo, considerarsi le legende di questa guida culturale4.

2.1.2. Struttura tematico-rematica della frase5

Possiamo indicare in una data frase l’oggetto – il tema, quindi ciò di cui si par-
la, e ciò che viene attribuito all’oggetto – il rema, quindi ciò che si dice a proposito
dell’oggetto. La grammatica di Karolak e Bogacki rende conto della struttura te-
matico-rematica della frase, ovvero propone una prospettiva funzionale dell’analisi
frastica (ricordiamo che l’opposizione tema-rema viene diffusa nell’ambito lingui-
stico dai rappresentati della Scuola di Praga con la loro articolazione attuale della
frase6: in questa ottica il tema è l’elemento della frase che rende l’informazione già
nota, il rema, contrariamente, porta una nuova informazione; l’opposizione tema-
rema corrisponde qui all’opposizione datum-novum). Nella grammatica su base
semantica la suddetta struttura si presenta sul piano semantico della frase (e non
sul piano pragmatico), per cui anche tema e rema sono due categorie semantiche.
La questione della corrispondenza tra la struttura predicato-argomenti e la
struttura tematico-rematica della frase viene spiegata nel modo seguente: i predi-
cati hanno la funzione di attribuire caratteristiche a oggetti; gli argomenti indicano
oggetti (vedi sopra). La differenza tra le due strutture sta nel fatto che la prima

3 
Indefinibilia sono concetti universali, il che dovrebbe smentire la famosa intraducibilità del-
le lingue (tutti i  concetti possono scomporsi in una serie di indefinibilia). Questo è, quindi, un
approccio universalista integrato con una tesi di carattere relativistico: ogni lingua dà al parlante
un insieme di costrutti concettuali che si manifestano nelle unità operative preferite (Bogusławski
1991: 45). La proposta di Wierzbicka è stata chiamata da Andrzej Bogusławski il relativismo lin-
guistico relativo in un quadro universalista (trad. DS).
4 
L’alfabeto di Wierzbicka del 2010 riporta 16 gruppi di indefinibilia (riferisco alcuni esempi
come in: Goddard 2010, sono le loro traduzioni letterali): 1) nomi: io, tu, qualcuno, qualcosa, gente,
corpo, 2) determinatori: questo, lo stesso, altro, 3) quantificatori: uno, due, alcuni, molto, tutto, 4)
evaluatori: buono, cattivo, 5) descrittori: piccolo, grande, 6) predicati mentali: pensare, sapere, vole-
re, sentire, vedere, udire, 7) parola: parlare, parola, verità, 8) azioni, eventi: fare, succedere, muovere,
9) esistenza, possesso: essere (esistere), avere, 10) vita e morte: vivere, morire, 11) concetti logici: no,
forse, potere, perché (con valore causativo), se, 12) tempo: quando, adesso, momento, dopo, prima,
13) spazio: dove, qui, sotto, sopra, lontano, vicino, 14) nomi di relazioni: genere, parte, 15) intensifi-
catori: molto, più, 16) similitudine: tale quale, così come.
5 
A proposito della struttura tema-rema mi baso su Bogacki – Karolak 1991: 334–338.
6 
A proposito della sintassi funzionale praghese in lingua italiana troviamo p.es.: Sulla cosid-
detta articolazione attuale della frase (Mathesius 1991 [1939]).

51

Lessico computazionale_libro.indb 51 03/02/2016 14:46:32


opposizione ha un carattere potenziale, la seconda, invece, è attualizzata. Perciò:
«argument est un thème potentiel, et le thème – un argument actualisé ; le predicat
est un rhème potentiel, et le rhème – un prédicat actualisé, en d’autres termes, le
prédicat défini en termes de la combinatoire sémantique»7 (Bogacki – Karolak
1991: 335). La relazione tra le due strutture può manifestarsi come segue:

1) in una frase a predicato monovalente f(x) (frase decontestualizzata, auto-


noma) l’argomento diventa tema, il predicato diventa rema, p.es.: Giovanni
dorme (dove T = Giovanni, R = dorme).
2) in una frase a predicato polivalente: a) il tema è composto, cioè costituito da
tutti gli argomenti implicati dal predicato; gli autori danno il seguente esem-
pio: Giovanni, a Maria, lui le è indifferente, dove T = Giovanni, a Maria); b)
il tema è costituito da uno degli argomenti implicati dal predicato, p.es.: Le
ho messe nel cassetto come risposta alla domanda: Dove hai messo le chiavi?
(dove T = cassetto).

Come notano gli autori, i predicati estensionali ambivalenti che saturano la


posizione dell’argomento non possono funzionare come tema della frase. In tal
caso il tema va trovato nel contesto, p.es.: Un gatto miagola (dove un gatto esplica
solamente il rema) (ivi: 335–336).

2.2. Descrizione lessicografica in termini di “modificato-modificatore”

La descrizione del lessico in termini di “modificato-modificatore” (nella versio-


ne originale: modifié-modifieur (M-M)) è stata elaborata da Wiesław Banyś (1990;
la metodologia viene utilizzata fin oggi presso il dipartimento dell’autore) per la
creazione dei dizionari elettronici, in particolare per i linguaggi settoriali (l’Istituto
dispone di oltre 100 entrate bilingui redatte in questa ottica, per la maggior parte
relative alla coppia di lingue francese-polacco). L’elaborazione dei dizionari M-M
si basa sull’analisi dei corpora specialistici, da cui vengono estratti tutti i contesti
lessicali di una data parola.
Nel paragrafo 2.1 ho parlato di due prospettive del funzionamento binario
di una frase. Queste metodologie impiegano, per così dire, diverse prospettive
filosofiche: le strutture predicato-argomenti sono costituite intorno a un nucleo
concettuale che rappresenta una data situazione; la ricostruzione di questo tipo di
strutture segue le regole di un approccio logico alla lingua. Le strutture tematico-
rematiche, invece, presentano una prospettiva funzionale della frase, cioè rappre-

7 
‘L’argomento è un tema potenziale, il tema è un argomento attualizzato; invece il predicato
è un rema potenziale, il rema è un predicato attualizzato, cioè il predicato definito in termini della
combinatoria semantica’.

52

Lessico computazionale_libro.indb 52 03/02/2016 14:46:32


sentano le funzioni comunicative degli elementi frastici (l’articolazione della comu-
nicazione). L’approccio “modificato-modificatore” mette in rilievo la dipendenza
reciproca degli elementi che si susseguono nella frase. La concezione trova quindi
i suoi fondamenti nella filosofia dialettica du mouvement perpetue et de l’influence
réciproque8 (Śmigielska – Grigowicz 2004: 45) tra un dato elemento della frase e il
suo entourage. Si tratta di “un gioco attivo” tra due elementi x e y che entrano in
relazione (con un processo di adattamento e una sincronizzazione reciproca), uno
dei quali è più saliente (dinamico, attivo), cioè modifica il significato dell’altro.
Ci sono due configurazioni principali degli elementi in merito: 1) x modifica-
to + y modificatore, 2) y modificato + x modificatore, dove y è un sostantivo, un
aggettivo o un’espressione che funziona come aggettivo. Tuttavia, anche un verbo
può entrare nelle simili relazioni come elemento modificatore. Possiamo quindi
individuare due ulteriori strutture: 3) x modificato + y modificatore, 4) y modifi-
cato + x modificatore, dove y è un verbo (struttura 3) o un sostantivo deverbale
(struttura 4) (ivi: 47).
L’entrata lessicale creata nell’ottica dell’opposizione “modificato-modificato-
re” è stata esposta da Beata Śmigielska e Anna Grigowicz (ivi: 46–48) per il so-
stantivo cheveux (capelli). La stessa entrata può essere facilmente arricchita con
le traduzioni in altre lingue. Di seguito presento un frammento delle analisi delle
ricercatrici arricchite con la traduzione italiana degli esempi.

Tabella 2.1: Entrata lessicale cheveux (frammento) secondo B. Śmigielska e A. Grigowicz

Struttura 1
FR PL IT
~ x abondants gęste włosy capelli fitti
~ x attaché związane włosy capelli legati
~ x blancs siwe włosy capelli bianchi
~ x blonds blond włosy capelli biondi
~ x brillants lśniące włosy capelli lucidi
Struttura 2:
FR PL IT
brosse à ~ x szczotka do włosów spazzola per capelli
chute des ~ x wypadanie włosów caduta dei capelli
couleur des ~ x kolor włosów colore dei capelli
diamètre du ~ x średnica włosa diametro del capello
épingle à ~ x szpilka do włosów spilla per capelli

8 
‘[…] del movimento perpetuo e dell’influsso reciproco’.

53

Lessico computazionale_libro.indb 53 03/02/2016 14:46:32


Struttura 3
FR PL IT
abîmer les ~ x z/niszczyć włosy danneggiare i capelli
arracher les ~ x wyrywać włosy tirare i capelli
attacher les ~ x związać włosy legare i capelli
~ x blanchissent włosy siwieją i capelli imbianchiscono
brosser les ~ x szczotkować włosy spazzolare i capelli
Struttura 4
FR PL IT
brossage des ~ x szczotkowanie włosów spazzolatura dei capelli
coloration des ~ x za/farbowanie włosów colorazione dei capelli
coupe des ~ x obcięcie włosów taglio dei capelli
croissance des ~ x wzrost włosów crescita dei capelli
décoloration des ~ x rozjaśnianie włosów decolorazione dei capelli

2.3. Classe di oggetti

La nozione di classe di oggetti è stata introdotta ed elaborata da Gaston Gross


e dai suoi collaboratori presso il Laboratorio di Linguistica Informatica (Labora-
toire de Linguistique Informatique, LLI), oggi il Laboratorio “Lessico, Dizionari,
Informatica”9 (Lexiques, Dictionnaires, Informatiques, LDI) dell’Università Parigi
13. Lo scopo iniziale dei ricercatori del laboratorio era quello di descrivere nomi
composti della lingua francese (100 000 nomi corrispondenti a 500 tipi morfolo-
gici differenti) e di gestire la «massa di informazione» (Gross10 1992: 255) che ne
risultava. Oggi l’obiettivo del LDI è molto più esteso e consiste nella compilazione
dei dizionari elettronici nell’ambito del TAL. La metodologia proposta da LDI
entra nella cosiddetta scuola lexique-grammaire cominciata con i lavori di Maurice
Gross (p.es.: M. Gross 1975, 1981), in cui la grammaire a besoin d’être formatée
en lexique, d’où l’importance accordée à l’élaboration de dictionnaire électroniques11
(Le Pesant & Mathieu-Colas 1998: 6).
Tra i principali presupposti di questa metodologia possiamo elencare:

9 
Dove il lessico sta per il materiale di base, il punto di partenza per la descrizione della lin-
gua, il dizionario è la fonte dei dati linguistici e nello stesso tempo l’obiettivo del lavoro, invece
l’informatica è lo strumento di analisi e di elaborazione dei dizionari e di metodologie compatibili
con il trattamento automatico della lingua (si veda il sito web del Laboratorio: http://www-ldi.
univ-paris13.fr).
10 
Con il solo cognome Gross mi riferisco a Gaston Gross, quando riporto anche l’iniziale del
nome: M. Gross, mi riferisco a Maurice Gross.
11 
‘[…] la grammatica va formattata in lessico, per cui l’enfasi sullo sviluppo dei dizionari
elettronici’.

54

Lessico computazionale_libro.indb 54 03/02/2016 14:46:32


-- le unità lessicali non vanno trattate in quanto entità isolate, ma devono esse-
re esaminate a seconda del loro impiego nella frase in cui appaiono,
-- la polisemia è un fenomeno proprio della maggior parte dei predicati,
-- nel caso della polisemia, un solo predicato non può essere accompagnato
dalle stesse classi di oggetti, per cui i suoi significati si esprimono attraverso
differenti proprietà semantico-sintattiche (in seguito spiegherò più detta-
gliatamente questi problemi).

L’obiettivo principale dei ricercatori rimane sempre la riduzione della polise-


mia attraverso il riconoscimento dell’impiego lessicale ai fini del trattamento auto-
matico della lingua (Gross – Mathieu-Colas 2001: 70).

2.3.1. Unità minima della descrizione lessicografica e impiego del lessema

Per capire il senso di una parola non è giusto analizzarla in maniera autonoma.
Ciò che decide del significato di un lessema, quindi anche della sua traduzione,
è il contesto in cui il lessema appare. Di conseguenza l’unità minima dell’analisi
lessicografica è la frase (o la proposizione nei termini della grammatica tradizio-
nale) intesa come predicato accompagnato da un insieme (sequenza) dei suoi ar-
gomenti. La frase elementare può rappresentarsi attraverso uno schema di argo-
menti, con il predicato seguito dal soggetto e dai suoi complementi, come segue:
predicato(arg0,arg1,arg2) (p.es.: Gross 1999: 113, Czekaj – Śmigielska 2009: 10)12.
Secondo Gross (1992b: 2), una netta distinzione tra i livelli dell’analisi lingui-
stica (come sintassi, semantica e lessico) comporta lo svantaggio maggiore nell’e-
laborazione informatica dei dati linguistici. Colui che consulta un dizionario deve
ricorrere a tutte le informazioni linguistiche, per cui i tre sopramenzionati livelli
sono inseparabili. La natura degli argomenti, ad esempio, non è esclusivamente
una questione semantica: coinvolge anche le proprietà sintattiche della frase. In
tal modo le stesse strutture sintattiche possono interpretare diversi predicati. La
struttura N V N può rappresentare le seguenti frasi: Marco ha preso un’aspirina ≠
Marco ha preso una decisione. Nel primo caso il verbo prendere funge da predicato
della frase, nel secondo caso, lo è il sostantivo decisione. Il verbo ha, quindi, un
altro statuto a seconda della natura semantica dell’oggetto, anche se la struttura
superficiale della frase rimane la stessa. D’altro lato, importanti sono anche le ca-
ratteristiche trasformazionali di una data struttura. Prendiamo l’esempio di Gross:
*la prise d’un steak / la prise d’un médicament, dove la nominalizzazione del ver-

12 
La rappresentazione della frase per il tramite dell’opposizione predicato-argomenti presen-
ta alcuni vantaggi dal punto di vista del trattamento informatico della lingua. La struttura tema-
tico-rematica della frase, ad esempio, impone una supremazia del soggetto sui complementi. Gli
studi linguistici dimostrano, invece, che vari complementi danno informazioni molto più rilevanti
per la disambiguazione del senso di quanto ne risulti dalla natura del soggetto della frase.

55

Lessico computazionale_libro.indb 55 03/02/2016 14:46:32


bo prendre è possibile solo nel caso di un complemento appartenente alla classe
<médicament> (ivi: 4).
L’i m p i e g o è quindi un’occorrenza del predicato con le classi specifiche dei
sostantivi in quanto argomenti (Gross & Mathieu-Colas 2001: 70) e, per di più,
cette combinaison est caractérisée par des particularités aspectuelles et des propriétés
transformationnelles qui lui sont propres13. La conseguenza più importante che ne
risulta è che un predicato polisemico non può essere accompagnato dalle stes-
se classi di oggetti. Per definire l’impiego della parola, Gross utilizza le seguenti
caratteristiche: senso, argomenti, morfologia, trasformazioni appropriate, sistema
aspettuale, attualizzazione, dominio, registro (Gross 1999b : 24–34).
Visto quanto si è detto sopra, la frase elementare si articola intorno a un predi-
cato (il nucleo della frase) che determina il numero e la posizione dei complementi,
p.es.: P(x): dormire, P(x,y): ascoltare, P(x,y,z): regalare, ecc. Ad ogni modo, il nu-
cleo della frase non si limita a una sola categoria grammaticale (come il verbo negli
esempi citati). Esso può presentarsi in quanto aggettivo, p.es.: contento(x,y) → x è
contento di y, alto(x) → x è alto, o sotto forma di un sostantivo predicativo, come:
decisione(x) → x prende una decisione, fame(x) → x ha fame.

2.3.2. Verbi supporto

Lo schema degli argomenti non è ancora una frase. Questa struttura, per di-
ventare una frase concreta, viene trasformata attraverso due tipi di operazioni: la
l i n e a r i z z a z i o n e , cioè l’organizzazione degli argomenti a seconda della loro
posizione nella frase, e l’a t t u a l i z z a z i o n e , cioè l’aggiunta di un suffisso tem-
porale in caso di predicato verbale (Gross 1992b: 15). Dato che i sostantivi non
si sottopongono alla coniugazione morfologica, la loro attualizzazione si verifica
attraverso i verbi “predicativamente vuoti”, come fare, avere, essere + preposizione,
ecc., che danno un aspetto temporale alla frase, come negli esempi: Marco ha fatto
un viaggio in Cina, Luca è in ritardo, Ho bisogno di te. Tali verbi vengono chiamati
v e r b i s u p p o r t o e, oltre ad attualizzare il predicato nominale, possono di-
sambiguarlo. Il significato di un sostantivo predicativo dipende quindi dal verbo
supporto che lo precede, p.es.: essere d’accordo, andare d’accordo.
Si distinguono tre tipi di verbi supporto (mi baso su Czekaj – Śmigielska 2009:
11): verbi supporto di azione, come fare (fare un viaggio, fare un passo), verbi sup-
porto di stato, p.es.: avere, essere + preposizione (avere fame, essere d’accordo) e ver-
bi supporto di evento, p.es.: c’è, ci sono (c’è il sole). Gli esempi riportati presentano
i verbi generali che non precisano (non specificano) il predicato che segue, e pos-
sono essere impegnati per attualizzare un numero illimitato di predicati nominali
(fare i capelli, fare il pranzo, fare la barba, fare il pittore, e così via). Ci sono, comun-

13 
‘[…] questa combinazione ha certe caratteristiche aspettuali e trasformazionali proprie’.

56

Lessico computazionale_libro.indb 56 03/02/2016 14:46:32


que, alcuni verbi supporto adeguati (“appropriati”) che attualizzano solo un certo
numero di sostantivi (a proposito dei predicati appropriati si veda di seguito).
Riassumendo: l’attualizzazione dipende dalla natura morfologica del predicato
e può verificarsi attraverso a) la desinenza verbale o il verbo ausiliare nel caso di
predicati verbali, b) il verbo supporto nel caso di predicati nominali, c) il verbo
copula essere in caso di predicati aggettivali (Gross – Mathieu-Colas 2001: 70–72).
Inoltre, i verbi supporto (Gross 1992b: 17)

-- attualizzano i predicati nominali, sono quindi privi di funzione predicativa


(in una sola frase non possono esserci due predicati),
-- possono essere cancellati dalla frase senza che questa perda il suo statuto di
frase (in questo caso possiamo parlare di attualizzazione assente o “zero”),
p.es.: Marco ha dato una risposta alla tua domanda → la riposta che ha dato
Marco alla tua domanda → la risposta di Marco alla tua domanda (contraria-
mente, l’omissione di un verbo predicativo elimina la frase),
-- non subiscono alcune trasformazioni morfologiche, come la nominalizza-
zione o l’aggettivazione (nella lingua francese ci sono alcuni casi in cui è
possibile nominalizzare il verbo prendre: Luc a pris la décision de partir →
la prise de décision, la trasformazione non permette, però, di aggiungere il
complemento; l’insieme prise de décision si potrebbe quindi considerare un
nome composto; similmente in italiano prendere una decisione → presa di
decisione).

2.3.3. Restrizione selettiva e classi di oggetti

Per rendere conto della compatibilità tra i termini che cooccorrono, nella de-
scrizione dell’unità lessicale bisogna introdurre alcune restrizioni selettive di natura
semantica e sintattica (Le Pesant – Mathieu-Colas 1998: 9). I dizionari (cartacei o
elettronici) spesso indicano le caratteristiche del lessema in termini di tratti sin-
tattico-semantici. Per esemplificare la questione: tutti i lessemi appartenenti alla
categoria concreto possono diventare complementi dei verbi come guardare, vedere,
toccare, o saturare la posizione del soggetto dei predicati come essere di colore, essere
grande, pesare, ecc. Una simile informazione, anche se molto utile, non è sufficiente
per rendere conto del funzionamento sintattico dei verbi come prendere o tagliare. I
due (o più) argomenti che appartengono alla stessa categoria concreto possono evo-
care due diversi significati del predicato: Marco ha preso l’autobus ≠ Marco ha preso
un’aspirina; Sofia ha tagliato le cipolle ≠ Un cane mi ha tagliato la strada.
I due verbi presi in esame sono accompagnati dai complementi di tipo concre-
to, hanno però significati diversi a seconda della natura dello stesso complemen-
to. Nel primo caso prendere equivale a salire su, tagliare a affettare; nel secondo
caso prendere significa ingoiare, tagliare = attraversare. Per cui l’informazione resa
dal tratto semantico concreto non basta per spiegare al meglio il funzionamento

57

Lessico computazionale_libro.indb 57 03/02/2016 14:46:32


sintattico né dei verbi né dei sostantivi citati. Occorre quindi dividere la catego-
ria concreto in sottocategorie e aggiungere un’informazione supplementare che
codifichi il complemento autobus come mezzo di trasporto urbano, aspirina come
farmaco/medicina, ecc. Gross introduce a questo proposito la nozione di classe di
oggetti, intesa come classe sémantique construite à partir de critères syntaxiques,
chaque classe étant définie à partir des prédicats qui sélectionnent de façon appro-
priée les unités qui la composent14 (Le Pesant – Mathieu-Colas 1998: 6; si veda
anche: Gross 1992a, 1994). Una volta date le classi di oggetti, è possibile stabilire
l’elenco di tutti i predicati che accompagnano una data classe (quindi tutti i suoi
elementi).
Ci sono due tipi di predicati (chiamati anche operatori) che si abbinano alla
classe di oggetti: 1) predicati generali (prédicats généraux) che accompagnano tutti
i sostantivi categorizzati tramite gli stessi tratti sintattico-semantici, 2) predicati ap-
propriati (prédicats appropriés) che accompagnano solo una data classe di oggetti.
Di conseguenza, le classi di oggetti vengono definite attraverso i predicati che gli
sono propri, quindi attraverso gli operatori appropriati, e viceversa, sono le classi di
oggetti (e non i tratti sintattico-semantici) che permettono di definire con precisione
il significato di una dato predicato e la sua traduzione in lingua straniera. Di segui-
to vediamo alcuni esempi delle traduzioni tedesche dei verbi faire, essuyer, lancer,
prendre a seconda della classe di oggetti cui appartiene il complemento che segue il
verbo (traggo gli esempi da Gross 1992a: 264–268):

prendre <photo> : ein Foto machen ; prendre <moyen de transp> : ein Taxi nehmen ;
prendre <voie> : Wie sind (auf der) Autobahn gefahren  ; prendre <coups>  : Schläge
krieren ; prendre <ordre> : ein Befehl übernehmen
faire <Poss habitation> : putzen  ; faire <instrument de mus> : Klavier spielen  ; faire
<langue> : Englisch studieren, lerner  ; faire <prix> : kosten  ; faire <poids>  : haben,
schwer sein
essuyer <vaisselle> : das Geschirr abtocken ; essuyer <superficie> : abwischen ; essuyer
<meuble> : abstauben ; essuyer <lunettes> : putzen
essuyer <attaque> : Verluste erleiden ; lancer <bombe> : abwerfen
lancer <satellite> : starten; lancer <cri> : ausstoßen ; lancer <artiste> : fördern ; lancer
<produit> : einführen

In tal modo possiamo distinguere quattro tipi di predicati, a seconda di quanto


è ristretta la scelta degli argomenti che li accompagnano:
a) il primo gruppo di predicati non impone alcun tipo di limite nella scelta
degli argomenti. È il caso di predicati come penso a N, riguarda N, N è im-
portante, ecc., dove N può essere sostituito con ogni sostantivo;

‘[…] classe semantica costruita a partire dai criteri sintattici; ogni classe viene definita a
14 

partire dai predicati che selezionano in maniera appropriata le unità che la compongono’.

58

Lessico computazionale_libro.indb 58 03/02/2016 14:46:32


b) i predicati che richiedono una specificazione degli argomenti. La restrizione
consiste nel classificare gli argomenti in termini di tratti semantici, come:
umano, animato, concreto, ecc. (prendiamo l’esempio del verbo telefonare
(N0 telefona a N1), dove tutti e due gli argomenti devono entrare nella cate-
goria umano; sono inaccettabili le frasi come *Maria telefona al suo cane →
*N0:hum telefonare a N1:anim). I ricercatori del LLI hanno adottato un
insieme di 6 tratti per gli argomenti: humain non prédicatif, animal, végétal,
inanimé concret, locatif, nom de temps, più quattro tratti dei predicati: hu-
main prédicatif, action, état, événement.
c) nella maggior parte dei casi, la distinzione fra i tratti semantici non basta
per disambiguare a sufficienza un dato predicato. Bisogna quindi ricorrere a
una tipologia più dettagliata di argomenti, semantica e sintattica nello stesso
tempo, vale a dire alle classi di oggetti. Tali predicati permettono di delineare
un’intera classe di oggetti.
d) il predicati che lasciano spazio a un solo sostantivo in posizione dell’argo-
mento, p.es.: abaisser une perpendiculaire (Gross – Mathieu-Colas 2001: 72).
È ovviamente il gruppo meno numeroso.

2.3.4. Struttura di un’entrata lessicale

I ricercatori del LLI hanno utilizzato, per la compilazione del dizionario elet-
tronico, la standardizzazione del contenuto informativo di un’entrata lessicale.
Per ogni sostantivo-argomento di questo dizionario si è ricorsi a diverse categorie
(campi) che indicano la natura morfologica dell’entrata, le sue proprietà semanti-
che e sintattiche, il dominio, il registro linguistico (quindi le caratteristiche socio-
linguistiche) e la traduzione (Gross 1992a: 255).
I campi morfologici sono:

▪▪ M: rappresenta il tipo morfologico (specie per i nomi composti), p.es.:


NAdj, N de N, Vn, V Dét N, ecc. (la tipologia comprende oltre 500 cate-
gorie);
▪▪ G: indica la categoria grammaticale (nome, aggettivo, verbo, ecc.). I nomi
vengono accompagnati dall’informazione sul genere e sul numero (p.es.:
nm, nf, nfs, ecc.);
▪▪ F: indica la tipologia delle forme flesse. I nomi e gli aggettivi in francese
hanno 80 tipi diversi di variazione morfologica, mentre i verbi 98 tipi (nella
tipologia adottata da LLI);
▪▪ V: rende conto delle varianti grafiche della parola (per es.: événement –
évènement).

59

Lessico computazionale_libro.indb 59 03/02/2016 14:46:32


I campi sintattico-semantici sono:

▪▪ T: rende conto delle proprietà delle entrate in termini di tratti sintattico-


semantici, come: umano (hum: studente), animato (an: cane), inanimato
concreto (inc: tavolo), inanimato astratto (ina: coraggio), ecc.;
▪▪ C: indica la classe di oggetti;
▪▪ W: indica il verbo supporto;

I campi che indicano il registro e il dominio della parola:

▪▪ S: il dominio (p.es.: economia, diritto civile, ecc.);


▪▪ R: il registro (familiare, popolare, letterario, regionale, ecc.);

I campi dedicati alla traduzione: E (riporta la traduzione inglese), De (riporta


la traduzione tedesca). Chiaramente i due campi possono essere accompagnati da
ulteriori traduzioni in altre lingue. Sotto troviamo alcuni esempi delle entrate les-
sicali (si tratta di soli estratti, per cui mancano alcuni campi; riprendo gli esempi
da Gross 1992b: 10).

Frère/G:nm/F:/V:/T:hum/C:rel/D:famil/R:/E:/De:
menuisier/G:nm/F:/V:/T:hum/C:prof/D:/R:/E:/De:
traitre/G:nm/FL/V:/T:hum/C:traitre/D:lg/R:/E:De:
sire/G:nm/F:/V:/T: hum/C:titre/D:lg/R:/E:De:
marteau/G:nm/F:/V:/T:inc/C:outil/D:lg/R:/E:/De:
fumeur/G:nm/F:/V:/T:hum/C:npra/D:lg/R:/E:/De:
car/G:nm/T:inc/C:mtc/D:transp/R:/E:/De:
steak/G:nm/F:/V:steack/T:inc/C:alim/D:cuis/R:/E:De:
lampe/G:nf/F:/V:/T:inc/C:moy d’éclair./D:éclair/R:/E:/De:
aspirine/G:nf/F:/V:/T:inc/C:médic/D:pharm/R:/E:/De:

Come nel caso degli argomenti, anche le entrate lessicali dei predicati (verbali,
nominali e aggettivali) si compongono di diversi campi che indicano le proprietà
dei lessemi, come la morfologia, la natura degli argomenti, tratti sintattici, classi
di oggetti, ecc. I predicati verbali sono quindi accompagnati dalle seguenti infor-
mazioni: M, F, i campi che indicano gli argomenti a seconda della loro posizione:
N1, N2, N3, accompagnati dai tratti sintattici e le classi di oggetti (se il solo tratto
non è sufficiente per disambiguare il senso del predicato), S (che, in questo caso,
sta per sinonimo), A (antonimo), D, R, i campi che specificano se l’impiego del
verbo predicativo sia disposto alla nominalizzazione e alla aggettivazione (tramite
il verbo-supporto), o alle trasformazioni sintattiche. Gli ultimi campi riportano
gli equivalenti in lingue straniere (p.es.: E, De, come sopra). Una simile struttura
dell’entrata lessicale permette di ritrovare facilmente tutti i predicati che accompa-
gnano una data classe di oggetti. Di seguito alcuni esempi (ivi: 12–13).

60

Lessico computazionale_libro.indb 60 03/02/2016 14:46:32


prendre/N1:hum/N2:inc(prendre une cigarette)
prendre/N1:hum/N2:inc<méd>(prendre de l’aspirine)
prendre/N1:hum/N2:inc<mti>(prendre sa voiture)
prendre/N1:hum/N2:inc<mtc>(prendre le bus)
prendre/N1:hum, mt/N2:loc<voie>(prendre l’autoroute)
partir par/N0:hum/N1:mt-fc ; luoper (le+Poss0)/N0:hum/N1:mt-fc
s’engager sur la voie nº/N0:mt-fc ;
prendre<aliment> : manger ; prendre<boisson> : boire

L’entrata di un predicato nominale riporta le informazioni sulla natura degli


argomenti (come nel caso precedente), sull’attualizzazione del predicato (il campo
W: il verbo-supporto), sulle trasformazioni morfologiche (se il predicato nominale
assume anche la forma verbale o aggettivale, come, ad esempio, nel caso di piacere:
Mi piace presentarvi Marco, Ho il piacere di presentarvi Marco, ecc.), la sinonimia e
l’antonimia, le trasformazioni sintattiche, il dominio, il registro e la traduzione. I
predicati aggettivali vengono descritti in maniera simile.
Per riconoscere automaticamente la polisemia di un operatore come prendere
o mettere, occorre stabilire tutte le classi di oggetti che accompagnano questo ope-
ratore, quindi le classi che permettono di caratterizzare il suo impiego nella frase.
Bisogna, comunque, stabilire ancora tutti gli elementi di una data classe di oggetti.
Il sistema di traduzione automatica che, nel corso d’analisi della frase, troverà il
verbo prendere, esaminerà in seguito il suo contesto destro. I vari complementi del
verbo avranno un indice della classe di oggetti a cui appartengono (treno verrà indi-
cato come <mezzo di trasporto ferroviario>, caffè come <bevanda>, panino <cibo>,
ecc.). È il dizionario stesso a precisare la traduzione del verbo a seconda della classe
di oggetti di cui fa parte il complemento preso in esame (Gross 1992b: 26).
La nozione di classi di oggetti può essere utile in vari settori dello studio lingui-
stico. Come si è detto prima, la descrizione proposta da Gross permette di stabilire
in maniera molto precisa la distribuzione degli operatori (verbi, nomi e aggettivi
predicativi), aiuta a disambiguare il senso dei verbi polisemici e facilita la compila-
zione di un dizionario dei sinonimi (per tutte le categorie morfologiche). Infatti, le
entrate del dizionario che presenta Gross in Classes d’objets et synonymie (1994a)
risultano molto chiare. Di seguito presento ancora alcuni esempi di disambiguazio-
ne degli operatori aggettivali e preposizionali (gli esempi sono di Gross).
aigu <son> : strident, grinçant en <matière> : en fer, en plastique
aigu <maladie> : grave en <vêtement> : en pijama, en veste
aigu <douleur> : vif en <pays> : en France, en Allemagne
aigu <qualité intellectuelle> : grand en <année> : en 1992
aigu <objet> : pointu, effilé en <saison> : en été, en automne
tendre <couleur> : pâle, délicat sous <dirigeant> : sous Gaulle
tendre <sentiment> : amoureux sous <«couverture»>: sous enveloppe, sous
tendre <musique> : douce papier gras
tendre <végétation> : fraîche sous <durée> : sous deux jours

61

Lessico computazionale_libro.indb 61 03/02/2016 14:46:32


2.4. Teoria “Senso↔Testo”

La teoria “Senso↔Testo” (d’ora in poi anche TST15) nasce negli anni ’60
nell’ambito linguistico di Mosca. È stata ideata da Igor Mel’čuk in stretta colla-
borazione con Aleksandr Žolkovskij e Jurij Apresjan. La prima pubblicazione che
presenta i fondamenti teorici della TST risale al 1965 (Žolkovskij – Mel’čuk), men-
tre la prima completa esposizione della teoria esce nel 1974 (Mel’čuk). La TST
viene sviluppata ancora oggi, non più a Mosca, ma presso l’Observatoire de Lingui-
stique Sens-Text dell’Università di Montréal, dove Mel’čuk si è trasferito, e sembra
un campo di ricerca lessicografica molto fertile (oltre alle analisi in lingua francese,
sono apparsi i lavori in lingua inglese (p.es.: Wanner 1996), spagnola (p.es.: Alonso
Ramos 1995) o portoghese (p.es.: R. Valente 2000@); i lavori più completi in lingua
italiana sono: Gatti 1992, Prencipe 2006. Nell’arco di alcuni decenni i ricercatori,
sotto la direzione di Mel’čuk, hanno elaborato un modello complesso e integrale
della lingua. Mi soffermerò soprattutto sulla parte del pensiero teorico che riguar-
da la sinonimia e la parafrasi sinonimica, presenterò quindi il trattamento del lessi-
co in termini di funzioni lessicali.

2.4.1. Presupposti della metodologia “Senso-Testo”

Il nome TST vuol dire che la lingua è considerata qui un meccanismo o un


sistema di regole che permettono al locutore di a) parlare, cioè essere in grado di
trovare le corrispondenze tra un senso e tutti i testi della lingua che possono rap-
presentare il senso nella maniera più adeguata in un dato atto linguistico, b) capire
la parola, ovvero trovare le corrispondenze tra il testo e tutti i sensi che esso può
esprimere in un dato atto linguistico. Lo scopo della ricerca è la costruzione di un
modello funzionale della lingua, cioè di un sistema di espressioni simboliche che
rappresentino il funzionamento di un’entità presa in esame (Mel’čuk 1997: 1–3).
La teoria di Mel’čuk rispetta tre postulati metodologici (ivi: 4–7):

1) La lingua è un sistema finito di regole che specificano la corrispondenza


tra un insieme infinito di sensi (significati) e un insieme infinito di testi; la
corrispondenza è quindi di natura multi-multipla.
2) Questa corrispondenza va descritta attraverso un dispositivo logico (un mo-
dello funzionale della lingua), inoltre va elaborata e presentata secondo la
direzione: senso → testo.
3) Per mettere in luce i fatti linguistici rilevanti, nella descrizione della suddet-
ta corrispondenza vanno prese in considerazione due livelli intermedi: a) la

15 
Riferisco la denominazione scritta con le maiuscole, ormai tradizionale nei lavori dedicati
alla TST. Con le maiuscole, come scrive Polguère, si vuole sottolineare che si tratta di due livelli
estremi della rappresentazione dell’enunciato (1998: 10).

62

Lessico computazionale_libro.indb 62 03/02/2016 14:46:32


rappresentazione sintattica che riflette le regolarità frastiche, b) la rappre-
sentazione morfologica che riflette le regolarità proprie delle parole.

La TST mette in rilievo soprattutto le possibili parafrasi degli enunciati. A


differenza dei modelli generativi della lingua, nella TST la lingua non è più un
meccanismo che genera un numero infinito di frasi grammaticali, ma è una “mac-
china virtuale” che permette di tradurre il senso in enunciato (testo) e vicever-
sa (Polguère 1998: 11; si veda figura 2.1). In realtà i due modelli, generativo e
“Senso-Testo”, anche se del tutto indipendenti, si sviluppano quasi parallelamen-
te, viste le date delle prime pubblicazioni più importanti. L’aspetto innovativo di
Mel’čuk consiste nel fatto che nel decennio caratterizzato da un crescente interesse
verso la grammatica chomskyana, egli parla dell’espressione delle strutture mentali
attraverso parole in termini di un processo traduttivo (secondo Osimo la consi-
derazione alquanto “eretica” all’epoca (2008@)). Nella metodologia mel’čukiana,
difatti, vengono ignorati i processi che avvengono nella mente umana, per concen-
trarsi sui loro risultati esterni (ibid.).
La TST è universale, cioè può essere applicata allo studio di ogni lingua na-
turale. La metodologia non è dunque condizionata dalla lingua di lavoro iniziale
(in questo caso il russo). Nello stesso tempo la TST non vuole limitarsi all’aspetto
teorico dello studio linguistico. I presupposti teorici devono servire come punti di
partenza per la creazione dei modelli linguistici specifici per le lingue naturali con-
crete. La teoria stessa si orienta verso la descrizione ed è uno strumento potente
per lo studio lessicografico e grammaticale (Polguère 1998: 3), dove per modello
linguistico si intende un modello composto da a) un lessico, b) una grammatica,
c) un insieme di regole che permettono di illustrare la corrispondenza tra il Senso
e il Testo attraverso i due componenti menzionati. In questo senso il modello ST
è formalizzato, cioè rappresentato attraverso un linguaggio formale e calcolabile
(computazionale); esso può essere utilizzato da un sistema logico, come ad esem-
pio un’applicazione informatica.

Un MST essaie de se comporter comme un locuteur, qui ne passe son temps


ni à générer des ensembles des phrases grammaticalement correctes ou à dis-
tinguer entre les phrases correctes et incorrectes, ni à transformer des struc-
tures abstraites ; un locuteur parle, c’est-à-dire qu’il exprime, au moyen de
textes, les sens qu’il veut communiquer. Un MST doit faire la même chose:
«traduire» un sens donné en un texte qui l’exprime (voilà pourquoi ce mo-
dèle est qualifié de «traductif»)16 (Mel’čuk 1997: 7).

16 
‘Un MST cerca di comportarsi come un locutore che non passa il suo tempo né a generare
insiemi di frasi grammaticalmente corrette o a scegliere tra frasi corrette e scorrette né a trasfor-
mare strutture astratte; il locutore parla, vale a dire esprime, attraverso testi, il senso che vuole
comunicare. Un MST deve fare la stessa cosa: “tradurre” un dato senso in un testo che lo esprime;
ecco perché il modello viene chiamato “traduttivo”’.

63

Lessico computazionale_libro.indb 63 03/02/2016 14:46:32


In altre parole, il modello ST è un modello “equativo o traduttivo”, non genera
le frasi, ma esprime corrispondenza tra la rappresentazione semantica e la rappre-
sentazione fonica; si basa principalmente sulla parafrasi, cioè sulla sinonimia degli
enunciati; è un modello “globale e integrale” che vuole rappresentare la lingua
come un insieme indivisibile, non un solo suo aspetto (semantico, morfologico o
quale sia) (ibid.). Tuttavia, anche Mel’čuk propone di ripartire il suo modello in
alcuni livelli (corrispondenti ai livelli tradizionali dello studio linguistico): seman-
tico, sintattico, morfologico e fonetico/fonico. La particolarità della TST consiste
nella suddivisione di ciascuno dei livelli (tranne quello semantico) in livello pro-
fondo e superficiale (p.es. Polguère 1998: 15). Per ognuno dei livelli vengono stabi-
lite le regole che permettono infine di tradurre il senso nell’insieme di parafrasi che
lo rappresentano. Nelle pagine che seguono mi limito alla presentazione delle due
questioni più importanti dal punto di vista lessicografico, ovvero la “modellizza-
zione” del senso della parola (la semantica lessicale) e la combinatoria delle parole
(il problema delle cooccorrenze lessicali).

2.4.2. Parafrasi sinonimica

La sinonimia non è soltanto il risultato dell’impiego dei sinonimi lessicali stric-


to sensu, essa risulta anche dall’impiego di vari altri mezzi linguistici, tra cui:

-- variante sintattica avente lo stesso significato (ha presentato, presentando,


durante la presentazione, ecc.),
-- espressioni che descrivono una data situazione a seconda del punto di vista
dei partecipanti alla situazione (A sta davanti a B, B sta dietro A),
-- vari tipi di parole derivate, o meglio: di concetti derivati o dipendenti (A
appartiene a B, B possiede A, ecc.)
-- variante dello stesso significato condizionata dal punto di vista lessicale (si
veda la nozione di funzione lessicale esposta più avanti).

Il modello Senso-Testo parte da un’entrata che rappresenta un dato senso, per


riprodurre un insieme di testi che esprimono lo stesso senso. A titolo d’esempio,
vediamo i sensi amare e in maniera intensa riprodotti in una frase esposta alla pa-
rafrasi (adatto l’esempio francese di Polguère 1998: 12):

Senso: Testi:
Marco ama la sua ragazza Maria ↔ Marco ama follemente la sua ragazza Maria.
in maniera molto intensa Marco ama alla follia la sua ragazza.
Marco ama la sua ragazza come un pazzo.
Marco prova amore per la sua ragazza.
Marco sente un amore intenso per la sua ragazza.
ecc.

64

Lessico computazionale_libro.indb 64 03/02/2016 14:46:32


La peculiarità del modello melČukiano sta nel fatto che esso si orienta verso
la sintesi, cioè verso la produzione del testo (tale orientamento non è molto fre-
quente in altre teorie; si veda il postulato 2 dell’autore). In termini dei partecipanti
all’atto comunicativo, TST dà privilegio al mittente invece che al destinatario. La
corrispondenza senso-testo viene resa attraverso un “meccanismo logico virtuale”
presentato nella seguente figura che riprendo da Giraldo (2003@: 8–10; si veda
anche l’idea della scatola nera (black box) espressa nel paragrafo 3.1):
Figura 2.1: “Meccanismo logico virtuale” della TST

Vediamo ancora quali sono le idee fondamentali di questa metodologia lingui-


stica secondo Apresjan (1974: 41–42):

-- le trasformazioni di parole astratte permettono di stabilire l’identità delle


unità apparentemente diverse (le parole concrete spesso non hanno sinoni-
mi, per cui una volta trasformate in realtà non cambiano),
-- l’oggetto definito non è più il solo lessema, ma tutta la forma situazionale o
sintattica: predicato + tutti i partecipanti alla situazione (si vedano anche le
teorie esposte nei capitoli precedenti: 2.1, 2.2),
-- va definito tutto l’insieme di forme sinonimiche, non una sola forma sintat-
tica (p.es.: A precede B = B segue A = A sta davanti a B, B sta dietro A, ecc.).

Per rendere esplicito il fenomeno della sinonimia, Mel’čuk e Žolkovskij in-


troducono la nozione di funzione lessicale: la f u n z i o n e l e s s i c a l e (FL) è la
funzione che subordina una data parola (insieme di parole) X a un’altra parola
(insieme di parole) Y con cui rimane legata dal punto di vista semantico (f(X) =
Y, dove f: funzione (nel senso matematico del termine), X: argomento, Y: valore
dell’argomento (insieme delle espressioni che possono esprimere il senso o un dato
ruolo sintattico). Per esempio, la funzione Magn (dal latino magnus → grande), che
indica l’intensificazione o il rafforzamento del senso, può manifestarsi diversamen-
te a seconda dell’argomento della funzione. In tal modo avremo: Magn(ricco): sfon-
dato, Magn(dormire): profondamente, Magn(sano): come un pesce, ecc.; similmente
la funzione Oper (ha come valore il verbo il cui complemento oggetto è espresso
dall’argomento della funzione) può manifestarsi come: Oper(domanda): fare/por-

65

Lessico computazionale_libro.indb 65 03/02/2016 14:46:33


re, Oper(rischio): correre, Oper(potere): esercitare, ecc. (per un approfondimento
delle FL si veda tabella 2.2.).
Si distinguono due tipi di funzione lessicale:
1) il c a m b i a m e n t o l e s s i c a l e : è una funzione che subordina a una data
parola X un’altra parola Y, il cui significato lessicale corrisponde al significa-
to di X. Sono quindi mezzi di parafrasi e di sinonimia lessicale in senso largo
(lo scambio X → Y avviene sull’asse verticale della lingua). Tra i cambia-
menti lessicali troviamo i sinonimi veri e propri o i derivati sintattici, p.es.:
S0(amare): amore, A0(carta): cartaceo, Adv0(grande): molto, V0(odio): odiare
(le funzioni Anti (antonimo) e Gener (genere, p.es.: rosso – colore, tennis –
sport, scacchi – gioco) sono simili ai cambiamenti lessicali. Il significato degli
antonimi e degli iperonimi, anche se non corrisponde in totale al lessema di
partenza, ci rimane legato).
2) il parametro lessicale: è una funzione che collega la parola X alla parola Y
(semanticamente dipendente da X) sull’asse orizzontale della lingua, quindi
mette in rilievo le dipendenze sintattiche delle parole. La nozione del para-
metro permette di stabilire tutte le cooccorrenze lessicali di un dato lessema.
Attraverso i parametri lessicali è possibile rendere conto delle collocazioni
lessicali che, secondo la definizione melČukiana, sono des expressions phraséologi-
ques d’un certain type, qu’on ne peut pas prévoir et que la linguistique ne savait pas
présenter de façon logiqe et facilment calculable17 (Mel’čuk 1997: 23). La tabella
2.2. presenta i principali parametri lessicali, ordinati a seconda della categoria mor-
fologica a cui appartengono e altre caratteristiche di natura semantica.

Tabella 2.2: Panoramica dei parametri nella teoria Senso–Testo


Simbolo Significato Esempi
I. per i verbi:
1: privi di un significato autonomo:
Operi verbo privo di significato autonomo Oper1(influsso) = avere influsso su
che collega il partecipante i alla situa- Oper2(effetto) = essere sotto effetto di
zione (come soggetto) con il nome del-
la situazione (come complemento)
Func0 verbo privo di significato autonomo: Func0(riunione) = essere in corso
“avere luogo”, dove il nome della si-
tuazione funziona come soggetto

‘[…] espressioni fraseologiche di un certo tipo che non si possono prevedere e che la lingui-
17 

stica non sapeva presentare in modo logico e facilmente calcolabile’.

66

Lessico computazionale_libro.indb 66 03/02/2016 14:46:33


Laborij verbo privo di significato autonomo Labor12(analisi) = sottoporre
che lega il nome del partecipante i alla
situazione (come soggetto) con il nome
del partecipante j (come complemento
di primo rango) e con il nome della si-
tuazione (come complemento di rango
inferiore)
2: dotati di un significato autonomo:
a: parametri dei non partecipanti alla situazione:
Caus verbo che significa: ‘fare in modo che CausOper2(controllo) = mettere N sot-
una situazione cominci’ to controllo di X CausFunc0(panico)
= seminare
Liqu verbo che significa: ‘fare in modo che Liqu(dormire) = svegliare
una situazione finisca o non si verifichi LiquFunc0(assemblea) = sciogliere
più’
Liqu = CausFin o non-Caus
b: parametri dei partecipanti alla situazione:
b1: parametri che specificano una fase
Incep Incominciare Incep(dormire) = addormentarsi;
IncepOper1(potere) = salire al
Fin finire = Incep+non Fin(dormire) = svegliarsi;
FinOper1(potere) = perdere
Cont continuare = non-Fin = non-Incep-non ContOper1(calma) = trattenere;
ContFunc0(guerra) = continuare
b2: parametri con valore aspettuale
Real “soddisfare requisiti del significato” Real(coltello) = tagliare
Real2(invito) = accettare
Perf perfettivizzazione: l’azione è portata al Perf(studiare) = imparare
termine
Result risulato dell’azione ResultReal1(studiare) = sapere
ResultPerf(sdraiarsi) = essere sdraiato
b3: i parametri con valore causativo
Causi autocausativum del partecipante i CausFunc0 (difficoltà) = presentare
Liqui autoliqudativum del partecipante i Liqu1Func0(legge) = abrogare
II. per i sostantivi:
Si nome tipico del partecipante i alla S1(insegnare) = insegnante
situazione S1Oper1(aggressione) = aggressore

67

Lessico computazionale_libro.indb 67 03/02/2016 14:46:33


Sinstr nome tipico dello strumento utilizzato Sinstr(riscaldare) = sistema di riscalda-
nella situazione mento
Sloc nome tipico del luogo della situazione Sloc(sepellire) = sepolcro
Smod nome tipico delle modalità di agire Smod(camminare) = passeggiata
Smod(scrivere) = stile
Sres nome tipico del risultato d’azione Sres(studiare) = sapere
Sres(comprare) = possesso
Figur dal latino figuraliter, figurativo Figur(nebbia) = cordina di
Figur(passione) = fiamme di
III. Parametri aggiuntivi:
1. per gli aggettivi:
Magn intensificatore, rafforzamento Magn(dormire) = profondamente
Bon con valore buono, si riferisce (come Bon(pazienza) = da santo
Magn) ai nomi e ai verbi Bon(influenza) = buona
Ai descrizione tipica del partecipante i Ai(bruciare) = in fiamme
alla situazione A2(dirigere) = diretto
(cooccorre solo con i verbi)
Ablei dal latino habilis, determina proprietà Able1(variare) = variabile
di i che è “abile” di fare qualcosa Able2(percepire) = percettibile
Able1Oper1(combattimento) = pro-
penso a
2. per gli avverbi:
Advi avverbio tipico (locuzione avverbiale) Adv2(tutelare) = sotto tutela
legato semanticamente al nome del
partecipante i alla situazione

I parametri lessicali possono riferirsi a una sola parola (come argomento della
funzione) o a un insieme di parole, analogicamente: il valore dell’argomento, quin-
di il senso del parametro, può esprimersi con una sola parola (Oper(osservazione):
fare), o con insieme di parole (Magn(mangiare): come un bue), un dato parame-
tro può avere più sensi per un solo argomento (Oper2(influsso): essere sotto l’in-
flusso di / subire l’influsso di), infine, è possibile la composizione delle funzioni
lessicali (FinFunc0(moda): passare di, AntiMagn(mangiare): come un passerotto,
FinOper1(abitudine): perdere).

68

Lessico computazionale_libro.indb 68 03/02/2016 14:46:33


2.4.3. Entrata lessicale nel Dictionnaire explicatif et combinatoire

Il lavoro di Mel’čuk e della sua équipe lessicografica è stato presentato sotto


forma del Dictionnaire explicatif et combinatoire du français contemporain (Diziona-
rio esplicativo e combinatorio del francese contemporaneo – DECFC, a cura di Igor
Mel’čuk e André Clas), uscito in quattro volumi tra il 1984 e il 1999. Gli autori del
dizionario mettono l’accento sulla distinzione tra il lessema e il vocabolo: il lessema
equivale, in questa ottica, a un’accezione, è quindi ognuno dei diversi significati di
un solo vocabolo – di una “superunità” definita come insieme di lessemi semanti-
camente affini che hanno lo stesso significante (DECFC, I: XIV). Il primo volume
comprende 50 vocaboli, i volumi successivi rispettivamente 107, 171 e 180.
Ogni entrata lessicale del Dizionario esplicativo (chiamata anche articolo) è
divisa in cinque “zone” (si veda l’introduzione a DECFC: 17–25): zona d’intro-
duzione (che presenta le informazioni di natura morfologica e sintattica); zona
semantica (con la forma proposizionale, definizione e connotazioni); zona dedicata
alla combinatoria sintattica (il  cosiddetto schema di regime SR, le restrizioni di
SR, gli esempi e le modificazioni sintattiche del lessema); zona dedicata alla com-
binatoria lessicale (con le funzioni lessicali e gli esempi dell’impiego del lessema);
infine, la zona della fraseologia.
A titolo d’esempio presento la prima entrata lessicale del DECFC (vol. I: 53):

LA TÊTE, loc. prép. Exemples


La France est, je le crois, à la tête du mon-
I. [Étant] en première 1 position 1… [à la
de par ses artistes [H. de Balzac]. Monsieur
tête de la colonne]
le momte Particari de Pesaro est dans ce
II.1. [Étant] en première 2 position 2… [à
moment à la tête de la littérature italienne
la tête de la vie culturelle]
[Stendhal]. L’humanisme prit la tête de la
2. [Étant] en position 2 de deriger X… [à
vie culturelle.
la tête de la banque]
III. [Étant] près de ou sur la partie d’un
II.2. [Y étant] à la tête de X = [Y étant] en
lit… [à la tête du lit]
position 2 de deriger X [comme si Y, étant
¯¯¯¯¯¯¯¯
˹à la tête˺ I de X, était la tête I. la de X et en
I. [Y étant] à la tête de X = [Y étant] en pre-
effectuait le contrôle central].
mière 1 position 1 dans une suite X d’objets
ou de personnes se déplaçant ou devant se Régime
déplacer dans la même direction. 1=X 2=Y
Régime 1. de N
1=X 2=Y 2. Aposs
1. de N obligatoire
obligatoire
C1 : à la tête de la fortune <de la
C1 : à la tête de la colonne <de l’esca- banque, d’une somme, du mouve-
drille> ment, du gouvernement>, à sa tête

69

Lessico computazionale_libro.indb 69 03/02/2016 14:46:33


Fonction lexicales Fonction lexicales
A2 : // de tête [wagon de Toutes les FL, sauf A2 : ↑˹ À LA TÊTE˺ I
tête, homme de tête] S1 : tête III
Oper2 : être, se trouver [ ~ ]
IncepOper2 : se retrouver [ ~ ] Exemples
CausOper2 : mettre [N ~ ] … depuis qu’il avait fait de son fils Louis
Caus2Oper2 : // prendre la tête [de N] […] son successeur à la tête de l’Empire
[G. de Sède]. Le général était à la tête d’une
Exemples florissante famille. Septime se trouvait à la
Il regardait Bellovèse et Ségovèse s’éloigner tête du gouvernment. L’homme qui s’était
à cheval, à la tête de leur troupe, l’un vers mis à la tête des soldats révoltés contre
sud, l’autre vers l’est [G. de Sède]. On l’a Alexandre était un centurion. Durant cet-
mis à la tête de la colonne. Il était à la tête te année un nouvel organisme apparut; à sa
de la colonne. Son appareil prit la tête de tête fut nommé M. Roy.
l’escadrille. Il en prit la tête [*Il prit sa tête]
III. [Y étant] à la tête de X = [Y étant] près
II.1. [Y étant] à la tête de X = [Y étant] en de ou sur la partie d’un lit X où se trouve ou
première 2 position 2 parmi les personnes doit se trouver la tête I. La de la personne
ou les collectivités constituant l’ensemble X qui est couchée sur X
ou prenant part à l’activité X [comme si Y
Régime
était ˹à la tête˺ I de X]
↑˹À LA TÊTE˺ I
Régime
↑˹À LA TÊTE˺ I C1 : à la tête du lit

C1 : à la tête de la classe Fonction lexicales


Toutes les FL, sauf A2 et Caus2Func0: ↑˹ À
Fonction lexicales LA TÊTE˺ I
Toutes les FL, sauf A2 : ↑˹ À LA TÊTE˺ I
Exemples
Il s’est assis à la tête de mon lit.

La presente entrata lessicale è stata tratta da un dizionario monolingue. Cio-


nonostante, anche le corrispondenze interlinguistiche possono rappresentarsi tra-
mite una visuale di diversi valori delle funzioni lessicali. Una simile metodologia
dizionaristica è del tutto innovativa e apre una nuova e promettente prospettiva
per la compilazione dei dizionari-macchina. Di seguito riporto un campione di tali
corrispondenze lessicali per il senso “malattia”. La griglia è tratta dall’esempio di
Mel’čuk (2003: 53) ma con qualche modifica, tra cui l’aggiunta delle parti italiana
e polacca.

70

Lessico computazionale_libro.indb 70 03/02/2016 14:46:33


inglese francese tedesco italiano polacco
illness maladie krankheit malattia choroba

Oper1 have: ART ~ avoir: ART ~ haben: ART avere: ART mieć: ~ acc
suffer: from souffrir: de ~ acc ~ cierpieć: na
ART ~ ART ~ leiden: an soffrire: di ~ acc
ART ~ acc ART ~
IncepOper1 contract: contracter: erkranken: contrarre: zarazić się: ~
ART ~ ART ~ an ART ~ ART ~ instr
fall ill: with tomber acc ammalarsi: zachorować:
ART ~ malade: de di ART~ na ~ acc
ART~
FinOper1 recover: se remettre: genesen: von guarire: da wyzdrowieć
from ~ ART de ART~ ART ~ ART~ wyleczyć się:
dat z ~ gen
LiquFunc1 cure, heal: guérir: ART heilen: ART curare: wyleczyć: ~
ART ~ ~ ~ acc ART~ acc

2.5. Gestione della conoscenza ontologica

L’ontologia, in poche parole, è lo studio dell’essere in quanto tale e delle sue


categorie; è un settore della filosofia che investiga la struttura e le caratteristiche
della realtà. Tra le definizioni del termine nate nell’ambito dell’Intelligenza Arti-
ficiale citiamo quella di Tom Gruber: An ontology is an explicit specification of a
conceptualisation. The term is borrowed from philosophy, where an Ontology is a
systematic account of Existence18 (Gruber 1993: 199). L’ontologia nei termini infor-
matici è, quindi, la rappresentazione di un dato dominio in forma di un insieme
(insiemi) di concetti e di relazioni tra di loro. Un tale schema concettuale dovrebbe
spiegare il funzionamento di un dato dominio (a volte anche di un obiettivo (task);
cfr. ivi: 203). In altre parole, l’ontologia è una base della conoscenza (ricordiamo
che nel TAL le questioni problematiche sono, nella maggior parte, di natura se-
mantica; le ontologie permettono di superare alcune ambiguità terminologiche,
quindi di disambiguare il senso di un dato termine; cfr. il paragrafo 1.3)
Le ontologie possono classificarsi in base al grado di formalizzazione del lin-
guaggio con cui sono state create. In tal modo avremo quattro tipi di ontologie
(riferisco come in Uschold – Gruninger 1996: 103): a) altamente informali (highly
informal) se espresse nel linguaggio naturale, b) semi-informali (semi_informal)
espresse tramite una forma ristretta e strutturata del linguaggio naturale, c) semi-

‘L’ontologia è una specificazione esplicita della concettualizzazione. Il termine stesso è stato


18 

prestato dalla filosofia, dove Ontologia è una descrizione sistematica dell’Esistenza’.

71

Lessico computazionale_libro.indb 71 03/02/2016 14:46:33


formali (semi_formal): espresse in un linguaggio artificiale formalmente definito, d)
altamente formali (rigorously formal) che utilizzano una semantica formale, teoremi e
verifiche di proprietà. Esse possono classificarsi anche a seconda del tipo di contenu-
to che esprimono. In questo caso avremo (secondo Ruffolo 2005@: 3):

-- ontologie fondamentali o superiori (top-level ontology, upper ontology): in-


cludono il vocabolario che riguarda cose, eventi, comportamento e fun-
zioni; descrivono concetti molto generali (come: oggetto, materia, evento,
spazio, tempo) non dipendenti da un concreto dominio o problema; ven-
gono anche chiamate meta-ontologie, poiché si lasciano riutilizzare in vari
domini (p.es.: Top-level ontology di John Sowa, Upper ontology Cyc, SUO
Standard Upper Ontology),
-- ontologie del dominio (domain ontology): utilizzate in un dato dominio i cui
concetti fondamentali riportano. Tali ontologie presentano anche le rela-
zioni e le attività caratteristiche del dominio, nonché le teorie e i presuppo-
sti che gli sono propri (p.es. E-commerce, Medical, OpenClinical, Enterprise
ontology),
-- ontologie linguistiche (linguistic ontology): create indipendentemente da
ogni dominio, rappresentano la semantica delle unità linguistiche; vengono
utilizzate nel Trattamento Automatico del Linguaggio (p.es.: WordNet, Eu-
roWordNet, MultiWordNet, Sensus).

Dal punto di vista delle mie considerazioni in merito, l’ultima categoria di cui
sopra è anche la più interessante.

2.5.1. Ontologia linguistica WordNet

La rete semantica WordNet, il progetto elaborato presso Cognitive Science La-


boratory dell’Università di Princeton sotto la direzione di George Miller (p.es.:
Miller et al. 1990, Fellbaum 199819), è tra le ontologie linguistiche più conosciute
nel settore. La descrizione lessicografica nel WordNet si basa sulle teorie psicolin-
guistiche della memoria lessicale umana. Il progetto ha dato come risultato una
rete semantico-lessicale organizzata concettualmente, e non in ordine alfabetico.
Gli autori hanno voluto lavorare oltre la “circolarità della parola” (le parole usate
per definire le parole), per cui la stessa rete si presenta piuttosto come un sistema
di eredità lessicale. The fundamental design that lexicographers try to impose on the
semantic memory for nouns is not a circle, but a tree (in the sense of tree as a graph-

19 
Tra i lavori più completi nella lingua italiana che trattano del progetto originale WordNet
troviamo due tesi di laurea inedite di Pietro Meschini (2002@) e Federica Niero (2006@), disponibili
on line (si vedano i riferimenti bibliografici).

72

Lessico computazionale_libro.indb 72 03/02/2016 14:46:33


ical representation)20 (Miller 1990: 247). WordNet è oggi probabilmente la risorsa
più utilizzata nell’ambito del TAL.
I termini compresi nel database sono disposti a seconda delle loro affinità di
significato, vale a dire le informazioni lessicali si organizzano in synset, cioè insiemi
di sinonimi, parole o gruppi di parole, che esprimono lo stesso significato. I synset
sono collegati tra di loro tramite diversi tipi di relazioni, su cui tornerò a breve. Gli
ideatori dell’ontologia WordNet riconoscono l’ambiguità del termine “parola” (il
modo in cui viene scritto il termine o il suo significato), per cui definiscono come
l e m m a la forma grafica (o il suono) di una parola e s i g n i f i c a t o – il concetto
che la forma associa. La corrispondenza tra la forma e il significato è di natura
“multidimensionale” (la relazione di tipo molti a molti), il che spiega i fenomeni di:
a) s i n o n i m i a : uno stesso concetto (significato) viene espresso tramite più forme
distinte di parole, b) p o l i s e m i a : quando un solo lemma ha due o più significati.
WordNet distingue due tipi di relazioni: le relazioni semantiche, che esistono
tra i significati (synset), e le relazioni lessicali, cioè tra i lemmi. Non ci sono rela-
zioni tra un synset e un lemma. La rete WordNet è dunque una matrice lessicale,
come nella figura 2.1. (le righe rappresentano i significati che si possono attribuire
a una parola, invece le colonne – i diversi termini. Nei termini di WordNet, ogni
riga sta per un synset, mentre ogni colonna sta per un lemma).

Figura 2.2: Matrice lessicale

I termini sono divisi per categoria grammaticale: nome, verbo, aggettivo, avver-
bio (inizialmente si prevedeva anche utilizzo della categoria function word, omessa
dopo, perché contenuta separatamente nella memoria lessicale umana; Meschini
2002@: 16). Le categorie sono chiaramente organizzate in maniera diversa: i sostan-
tivi e i verbi sono organizzati in gerarchie basate sulle relazioni di iperonimia e ipo-
nimia tra i synset (inoltre vari “puntatori” indicano altre relazioni). Gli aggettivi si
raggruppano nei cosiddetti cluster, le strutture che hanno un synset principale e dei
synset satelliti (il synset principale presenta una coppia di antonimi, invece i synset
satelliti sono collegati da una relazione di similarità). La descrizione degli avverbi

‘La struttura fondamentale che i lessicografi tentano di imporre alla memoria semantica per


20 

i nomi non è un cerchio, ma un albero (l’albero nel senso: una rappresentazione grafica)’.

73

Lessico computazionale_libro.indb 73 03/02/2016 14:46:33


riporta di solito un “puntatore lessicale” che rinvia all’aggettivo da cui l’avverbio
proviene. Secondo lo stesso Miller, WordNet è una rete lessicale capace di fornire
una corretta collocazione per ogni parola nella lingua inglese.

2.5.2. Relazioni semantiche e lessicali in WordNet

Le relazioni semantiche riguardano due concetti (synset) e variano a seconda


della categoria grammaticale. Tra le principali relazioni troviamo:
▪▪ per i nomi:
▫▫ iponimia: la relazione che lega un concetto X (un synset) con un altro Y dal
significato più generale. X è iponimo di Y se X è un sorta di Y (espresso an-
che in inglese come: X is_a_kind_of Y), p.es.: bastardino è iponimo di cane,
quercia è iponimo di albero, albero è iponimo di pianta, ecc. Tale relazione
dà una struttura gerarchica dei concetti.
▫▫ iperonimia: la relazione inversa all’iponimia, lega un concetto X a un altro
Y più specializzato. X è iperonimo di Y se Y possiede tutte le caratteristi-
che di X più almeno un tratto particolare, aggiuntivo. Per esemplificare la
redazione di iperonimia, possiamo servirci degli esempi citati sopra con
l’ordine inverso degli elementi: cane è iperonimo di bastardino, albero è
iperonimo di quercia, ecc.
▫▫ L’organizzazione dei nomi nella rete WordNet è strutturata a partire da 25
concetti primitivi (semantic primes), detti unique beginners, che costitui-
scono la radice dell’albero gerarchico dell’ontologia, cioè non hanno i loro
iperonimi. Una simile divisione dei concetti posti al livello più alto della
gerarchia permette di diminuire in modo radicale il numero degli iperonimi
e di raggruppare i sostantivi in maniera molto coerente. Occorre ancora
sottolineare che una sola parola può essere iponimo di più di un solo con-
cetto primitivo, a seconda del numero dei suoi significati21.
▫▫ coordinazione: il synset X è coordinato con Y se questi hanno un ipero-
nimo comune (X e Y sono specie di Z), p.es.: cane e gatto sono concetti
coordinati, dato che tutti e due sono iponimi di animale. La coordinazione
potrebbe definirsi derivata dalle relazioni precedenti.

21 
Tra le 25 categorie nominali troviamo i sostantivi denotanti atti e azioni, animali, oggetti
prodotti da uomo, attributi di persone e di oggetti, parti del corpo, processi cognitivi e contenuto
concettuale, processi comunicativi, avvenimenti, sentimenti ed emozioni, cibo e bevande, gruppi
di persone e insiemi di oggetti, posizione spaziale, oggetti “naturali”, non prodotti da uomo, fe-
nomeni naturali, persone, piante, possesso, processi naturali, unità di misura e quantità, relazioni
tra persone, oggetti o concetti, forme bi- o tridimensionali, stato o condizione, sostanze, tempo e
relazioni temporali.

74

Lessico computazionale_libro.indb 74 03/02/2016 14:46:33


▫▫ meronimia: un concetto X è meronimo di Y, se X è parte di Y (is_a_part_
of), p.es.: suola è meronimo di scarpa, muro è meronimo di costruzione,
radice è meronimo di albero, ecc.
▫▫ olonimia: la relazione inversa alla meronimia, per cui X è olonimo di Y, se
Y è parte di X, p.es.: mano è olonimo di dito.
▪▪ per i verbi:
▫▫ iperonimia: parallelamente all’iperonimia tra i sostantivi, il verbo X è ipe-
ronimo di Y, se l’attività espressa da Y è una specie particolare di X, p.es.:
bere è iperonimo di sorseggiare.
▫▫ troponimia: la relazione inversa all’iperonimia verbale. Il verbo X è tro-
ponimo di Y, se facendo X si fa anche Y, p.es.: camminare è troponimo di
muoversi.
▫▫ coordinazione: come sopra, i verbi X e Y sono coordinati se hanno un ipe-
ronimo comune.
▫▫ implicazione: un verbo X implica un verbo Y, se nel fare X è necessario fare
Y (X non potrebbe verificarsi senza Y), l’ordine degli elementi della rela-
zione non può essere invertito, p.es.: russare implica dormire (ma dormire
non implica necessariamente russare). L’implicazione è simile, in un certo
senso, alla meronimia tra i sostantivi.
Le relazioni lessicali coinvolgono due lemmi. In questa categoria abbiamo so-
prattutto:
▫▫ sinonimia: la relazione tra due termini che rappresentano lo stesso concetto
(come sopra); non espressa formalmente da alcun puntatore. I due lemmi
sono sinonimici se appartengono allo stesso synset.
▫▫ antonimia: è la relazione tra due lemmi dal significato opposto. L’antonimia
viene, difatti, indicata con un preciso puntatore lessicale.

2.5.3. EuroWordNet e ItalWordNet

EuroWordnet è un database multilingue costituito dai wordnet (scritto con


minuscola in quanto nome comune) di diverse lingue europee (inizialmente quat-
tro: danese, italiano, spagnolo, inglese, a cui successivamente si aggiungono i
componenti: ceco, estone, tedesco e francese). Il componente italiano, noto come
ItalWordNet è stato elaborato presso ILC-CNR di Pisa (per la specificazione del
wordnet italiano si veda Roventini et al. 2000@). Similmente alla versione originale i
nuovi wordnet sono gerarchie lessicali composte di synset e di relazioni tra di loro.
Come innovazione rispetto al progetto originale la rete EuroWordNet introduce
nuove relazioni, anche tra le parti del discorso.
La multilingualità del progetto è chiaramente uno degli aspetti più importan-
ti: the use of a common framework to build the individual wordnets and integrate

75

Lessico computazionale_libro.indb 75 03/02/2016 14:46:33


them in a single database in which an inter-lingual-index connects the synset that are
“equivalent”22 (Vossen 1999: 628). L’equivalenza interlinguistica è generalmente
indicata come sinonimia: eq_synonym. Quando un dato synset non ha un solo
equivalente diretto, può essere collegato con diverse entrate simultaneamente tra-
mite le relazioni: eq_near_synonym, eq_has_hyperonym o eq_has_hyponym (ivi:
629). L’indice interlingue (ILI) integra in realtà tutta la famiglia delle reti lessicali.
Per finire questa breve presentazione del progetto, vediamo come si presenta il
termine parola nel motore di ricerca ItalWordNet (ne presento solo un frammento):

parola, Nome:
[1] - stringa di lettere che esprime un significato
[2] - chiacchiere, discorsi vani
[3] - contenuto di un discorso
[4] - modo di esprimersi con le parole
[5] - in informatica, unità logica minima di informazione
Iperonimi di: parola [1] 
• (unità_linguistica_[1])
▫ (parte_[9]) parte non materiale
▪ (collegamento_[1],  connessione_[1],  correlazione_[1],  denominatore_comu-
ne_[1],  legame_[2],  nesso_[1],  rapporto_[2],  relazione_[1],  riferimento_
[1]) stato di cose correlate tra loro, in rapporto di relazione; punto di contatto;
stato di collegamento
▪ (condizione_[2], stato_[2]) modo di essere, di trovarsi, stato; modo di esse-
re, di trovarsi: situazione

Iponimi di parola [1]:
•• (articolo_[5], voce_[4]) lemma di un dizionario o di una voce enciclopedica; lemma di
un dizionario o di una enciclopedia
•• (appellativo_[1], denominazione_[2], nome_[1], nominativo_[1]) soprannome, epi-
teto; elemento linguistico che indica entità concrete e astratte; elemento linguistico che
indica entità
•• (neologismo_[1]) parola o locuzione nuova, o nuova accezione di una parola già esi-
stente, in uso da poco nel lessico di una lingua
•• (beffa_[1], cilecca_[1], derisione_[1], gogna_[2], ludibrio_[2], scherno_[1]) parola o
atto di scherno
•• (complimento_[1]) parola di cortesia, ossequio, rallegramento
•• (americanismo_[1]) parola o forma propria dell’uso nordamericano
•• (contrario_[2]) la parola che esprime il concetto opposto ad un altro
•• (abbreviazione_[1], sigla_[1]) formula abbreviata di un nome

‘[…] l’utilizzo di un quadro comune per costruire i wordnet individuali e integrarli in un


22 

unico database in cui un indice interlinguistico colleghi i synset “equivalenti”’.

76

Lessico computazionale_libro.indb 76 03/02/2016 14:46:33


Collegamento ILI di parola [1]:
eq_synonym
•• [a unit of language that native speakers can identify; “words are the blocks from
which sentences are made”; “he hardly said ten words all morning”] (word[1])
Ontologia di parola [1]:
concetto: 4157535
•• LanguageRepresentation
Tra i membri della famiglia delle reti lessicali di tipo WordNet troviamo anche
il progetto MultiWordNet, la banca dati lessicale dove il componente italiano è
strettamente allineato a quello di Princeton nella versione 1.6 (è una proposta in-
dipendente dall’EuroWordNet)23. Secondo gli autori del progetto, se ci sono due
synset e una relazione tra di loro nel WordNet americano, deve esserci la stessa
relazione tra i synset corrispondenti in italiano. Il progetto può dare prova di inte-
ressanti idiosincrasie tra le lingue, come le lacune lessicali (lexical gaps) o le diffe-
renze di denotazione. Il motore di ricerca del MultiWordNet permette una facile
navigazione tra i synset e dà accesso ai wordnet di lingua spagnola, portoghese,
ebraica, romena e latina, con una visuale multilingue.
La principale differenza tra le varianti Euro e Multi riguarda soprattutto le
modalità di costruzione dei loro componenti linguistici. Nell’EuroWordNet le reti
specifiche sono state costruite indipendentemente, affiancate una all’altra nella
seconda fase del progetto. Nel MultiWordNet, contrariamente, le reti nazionali
mantengono il più possibile le relazioni semantiche proposte nella versione origi-
nale di Princeton (un nuovo synset costruito sempre in corrispondenza del synset
originale dal quale importa anche le relazioni semantiche). Per cui, se paragoniamo
i risultati esposti dai motori di ricerca di ItalWordNet (parte del progetto europeo
EuroWordNet) e MultiWordNet, le due entrate lessicali possono differire.
Tabella 2.3: Alcuni più importanti progetti di ontologie con i corrispondenti indirizzi dei
loro siti web.

•  ontologie del dominio:


-- Ecommerce Ontology Project: http://web.njit.edu/~kh8/project/
-- Open Clinical Knowledge for medical care: http://www.openclinical.org/ontolo-
gies.html
-- The Eenterprice Ontology: http://www.aiai.ed.ac.uk/project/enterprise/enterpri-
se/ontology.html

23 
Tra i wordnet già sviluppati o in fase di sviluppo troviamo il progetto polacco PlWordNet
(chiamato anche Słowosieć) elaborato presso l’Istituto di Informatica Applicata del Politecnico di
Breslavia. A causa dei limiti economici e per recuperare alcuni anni di ritardo rispetto ai progetti
precedenti, PlWordNet unisce il lavoro manuale dei lessicografi e l’estrazione automatica delle oc-
correnze lessicali dai corpora della lingua polacca (i risultati vengono rivisti sempre manualmente).
Per cui il metodo proposto dai ricercatori polacchi può essere chiamato semiautomatico (Piasecki
2008: 26).

77

Lessico computazionale_libro.indb 77 03/02/2016 14:46:33


•  ontologie linguistiche:
-- Sensus: http://www.isi.edu/natural-language/projects/ONTOLOGIES.html
-- WordNet americano: http://wordnet.princeton.edu
Le risorse della famiglia WordNet:
-- EuroWordNet: http://www.illc.uva.nl/EuroWordNet
-- ItalWordNet: http://www.ilc.cnr.it/iwndb/iwndb_php
-- MultiWordNet: http://multiwordnet.fbk.eu/english/home.php
-- PlWordNet: http://plwordnet.pwr.wroc.pl/wordnet
•  ontologie top-level:
-- Ontologia di J. Sowa: http://www.jfsowa.com/ontology
-- Il progetto Cyc: http://www.cyc.com
-- Standard Upper Ontology Working Group (SUO WG): http://suo.ieee.org

2.6. Composizionalità del senso nella teoria del Lessico Generativo

La teoria del Lessico Generativo (LG) è stata elaborata da James Pustejov-


sky (Pustejovsky 1991, 1993, 1995), successivamente anche in collaborazione con
Branimir Boguraev (Pustejovsky – Boguraev 1993). I due linguisti suppongono
che il significato di una parola possa essere rappresentato attraverso un sistema di
quattro relazioni (ruoli), chiamato “Struttura Qualia”, dove per un “Quale” s’in-
tende un singolo aspetto del senso della parola che mette in rilievo il rapporto tra il
concetto denotato dalla stessa parola e un altro concetto a esso ricollegato. La loro
concezione del significato si ispira alla dottrina aristotelica delle cause (in partico-
lare attraverso l’interpretazione di Julius M. Moravcsik; 1975). Lo scopo del LG
è la creazione di un knowledge representation framework that offers a richer, more
expressive vocabulary for lexical information24 (Pustejovsky – Boguraev 1993: 193).
La metodologia di Pustejovsky si oppone al trattamento di tipo scomposizio-
nale delle unità linguistiche, dove il senso di una parola viene rappresentato tra-
mite un insieme di concetti primitivi predefiniti (il senso è qui scomponibile; si
veda il paragrafo 2.1. e le teorie di Karolak e Wierzbicka), soprattutto perché un
simile approccio ha poca efficacia nel trattamento automatico della lingua. Secon-
do l’autore del LS, la (s)composizione lessicale è più versatile e utile, se eseguita in
maniera generativa. Invece di proporre una lista completa di concetti elementari,
egli propone un numero stabilito di “dispositivi generativi” (generative devices)
che andrebbero ritenuti come costituenti di un’espressione semantica (Pustejovsky
1991: 417). La teoria attribuisce, quindi, un carattere composizionale (generativo)
alla semantica lessicale.

‘[…] un quadro teorico per la rappresentazione di conoscenza che offre uno sguardo più
24 

ricco ed espressivo per l’elaborazione dell’informazione lessicale’.

78

Lessico computazionale_libro.indb 78 03/02/2016 14:46:33


This approach requires, in addition to a flexible notation for expressing semantic
generalizations at the lexical level, a mechanism for composing these individual entries
on the phrasal level25 (Pustejovsky – Boguraev 1993: 201). Dunque, anche la meto-
dologia LG prende in considerazione il livello frastico nella descrizione lessicogra-
fica, ma lo presenta in maniera del tutto diversa rispetto a quanto viene espresso
attraverso funzioni e argomenti, quindi, in sostanza, attraverso l’opposizione verbi-
sostativi (ivi: 202). Il lessico viene esaminato qui su vari livelli illustrati a seguire.
2.6.1. Livelli di rappresentazione semantica
Nel Lessico Generativo si distinguono quattro livelli di rappresentazione del-
la semantica lessicale che insieme danno un’interpretazione composizionale della
parola nel contesto (Pustejovsky 1991: 419, Pustejovsky – Boguraev 1993: 203).
Questi sono:
1) La s t r u t t u r a a r g o m e n t a l e (Argument Structure): codifica il compor-
tamento della parola in quanto funzione e stabilisce il rapporto tra la realiz-
zazione sintattica del predicato, il numero e il tipo di argomenti associati dal
predicato (Pustejovski 1991: 419).
Pustejovsky distingue (1995: 62–67): a) argomenti veri (true arguments) che
devono obbligatoriamente realizzarsi al livello sintattico, p.es. il complemento og-
getto della frase Marco vede una ragazza, b) argomenti default (default argument)
che partecipano all’evento dal punto di vista logico-semantico, ma non devono
essere necessariamente espresse nella sintassi, p.es. il complemento di strumento
nella frase Marco ha scritto la lettera con la penna stilografica, c) argomenti ombra
(shadow arguments) già incorporati nel senso del predicato verbale, espressi solo
nel caso di un’ulteriore specificazione dell’argomento, p.es. Giovanni telefona a
Sofia con il suo telefono cellulare, d) argomenti aggiunti26 (adjuncts) che modificano
il senso dell’espressione, ma non fanno parte della rappresentazione semantica di
una data unità lessicale, p.es. il complemento di tempo in Ti ho visto ieri.
2) La s t r u t t u r a e v e n t i v a (Event Structure): definisce il tipo di evento
espresso dal predicato (ed eventualmente la sua struttura interna). La strut-
tura eventiva prevede tre componenti principali: stati (S), processi (P) e
transizioni (T). Le transizioni sono strutture composte da due sottoeventi:
l’atto che provoca il cambiamento e lo stato risultante. I sottoeventi, qualo-
ra presenti, vengono ordinati a seconda della loro relazione temporale e la
prominenza interpretativa (cfr. Ježek 2007: 255).

25 
‘Questo approccio richiede, oltre a una flessibile notazione data per esprimere generaliz-
zazioni semantiche al livello lessicale, un meccanismo che renderà possibile la composizione di
queste singole entrate al livello frastico’.
26 
In italiano tradotti anche come “circostanziali” (p.es. Menza 2010).

79

Lessico computazionale_libro.indb 79 03/02/2016 14:46:33


3) La s t r u t t u r a Q u a l i a 2 7 (Qualia Structure) definisce le caratteristiche es-
senziali di oggetti ed eventi, nonché le relazioni che una data unità lessicale
evoca; specifica quattro aspetti del significato di una parola che dipendono
dalla natura sia semantica che sintattica dell’unità lessicale (mi baso su Pu-
stejovsky 1991: 426–427; Ježek – Lenci 2011@: 35–41):
-- il ruolo c o s t i t u t i v o : la relazione tra l’oggetto denotato e i suoi compo-
nenti. L’informazione indicata da un costitutivo risponde alle domande:
Di che cosa è fatto x? Quali sono le sue parti costitutive? Riguarda quindi
materiale, peso, parti e componenti dell’entità.
-- il ruolo f o r m a l e : le informazioni che distinguono l’oggetto da un do-
minio più vasto, rispondono alle domande: Che cosa è x? Che cosa fa di
x un y? Riguardano soprattutto orientamento spaziale, grandezza, forma,
dimensioni, colore e posizione dell’entità.
-- il ruolo t e l i c o : indica lo scopo e le funzioni dell’entità denotata dalla pa-
rola e risponde alle domande: Qual è lo scopo di x? A che cosa serve x? È
il ruolo caratteristico degli artefatti.
-- il ruolo a g e n t i v o : indica i fattori che danno origine all’entità denotata,
risponde alla domanda: Come è venuto in essere x? Sono le informazioni
che riguardano il creatore, l’artefatto e la catena causale (Pustejovsky 1991:
427). Anche il ruolo agentivo è tipico degli artefatti.

Un buon esempio dell’entrata lessicale costruita a seconda delle norme del LG e


le modalità di lettura di una simile entrata sono forniti da Elisabetta Ježek (2010: 3):

aprire
stre- e1 = e1: strarg: arg1 = x: qualia: causativo_lcp
vent: processo individuo formale:
e2 = e2: arg2 = essere_aperto (e2, y)
stato risul- y: ogget- agentivo:
tante to_fisico atto_aprire (e1, x)
restr = e1
< e2

Dove per strevent s’intende la struttura eventiva, per strarg la struttura


argomentale, per restr la restrizione e < sta per precedenza temporale. Tutta la
struttura va letta: il verbo aprire esprime l’evento composto da due sottoeventi: e1
(che indica la fase processuale) ed e2 (lo stato risultante). Ci sono due argomenti
obbligatori (arg1 e arg2). La Struttura dei Qualia precisa i ruoli: Agentivo, che in-

Nelle traduzioni italiane indicata anche come “Struttura dei Qualia” (si vedano p.es. Ruimy
27 

2003, 2006).

80

Lessico computazionale_libro.indb 80 03/02/2016 14:46:33


troduce l’atto dell’aprire promosso da x e Formale, che introduce lo stato risultante
di y. La Struttura Qualia è un “punto d’incrocio” tra le informazioni sulla struttura
argomentale ed eventiva, in quanto «gli argomenti dell’evento si ‘mappano’ sul
sottoevento che li istanzia» (Cennamo – Ježek 2010@: 6).
4) L’e r e d i t à l e s s i c a l e (Inheritance Structure): determina le modalità con
cui una data parola è correlata alle altre parole nel lessico. Oltre alle infor-
mazioni sull’organizzazione del sapere lessicale this level of word meaning
provides an explicit link to general world (commonsense) knowledge28 (Pus-
tejovsky – Boguraev 1993: 203).
La Struttura Qualia permette di superare i problemi causati dall’utilizzo di una
struttura gerarchica dell’eredità semantica. Ricordiamo che i modelli concettuali
ricorrono all’eredità multipla (multiple inheritance), dove, p.es.: libro is_a lette-
ratura ˄ is_a oggetto fisico, dizionario is_a oggetto fisico ˄ is_a fonte, ecc. (ivi:
213; si veda figura 2.3a); in questo caso i sistemi TAL devono scegliere la linea
dell’andamento gerarchico a seconda del contesto in cui una data parola appare;
il solo contesto sintattico, però, spesso non permette di scegliere la linea adeguata.
Nel LG una data unità lessicale eredita diversi tipi di informazione in base alla
struttura Qualia che la determina. In tal modo, diversi sensi delle parole possono
rappresentarsi attraverso un reticolo ortogonale, dove: libro is_formal oggetto fisi-
co ˄ is_telic letteratura ˄ is_agent letteratura; dizionario is_formal libro ˄ is_telic
fonte ˄ is_agent materiale compilato, ecc. (ivi: 214; si veda: figura 2.2b). Attraver-
so l’eredità dei ruoli Qualia è possibile evitare gli errori sorti nell’eredità gerarchica
standard di tipo is_a.
Figura 2.3:
Il fenomeno dell’eredità semantica nella teoria LG (Pustejovsky – Boguraev 1993: 213–215, anche
in Banyś 1995: 56–57):
A) la gerarchia standard di tipo is_a
B) l’eredità di tipo Qualia

‘[…] questo livello del senso fornisce un collegamento esplicito al sapere generale (comune)
28 

sul mondo’.

81

Lessico computazionale_libro.indb 81 03/02/2016 14:46:33


Ježek e Lenci mettono in luce alcune difficoltà che risultano da un approccio
lessicalista di tipo LG, tra cui i seguenti problemi (esempi di Ježek – Lenci 2011@:
50–55):
-- succede che la Struttura Qualia classica non presenti le caratteristiche ne-
cessarie proprie delle entità naturali, p.es.: Il cuore pompa il sangue,
-- similmente, la Struttura Qualia classica non presenta caratteristiche sintag-
maticamente associate alle entità naturali o ai manufatti (come negli usi
collocazionali), p.es.: Le macchine sono parcheggiate,
-- alcuni degli artefatti non vogliono essere usati come riferiti all’evento cui
solitamente andrebbero associati,
-- la composizione del senso a seconda della Struttura Qualia, sebbene adem-
pia bene alla propria funzione per quanto riguarda i nomi, risulta proble-
matica per i verbi e gli aggettivi. Tra le domande che ne derivano figurano:
come stabilire il ruolo Telico di un verbo o che cosa è il ruolo Formale di
un verbo?

2.6.2. Progetti SIMPLE e CLIPS

L’Unione europea ha risposto alla crescente necessità di creare le risorse lessi-


cali standardizzate per il trattamento automatico del linguaggio, finanziando nu-
merosi progetti che mirano, per l’appunto, a elaborare simili banche dati. Tra que-
ste iniziative troviamo il progetto SIMPLE (Semantic Information for Multipurpose
Plurilingual Lexicons)29 che ha portato alla definizione di un’architettura uniforme
per i lessici elettronici di 12 lingue europee. I lessici nazionali condividono la strut-
tura dei dati, il volume e il “nucleo di entrate lessicali” (cfr. Ruimy 2003@: 2) Il
modello elaborato nel progetto SIMPLE è stato adottato in Italia per la creazione
del CLIPS (Corpora e Lessici dell’Italiano Parlato e Scritto), probabilmente la
più grande risorsa lessicale elettronica della lingua italiana che comprende 55000
entrate lessicali dotate di una completa informazione sulla loro natura linguistica
(fonologica, morfologica, sintattica e semantica)30.
Dal punto di vista teorico il progetto SIMPLE utilizza vari aspetti del Lessico
Generativo di Pustejovsky. Il lessico è strutturato qui in base a un’ontologia ben
definita; il modello propone inoltre un insieme di t i p i s e m a n t i c i di base (un
repertorio prestabilito di 157 tipi semantici indipendenti dalle lingue) e un insieme

29 
Il programma europeo di ricerca, svolto tra il 1995 e il 2000, comprende in realtà tre proget-
ti: MLAP-PP PAROLE e LE-PAROLE, dedicati alla creazione del modello morfologico e sintatti-
co del lessico, e il progetto SIMPLE, disegnato per la creazione del modello semantico. In questo
lavoro ci interessa soprattutto il livello di informazione semantica, per cui parlerò solo dell’ultima
iniziativa di ricerca.
30 
Si veda il sito del progetto nato da una collaborazione tra l’Istituto di Linguistica Computa-
zionale di Pisa (ILC) e la Thamus di Salerno: http://www.ilc.cnr.it/clips.

82

Lessico computazionale_libro.indb 82 03/02/2016 14:46:33


di informazioni definite per ognuno dei sensi di una data parola. Un grande van-
taggio del sistema è che l’ontologia SIMPLE, contrariamente alle basi di conoscen-
ze tradizionali, non è strutturata soltanto in base alle relazioni gerarchiche di ipe-
ronimia/iponimia, ma anche «secondo relazioni concettuali di tipo non gerarchico,
secondo il principio dell’eredità ortogonale», cioè si compone sia da tipi semantici
(unidimensionali) sia da tipi unificati (pluridimensionali) (ivi: 3).
Le informazioni semantiche vengono strutturate nei template, cioè negli sche-
mi che rappresentano in modo formale l’articolazione interna di ogni tipo semanti-
co – le sue “proprietà definitorie”. Grazie al sistema di template è facile mantenere
la coerenza semantica dei dati lessicali di ognuno dei componenti linguistici del
SIMPLE, l’eventuale aggiornamento dei dati e la loro riusabilità. I tipi semantici,
a loro volta, formano la Core Ontology del progetto (tra i tipi semantici troviamo
la funzione tipica dell’entità, origine, costituzione mereologica, ecc). Nel SIMPLE
i sensi del lessema vengono codificati come “SemU” (unità semantiche), a cui suc-
cessivamente vengono associati i tipi semantici dell’ontologia e le informazioni
proprie del template di un dato tipo semantico (si veda p.es. Lenci 2004: 64–65).
Un’entrata lessicale presenta le seguenti informazioni (Ruimy 2003@: 4): 1) tipo
semantico cui appartiene una data unità semantica “esplicitamente posizionato
nella gerarchia dei tipi”, 2) dominio d’uso, 3) classe semantica, 4) frase esplicativa,
5) il tipo di evento per le unità che lo denotano, 6) tratti semantici distintivi, 7)
appartenenza a una classe di polisemia logica, 8) informazione sulla sinonimia, 9)
derivazione morfosintattica, 10) elementi dei sensi che coesistono, espressi attra-
verso la Struttura dei Qualia Estesa SQE (Extended Qualia Structure), 11) informa-
zioni riguardanti la rappresentazione predicativa delle entrate con: a) un predicato
lessicale e il tipo di legame tra il predicato e l’unità semantica, b) la descrizione
degli argomenti del predicato e delle loro “preferenze di selezione”, 12) sottocate-
gorizzazione della struttura argomentale.
Per quanto riguarda le mie considerazioni in merito, l’aspetto più interessante
della descrizione a livello semantico del CLIPS (e del SIMPLE) è la Extended Qua-
lia Structure, basata chiaramente sulla Struttura dei Qualia del Lessico Generativo,
rielaborata per «rinforzare il potere espressivo di questo linguaggio formale per
potenziare la ricchezza e granularità dell’informazione che veicola» (ivi: 5). Ognu-
no dei ruoli proposti da Pustejovsky è stato suddiviso in sottotipi che forniscono
un’informazione semantica più dettagliata e precisa. Così, ad esempio, tra le infor-
mazioni di tipo telico troveremo proiettile ‘used_for’ colpire ≠ bisturi ‘used_by’ chi-
rugo ≠ curare ‘is_the_activity_of’ medico, nel ruolo agentivo: casa ‘created_by’ co-
struire ≠ mohair ‘derived_from’ capra, invece nel ruolo costitutivo: pane ‘made_of’
farina ≠ senatore ‘is_a_member_of’ senato ≠ manubrio ‘is_a_part_of’ bicicletta, ecc.
(gli esempi di Ruimy 2006@: 9). Tutti i sottotipi della EQS citati da Nilda Ruimy
(ibid.) vengono presentati nella tabella 2.4.

83

Lessico computazionale_libro.indb 83 03/02/2016 14:46:33


Tabella 2.4: Sottotipi dei ruoli nella Extended Qualia Structure

ruolo formale
∙ isa ∙ antonym_comp ∙ antonym_grad ∙ mult_opposition
ruolo costitutivo
Contitutive Property Location
∙ made_of ∙ uses ∙ causes ∙ measures ∙ produces ∙ is_in
∙ is_a_follower_of ∙ concerns ∙ affects ∙ produced_by ∙ lives_in
∙ has_as_member ∙ constitutive_activity ∙ property_of ∙ typical_location
∙ is_a_member_of ∙ contains ∙ quantifies
∙ has_as_part ∙ has_as_colour ∙ related_to
∙ instrument ∙ has_as_effect ∙ successor_of
∙ kinship ∙ relates ∙ has_as_property ∙ precedes
∙ is_a_part_of ∙ measured_by ∙ typical_of
∙ resulting_state ∙ contains ∙ feeling
ruolo telico
Instrumental Telic Activity Direct telic
∙ used_for ∙ indirect_telic ∙ s_the_activity_of ∙ bject_of_activity
∙ used_as used_by ∙ purpose ∙ is_the_ability_of
∙ used_against ∙ is_the_habit_of
ruolo agentivo
Agentive Artifactual agentive
∙ result_of ∙agentive_experience ∙ caused_by ∙ created_by
∙ agentive_prog ∙ agentive_cause ∙ source ∙ derived_from

Il progetto CLIPS viene attualmente utilizzato come punto di partenza per la


creazione di una banca dati bilingue italiano-francese. I ricercatori dell’ILC di Pisa
hanno proposto due direzioni di ricerca: a) il collegamento semi-automatico del-
le due risorse lessicali elettroniche monolingui (CLIPS per l’italiano e PAROLE-
SIMPLE per il francese), b) l’implementazione delle informazioni lessicali tratte
da un dizionario tradizionale monolingue nel sistema CLIPS. La scelta dello scena-
rio di lavoro ancora non è stata dichiarata (a questo proposito: Ruimy 2003@: 5–6).
Per finire questa breve introduzione al progetto SIMPLE (e del suo compo-
nente italiano CLIPS) presento le entrate lessicali per guardare e violino (qui ripor-
tato come in Calzolari – Lenci 2004: 65):

84

Lessico computazionale_libro.indb 84 03/02/2016 14:46:33


lemma: guardare lemma: violino

SEMU_ID: #G1 SEMU_ID: #V1


POS: V POS: N
GLOSS: rivolgere lo sguardo verso qualco- GLOSS: tipo di strumento musicale
sa per osservarlo DOMAIN: MUSIC
SEMANTIC_TYPE: Perception SEMANTIC_TYPE: instrument
EVENT_TYPE: Process FORMAL_ROLE: Is_a strumento_musicale
FORMAL_ROLE: Is_a percepire CONSTITUTIVE_ROLE: Has_as_part
CONSTITUTIVE_ROLE: Instrument corda Made_of legno
occhio Intentionality = yes TELIC ROLE: Used_by violinist Used_for
PRED_REPRESENTATION: guardare suonare
(arg0: animate) (arg1: entity)
SYN_SEM_LINKING: Arg0 = subj_NP
Arg1 = obj NP.

I modelli di rappresentazione dell’unità lessicale variano a seconda degli obiet-


tivi dei particolari gruppi di lessicografi. I modelli di cui ho parlato sopra sono stati
creati prevalentemente per il trattamento automatico della lingua (tranne la gram-
matica concettuale di Karolak e Bogacki che ha come scopo quello di proporre
una panoramica completa del funzionamento linguistico), quindi per la creazione
dei dizionari elettronici (p.es.: l’approccio “modificato-modificatore”) e grandi
banche dati lessicali di tipo dizionario-macchina (ulteriori modelli). Ho scelto i
suddetti approcci, perché la metodologia proposta di seguito (cap. 3) si ispira e fa
riferimento a questi modelli. Possiamo quindi passare a una descrizione dettagliata
dell’Approccio Orientato agli Oggetti.

85

Lessico computazionale_libro.indb 85 03/02/2016 14:46:33


Lessico computazionale_libro.indb 86 03/02/2016 14:46:33
3.

Approccio Orientato agli Oggetti

3.1. AOO come modello del funzionamento lessicale di una lingua

Definisco l’Approccio Orientato agli Oggetti come modello lessicografico nel


senso etimologico della parola, in quanto «cosa esemplare e, come tale, degna di
essere imitata» (si veda, p.es., la voce “modello” in GRZ). In questo senso l’AOO
è un metodo particolare di compilazione del dizionario che va preso a esempio e
seguito, per il solo fatto che è preciso e funzionale. Cercherò, tuttavia, di dimo-
strare che l’AOO può considerarsi un modello linguistico nel senso proposto da
Apresjan (1966), o più precisamente – il modello del funzionamento lessicale di
una lingua.
Il modello, dunque, serve a esaminare un fenomeno difficilmente osservabile
in maniera diretta. Il fenomeno stesso si presenta allora come un black box, dove il
materiale da analizzare è esclusivamente quello di input e di output. Il vero funzio-
namento della scatola nera, quindi dell’oggetto esaminato, non si sottopone all’os-
servazione, per cui il ricercatore deve costruire la sua immagine in base al materiale
di partenza e di arrivo. In altre parole, egli deve proporre ipotesi riguardo alla
struttura dell’oggetto1. Dato che il materiale sottoposto all’analisi linguistica è il
testo (o l’atto di comunicazione tra locutori, il loro agire linguistico ed extralingui-
stico2) e non il meccanismo della lingua su cui si basa il comportamento linguistico

Secondo Apresjan, capiremo un meccanismo non analizzabile nell’osservazione, se lo


1 

paragoniamo con un meccanismo che ci è ben noto per quanto riguarda il suo funzionamento
(Apresjan 1966: 78–79).
2 
A questo punto desidero prescindere dalla definizione di comunicazione come tale. Con-
cordo con la visione orchestrale della comunicazione di Yves Winkin (le modèle orchestral de la
communication), secondo cui la comunicazione è un processo continuo e multicanale che coinvol-
ge tutti i sensi (il modello che si oppone alla comunicazione “telegrafica”, quindi trasmissione di
informazioni; si veda Winkin 1996). Credo, tuttavia, che la comunicazione attraverso la lingua ri-
manga ex definitione l’oggetto della linguistica. L’analisi linguistica coinvolgerà chiaramente tutto
il contesto in senso ampio, purché lo stesso contesto appaia come “accompagnamento” dell’atto
linguistico. È ancora lecito distinguere la comunicazione culturale dalla comunicazione linguistica.

87

Lessico computazionale_libro.indb 87 03/02/2016 14:46:33


dell’uomo, i linguisti devono spesso ricorrere ai modelli linguistici3.
Vediamo le caratteristiche più importanti di un modello (ivi: 78–99):
1) un dato fenomeno può essere modellato a patto che i suoi tratti essenziali
si limitino alle caratteristiche strutturali (funzionali) e non dipendano dalla
sua natura fisica. Il modello dell’oggetto è un meccanismo funzionale, cioè
un meccanismo che si comporta in maniera simile all’oggetto (per quanto
concerne la traduzione automatica, ogni programma che riproduce il testo
scritto in forma di traduzione deve imitare i meccanismi linguistici, cioè deve
produrre come materiale di output una frase corretta nella lingua d’arrivo).
2) il modello è un tipo particolare di idealizzazione dell’oggetto (i fenome-
ni reali risultano a volte troppo complicati per poter essere modellati con
esattezza). L’idealizzazione comporta anche una certa schematizzazione dei
fatti, indispensabile, però, per una descrizione scientifica dell’oggetto (so-
prattutto in linguistica computazionale). Di seguito parlerò del meccanismo
dell’eredità semantica che è, a mio avviso, un costrutto teorico idealizzato
(non tutti gli operatori di una classe di oggetti vengono ereditati dalle sue
sottoclassi; il concetto di eredità semantica rimane, tuttavia, molto funzio-
nale, non solo dal punto di vista della traduzione automatica; si veda il pa-
ragrafo 3.3.2).
3) il modello si basa sui costrutti teorici (quindi sugli oggetti ideali); il costrut-
to teorico, a sua volta, non deriva direttamente dai dati empirici (non può
essere dedotto in maniera univoca), ma viene formato sulla base di ipotesi
generali, di certe corrispondenze osservate nell’analisi, o semplicemente è
frutto dell’intuito del ricercatore. Nell’AOO la classe di oggetti è, per l’ap-
punto, un costrutto teorico.
4) ogni modello, anche un modello linguistico, deve essere formale, cioè deve
presentare oggetti ben definiti, relazioni tra di loro, teoremi su cui basarsi,
nonché regole d’uso dei teoremi stessi. Il modello formale si riferisce ai dati
sperimentali attraverso un’interpretazione, cioè attraverso regole probabili-
stiche o assolute di sostituzione dei simboli del modello con oggetti reali. La
descrizione lessicale secondo l’AOO può essere rappresentata in maniera
formale; si veda ad esempio l’algoritmo dell’eredità semantica (di cui si trat-
terà in seguito) o gli schemi delle analisi verbali (paragrafo 3.4).
L’ideazione di un modello consiste 1) nello stabilire i fatti che devono essere
spiegati, 2) nel promuovere ipotesi che spieghino i suddetti fatti, 3) nel realizzare

Il compito del ricercatore è oggi lo studio del loro rapporto reciproco.


3 
Apresjan si riferisce expressis verbis alla linguistica strutturale; in questa ottica rientra si-
curamente anche la linguistica computazionale. Il concetto di black box, difatti, viene utilizzato
soprattutto nelle scienze informatiche.

88

Lessico computazionale_libro.indb 88 03/02/2016 14:46:34


le ipotesi in forma di modelli, i quali, oltre a spiegare i fatti di partenza, prevedono
fatti nuovi, 4) nell’accertarsi delle qualità del modello attraverso esperimenti4 (ivi:
132). In tal modo l’AOO potrà considerarsi il modello del funzionamento lessicale
di una lingua, perché: 1) i ricercatori hanno preso in esame fenomeni di natura les-
sicale che governano il linguaggio umano; 2) le loro ipotesi riguardano, tra l’altro,
il fenomeno dell’eredità semantica, la disambiguazione del senso tramite classi di
oggetti; 3) il modello prevede nuovi fatti linguistici, visto che nuove unità lessicali,
una volta classificate all’interno di una data classe di oggetti, condivideranno le ca-
ratteristiche con altre unità della classe (verranno quindi accompagnati dagli stessi
attributi e dalle stesse operazioni, potranno ereditare gli stessi operatori dalle sopra-
classi). Possiamo immaginare che un sistema di trattamento automatico della lingua
potrà classificare automaticamente i lessemi a seconda delle classi di oggetti. Le
modalità formali della rappresentazione del meccanismo lessicale verranno esposte
nel corso del capitolo; 4) è possibile verificare le qualità dell’AOO attraverso l’inse-
rimento della banca dati lessicale all’interno di un sistema traduttivo.
I modelli si dividono, tra l’altro, in descrittivi e prescrittivi. I modelli descrittivi
rendono conto del funzionamento di un fenomeno (delle sue condizioni attuali o,
eventualmente, delle condizioni previste per il prossimo futuro), i modelli prescrit-
tivi danno le informazioni necessarie al fine di decidere del corretto funzionamento
di un fenomeno, vogliono quindi decidere dello svolgimento e/o dello sviluppo
di un fenomeno. In termini lessicografici, un modello (un approccio) descrittivo
prenderà in considerazione tutte le occorrenze fattuali delle parole, anche quelle
fuori norma, invece un’entrata lessicale costruita secondo norme prescrittive of-
frirà soltanto occorrenze e cooccorrenze testuali considerate conformi alle norme
(grammaticali, lessicali, ecc.) vigenti. A prescindere dal fatto che alcune volte risul-
ta difficile decidere della (non)correttezza di una parola (talvolta un’occorrenza te-
stuale è conforme alle regole di un dato modello linguistico, mentre trasgredisce le
norme di un altro modello, la parola viene considerata corretta o meno da un solo
gruppo di grammatici), il programma per la traduzione automatica dovrà essere in
grado di trattare ogni testo che verrà sottoposto all’analisi. Possiamo supporre che
all’interno di tali testi ci saranno anche parole (insiemi di parole) che non sono an-
cora previste dalle norme grammaticali in vigore. Il dizionario-macchina dovrebbe
rendere conto dell’uso fattuale dei vocaboli, il che vuol dire che, oltre agli esempi
d’uso di una parola tradizionalmente riportati da un dizionario di consultazione,
dovrà presentare anche le (co)occorrenze meno prototipiche o addirittura fuori
norma, purché realmente utilizzati nei testi.

4 
Il punto 4 (la verifica del modello attraverso esperimento) fa sì che, in un certo senso, pos-
siamo paragonare le riflessioni apresjaniane alle considerazioni di K. Popper (ne ho parlato anche
nel cap. 1). Ricordiamo che per Popper un’ipotesi/una teoria può essere definita scientifica, solo
se è possibile falsificarla (chiaramente anche tramite esperimento).

89

Lessico computazionale_libro.indb 89 03/02/2016 14:46:34


3.2. Banca dati lessicale – architettura modulare e parametri di valutazione5

Ancora prima di entrare nel dettaglio della descrizione lessicografica secondo


l’AOO, voglio presentare le basi teoriche della creazione di un dizionario-macchina
in generale (ricordiamo che il dizionario-macchina è un tipo di software, o un com-
ponente del software, va quindi progettato come tale; la struttura di una simile
banca dati deve perciò soddisfare alcuni parametri di qualità). Come vedremo più
avanti, gli “oggetti” nel modello AOO hanno caratteristiche strutturali simili agli
oggetti (classi di oggetti) definiti dal punto di vista informatico. Abbiamo quindi a
che fare, ricordando le parole di Apresjan, s realizaciej tojŝe struktury v novoj sub-
stancii6 (Apresjan 1966: 80), per cui il modello informatico già esistente può essere
reinterpretato o esteso a nuovi scopi, anche se le sostanze degli oggetti sono diverse.
Le metodologie nate alcuni decenni fa distinguono tradizionalmente due tipi
di parametri grazie ai quali viene valutata la qualità dei programmi. Questi sono:
fattori esterni (riferiti alla valutazione del software da parte dell’utente) e fattori
interni (qualità valutata dai programmatori). Tra i primi troviamo: correttezza, af-
fidabilità, robustezza, sicurezza, innocuità, usabilità, estendibilità, riusabilità, inte-
roperabilità (Meyer 1997: 3–17), tra i secondi, invece, ci sono: verificabilità, manu-
tenibilità, riparabilità, evolvibilità, portabilità, leggibilità, modularità (ovviamente
in questo lavoro non intendo discutere i dettagli della programmazione informa-
tica, a questo proposito si vedano p.es. Meyer 1997, Peroni 2000@; mi soffermerò
sugli aspetti rilevanti dal punto di vista della lessicografia).
Banyś nel suo lavoro Bases de données lexicales électroniques – une approche
orientée objets. Partie I: Questions de modularité (2002a) prende in considerazione
due fattori esterni, l’estendibilità e la riusabilità, e un fattore interno – la modularità:

▪▪ estendibilità: il sistema è predisposto alle modifiche e ai cambiamenti di


specializzazione,
▪▪ riusabilità: il modello descrittivo può essere adoperato al di fuori dell’am-
biente per cui è stato creato (si veda anche Apresjan 1966: 90: model’ tem
èffektivnee, em šire ee predmetnaâ oblast’, t.e. čem bol’še čislo dopuskaemyh
eû interpretacij7),
▪▪ architettura modulare: il sistema (in questo caso la banca dati) è diviso in
parti indipendenti, ossia moduli, che sono «scarsamente connessi e forte-
mente coesi» (Peroni 2000@: 6). L’obiettivo principale di tale divisione è
ridurre la complessità.

5 
Ho parlato a questo proposito anche in Leksykografia komputacyjna a przekład automatyczny
(Słapek – Chrupała 2010). Qui presento un’esposizione del problema più dettagliata ed esaustiva.
6 
‘Con la realizzazione della stessa struttura in una nuova sostanza’.
7 
‘Il modello è tanto più efficace quanto maggiore è il suo dominio di lavoro, cioè il numero
delle sue possibili interpretazioni è maggiore’.

90

Lessico computazionale_libro.indb 90 03/02/2016 14:46:34


L’architettura modulare di un’entrata del dizionario-macchina deve quindi ri-
spettare alcuni criteri di base, quali (Meyer 1997: 39–65, Banyś 2002a: 11–16):
▫▫ scomposizione modulare: il sistema è composto da parti autonome, indi-
pendenti, meno complesse, connesse tra di loro da una semplice struttura; i
moduli possono essere analizzati o modificati separatamente,
▫▫ composizione modulare: i moduli sono indipendenti e autonomi, possono
essere combinati, scambiati o ristrutturati al fine di produrre una nuova
struttura (anche in un nuovo ambiente di lavoro),
▫▫ comprensione modulare: ogni singolo modulo può essere compreso senza
che si debba ricorrere ad altri moduli (componenti della struttura),
▫▫ continuità modulare: un piccolo cambiamento nella specificazione del pro-
blema comporta cambiamenti in un solo modulo o eventualmente in un
numero ristretto di moduli.
La divisione del sistema (delle entrate lessicali) in moduli riporta alcuni van-
taggi fondamentali, tra cui (A. Valente 2006@: 16): semplificazione della struttura,
possibilità di introdurre successive modifiche, protezione contro errori, o vantaggi
di natura organizzativa; gruppi indipendenti possono sviluppare diverse parti del
progetto (Meyer parla ancora di protezione modulare: il modulo è costruito in
modo tale che gli errori run-time rimangano confinati al suo interno (Meyer 1997:
17); nel caso della lessicografia questa caratteristica non risulta significativa).
Paragoniamo adesso i sopracitati parametri con simili criteri di valutazione e di
confronto degli strumenti computazionali proposti da I. Chiari (2007: 22–24; sotto
ogni punto aggiungo una parola di commento)8:

▪▪ robustezza: la capacità del modello di trattare il materiale linguistico che


contiene errori o aberrazioni (il cosiddetto rumore) e di gestire l’input in-
completo.
Se per aberrazioni intendiamo deviazione dalla norma, da un principio e dal-
le regole comuni (qui dalle regole grammaticali; si veda l’entrata “aberrazione”
nel VNZ), questo tipo di informazione linguistica non dovrebbe comportare al-
cuna difficoltà per il nostro sistema. La griglia di un’entrata lessicale nel modello
AOO (presentata in dettaglio più avanti) può contenere anche dati lessicali che
andrebbero valutati come fuori norma dal punto di vista grammaticale. Per esem-

8 
Nel capitolo 2 ho parlato dei dizionari elettronici di G. Gross. Chiaramente anche il suo
Laboratorio di Linguistica Informatica ha evidenziato alcuni criteri per la creazione dei dizionari.
Questi sono: il numero costante dei campi descrittivi dell’unità lessicale che permette di lavorare
in maniera unificata e coerente, l’utilizzo degli strumenti informatici nella redazione del dizionario,
una possibile remotizzazione del lavoro grazie alla trasmissione elettronica dei dati (Gross 1992b:
1). Le suddette caratteristiche sembrano oggi piuttosto arretrate.

91

Lessico computazionale_libro.indb 91 03/02/2016 14:46:34


plificare il problema prendiamo in esame l’insieme di parole sucha rzeka (fiume
secco): questo sintagma nominale andrebbe definito scorretto in polacco dal punto
di vista logico-semantico, poiché, invece di dire sucha (‘secco’), bisognerebbe dire
wyschnięta (‘asciutta’) o ancor meglio wyschnięte koryto rzeczne (‘letto del fiume
asciutto’). Ciononostante, se un simile sintagma nominale appare nei numerosi
testi (corpora) che abbiamo analizzato e la sua frequenza è alta, l’attributo sucha va
inserito nell’entrata lessicale di rzeka. La banca dati AOO rende conto dell’impie-
go reale di ogni unità linguistica, anche se meno prototipico o meno conforme alle
norme linguistiche (vedi in seguito).
Se invece consideriamo il secondo aspetto del criterio “robustezza” – la capa-
cità di analizzare il materiale incompleto o parziale – in questo caso il problema
dal punto di vista lessicografico è più complesso. Affinché un programma TA pos-
sa avere la capacità di tradurre testi incompleti, andrebbe integrato, nella fase di
programmazione, con diversi approcci statistico-probabilistici. Il problema, però,
rientra nel dominio di lavoro dei programmatori e non dei lessicografi. Resta in
ogni caso molto difficile tradurre testi incompleti.

▪▪ potenza: la quantità del materiale linguistico che può essere analizzato dal
programma in modo accurato (come il sistema riesce a trattare fenomeni
linguistici periferici, lessemi complessi, ecc.) e la capacità del sistema di
potersi arricchire di nuove strutture senza essere riprogrammato.

L’arricchimento del lessico si verifica, nel nostro caso, solo all’interno della
banca dati, quindi all’interno del componente a parte, in un certo senso separabile
o separato dallo stesso programma di traduzione. Il software non deve essere ri-
programmato. La quantità del materiale linguistico possibilmente trattato dipende
ovviamente dal volume della banca dati. Più entrate ci sono, più vasto sarà il mate-
riale linguistico possibilmente tradotto.

▪▪ portabilità: la possibilità di applicare il sistema a nuovi domini (altre lin-


gue, tipi di testo, linguaggi settoriali, ecc.) con un minimo mutamento della
struttura (la portabilità corrisponde pienamente al criterio di riusabilità di
cui ho parlato prima).

▪▪ generalizzabilità: la capacità del programma di rendere conto dei fenomeni


linguistici nuovi. Il sistema dovrebbe, dunque, essere in grado di aggiunge-
re nella banca dati esistente informazioni ricavate dal materiale linguistico
nuovo.

Una volta creato il dizionario-macchina, il programma potrà aggiungere au-


tomaticamente nuovi elementi lessicali nelle entrate delle classi già proposte (l’ag-
giunta si verifica chiaramente solo all’interno della banca dati, non viene modifica-

92

Lessico computazionale_libro.indb 92 03/02/2016 14:46:34


to il sistema di traduzione, vedi sopra). Il sistema potrà “decidere” di inserire un
nuovo elemento, se troverà il suo contesto sintagmatico uguale a quello riportato
nell’entrata di una data classe (ricordiamo anche il paradigma di traduzione per
analogia, cfr. paragrafo 1.1.1).

▪▪ economia di programmazione: è il parametro relativo all’architettura del


programma, la semplicità o complessità del modello, il tempo necessario
per migliorare la prestazione del sistema o per intervenire durante la fase di
programmazione e di addestramento.

Questo parametro corrisponde, in linea di massima, al postulato dell’architet-


tura modulare del sistema. La scomposizione modulare, in effetti, facilita e rende
più veloce ogni cambiamento all’interno del sistema. Nell’AOO le modifiche nella
struttura di un’entrata (aggiunte, correzioni o cancellazioni) non richiedono alcun
cambiamento dell’algoritmo ideato dai programmatori.

▪▪ complessità della computazione: definisce il tempo e la quantità di lavoro,


quindi il numero di risorse adoperate nel produrre l’informazione output
e il tempo necessario per il trattamento delle informazioni. La complessità
della computazione entra, però, nelle competenze dei programmatori.

3.3. Approccio Orientato agli Oggetti

La costruzione della banca dati lessicale presso il Dipartimento di Linguistica


Applicata e di Traduttologia dell’Istituto di Lingue Romanze e di Traduttologia
dell’Università della Slesia coinvolge due aspetti:

-- la descrizione dei sostantivi (oggetti) conforme al modello AOO (cfr. Banyś


2002b),
-- la disambiguazione dei predicati verbali e aggettivali tramite le suddette
classi di oggetti (cfr. Banyś 2005).

Le due prospettive sono reciprocamente dipendenti: la disambiguazione dei


verbi implica le classi di oggetti da analizzare (si veda anche Słapek – Chrupała
2010). In questo lavoro con il termine “Approccio Orientato agli Oggetti”, se rife-
rito a tutto il progetto di costruzione della banca dati, intendo le due prospettive
di ricerca.
Come abbiamo già visto, la classe di oggetti secondo G. Gross è una classe se-
mantica costruita a partire dai criteri sintattici, cioè per mezzo dei predicati (opera-
tori) che in maniera appropriata selezionano tutte le unità appartenenti alla classe
(la CO va quindi considerata come unità distribuzionale e deve essere descritta a

93

Lessico computazionale_libro.indb 93 03/02/2016 14:46:34


seconda delle sue proprietà sintattiche). Di conseguenza, la natura di una classe di
oggetti è funzionale, ovvero non dipende soltanto dalle caratteristiche ontologiche
dell’oggetto. Nell’AOO la descrizione di un oggetto è ancora più dettagliata: que-
sto non viene definito soltanto attraverso predicati, ma anche attraverso attributi
che gli sono propri. Nel corso della descrizione lessicografica attribuiamo a un
sostantivo (oggetto) gli attributi e le operazioni, in altre parole la sua cooccorrenza
tipica.
Figura 3.1: Frame_oggetto secondo Banyś (2002b: 207): l’architettura modulare – schema a bloc-
chi (frammento)

94

Lessico computazionale_libro.indb 94 03/02/2016 14:46:34


On peut interpréter le sens d’un objet comme élément identifiable du monde
réel qui peut se présenter comme concret ou abstrait […]. L’objet se din-
tingue par sa structure (attributs) ou par son comportement, sa façon d’agir
(opérateurs). L’objet existe au sein d’une classe étant son instance. La classe,
en revanche, réunit les objets ayant les mêmes propriétes9 (Żłobińska-Nowak
2008a: 20).

Tale approccio differisce in maniera radicale dalla descrizione sintattica tra-


dizionale (p.es. cfr. Karolak 1984), dove si parte dal predicato per arrivare ai suoi
argomenti (f → x). Nell’AOO il percorso descrittivo è inverso: si parte dall’oggetto
per poter evidenziare i suoi attributi e le operazioni che lo riguardano (la formula si
presenta quindi in modo diverso: x → f) (Banyś 2002a: 18). Per di più, nell’AOO
le operazioni, o meglio, i predicatori (predicati attraverso cui le operazioni si espri-
mono) vengono raggruppati (strutturati) dettagliatamente. Si distinguono quindi
(Banyś 2002b: 208):

▪▪ predicatori-costruttori: costruiscono la classe di oggetti (p.es.: costruire una casa),


▪▪ predicatori-accessori: forniscono informazioni sul comportamento e sulla struttura
della classe (p.es.: la casa crolla),
▪▪ predicatori-manipolatori: tutte le operazioni effettuate sulla classe o le operazioni
che la classe stessa può effettuare (p.es.: abbattere la casa).

Non si tratta, ovviamente, di un listing di tutte le operazioni che riguardano


la classe presa in esame. La descrizione in questo caso risulta più economica: di-
stinguiamo i predicatori e gli attributi appropriati dagli operatori generali (i primi
sono propri di una sola classe o di alcune classi in questione, i secondi si applicano
a un numero impreciso di classi). Il fenomeno dell’ereditarietà semantica consiste
nel definire una classe come sotto-classe di altre classi (di ordine superiore, super-
type(s) con i termini di Banyś (ivi: 213)). La sotto-classe eredita le caratteristiche
(attributi e operazioni) dalla classe superiore. Ne parlerò in dettaglio più avanti.
La figura 3.1 dimostra come un’unità lessicale, p.es. tonno, può appartenere a
due classi di oggetti diverse (pesce, alimento). Il sistema che si servirà della banca
dati AOO, per tradurre un sintagma verbale con tonno come complemento ogget-
to, una volta ritrovato il verbo, cercherà la classe di oggetti a cui il complemento
stesso appartiene (supponiamo che si tratti di un verbo polisemico, come p.es.
prendere, che non implichi alcun dominio specifico; il verbo sfilettare, per esempio,
nel sintagma sfilettare il tonno già implica il dominio cucina); poi il sistema esami-
nerà le operazioni proprie della classe, e se, come nell’esempio di sopra, l’elemento

9 
‘Possiamo interpretare il senso di un oggetto come elemento identificabile del mondo reale
che si può presentare come concreto o astratto […]. L’oggetto si distingue per la sua struttura
(attributi) o per il suo comportamento, il suo modo di agire (operatori). L’oggetto esiste all’interno
di una classe; la classe, a sua volta, unisce oggetti che dividono le stesse proprietà’.

95

Lessico computazionale_libro.indb 95 03/02/2016 14:46:34


appartiene a più classi di oggetti, il sistema andrà a esaminare gli attributi delle
classi. Qualora esso trovi nel contesto un attributo come fresco o marinato, potrà
decidere l’equivalente adeguato nella lingua target. Un simile procedimento per-
mette di assegnare l’etichettatura di una sola classe a tonno (cfr. Banyś 2002b: 213).

3.3.1. Classe di oggetti: esempio di un’entrata lessicale

Nelle pagine che seguono viene presentato un frammento dell’entrata della


classe di oggetti <casa>. La presente entrata è stata costruita in base alle informa-
zioni lessicali ricavate dai corpora CoLFIS e ItWac (cfr. il paragrafo 4.2.1), nonché
in base ai dizionari: GRADIT, VTR, GRZ, VNZ (note bibliografiche dei dizionari
nella sezione Dizionari ed enciclopedie); potrà comunque essere integrata con ul-
teriori dati lessicali. Nel corpus CoLFIS il lemma casa è notato con il rango n. 92,
è quindi il sesto sostantivo più frequente in tutto il corpus (si vedano le analisi
quantitative del CoLFIS, paragrafo 4.5). Le entrate lessicali, come vedremo sotto,
non devono necessariamente limitarsi a due componenti linguistiche; il numero di
lingue non è prestabilito10.

Tabella 3.1: Entrata lessicale della classe di oggetti <casa>

IT FR PL
Casa Maison dom
[Morfologia:] [Morphologie:] [Morfologia:]
[Codice morfologico:] [Code morphologique:] [Kod morfologiczny]
[Sintassi:] [Syntaxe:] [Składnia:]
[Codice sintattico] [Code syntaxique:] [Kod składniowy:]
[Classe di oggetti:] case [Classe d’objets:] maisons [Klasa obiektowa:] domy
[Definizione:] edificio [Définition:] bâtiment de- [Definicja:] budynek
suddiviso in stanze o in stiné à servir d’habitation à przeznaczony na mieszkania.
appartamenti, adibito sp. ad l’homme
abitazione
[Sinonimi:] casa d’abita- [Synonymes:] maison d’ha- [Synonimy:] dom mieszkalny
zione bitation
[Sopraclasse5:] luogo [Superclasse5:] locatifs [Superklasa5:] miejsce

10 
Le analisi di <casa> sono già state presentate in parte in Chrupała – Słapek 2010. La com-
ponente francese è stata compilata dalla mia collega. Ho deciso di presentare qui tutta l’entrata
multilingue per non privilegiare la dimensione bilingue dell’AOO.

96

Lessico computazionale_libro.indb 96 03/02/2016 14:46:34


[Sopraclasse4:] terreno edi- [Superclasse4:] lieux [Superklasa4:] tereny zago-
ficabile aménagés spodarowane
[Sopraclasse3:] abitazione [Superclasse3] : logements [Superklasa3:] Miejsce za-
mieszkania
[Sopraclasse2:] costruzioni [Superclasse2:] construc- [Superklasa2:] konstrukcje
tions
[Sopraclasse1:] edifici [Superclasse1:] bâtiments [Superklasa1:] budynki
[Dominio:] [Domaine:] [Dziedzina:]
[Quadro:] edificio [Cadre:] immeuble [Kadr:] budynek

[Attributi:] [Attributs:] [Atrybuty:]


Casa grande grande maison Duży dom
Casa accogliente Maison accueillante Przyjazny dom
Casa al mare Maison à la mer Dom nad morzem
Casa in affitto Maison à louer Dom do wynajęcia
Casa da rinnovare Maison à rénover Dom do remontu
Casa in vendita Maison à vendre Dom do sprzedania
Casa comoda Maison aisée Wygodny dom
Casa con garage Maison avec garage Dom z garażem
Casa con giardino Maison avec jardin Dom z ogrodem
Casa con piscina Maison avec piscine Dom z basenem
Casa borghese Maison bourgeoise Dom mieszczański
Casa confortevole Maison confortable Komfortowy dom
Casa contigua Maison contiguë Dom bliźniaczy
Casa di legno Maison de bois Dom drewniany
Casa in mattoni Maison de briques Dom murowany
Casa signorile Maison de maître Dworek
Casa di vetro Maison de verre Szklany dom
Casa di città Maison de ville Dom miejski
Casa a schiera Maison en rangée Dom szeregowy
Casa individuale Maison individuelle Dom jednorodzinny
Casa singola Maison isolée Dom wolnostojący
Casa gemella Maison jumelée Dom bliźniaczy

97

Lessico computazionale_libro.indb 97 03/02/2016 14:46:34


Casa arredata Maison meublée Umeblowany dom
Casa modesta Maison modeste Skromny dom
Casa familiare Maison paternelle Dom rodzinny
Casa plurifamiliare Maison plurifamiliale Dom wielorodzinny
Casa ricca Maison riche Bogaty dom
Casa rustica Maison rustique Dom wiejski
Casa sontuosa Maison somptueuse Wspaniały dom
Casa spaziosa Maison spacieuse Przestronny dom
Casa unifamiliare Maison unifamiliale Dom jednorodzinny
Casa vicina Maison voisine Sąsiedni dom
Casa nuova Nouvelle maison Nowy dom
Casa piccola Petite maison Mały dom
Casa vecchia Vieille maison Stary dom

[parte-tutto] [partie-tout] [część-całość]


Finestra Fenêtre Okno
Parete Mur Ściana
Pavimento Étage Podłoga
Tetto Toit Dach

[Operazioni:] [Opérations:] [Operacje:]


[Operazioni: costruttore:] [Opérations: con- [Operacje: konstruktory:]
structeurs:]
Costruire una casa Construire une maison Budować dom
Edificare una casa Bâtir une maison Budować dom
Erigere una casa Ériger une maison Wzniosić dom
Monter une maison Postawić dom

[Operazioni: manipolato- [Opérations: manipula- [Operacje: manipulatory]


re:] teurs:]
Abbattere una casa Abattre une masion Burzyć dom
Comprare una casa Acheter une maison Kupić dom
Ampliare una casa Agrandir une maison Powiększać dom

98

Lessico computazionale_libro.indb 98 03/02/2016 14:46:34


Andare a casa Aller à la maison Iść do domu
Ammobiliare una casa Amenager une maison Urządzać dom
Riscaldare casa Chauffer une maison Ogrzewać dom
Demolire una casa Démolir une maison Demolować dom
Attrezzare una casa Équiper une maison Wyposażać dom
Rimanere a casa Garder la maison Zostawać w domu
Abitare in una casa Habiter dans une maison Mieszkaćw domu
Alloggiare in una casa Loger dans une maison Mieszkać w domu
Affittare una casa Louer une maison Wynajmować dom
Arredare una casa Meubler une maison Meblować dom
Imbiancare la casa Peindre la maison Malować dom
Lasciare casa Quitter la maison Opuszczać dom
Rinnovare la casa Rénover la maison Remontować dom
Restare a casa Rester à la maison Zostawać w domu
Tornare a casa Revenir à la maison Wracać do domu
Vendere una casa Vendre une maison Sprzedać dom

[Operazioni accessorio:] [Opérations: accesseurs:] [Operacje: akcesory]


Casa ha [x] piani Maison contient [x] étages Dom ma [x] pięter
Casa ha [x] stanze Maison contient [x] pièces Dom ma [x] pokoi
Casa costa [x] Maison coûte [x] Dom kosztuje [x]

[Estensioni:] [Extensions :] [Ekstensje:]


Être fait comme un brûleur Być źle ubranym
de maisons
Faire la jeune fille de la Usługiwać podczas jakiegoś
maison spotkania
Faire une bonne maison Zgromadzić dużo dóbr
Avere una casa aperta Tenir maison ouverte Prowadzić otwarty dom
Spese di casa Train de maison Wydatki na utrzymanie
domu

99

Lessico computazionale_libro.indb 99 03/02/2016 14:46:34


L’entrata di <casa> riportata sopra potrebbe arricchirsi con una serie di espres-
sioni che a prima vista non appartengono a questa classe di oggetti. Tra queste
espressioni troveremo:

IT FR PL
Casa celeste Maison céleste Dom niebieski
Casa di Dio Maison de Dieu Dom Boży
Casa del Padre Maison du Père Dom Ojca
Casa del Signore Maison du Seigneur Dom Pana
Casa eterna Maison éternelle Dom wieczny
Casa terrestre Maison temporelle Dom doczesny
Casa terrestre Maison terrestre Dom ziemski

In un dominio specifico di testi religiosi gli elementi sopraindicati si compor-


tano sintatticamente come altre case. Se il loro inserimento all’interno della CO
<case> non sembra opportuno, è perché non coincide con le nostre conoscenze
extralinguistiche, le quali suggerirebbero addirittura un’altra classificazione. Ri-
cordiamo, però, che le classi di oggetti sono insiemi di carattere linguistico e non
referenziale (Chrupała – Słapek 2010: 63). Gli elementi in questione non condi-
videranno, certo, tutte le caratteristiche di <case>. Ciò tuttavia non impedisce di
immetterli nella stessa entrata lessicale.
Inoltre, lo stesso lemma casa può appartenere ad altre classi di oggetti, come
p.es. <locali> (tra gli operatori della CO <locali> troveremo frequentare, p.es. fre-
quentare un bar, un ristorante, una casa di giochi, si veda Tabella 3.2) o <gruppo di
persone> (come illustre/grande casa, in polacco tradotto come znany/wielki ród; in
questo caso gli elementi della classe verranno accompagnati dagli operatori propri,
per l’appunto, dei gruppi di persone, come p.es.: appartenere a, fare parte di, riunir-
si, ecc.; per approfondimenti si veda Chrupała – Słapek 2010).

Tabella 3.2: Frammento della classe di oggetti <locali> con il componente casa.
CO <locali>

IT FR PL
Casa chiusa Maison close Dom publiczny
Casa comunale Maison communale Ratusz
Casa di moda Maison de confection Dom mody
Casa di convalescenza Maison de convalescence Sanatorium
Casa di correzione Maison de correction Dom poprawczy

100

Lessico computazionale_libro.indb 100 03/02/2016 14:46:34


Casa da gioco Maison de jeux Dom gier
Casa del piacere Maison de joie Dom rozpusty
Casa della giustizia Maison de justice Więzienie
Casa della Cultura Maison de la culture Dom kultury
Casa di appuntamenti Maison de rendez-vous Dom schadzek
Casa della salute Maison de santé Szpital
Casa di tolleranza Maison de tolérance Dom publiczny
Casa della Gioventù Maison des jeunes Pałac młodzieży
Casa delle onoranze funebri Maison mortuaire Dom żałobny

3.3.2. Eredità semantica

Per redigere un elenco degli operatori che accompagnano una data classe di
oggetti dovremmo limitarci ai lessemi che sono propri, per l’appunto, di questa
classe (nella terminologia di G. Gross: opérateur approprié). Gli operatori di questo
tipo differiscono dagli operatori ereditati (opérateurs hérités) che possono accom-
pagnare gli elementi di una data classe, perché sono stati ereditati da una delle sue
super-classi, quindi dalla classe di ordine superiore.
Non tutti gli operatori provenienti da una sopra-classe possono essere ereditati
dalle classi di ordine inferiore. In ogni caso, non è necessario alcun tipo di indice
che precisi quali degli operatori verranno ereditati. Il programma della traduzione
automatica inizia a lavorare, per così dire, dal basso, cioè parte dalla classe di og-
getti ritrovata nel testo, verifica se nella griglia della classe (nell’entrata lessicale) si
trova l’attributo o operazione presente nella frase in esame, se non lo trova, cerca
nelle classi di ordine superiore.
Il modello del funzionamento lessicale che vuole rendere conto dell’eredità
semantica deve poter esprimersi in maniera formale, cioè in modo tale che un
sistema elettronico sia in grado di elaborare le informazioni che esso presenta. I
software di ogni tipo vengono scritti in diversi linguaggi di programmazione (ne
ho parlato anche nell’introduzione a questo lavoro). Dato che la scelta del linguag-
gio rientra nelle competenze del programmatore che elabora un dato software, mi
limiterò a esporre il meccanismo ereditario nei termini della tradizione logica o
matematica (ricordiamo che la rappresentazione formale è uno dei tratti caratte-
ristici del modello linguistico, si veda il paragrafo 3.1). Questa è chiaramente una
versione semplificata:

0) presupposti: chiamiamo la classe di oggetti “l’insieme V”; consideria-


mo l’insieme V un insieme di tutti gli elementi x, dove x = operatore_
appropriato(V); V = {x: operatore_appropriato(V)}; operatore_approppria-
to = attributo_appropriato ˅ operazione_appropriata. La super-classe della

101

Lessico computazionale_libro.indb 101 03/02/2016 14:46:34


classe V (o meglio, l’insieme dei suoi operatori) verrà chiamata “V+1”; in
altre parole, V+1 è la classe di ordine superiore alla V.

Con un linguaggio di programmazione molto semplificato (detto anche pseu-


dolinguaggio) l’algoritmo del programma della traduzione automatica potrebbe
presentarsi nel modo seguente:

1) passo: trova il lessema nella banca dati / trova classe_oggetti V cui appartie-
ne il dato lessema;
2) passo: trova l’attributo/operazione del lessema a in V(x);
3) passo: a) se a V(x) a=x quindi TRADUCI, b) se a V(x) quindi V =
V+1 e torna al passo 2.

Lo stesso algoritmo può essere rappresentato attraverso uno schema a blocchi


che presento di seguito (figura 3.2).

Figura 3.2:
Schema approssimativo dell’algoritmo dell’eredità semantica (frammento)

TRADUCI
ATTRIBUTO/
OPERAZIONE

L’algoritmo sarà più complicato per i lessemi che appartengono a diverse classi
di oggetti. In questo caso il programma, nel primo passo, dovrà decidere di quale
classe di oggetti un dato lessema fa parte (dovrebbe quindi essere integrato con un
passo “introduttivo”). Il ritrovamento della classe adeguata è comunque facile grazie,
per l’appunto, all’entourage frastico del lessema (i suoi attributi e le sue operazioni).
Per quanto concerne l’aspetto teorico dell’eredità semantica bisogna ancora
precisare come si presenta la nozione dell’eredità multipla all’interno della meto-
dologia AOO (si veda anche il paragrafo 2.6.1). Per eredità multipla intendiamo
la possibilità di ereditare le caratteristiche da più di una classe (categoria), non
necessariamente poste all’interno di una stessa gerarchia di classi, cioè dalle classi

102

Lessico computazionale_libro.indb 102 03/02/2016 14:46:35


che nel percorso gerarchico non si trovano sullo stesso “ramo”. Nell’Approccio
Orientato agli Oggetti si dà adito all’eredità multipla, nel senso che un dato lessema
può ereditare gli operatori provenienti non solo dalla prima classe posta più in alto
nella gerarchia, ma può anche ereditare le caratteristiche dalle sopra-classi di secon-
do, terzo ordine, o dalle classi che si trovano ancora “più in alto”. Così ad esempio
anatra potrà ereditare caratteristiche dalla sua sopraclasse <volatili> (come p.es. vo-
lare), o dalla classe <animali> (<animali> è iperonimico di <volatili>), o addirittura
gli operatori della CO <animato> (come vivere, respirare), e così via. È possibile
ereditare elementi dalle classi che non si trovano sullo stesso albero gerarchico solo
quando il lessema è stato posto all’interno di un’altra classe di oggetti che fa parte
del secondo “albero” (tale situazione è abbastanza frequente).
Torniamo infine alla griglia della classe di oggetti <casa>. L’entrata lessicale
che ho presentato sopra fornisce un ricco elenco delle unità che possono accom-
pagnare una data classe. Chiaramente non tutti i predicati possono definirsi come
propri della classe di oggetti <case>. Ho appena spiegato il meccanismo dell’eredità
semantica (per casa saranno ereditati p.es.: costruire che verrà ereditato dalla sopra-
classe <costruzioni>, rimanere a ereditato dalla sopra-classe <luoghi>, ecc.). Nella
prima fase del lavoro lessicografico (il cui esito è presentato nell’entrata appena
analizzata) non è possibile evitare un certo tipo di listing. Solo dopo aver stabilito
la gerarchia delle classi, si potrà procedere con la divisione degli operatori propri
ed ereditati dalle sopra-classi. Nel paragrafo 4.1 spiegherò ancora perché a volte è
preferibile lasciare anche gli operatori ereditari nell’entrata lessicale della classe.

3.3.3. AOO e altri modelli lessicali

Nel capitolo 2 ho presentato alcuni modelli della descrizione lessicografica cui


fa riferimento anche l’Approccio Orientato agli Oggetti. Vediamo adesso quali
sono le convergenze e le eventuali diversità tra la metodologia di tipo AOO e le
proposte precedenti:

1. AOO vs grammatica di Karolak


L’approccio basato sulle classi di oggetti inverte l’andamento analitico di tipo
predicato→argomenti; cambia quindi, per così dire, l’ottica tradizionale di ricerca.
L’analisi che va dal predicato verso gli argomenti è, comunque, presente nel nostro
lavoro, nella parte dedicata alla disambiguazione verbale, di cui si dirà più avanti.
Nella nostra ottica, se consideriamo tutto il progetto, le due prospettive di analisi
si completano a vicenda.
2. AOO vs Modificato-Modificatore
Le strutture presenti nella descrizione M-M, le loro configurazioni e le categorie
grammaticali che entrano in contatto, si trovano inserite anche nell’entrata lessicale

103

Lessico computazionale_libro.indb 103 03/02/2016 14:46:35


redatta secondo le norme dell’AOO. La metodologia di tipo Modificato-Modifica-
tore viene quindi, in un certo senso, incorporata nell’Approccio. Inoltre, la M-M è
stata creata principalmente per la stesura dei dizionari di lingua specialistica. L’AOO
vuole rendere conto del comportamento lessicale di una lingua nel suo insieme.
3. AOO vs funzioni lessicali di Mel’čuk
La divisione delle operazioni che caratterizzano la classe di oggetti in tre
gruppi (costruttori, manipolatori, accessori) permette di strutturare in dettaglio i
suoi dati “operazionali”. Ajouton que les opérations on question et les attributs son
agencées d’une manière supplementaire à un niveau supérieur de l’analyse dès que la
classe d’objets étudiée devient le module organisé par le frame (cadre) correspondant
structuré par le fonctions lexicales11 (Banyś 2002b: 209).
4. AOO vs Wordnet
Nell’Approccio lo scopo principale non è la gerarchia dei concetti, come nel
caso dell’ontologia Wordnet. Tuttavia, la stessa gerarchia è presente nella specifi-
cazione delle sopra/sotto-classi.
5. AOO vs Struttura Qualia
Troveremo il ruolo telico (relazioni tra l’oggetto e i suoi componenti) nelle re-
lazioni parte-tutto dell’entrata AOO, il ruolo formale, che vuole indicare tratti che
distinguono l’oggetto da un certo dominio, viene espresso attraverso la gerarchia
di sopra-classi e sotto-classi (la stessa gerarchia già in maniera univoca situa l’og-
getto all’interno di un dominio, operazioni e attributi appropriati specificano tratti
distintivi di un dato oggetto); lo scopo e le funzioni dell’entità espressi attraverso il
ruolo telico vengono indicati dai predicatori costruttori e manipolatori; similmen-
te, il ruolo telico è ricoperto dai predicatori costruttori (ivi: 210).
6. L’Approccio Orientato agli Oggetti proposto da Banyś è chiaramente più
apparentato con la metodologia delle classi di oggetti di Gross (cfr. il concetto
dell’impiego contestuale), da cui prende anche origine. Banyś arricchisce la meto-
dologia grossiana di tre elementi (Banyś 2002b: 213):
a) la metodologia dell’approccio modulare, per cui l’orientamento oggettuale
è qui più fortemente marcato (ibid.),
b) la descrizione del meccanismo dell’eredità semantica delle operazioni e de-
gli attributi dovuto all’inserimento della classe di oggetti all’interno di una
gerarchia di classi (una data classe appartiene a una sopra-classe e inqua-

11 
‘Aggiungiamo che le operazioni in questione e gli attributi sono disposti in maniera supple-
mentare a un livello superiore dell’analisi non appena la classe di oggetti esaminata diventa modulo
organizzato per mezzo di frame (cadre) corrispondente alle funzioni lessicali’.

104

Lessico computazionale_libro.indb 104 03/02/2016 14:46:35


dra altre sotto-classi; una simile metodologia riavvicina il dizionario creato
nell’ottica dell’AOO a un dizionario di tipo thesaurus; vedi sopra).
c) l’introduzione del modulo frame.
Per cui, anche se gli approcci presentati sopra sono metodologicamente diver-
si, tutte le informazioni lessicali di cui vogliono rendere conto vengono prese in
considerazione anche nell’Approccio Orientato agli Oggetti.

3.4. Disambiguazione verbale

Tra i principali problemi che un sistema di traduzione automatica deve affron-


tare troviamo la polisemia delle parole, innanzitutto la polisemia verbale (si con-
fronti il paragrafo 1.3.1). La descrizione dei predicati verbali nell’ottica dell’AOO
consta di sei tappe attraverso cui il lessicografo deve (riprendo da Banyś 2005: 61)
stabilire le concordanze dell’impiego lessicale in un corpus il più ampio possibile,
2) dividere le concordanze in gruppi i cui elementi condividono tratti sintattici,
semantici e lessicali comuni, 3) applicare l’Approccio Orientato agli Oggetti (cfr.
il paragrafo 3.3), per analizzare e raggruppare i lessemi a seconda delle loro ca-
ratteristiche comuni, 4) trovare l’equivalente nella lingua target, 5) se necessario,
riorganizzare i gruppi stabiliti nel punto 3 secondo le loro traduzioni, 6) codificare
il risultato dell’analisi in un formato descrittivo (in questo lavoro presenterò gli
schemi descrittivi inseriti in una tabella; i risultati delle analisi potranno, tuttavia,
essere inseriti in un formato elettronico standardizzato, come ad esempio XML).
Non va dimenticato che il y autant de sens différents d’un mot […] que de ses tra-
ductions différentes […] et d’ensembles de marquers syntagmatiques différents qui
les distinguent les uns des autres dans la langue de départ12 (ivi: 59).
I corpora della lingua italiana cui mi riferirò sono principalmente: CORIS (Cor-
pus di Riferimento dell’Italiano Scritto, di cui alla p. 118) e ItWac (Italian Web-as-
Corpus, disponibile come componente del sistema Sketch Engine; ho voluto scegliere
un corpus che raccolga sia i testi letterari, remoti, sia i testi più recenti, spontanei con
uno stile caratteristico dell’Internet). Se non altrimenti segnalato, anche gli esempi
dell’uso fattuale dell’unità lessicale esaminata nel paragrafo 3.4.1 provengono dai
due corpora citati; sono quindi facilmente ritrovabili tramite i loro motori di ricerca.
Lo schema sintagmatico del verbo va integrato, se necessario, con informazioni
riguardanti il registro del testo e il dominio in cui una data unità lessicale può ricor-
rere. Ciò per ovvie ragioni: è frequente il cambiamento dell’equivalente a seconda
delle due categorie citate (cambia, per esempio, il registro di mandare, spedire,
inviare, quindi delle parole che sono equivalenti dal punto di vista semantico; nella

‘Ci sono tanti sensi differenti di una parola […] quante sono le sue traduzioni […] e insiemi
12 

di marcatori sintagmatici differenti che distinguono gli uni dagli altri nella lingua di partenza’.

105

Lessico computazionale_libro.indb 105 03/02/2016 14:46:35


lingua polacca troveremo un solo equivalente wysłać; se, al contrario, vorremo tra-
durre wysłać in lingua italiana, dovremo stabilire il registro del testo: in un contesto
amministrativo è preferibile inviare, in un contesto colloquiale o famigliare, invece,
è più comune mandare). Tuttavia, i cambiamenti testuali dovuti al registro non
si limitano all’aspetto lessicale della lingua. Varie strutture grammaticali possono
trovarsi soltanto in un certo contesto stilistico o nei testi prodotti in un dato arco
temporale. Illustrerò in alcuni punti come si manifesta questo problema nell’uso
del pronome relativo in italiano (gli esempi sono tratti dal corpus ItWac):

1) nel registro colloquiale il pronome che, oltre al soggetto e compl. oggetto,


tende a ricoprire altre funzioni logiche, tra cui: a) alcuni complementi di
misura (uso più marginale, p.es. I cento chili che pesa…), b) complementi
predicativi (Rimarrai sempre il bravo ragazzo che sei stato…), c) complemen-
to di tempo (Il giorno che hai detto…; in un linguaggio accurato è preferibile
quando o in cui...);
2) il sistema grammaticale italiano consentiva una volta di sostituire che in fun-
zione di compl. oggetto con (art. +) quale. Ciò oggi è decisamente sconsi-
gliato. Si possono, comunque, ritrovare ancora alcuni esempi, soprattutto
letterari, di un simile uso del detto pronome; (art. +) quale come compl.
oggetto va quindi marcato come “arcaico”13;

13 
Le grammatiche italiane discordano per quanto riguarda la funzione logica che svolge lo
stesso pronome. In Dardano e Trifone leggiamo che il pronome relativo formato da due elementi
«si può usare come soggetto (ma ha tono più sostenuto rispetto a che), come complemento oggetto
(molto raro e letterario), come complemento indiretto (di uso corrente accanto a cui)» (Dardano –
Trifone 2006: 285). Secondo Serianni, le forme composte sono usate «come soggetto e soprattutto
come oggetto, la forma composta è molto meno comune di che, e comunque limitata all’uso scritto
formale» (Serianni 1999: 315). Katerinov, con gli esempi che propone, suggerisce addirittura una
totale equivalenza tra che e il quale (il suo esempio: il ragazzo il quale (che) vedo (sic!); l’autore
sbaglia non solo per quanto riguarda la funzione logica del pronome, ma propone un evidente
esempio della relativa restrittiva, dove il quale non dovrebbe mai presentarsi; cfr. Katerinov 1992:
80). Nella Grande grammatica italiana di consultazione troveremo: «che e quale sono varianti pres-
soché facoltative nella realizzazione di soggetti e complementi oggetti» (Renzi et al. 2001: 462),
dopodiché troviamo gli esempi del pronome in quanto oggetto marcati con due punti interrogativi.
Le spiegazioni citate sopra non sono del tutto corrette, perché:
a) la sostituzione di che con le forme composte in funzione di compl. oggetto non è più prevista
dal sistema italiano attuale (la struttura non è più produttiva). È difficile trovare pochi esem-
pi “rari e letterari”, se non nei testi remoti; è giusto prendere in considerazione le capacità
ricettive di chi studia l’italiano: in tal modo, semmai, lo studente potrà riconoscere una simile
struttura. Nelle grammatiche moderne va comunque notato che (art. +) quale come compl.
oggetto non sostituisce più il pronome che;
b) le forme composte vengono usate come complemento indiretto, ma in tal caso sono sempre
precedute da una preposizione. Ciò non viene sottolineato da nessuno degli autori (si parago-
ni p.es.: l’argomento a cui mi riferisco = l’argomento cui mi riferisco, dove è possibile omettere
la preposizione a, ma: l’argomento al quale mi riferisco ≠ *l’argomento il quale mi riferisco;

106

Lessico computazionale_libro.indb 106 03/02/2016 14:46:35


p.es.: Aveva frate Cipolla un suo fante, il quale  alcuni chiamavano Guccio
Balena e altri Guccio Imbratta.
3) Nell’italiano antico e nei testi letterari fino all’Ottocento cui poteva relativizza-
re anche un compl. oggetto, ma non il soggetto (marchio: letterario/arcaico).
p.es.: Così ad esempio Dante, cui egli concepiva più come simbolo perfetto di
sapienza non progressiva, piuttosto che come uomo, avea detto che l’impero di
Roma era stato dall’imprescindibile volere di Dio stabilito.
4) Nel registro burocratico può essere usato cui genitivo preceduto, ridon-
dantemente, dalla preposizione di. In altri testi non è consueta una simile
struttura.
p.es.: Veduto il successivo decreto reale dell’11 novembre 1884, n. 2773, col
quale fu fatta facoltà di proporre “attestazioni di benemerenza” a favore di quel-
le persone i di cui titoli acquistati durante l’invasione colerica di quell’anno non
fossero stati tali da potere ottenere alcuna di dette medaglie.

Come potrà un programma di traduzione affrontare simili problemi? Le infor-


mazioni sulla natura del testo come il suo dominio e il suo registro, sono informazioni
che potrebbero essere definite dall’utente ancora prima di avviare il programma. In
una tipica interfaccia del software di traduzione troveremo solitamente un riquadro
per il testo di partenza, un riquadro per la traduzione, le caselle dove immettere la
lingua di partenza e la lingua di arrivo, ci saranno forse i pulsanti per il sintetizzatore
vocale. Tra gli elementi di una simile schermata dovrebbe esserci anche una lista di
domini/registri da scegliere. Se i due elementi non verranno scelti, il programma ana-
lizzerà il testo come neutro o non marcato. È chiaro che anche lo stesso programma
potrebbe “capire” di che tipo di testo si tratta (lo farebbe, per esempio, analizzando
la lista di frequenza del testo da analizzare con la lista di frequenza di un corpus di
riferimento; in base ai lemmi che assumono valori particolarmente alti, potrebbe
scegliere il dominio adatto). È tuttavia ovvio che il computer non riesce ad analizzare
il testo come il traduttore in persona. Più informazioni avrà a disposizione in input,
migliore sarà anche il risultato finale del suo lavoro.
L’analisi di un verbo polisemico risulta a volte molto impegnativa, sia per quan-
to riguarda l’intensità del lavoro analitico da svolgere, sia per la stessa dimensione
spaziale dell’analisi. A titolo d’esempio, le analisi dei verbi francesi (se)monter e
sortir presentate da Aleksandra Żłobińska-Nowak constano, nel caso di monter,
di 67 costruzioni sintattiche, a cui corrispondono 36 equivalenti polacchi, e di 75
schemi per sortir, a cui corrispondono 33 traducenti (2008a: 102–108, 152–158).

c) per essere precisi: (art. +) quale può funzionare come compl. oggetto in contesti sintattici
molto particolari: dopo un gerundio, un participio o un infinito. Non sostituiscono allora che,
perché il pronome che non potrebbe mai trovarsi in simili contesti. Le grammatiche di cui
sopra presentano le forme variabili come compl. oggetto nelle frasi, la cui struttura è simile a
quella dell’esempio di Katerinov, appena citato.

107

Lessico computazionale_libro.indb 107 03/02/2016 14:46:35


Per di più, le ricerche dell’autrice ricoprono in tutto più di cento pagine dedicate
a soli verbi. Una simile analisi esaustiva del verbo non è l’obiettivo di questo la-
voro. Se la collega Żłobińska-Nowak ha voluto disambiguare soprattutto le due
unità lessicali (si veda anche lo stesso titolo dell’opera), nelle pagine del mio lavoro
preferisco, come ho già segnalato, concentrarmi su aspetti puramente metodolo-
gici. Vorrei perciò limitarmi a descrivere il meccanismo della disambiguazione,
mostrando quali sono le eventuali difficoltà da affrontare e quali sono i vantaggi
che presenta la nostra metodologia (per le analisi rinvio quindi al titolo citato so-
pra). Senza dilungarmi troppo, avrò modo di dimostrare come procede l’analisi
dell’impiego contestuale a seconda delle classi di oggetti. Mi servirò dell’esempio
del verbo togliere. Gli esempi fattuali d’uso provengono da ItWac:
X [HUM] – togliere (togliersi) – Y [<capo d’abbigliamento>]: zdjąć
Ha tolto subito le scarpe senza esitazione e ha allungato le lunghe gambe nordiche.
Lorenzo però insiste affinché Macy si tolga il vestito che indossa.
X [HUM] – togliere – Y [<capo d’abbigliamento>] – a – Z [ANIM]: zdjąć
Philippe toglie la giacca a Vanessa.
Severus posò il ragazzo malconcio su uno dei letti ed aiutò Poppy a togliergli la ca-
micia.
(in questo caso il complemento indiretto non deve limitarsi alla classe umano; ri-
cordiamo le immagini di cani che portano un indumento; possiamo quindi sup-
porre che il programma dovrà, in un certo momento, trattare anche simili contesti
frastici)
X [ALL] – togliere – Y [<prodotti alimentari>] – da – Z [<recipiente da cucina>]:
wyjąć
Cuocete la frittatina da entrambi i lati per circa un minuto per lato, quindi togliete
dalla padella e appoggiate su carta assorbente.
Una volta diventato rosso, lo togliamo dalla casseruola e lo tagliamo a pezzi.
(per facilitare la traduzione automatica, tra gli elementi della classe di oggetti <re-
cipiente da cucina> troveremo anche forno, visto che il verbo nell’insieme togliere
dal forno andrebbe tradotto come sopra)
X [ALL] – togliere – Y [<formazione cutanea> | <tessuto tumorale> | <organo>]:
usunąć
Il medico omeopatico raccomanda di non togliere le verruche fino a quando non dia-
no più segni o sintomi di attività.
Oggi un mio amico ha fatto un intervento dove gli hanno tolto l’appendicite.
Primo intervento con il robot per togliere tumore.
(bisogna stare molto attenti agli elementi della classe: nello schema proposto sopra
entrerebbe il seguente esempio: Togliere il fegato dalla casseruola, che però riflette
lo schema precedente).
X [HUM] – togliere – [<documento attestante un diritto>] – a – [HUM]: odebrać

108

Lessico computazionale_libro.indb 108 03/02/2016 14:46:35


È come se ad un commercialista togliessero la laurea perché non raggiunge un tot di
dichiarazioni dei redditi.
Sareste d’accordo a togliere la patente a coloro che causano morti nelle strade per stato
di ubriachezza o sotto effetto di droga?

X [ALL] – togliere – [<vantaggio> | <diritto>] – a – [HUM]: odebrać


Ovviamente, non vorrei una schiavitù che mi togliesse libertà e diritti , ma sentirsi
schiavo di una passione semplice…
Ci tolgono pure il diritto di voto!

X [HUM] – togliere – Y [<dente>] – a – Z [HUM/ANM]: wyrwać


Il mio dentista mi ha consigliato di togliere i denti del giudizio.
Togliere denti per immettere impianti significa buttar via anche le radici. 
(nella classe <dente> oltre ai denti propriamente detti: incisivo, canino, molare,
ecc., troveremo anche il lemma radice, nel caso del quale il verbo togliere, per
il tramite dello spostamento metonimico, verrà tradotto nella stessa maniera; ri-
cordiamo che nell’entrata della classe di oggetti troveremo anche le informazioni
riguardanti le parti dell’oggetto)
Fa male togliere la radice di un dente?
Come variante dello schema precedente troviamo la stessa configurazione con il
verbo riflessivo togliersi: X [HUM] – togliersi – [<dente>] : wyrwać

X [ALL] – togliere – Y [ALL] – da – Z [<circostanze problematiche>] : uwolnić od


Del resto anche nella vita vera un colpo di fortuna ti può togliere d’impaccio.
Il re non sapeva proprio come fare per togliere dalla schiavitù i suoi sudditi, compì
così un lungo viaggio per cercare qualcuno che lo potesse aiutare.

X [ALL] – togliere – Y [<oggetti appendibili>] – da – Z [<superficie verticale>]:


zdjąć
Togliere il quadro dalla parete.
Abbiamo appena tolto manifesti dai muri della scuola.

Un cospicuo gruppo di esempi dell’impiego del verbo togliere ruota intorno


al senso ‘sottrarre, trarre via in parte’ (p.es. GRZ, accezione 3) o ‘levare una certa
quantità da una quantità maggiore’ (VTR, accezione 2c) quindi odjąć/odejmować
in polacco (WSWP, accezione 5). La traduzione cambia chiaramente a seconda del
complemento oggetto che effettivamente viene sottratto.

X [ALL] – togliere – Y {numerale} da Z {numerale}: odjąć


Togliere 5 da 7 (VTR); Se da dieci togli quattro, resta sei. (GRZ)

109

Lessico computazionale_libro.indb 109 03/02/2016 14:46:35


110
NP1 NP2 NP3 NP1 NP1 NP2 NP2 NP3 NP3

Prep
Prep
Prep
Prep
Verbo Verbo
CO CO CO Caso CO Caso CO Caso CO

hum togliere - <capo di abbigliamento> - - [nom] [hum] zdjąć - acc <capo di abbigliamento> - - -

Lessico computazionale_libro.indb 110


hum togliersi - <capo di abbigliamento> - - [nom] [hum] zdjąć - acc <capo di abbigliamento> - - -

hum togliere - <capo di abbigliamento> a [anim] [nom] [hum] zdjąć - acc <capo di abbigliamento> - [dat] [anim]

<recipiente da <recipiente da
all togliere - <prodotti alimentari> da [nom] [all] wyjąć - acc <prodotti alimentari> z [gen]
cucina> cucina>

<formazione cutanea> <formazione cutanea>


all togliere - <tessuto tumorale> - - [nom] [all] usunąć - acc <tessuto tumorale> - - -
<organo> <organo>

<documento attestante <documento attestante


hum togliere - a [hum] [nom] [hum] odebrać - acc - [dat] [hum]
un diritto> un diritto>
<vantaggio> <vantaggio>
hum togliere - - - [nom] [hum] Odebrać - acc - - -
<diritto> <diritto>
Tabella 3.3: Schema ricapitolativo delle analisi (frammento)

hum togliere - <dente> a [anim] [nom] [hum] wyrwać - acc <dente> - [dat] [anim]

hum togliersi - <dente> - - [nom] [hum] wyrwać - acc <dente> - - -


<circostanze
<circostanze
all togliere - [all] da problemati- [nom] [all] uwolnić - acc [all] od [gen]
problematiche>
che>

all togliere di <sostanza liquida> da <contenitore> [nom] [all] Odlać - gen <sostanza liquida> z [gen] <contenitore>

all togliere di <sostanza in polvere> da <contenitore> [nom] [all] odsypać - gen <sostanza in polvere> z [gen] <contenitore>

03/02/2016 14:46:35
(in questa categoria entrano chiaramente frazioni, numerali decimali, ecc.)

X [ALL] – togliere – Y [<sostanza liquida>] – da – Z [<contenitore>]: odlać


Togliere un po’ di vino dalla botte (GRZ)

X [ALL] – togliere – Y [<sostanza in polvere>] – da – Z [<contenitore>]: odsypać

I risultati dell’analisi vengono esposti in uno schema riassuntivo, come quello pre-
sentato alla pagina precedente. La mia è solamente un’esposizione esemplare e
frammentaria del problema.

111

Lessico computazionale_libro.indb 111 03/02/2016 14:46:35


Lessico computazionale_libro.indb 112 03/02/2016 14:46:35
4.

Dizionario-macchina: risorse, strumenti e realizzazione del progetto

Il modello descrittivo per la compilazione dei dizionari-macchina nell’ambito


della traduzione automatica di cui ho parlato nel cap. 3 viene sviluppato dai ricer-
catori del Dipartimento di Linguistica Applicata e di Traduttologia dell’Università
della Slesia. I lavori già realizzati in questo campo presentano soprattutto i risultati
di analisi dei lessemi francesi (si vedano ad es.: Chrupała 2007, 2008a, Gabrysiak
2008, Żłobińska-Nowak 2008a, 2009); recentemente sono stati avviati anche i la-
vori in lingua spagnola (Żłobińska-Nowak 2008b). In questo lavoro s’intende, pri-
ma di tutto, dare inizio alle analisi del lessico italiano, per poi ampliare l’indagine
verso le altre lingue romanze, ma anche individuare i parametri definitivi per la
creazione di un dizionario-macchina come quello di cui abbiamo parlato nei pre-
cedenti capitoli, tra cui la scelta dei lemmi e la definizione del numero di lemmi.
La limitazione del progetto alla sola traduzione scritta risponde all’esigenza di
rispettare il principio di realizzabilità che si scontra con la visione utopistica del
lavoro lessicografico di cui parlerò avanti. Ciò non significa che nel futuro il nostro
lavoro non si possa espandere anche ad altri aspetti del trattamento automatico
della lingua, dopotutto è necessario rispettare sempre le regole di estendibilità e di
riusabilità di un’applicazione computazionale (si veda il paragrafo 3.2).

4.1. Approccio probabilistico e fattibilità del progetto

Il modello descrittivo dell’aspetto lessicale di una lingua deve rendere conto di


ogni possibile occorrenza testuale con cui il programma progettato avrà a che fare
nell’ambito della linguistica computazionale. La banca dati deve quindi contenere
tutte le cooccorrenze possibili di una data parola nel contesto. Non importano più
soltanto le strutture corrette dal punto di vista grammaticale (campo di ricerca del
generativismo chomskyano), importante è rendere esplicito l’impiego reale di un les-
sema, cioè anche il contesto meno prototipico in cui esso appare. In altre parole, il
programma di traduzione automatica, o altri programmi della LC, deve essere capa-
ce di lavorare con tutte le strutture possibilmente prodotte dall’utente di una lingua

113

Lessico computazionale_libro.indb 113 03/02/2016 14:46:35


(anche un dizionario tradizionale, non destinato a scopi computazionali, dovrebbe
presentare l’impiego reale dei lessemi con le loro collocazioni testuali fattuali).
L’algoritmo (le tappe del procedimento) di traduzione automatica viene creato
innanzitutto al fine di poter analizzare, non generare nel senso chomskyano, non
solo le strutture corrette (ideali), ma tutte le frasi che lo stesso programma prende
in esame. Qui ci limitiamo all’analisi testuale: il dizionario-macchina di cui parlo in
questo lavoro, infatti verrà creato in primis per l’analisi del testo sulla quale, nella
prima fase, si basa anche la traduzione automatica. Chiaramente il programma di
TA dovrà anche produrre il testo nella lingua di arrivo, ma ciò avverrà in una fase
successiva del lavoro.
Per quanto concerne il numero di lemmi presi in esame, il lessicografo deve fin
dall’inizio porsi dei limiti raggiungibili. Il progetto, oltre ad avere una metodologia
adeguata, deve essere coordinato accuratamente e deve adattarsi a una strategia
editoriale. Conviene a questo punto ricordare il modello della scienza proposto
da Larry Laudan – nel quale vengono esposti i punti/nodi centrali alla base del-
le motivazioni di un’attività scientifica, che contribuiscono in modo significativo
alla risoluzione delle problematiche che il ricercatore si trova a dover affrontare
(ho parlato a questo proposito anche in Słapek – Chrupała 2010: 70–71). Questi
sono: standard metodologici, teorie e obiettivi della scienza. Benché il modello di
Laudan riguardi la scienza in senso ampio, esso illustra bene i rischi che corre il
ricercatore che si occupi di un solo argomento scientifico, anche se molto ristretto.
Una scorretta definizione dello scopo di ricerca evoca a volte una visione uto-
pistica del lavoro scientifico. Secondo Laudan (1981: 52; si veda anche Korżyk
1994: 134–135), lo scopo scientifico può essere utopistico sotto tre punti di vista;
esso può essere: a) dimostrabilmente utopistico (demonstrably utopian), quando la
scienza deve portare a conoscenze sicure e inconfutabili; b) semanticamente uto-
pistico (semantically utopian), quando ci si pongono obiettivi, la cui scelta e realiz-
zazione non possono essere chiaramente motivate; c) epistemicamente utopistico
(epistemically utopian), quando lo scopo della ricerca è difficilmente raggiungibile
o addirittura non è sicuro che lo sia affatto. L’obiettivo ottimale di ogni disciplina
scientifica deve essere coerente, raggiungibile (fattibile), imparziale, deve servire
come indizio nella scelta tra teorie e ipotesi concorrenti, nonché deve presentare,
per così dire, l’idea della verità. Gli obiettivi utopistici sono quelli che non soddi-
sfano il c r i t e r i o d i f a t t i b i l i t à (cfr. Korżyk 1994: 135).
A prescindere dal modello di descrizione dell’unità lessicale che un dato ricer-
catore propone, lo scopo del lessicografo (o più spesso di un gruppo di lessicogra-
fi) non è esclusivamente la definizione del modello descrittivo, ma soprattutto la
compilazione di un dizionario, quindi di una banca dati lessicale. L’obiettivo del
lavoro lessicografico dovrà essere soprattutto fattibile, cioè dovrà finire con la pub-
blicazione di un dizionario concluso e coerente (sempre dal punto di vista degli
obiettivi posti all’inizio del lavoro). In caso contrario i presupposti delle particolari
scuole lessicografiche porteranno a una visione utopistica del loro lavoro.

114

Lessico computazionale_libro.indb 114 03/02/2016 14:46:35


Il criterio principale per la scelta dei lemmi è, nel nostro caso, la loro frequenza
nel corpus scritto della lingua italiana; a sua volta il corpus deve rispondere agli
standard comunemente approvati, come per esempio rappresentatività, numero
finito di lemmi, formato elettronico, riferimenti standard, ecc. (cfr. Lewandowska-
Tomaszczyk 2005: 28). Il criterio di frequenza permette non solo di redigere l’e-
lenco di lemmi, ma anche di contare la percentuale di tutte le occorrenze testuali
che i dati lemmi costituiscono (il grafico che visualizza il rapporto tra il numero di
lemmi (rango) vs. la percentuale di tutte le occorrenze nel corpus avrà la forma di
una parabola con la concavità rivolta verso destra; si veda in seguito). In tal modo
potremo estrapolare la lista dei lessemi che costituiscono una percentuale concreta
di tutto il corpus (per esempio il 75% o l’80%).
Il programma di traduzione automatica può comunque servirsi, oltre che della
banca dati qui proposta, di un dizionario tradizionale in formato elettronico, in cui
troverebbe gli equivalenti del successivo 20-25%. Possiamo supporre che i lessemi
più polisemici entreranno nella nostra banca dati in quanto lessemi più frequenti,
in accordo con la terza legge di Zipf, detta anche il principio di versatilità econo-
mica delle parole: il numero di significati di una parola cresce con la sua frequenza
(Zipf 1949: 75), perciò per il resto delle parole sarà spesso soddisfacente il primo
equivalente tratto da un dizionario informatizzato. Il nostro approccio potrebbe
quindi definirsi in un certo senso p r o b a b i l i s t i c o , poiché prende in conside-
razione la probabilità dell’impiego del lessema nel testo da tradurre.
Per concludere queste parole introduttive, bisogna ancora precisare le modali-
tà di compilazione della banca dati lessicale in merito. Nel capitolo 3 ho detto che
in un’entrata lessicale della classe di oggetti nella nostra banca dati vengono inseriti
i lessemi (attributi, operatori) che sono propri di questa classe, perché, grazie al
meccanismo dell’eredità semantica, la stessa classe può ereditare alcuni lessemi
dalle sue superclassi. Abbiamo anche visto un “campione” della banca dati, ossia
l’entrata lessicale di una classe di oggetti (vedi il paragrafo 3.3.1, tabella 3.1). In
realtà, nella tabella del sostantivo esaminato ho introdotto anche i lessemi che po-
trebbero essere ereditati dalle classi di ordine superiore. Il primo motivo per cui
non mi sono limitato agli elementi “propri” è la riduzione del tempo di processa-
mento delle informazioni da parte del programma. Visto che l’algoritmo comincia
l’analisi della frase “dal basso”, per trovare attributi e operatori ereditati dovrà se-
guire tutto il percorso gerarchico delle classi di oggetti. Se invece accompagniamo
il sostantivo con le sue coocorrenze, basandosi sempre sul criterio di frequenza, la
traduzione verrà eseguita più velocemente. Il software non dovrà ricorrere a una
delle tappe dell’algoritmo (il passo: cerca il lessema nella classe di grado superio-
re). Ho quindi rispettato il criterio della complessità della computazione.
Il secondo motivo per cui si è voluto aggiungere più contenuto informativo
(apparentemente ridondante) nell’entrata è perché un simile dizionario, nonostan-
te il suo impiego principale – le applicazioni computazionali – può servire anche
da semplice dizionario di consultazione. L’accesso ai dati sarà quindi più veloce

115

Lessico computazionale_libro.indb 115 03/02/2016 14:46:35


per un utente medio. In tal modo rispettiamo anche il criterio di riusabilità (in
termini di Banyś e Meyer) o di portabilità (secondo Chiari).
Il fatto di immettere alcuni lessemi ereditari in un’entrata lessicale non rin-
nega del tutto i vantaggi del meccanismo dell’eredità semantica che ho descritto
prima. Prendiamo l’esempio del nome casa: tra le operazioni-costruttore della clas-
se <casa> troviamo p.es. edificare, costruire – operatori ereditati dalla superclasse
<costruzioni>, o alloggiare, affittare che possono essere ereditate dalla superclasse
<abitazioni>. Ciononostante, nella nostra banca dati, questi operatori accompa-
gnano anche la stessa classe <case>. Tra gli operatori di casa non troveremo, però,
verbi come vedere o fotografare, perché sicuramente meno “associati” o “legati”
(per cui anche “meno propri”) alla classe presa in esame. Il programma riuscirà
comunque a tradurre l’insieme fotografare la casa, dato che il verbo fotografare ac-
compagna, tra l’altro, la classe generica <concreto> (segnalata prima come conc)
che è una delle superclassi di <case>.
Riassumendo: l’Approccio Orientato agli Oggetti è un approccio descrittivo
(un modello con cui si vuole descrivere il funzionamento lessicale di una data lin-
gua) e probabilistico. Per approccio probabilistico intendo qui il modo di compila-
re il dizionario che prende in considerazione soprattutto la frequenza dell’impiego
di un’occorrenza lessicale. L’entrata lessicale nella banca dati AOO presenta, oltre
alle cooccorrenze proprie della classe, anche le cooccorrenze ereditarie, purché
siano le più frequenti.
Per poter dimostrare l’impiego reale di un lessema dobbiamo studiare l’insie-
me di tutti i testi in cui esso appare, quindi, in altre parole, un corpus. Lo studio
di tutti i testi mai prodotti è, per ovvie ragioni, impossibile, tuttavia il lessicografo
dovrà servirsi di una raccolta rappresentativa di una data lingua. Di seguito parlerò
in breve della linguistica dei corpora, nonché delle banche dati di lingua italia-
na e di lingua polacca. L’analisi di questi corpora permette di selezionare insiemi
più adatti alla costruzione della banca dati lessicale nell’AOO. Nelle pagine che
seguono intendo anche proporre la lista dei lemmi che costituiranno il dizionario-
macchina per la traduzione italiano-polacco. Il dizionario in questione sarà essen-
zialmente un dizionario dei verbi italiani più frequenti, accompagnato dalla banca
dati composta di classi di oggetti necessari al fine di disambiguare i suddetti verbi.
Spiegherò la motivazione di questa scelta.

4.2. Analisi di corpora nel lavoro lessicografico

La consultazione di grandi corpora permette di stabilire l’impiego reale di


una data parola: il suo significato o il cambiamento del significato, se il lessico-
grafo ha a disposizione corpora diacronici (quindi testi pubblicati in un dato arco

116

Lessico computazionale_libro.indb 116 03/02/2016 14:46:35


temporale)1. Con l’analisi dei corpora si privilegia un approccio descrittivo piut-
tosto che normativo. Varia chiaramente il tipo di corpus da consultare a seconda
del tipo di dizionario che viene realizzato. In tal modo per i dizionari monolingui
verranno consultati corpora referenziali monolingui, per i dizionari specialistici –
corpora di linguaggio settoriale (giuridico, economico, ecc.), i dizionari multilingui
richiederanno la consultazioni di due corpora diversi di L1, L2, ecc. o eventual-
mente di un corpus parallelo2.
I corpora possono classificarsi essenzialmente in base al numero di lingue in cui
sono stati scritti i testi che nell’insieme li costituiscono. In tal modo distinguiamo i
corpora monolingui e multilingui. I primi, a loro volta, si dividono principalmente
in (mi baso su Lewandowska-Tomaszczyk 2005: 29–33): a) corpora generali, che
raccolgono diverse varietà linguistiche selezionate al fine di proporre un quadro
generale di una data lingua (tra cui anche grandi corpora di riferimento), b) cor-
pora specialistici, mirati alla descrizione di una particolare varietà linguistica, di
un dato dominio, di una data professione, ecc. c) corpora campionari, composti
da parti selezionate, quindi da frammenti di testi e non da tutte le opere (un simile
procedimento mira alla diversificazione e alla rappresentatività dei dati linguistici),
d) corpora di monitoraggio (monitor corpus), cioè raccolte dinamiche che vengono
aggiornate periodicamente tramite aggiunta di nuovi testi (lo scopo di un simile cor-
pus è, appunto, il monitoraggio dei cambiamenti che si verificano in una determina-
ta lingua in un dato arco temporale), e) corpora di lingua scritta e di lingua parlata.
I corpora multilingui si dividono in (ivi: 42–60) a) corpora paralleli: insiemi
di testi originali scritti in una data lingua (L1) e delle loro traduzioni in una o più
lingue di arrivo. I corpora paralleli sono dunque composti da almeno due sotto-
corpora, di cui uno è “speculare” all’originale. I due sottocorpora sono allineati,
cioè una data porzione di testo corrisponderà sempre alla sua traduzione, di solito
frase per frase. Tra i corpora paralleli con un componente italiano possiamo citare
p.es. il CORPIL (Corpus Português-Italiano Literário), che raggruppa testi letterari
scritti in portoghese brasiliano allineati alle loro traduzioni italiane e viceversa (cfr.
Zavaglia – Lopes Ferraresi 2006@); b) corpora comparabili3 : sono insiemi di testi
prodotti indipendentemente da utenti nativi in due o più lingue diverse, raggrup-
pati a seconda di vari criteri di omogeneità, tra cui: tematica, datazione di stesu-
ra, funzione, stile, tipo di pubblicazione, mezzo di pubblicazione. I sottocorpora

Ricordiamo le definizioni più comuni del corpus: a) «raccolta completa e ordinata di testi,
1 

di uno o più autori, riguardanti una certa materia» (Chiari 2007: 42), b) «campione di una lingua
preso in esame per la descrizione di una lingua» (De Mauro in GRADIT: 346).
2 
Per le fasi principali della compilazione di un’entrata lessicale bilingue basata sull’analisi
dei corpora si veda Atkins 1990 in cui l’autrice propone i seguenti passi: analisi, tranfer e sintesi;
ricordiamo anche le tappe di disambiguazione verbale di Banyś esposte nel paragrafo 3.4.
3 
Nella terminologia di Chiari i corpora comparabili sono definiti multilingui (Chiari 2007:
53). I corpora multilingui possono, però, essere classificati come una categoria di grado superiore
che include sia corpora paralleli che corpora comparabili.

117

Lessico computazionale_libro.indb 117 03/02/2016 14:46:35


comparabili, anche se non identici dal punto di vista strutturale, danno una visione
concreta dell’equivalenza terminologica e fraseologica tra diverse lingue. Tra i cor-
pora comparabili con un componente italiano troviamo p.es. BoLC Bononia Legal
Corpus (si veda il seguito).

4.2.1. Corpora italiani

Viste le finalità del dizionario-macchina nell’AOO, vale a dire la traduzione di


testi scritti, presenterò i più importanti corpora dell’italiano scritto (in ordine alfa-
betico). Per rendere il mio lavoro più utile per un futuro lettore, presenterò anche
una tabella riassuntiva dei corpora dell’italiano parlato.

▪ CoLFIS: Corpus e Lessico di Frequenza dell’Italiano Scritto


▫ enti aderenti al progetto: Scuola Normale Superiore di Pisa, Istituto di Scienze
e Tecnologie della Cognizione di Roma, Università di Salerno, Istituto di Lin-
guistica Computazionale di Genova, Università de L’Aquila, ▫ sito web:
http://www.istc.cnr.it/material/database/colfis
CoLFIS è un corpus rappresentativo di 3.798.275 occorrenze diviso in tre se-
zioni: quotidiani (1.836.119 occorrenze tratte da tre titoli giornalistici: La Stampa,
Il Corriere della Sera, La Repubblica del periodo 1992–1994), periodici (1.306.653)
e libri (655.503). Lo scopo principale del progetto era di raccogliere un insieme
rappresentativo di testi effettivamente letti dagli italiani e non quelli più frequen-
temente prodotti (dalla raccolta verrebbero quindi esclusi i testi come codici, rap-
porti tecnici, verbali, ecc., perché letti da un numero molto limitato di lettori). Per
la selezione testuale gli autori si sono serviti dell’indagine dell’ISTAT sulle letture
degli italiani del 1993.
In base ai testi che costituiscono il corpus è stato creato il lessico di frequenza
che contiene due sottoparti consultabili sul sito web del progetto: formario (con le
frequenze di tutte le parole testuali) e lemmario (che contiene le forme lemmatiz-
zate). Gli algoritmi di analisi del corpus permettono di estrarre le liste di frequenza
da vari settori del CoLFIS (per informazioni più dettagliate si veda Laudanna et
al. 1995).

▪ CORIS: Corpus di Riferimento dell’Italiano Scritto


▫ enti aderenti al progetto: Università di Bologna, ▫ sito web:
http://corpora.dslo.unibo.it/coris_ita.html
È un corpus di riferimento di 120 milioni di parole. Viene aggiornato ogni tre
anni tramite un “corpus di monitoraggio” (inserimento di dati attraverso determi-
nati filtri che permettono di selezionare dati nuovi e quelli inseriti in precedenza).
È un corpus generale, rappresentativo e sincronico dell’italiano scritto, i cui testi
s’inquadrano approssimativamente nel periodo 1980-1990. I testi sono stati rag-

118

Lessico computazionale_libro.indb 118 03/02/2016 14:46:35


gruppati nei sottocorpora: stampa, narrativa, prosa accademica, prosa giuridico-
amministrativa, miscellanea (vari volumi e saggi), ephemera (testi a mano, stampa-
ti, in formato elettronico di breve permanenza)4, ulteriormente divisi in sezioni e
sottosezioni (come p.es.: stampa quotidiana, periodica, supplementi, ecc.). Oltre al
corpus di riferimento il progetto propone un altro tipo di ricerca testuale tramite
CODIS – Corpus Dinamico dell’Italiano Scritto, che permette uno studio perso-
nalizzato del corpus attraverso una selezione adattata dei sottocorpora da analizza-
re. La versione demo del CORIS è disponibile on line, la consultazione dell’intero
corpus può essere chiesta attraverso un modulo da inviare all’amministratore del
progetto (si veda anche Rossini Favretti 2000).
Tra i corpora di una specifica varietà dell’italiano, o creati per uno specifico
studio linguistico, possiamo elencare:

▪ BoLC: Bononia Legal Corpus


▫ enti aderenti al progetto: Università di Bologna, Centro Interfacoltà di Lingui-
stica Applicata “L. Heilmann”, ▫ inizio del progetto 1997, ▫ sito web: http://
corpora.dslo.unibo.it/bolc_ita.html
BoLC è un insieme di corpora giuridici comparabili articolato in due sotto-
corpora – italiano e inglese. Il progetto vuole rendere conto delle differenze tra
i sistemi giuridici di civil low e common low, facendo riferimento ai testi giuridi-
ci pubblicati dalle istituzioni comunitarie dell’Unione Europea. In questo modo
si offre una duplice visione del diritto europeo: un diritto uniforme in continuo
progresso e la molteplicità di sistemi giuridici nazionali. Il subcorpus italiano è
composto da circa 33,5 milioni di parole ed è articolato come segue: testi legislativi
(Costituzione Italiana, Leggi Costituzionali, Leggi Ordinarie 1865-1999, Decreti
Legislativi 1915-1999, Codice Civile, Codice Penale, Codice di Procedura Civile,
Codice di Procedura Penale) e di giurisprudenza (sentenze della Corte di Cassa-
zione civili e penali tra 1995-1997). Il subcorpus inglese si compone di circa 21
milioni di token, tra cui testi legislativi (Acts of Pariament, Public Acts 1996-2000,
Local Acts 1997-2000, Statutory Instruments 1997-2000) e giurisprudenza (House
of Lords Judgments 1996-2000, Court of Appeal Judgments, Civil Division 1997-
2000, Criminal Division 1997-2000; dati statistici in Rossini Favretti et al. 2001; si
veda anche il sito web del progetto).
Oltre ai corpora della lingua italiana propriamente detti ci sono banche dati
contenenti i testi letterari italiani o dizionari elettronici costruiti in base a un cor-
pus di testi letterari, tra cui in primo luogo:

4 
Le occorrenze si presentano come segue (dati del 2000): stampa 38 milioni, narrativa 25 mil.,
prosa acc. 12 mil., prosa giur.-amm. 10 mil., miscellanea 10 mil., ephemera 5 mil. I dati attuali non
sono stati messi a disposizione.

119

Lessico computazionale_libro.indb 119 03/02/2016 14:46:35


▫ LIZ – Letteratura Italiana Zanichelli: una raccolta di testi letterari italiani in-
clusa nel seguente arco temporale: il primo testo - Laudes creaturarum di Fran-
cesco d’Assisi, l’ultimo testo – Coscienza di Zeno di Italo Svevo)5.
▫ TLIO – Tesoro della lingua italiana dalle origini: il dizionario storico dell’ita-
liano di 20 milioni di parole tratte da circa 1780 testi italiani in prosa e poesia
scritti prima del 1375 (consultabile on line sul sito web del progetto: http://
tlio.ovi.cnr.it/TLIO/).

Tabella 4.1: I più importanti corpora e lessici di frequenza dell’italiano parlato*.

API – Archivio dell’Italiano Parlato / AVIP – Archivio della Varietà d’Italiano Parlato:
coordinatore: A. Leoni, anni progetto: 1999-2001, enti: Università di Napoli Federico II,
Scuola Normale Superiore di Pisa et al., sito:
http://www.parlaritaliano.it/parlare/visualizza_prog.php?idp=59
Raccolta di dialoghi spontanei per uno studio fonetico dell’italiano e delle sue varie-
tà. Il corpus è stato registrato su DVD, distribuito gratuitamente da CIRASS (Fede-
rico II, Napoli), già esaurito, da consultare sul sito del progetto.

CIT – Corpus di Italiano Televisivo: autore S. Spina, inizio progetto 1998, ente: Università
per Stranieri di Perugia, numero parole: 250 000, sito: http://web.me.com/stefania.spina/
Sito/Home.html
Raccolta di trascrizioni di diverse trasmissioni televisive annotate per categoria gram-
maticale, non lemmatizzate. Da consultare la versione dimostrativa del corpus.

CLIPS – Corpora e Lessici dell’Italiano Parlato e Scritto: coordinatore: F. Albano Leoni,


anni progetto: 1999-2004, ente: CIRASS - Università di Napoli “Federico II”, sito web:
http://www.clips.unina.it/it/
Il corpus audio è diviso a seconda della tipologia del testo (radiotelevisivo, dialogico,
letto, telefonico, ortofonico) e della provenienza (diverse città italiane). Per acce-
dere al corpus è necessario registrarsi sul sito web. Per la sezione Lessici e Scritto
è responsabile l’Istituto di Linguistica Computazionale di Pisa che non ha ancora
pubblicato i risultati del progetto.

Corpus parlato di italiano L2: coordinatori: S. Spina, S. Pazzaglia, M. Periniente, ente:


Osservatorio sull’italiano di stranieri e sull’italiano all’estero, Università per Stranieri di
Perugia, sito web: http://elearning.unistrapg.it/osservatorio/Corpora.html
Raccolta delle trascrizioni di interviste condotte con gli studenti dell’italiano prove-
nienti dall’estero.

Per una più ampia panoramica delle raccolte dei testi letterari si veda il sito web “Letteratura
5 

italiana in rete”, disponibile in http://www.sb.shuttle.de/istituzione/italia/letteratura.html.

120

Lessico computazionale_libro.indb 120 03/02/2016 14:46:35


LABLITA – Corpus of Spontaneous Spoken Italian: coordinatore: E. Cresti, ente: Labora-
torio Linguistico del Dipartimento di Italianistica dell’Università di Firenze, sito: http://
lablita.dit.unifi.it/corpora
Corpus di lingua parlata spontanea, composto di due principali subcorpora: Corpus
del parlato spontaneo degli italiani adulti e Collezione di corpora longitudinali della
prima acquisizione dell’italiano. La raccolta è consultabile all’interno del C-ORAL-
ROM (Integrated reference corpora for spoken romance languages distribuito su CD)
o in parte sul sito del progetto.

LIP – Lessico di frequenza dell’italiano parlato: coordinatore: T. De Mauro, anni proget-


to: 1990-1992
Il lessico di frequenza è costruito sulla base di 469 testi (490 000 occorrenze) raccolti
in quattro città (Milano, Firenze, Roma, Napoli). Il corpus è consulatabile gratuita-
mente sul sito web del progetto BADIP (si veda la nota in fondo alla tabella).

LIR – Lessico Italiano Radiofonico: coordinatori progetto: N. Maraschio, S. Stefanelli,


inizio progetto 1998, ente: Centro Studi di Grammatica Italiana dell’Accademia della Cru-
sca, 90 ore di parlato)
Corpus di registrazioni radiofoniche (trascritte e in voce) tratte da nove emittenti
nazionali (tra cui RadioRai, Radio DJ, ItaliaRadio). Da consultare la versione DVD.

* Per un elenco più dettagliato dei corpora di minore entità si veda il sito del progetto BADIP (Banca
Dati dell’Italiano Parlato, http://badip.uni-graz.at). Il sito riporta la lista dei corpora pubblicati a partire
dal 1970.

4.2.2. Corpora della lingua polacca

Il lessicografo che lavora sui dizionari bi- o multilingui dovrebbe servirsi an-
che di corpora della lingua di arrivo, nei quali potrà analizzare l’impiego reale del
termine nella L2. Ritengo perciò lecito presentare almeno sommariamente i più
importanti corpora di lingua polacca. Inoltre, i corpora polacchi sono sicuramente
meno noti a un lettore italiano; mi sento, dunque, in dovere di pubblicizzare i la-
vori dei colleghi linguisti polacchi. Questi sono6:

6 
Il primo corpus della lingua polacca è stato realizzato negli anni 1963-1967 per la stesura del
vocabolario di frequenza. Si tratta di un progetto innovativo per l’epoca: ogni parola del corpus
veniva accompagnata dai dati relativi al tipo di flessione e dalla forma lemmatizzata della parola
testuale. Il corpus poteva inoltre considerarsi rappresentativo, data una vasta diversificazione dei
testi raccolti (si veda Piotrowski 2001: 173–175). Il corpus è stato rivisto ed è ora disponibile on
line sul sito http://www.mimuw.edu.pl/polszczyzna.

121

Lessico computazionale_libro.indb 121 03/02/2016 14:46:35


▪ Corpus IPI PAN
▫ enti aderenti al progetto: IPI PAN (Istituto di Scienze Informatiche dell’Ac-
cademia Polacca delle Scienze, Varsavia), ▫ anni di lavoro: il lavoro sul corpus
è ripartito in due progetti svolti negli anni 2001-2004 e 2005-2007, ▫ sito web:
http://www.korpus.pl
È un corpus annotato morfo-sintatticamente, composto di oltre 250 milioni
di segmenti, disponibile on line. La versione del 2006 comprende testi di: prosa
moderna – oltre 10%, prosa vecchia – quasi 10%, libri non narrativi (prevalente-
mente scientifici) 10%, narrativa 50%, stenogrammi delle sedute della Camera dei
Deputati e del Senato – 15%, leggi 5%. Il corpus è consultabile tramite il sistema
“Poliqarp” (Polyinterpretation Indexing Query and Retrieval Procesor) in forma di
motore di ricerca on line o come programma software a parte (per le statistiche
dettagliate si veda Przepiórkowski 2004). Il corpus offre un ottimo sistema d’inter-
rogazione che permette di trovare, oltre alle solite forme base, forme flesse o parti
del discorso, anche un dato caso della forma, il suo genere, numero, ecc.

▪ PELCRA Polish and English Language Corpora for Research and Application
▫ enti aderenti al progetto: Cattedra di Lingua Inglese dell’Università di Łódź,
Cattedra di Lingua Inglese Contemporanea dell’Università di Lancaster ▫
anno: il progetto iniziato nel 1997, ▫ sito web: http://www.pelcra.pl
PELCRA nasce come progetto internazionale che mirava a costruire corpora
della lingua polacca e inglese (sia corpora indipendenti che paralleli). Oggi può es-
sere considerato anche come un corpus nazionale della lingua polacca strutturato
sul modello del British National Corpus (si veda di seguito NKJP). Tra i compo-
nenti polacchi troviamo il Corpus referenziale della lingua polacca (Korpus refe-
rencyjny języka polskiego) composto di oltre 93 milioni di parole (disponibile on
line), e il Corpus della lingua polacca di conversazione (Korpus Polszczyzny Kon-
wersacyjnej – KPK), una parte del Corpus referenziale consultabile indipendente-
mente. KPK include le conversazioni spontanee registrate senza che i conversanti
ne fossero a conoscenza (ma pubblicate solo con la successiva autorizzazione dei
locutori). I testi sono stati trascritti e annotati con informazioni relative a: tema,
sesso, istruzione, tratti prosodici dei locutori. Le conversazioni sono disponibili
anche in forma audio. Il volume del corpus è pari a 600 000 parole uguali a 29
ore di registrazioni (per i dati più dettagliati si veda il sito del progetto; e anche
Lewandowska-Tomaszczyk 2005: 18–21).

▪ PWN
▫ enti aderenti al progetto: Casa editrice PWN, ▫ Anno: 1997, ▫ sito web: http://
www.korpus.pwn.pl
Il corpus più rappresentativo è stato creato da un’istituzione commerciale, per
cui l’accesso gratuito è limitato a una sola versione dimostrativa. L’accesso all’inte-

122

Lessico computazionale_libro.indb 122 03/02/2016 14:46:35


ro corpus è comunque molto facilitato e può essere effettuato tramite un account
personale (creato direttamente sul sito) a pagamento. Il corpus si compone di 40
milioni di parole (nella versione dimostrativa 7,5 milioni) differenziate dal punto
di vista del genere testuale (narrativa 20%, libri non narrativa 21%, stampa 45,5
%, interviste 4,5%, depliant 5,5%, siti web 3,5%) e dal punto di vista tematico
(filosofia e religione 7%, storia e geografia 17%, letteratura e linguistica 9%, scien-
ze matematiche e naturali 9%, politica ed economia 14%, scienze umanistiche
5%, scienze applicate 8%, arte 5,5% ed altri 25,5%), il che significa che PWN è
il corpus più differenziato disponibile nell’ambito polacco. Il corpus dimostrativo
è stato registrato su CD nel 2003 e inviato gratuitamente a ogni istituto di lingua
polacca delle università statali in Polonia. Inoltre, il CD è stato aggiunto alla versio-
ne esclusiva di Uniwersalny słownik języka polskiego (Dizionario universale della
lingua polacca).
Le istituzioni di cui sopra, insieme all’Istituto di Lingua Polacca dell’Accade-
mia Polacca delle Scienze di Cracovia, hanno collaborato per creare un corpus di
riferimento nazionale, denominato:

▪ NKJP Narodowy Korpus Języka Polskiego (Corpus Nazionale della Lingua Po-
lacca)
▫ enti aderenti al progetto: il consorzio IPI PAN, IJP PAN, PELCRA, Casa edi-
trice PWN, ▫ anno: il progetto finanziato dal Ministero delle Scienze e delle
Università negli anni 2007-2010, ▫ sito web: http://www.nkjp.pl
Il progetto ha come scopo la costruzione di un insieme di centinaia di milioni di
occorrenze testuali, che comprenderanno: testi di letteratura, quotidiani, giornali
specialistici, registrazioni di conversazioni, depliant e siti web. La diversificazione
dei testi dovrà rendere conto del sesso, dell’età e della provenienza territoriale
dell’autore del testo. Il progetto non è ancora terminato. La versione dimostrativa
con i frammenti del NKJP è disponibile direttamente sul sito del progetto.

4.3. Nuove tecnologie al servizio della lessicografia: analisi automatica del corpus

Lo studio linguistico viene oggi facilitato da diversi strumenti informatici che


il ricercatore ha a disposizione. Ad esempio, per le analisi testuali che richiedo-
no l’elaborazione di consistenti corpora, i linguisti possono servirsi di analizzatori
automatici del testo tramite i quali trovano velocemente tutte le informazioni ne-
cessarie. Chiaramente un’analisi automatica non può sostituire un vero e proprio
studio linguistico, ma indubbiamente lo accelera in una maniera che prima non era
possibile. Il continuo e veloce progresso tecnologico porta un vantaggio indiscuti-
bile anche per la lessicografia.
Prendiamo l’esempio di Słownik Języka Polskiego XVII i 1. Połowy XVIII
wieku (Dizionario di lingua polacca del Settecento e della prima metà dell’Ot-

123

Lessico computazionale_libro.indb 123 03/02/2016 14:46:35


tocento): nel 1954 è stato istituito il Laboratorio di Storia della Lingua Polacca
presso il Dipartimento di Linguistica dell’Accademia Polacca delle Scienze di
Varsavia, con lo scopo di compilare un dizionario di lingua polacca. Si supponeva
che la selezione del materiale avrebbe richiesto 5 anni di lavoro (il canone iniziale
inquadrava 422 opere di vario tipo e volume); in realtà il primo quadro di prova
è uscito solo nel 1996 e il lavoro non è ancora concluso. Tuttavia, da quando i
materiali dell’analisi sono stati digitalizzati (finora solo in parte, anche se la lista
originaria di testi è stata ridotta) i lavori procedono molto più velocemente. La
compilazione delle entrate lessicali si effettua a distanza mediante un formulario
on line architettato appositamente per il progetto. Inoltre, i redattori dell’opera
hanno deciso di non pubblicarla su carta, ma in formato elettronico, accessibile
anche on line7 (nel campo della lessicografia italiana è paragonabile la stesura
della versione cartacea del Grande Dizionario Elettronico Italiano↔Neerlandese,
curato da Lo Cascio, che è durata oltre 25 anni; per i dettagli sull’opera si veda il
paragrafo 1.2.4).
È indiscutibile che l’analisi automatica (o semiautomatica) del testo renda il
lavoro lessicografico semplicemente più comodo. Qui di seguito presento due si-
stemi di analisi testuale che, a mio parere, si caratterizzano per una particolare
funzionalità nel nostro campo.

4.3.1. Corpus Query System e SketchEngine

Corpus Query System (CQS) è un sistema d’interrogazione di corpora molto


efficace, attraverso cui il ricercatore può accedere a enormi banche bati testuali.
Il CQS gioca un ruolo fondamentale nella lessicografia basata su corpora, dan-
do al lessicografo uno inestimabile strumento di analisi, come la ricerca per frasi,
collocazioni, caratteristiche grammaticali, statistiche, ecc. Uno dei sistemi CQS
più sviluppato e riconosciuto nel settore è SketchEngine (SkE), lanciato da Lexical
Computing Ltd. sotto la direzione di Adam Kilgarriff: esso, oltre a una tradizionale
ricerca di collocazioni, integra altre funzioni di analisi lessicale e grammaticale di
cui si dirà meglio in seguito. Lo SkE mette a disposizione oltre quaranta corpora di
diverse lingue (tra i corpora inglesi The British National Corpus), prevalentemente
di testi consultabili on line. L’accesso al sistema è a pagamento, tuttavia è possibile
accedere al programma nella versione trial di 30 giorni gratuita dopo la registrazio-
ne sul sito del progetto.

7 
Per la storia dettagliata del progetto si veda il sito http://xvii-wiek.ijp-pan.krakow.pl; il sito
dà accesso al motore di ricerca del dizionario (ancora incompleto).
A questo proposito possiamo citare anche Słownik języka Jana Chryzostoma Paska (il diziona-
rio di Jan Chryzostom Pasek) uscito tra il 1965 e il 1973. Oggi la stesura di un simile dizionario,
supponendo che tutti i testi di Pasek siano stati digitalizzati, richiederebbe senz’altro molto meno
lavoro e, soprattutto, meno tempo.

124

Lessico computazionale_libro.indb 124 03/02/2016 14:46:35


La ricerca di concordanze è qui molto sofisticata: permette di trovare, oltre le
solite frasi in cui una data parola si trova, anche il contesto della parola a seconda
della categoria grammaticale, dell’unità lessicale o, addirittura, di una specifica
distanza dal lemma introdotto. Il motore di ricerca è intuitivo, per cui molto facile
da usare (si veda figura 4.1).

Figura 4.1: Schermata del motore di ricerca Sketche Engine

disponibili: lemma,
phrase, word form, CQL

casella di ricerca

filtro del contesto lessicale

da scegliere anche
il contesto destro e sinistro

filtro del contesto grammaticale

distanza fino a 15 unità lessicali

parti del discorso predefinite

L’opzione CQL (Corpus Query Language) favorisce un’analisi ancora più avan-
zata, eseguita attraverso un linguaggio di ricerca specifico (purtroppo vari pro-
grammi dispongono di differenti linguaggi di ricerca), con le principali funzioni:
lemma (ricerca per lessema), word (ricerca per forma flessionale) e tag (parte del
discorso), interscambiabili e variamente combinati, dove ogni unità è chiusa tra
parentesi quadre []. In tal modo, per trovare tutte le forme flesse della parola
andare bisogna immettere la seguente funzione [lemma=“andare”], mentre per
trovare tutti gli avverbi che seguono la stessa parola inserire: [lemma=“andare”]
[tag=ADV], ecc8.
Le combinazioni personalizzate di queste funzioni costituiscono uno stru-
mento davvero potentissimo di ricerca lessicale e testuale. A titolo d’esempio: a)
[word=“pseudo.*”] trova tutte le parole che cominciano con il prefissoide pseu-
do; b) [word=“pseudo.*” & !word=”pseudo|pseudonimo”] trova tutte le parole
che cominciano con pseudo ma non sono lemma pseudo né lemma pseudonimo;
c) [word=”.*bile” & tag=”ADJ”] trova tutte le parole che finiscono con –bile e
sono etichettate come aggettivi; d) [lemma=“buttare”] ([word=“via”]|[word=“gi

Altre funzioni (marchi d’uso) più importanti sono: & che sta per congiunzione, ! eccetto, .*
8 

ogni sequenza di segni, [] qualunque parola, {x,y} valori da x a y, () unione di funzioni, | o.

125

Lessico computazionale_libro.indb 125 03/02/2016 14:46:35


ù”]) trova tutte le sequenze di buttare seguito da via o giù; e) [tag=“VER:pres”] [] 
{0,2} [lemma=“scuola”] trova tutte le sequenze di un verbo al presente seguito dal
lessema scuola, dove tra le due unità possono esserci altre due unità lessicali non
definite. Gli esempi possono chiaramente moltiplicarsi.
Oltre alla ricerca delle concordanze (sia di una data unità lessicale che di una
sequenza definita di parole) lo SkE dispone di ulteriori funzioni di analisi testuale,
quali:
-- word list: crea la lista di frequenza delle parole che occorrono in tutto il
corpus o nei sottocorpora;
-- wordsketch: dà un’analisi del comportamento sintattico di una data uni-
tà lessicale (p.es. per togliere il programma trova 20 relazioni sintattiche,
come postV_N (sostantivi che seguono il verbo: p.es. fiato, scarpa, velo),
postV_ADV (avverbi che seguono il verbo, p.es.: delicatamente, via, subi-
to), pp_dalla-x (unità lessicali che seguono il verbo dopo la preposizione
articolata dalla, p.es.: padella, testa, scatola) e tanti altri. Il numero elevato
delle relazioni sintattiche è in questo caso dovuto al fatto che le preposizio-
ni articolate vengono considerate separatamente, come dal, dallo, dai, ecc.
e non come la stessa relazione sintattica). La funzione wordsketch è molto
utile per l’elaborazione di un dizionario di tipo AOO, visto che facilita l’a-
nalisi sintattica di una data unità lessicale;
-- thesaurus: trova parole che hanno simili caratteristiche grammaticali e col-
locazionali alla parola data. L’analisi è resa automaticamente attraverso le
statistiche di cooccorenze delle parole;
-- Sketch-Diff: permette di confrontare le cooccorrenze di due parole scelte,
creando uno spettro delle cooccorenze comuni, p.es. lo spettro dei verbi
posposti per i sostantivi casa e posto si presenta come segue (il programma
riporta le statistiche molto precise):

casa posto
costruire
abitare
parcheggiare
adibire
situare
occupare
rimanere
isolare
destinare
spettare
ricoprire
mettere
conquistare
piazzare
prenotare
limitare
vacare
assegnare
collocare
coprire
riservare
subentrare
sbagliare

4.3.2. Unitex

Unitex non è un solo programma di ricerca testuale, ma un insieme di risorse


per il trattamento automatico del linguaggio, composto, tra l’altro, di dizionari,
tavole grammaticali e grammatiche locali, inizialmente sviluppato per il francese

126

Lessico computazionale_libro.indb 126 03/02/2016 14:46:35


presso il LADL di M. Gross, in seguito esteso ad altre lingue (si veda Paumier
2002@: 9).
Il motore di ricerca di Unitex, scaricabile gratuitamente dal sito del proget-
to, permette di interrogare il corpus tramite espressioni regolari personalizzate.
Il sistema presenta, inoltre, due notevoli vantaggi rispetto ad altri programmi di
ricerca testuale automatica: a) accesso a dizionari elettronici. Unitex mette a dispo-
sizione dizionari in formato DELA (Dictionnaires Electroniques du LADL), tra cui
anche un dizionario per l’italiano e per il polacco, che riportano informazioni di
natura semantica, sintattica e flessionale sia per le parole semplici che composte;
l’entrata lessicale di tipo DELA è una semplice stringa di marcatori di vario tipo,
come: gît,gésir.V+z1:P3s (ivi: 32); parlerò a questo proposito in maniera più ap-
profondita nelle conclusioni; b) grammatiche locali in forma di grafi che possono
essere liberamente definiti dallo stesso utente.
In Italia sono nati diversi gruppi di ricerca che utilizzano il sistema Unitex,
nonché il formato DELA per la costruzione delle banche dati, tra cui uno dei più
noti è il gruppo “Maurice Gross” del Dipartimento di Scienze della Comunicazio-
ne dell’Università di Salerno (si veda p.es.: Elia et al. 2010@)

Figura 4.2: Schermata di Unitex (da sinistra: lista di frequenza, parole riconosciute in DELA,
parole non riconosciute, testo analizzato)

Oltre ai due sistemi di ricerca testuale di cui sopra ci sono altri programmi,
scaricabili gratuitamente da Internet o accessibili tramite licenza, il cui numero è
in continua crescita. La tabella 4.2 presenta un breve confronto di alcuni sistemi
che comprendono l’italiano tra le lingue analizzate.

127

Lessico computazionale_libro.indb 127 03/02/2016 14:46:35


Tabella 4.2: Confronto dei programmi per l’analisi dei corpora del portale korpusy.net*

WordSmith Concordan- MonoConc AntConc TextStat


Tools ce Pro
pagamento + + + - -
licenza
funzioni più importanti:
concordanze + + + + +
collocazioni + + + + -
lista di freq. + - - + +
ricerca + - - + -
sequenze di
parole
parole chiave + - - + -
lettura file in + + + + +
tempo reale
formato file .txt/.htm/. .txt/.html .txt .txt/.html/. .txt/.htm/.
letto xml htm/.xml/. doc/.docx/.
ant sxw/.odt
vantaggi - aggiorna- - statistiche - facile e in- - gratuito - interfaccia
menti dettagliare tuitivo nella - funzionale disponibile
- interfaccia - definizioni gestione - coopera in varie
funzionale persona- - necessita con tutti i lingue oltre
- guida det- lizzare di poca memo- sistemi ope- l’inglese
tagliata ricerca ria di lavoro rativi - gratuito
- possibile - editore del - attualizza- - coopera
contatto con testo incor- zioni con tutti i
gli autori del porato - installa- sistemi ope-
programma - risultati zione non rativi
di ricerca richiesta - è possi-
si possono bile creare
scaricare corpora
nel formato scaricati
.html direttamente
da siti web
svantaggi - gestione - pochi - poche - non è pos- - guida non
poco intu- formati file funzioni in sibile attri- disponibile
itiva gestiti confronto buire indice
ad altri pro- al corpus
grammi

128

Lessico computazionale_libro.indb 128 03/02/2016 14:46:35


* Una tabella più dettagliata è stata creata dagli autori del portale korpusy.net, da cui è scaricabile
l’intero documento. Qui presento un estratto modificato con i dati più importanti per i programmi
che analizzano i documenti in italiano.

4.4. Comprensione del testo e frequenza del lessema


Ho già accennato alcune volte che nel lavoro lessicografico occorre porsi dei
limiti raggiungibili: il ricercatore che vuole costruire una banca dati lessicale utile
per la traduzione automatica deve, prima di tutto, prendere in considerazione il
rapporto tra il lessico e la comprensione del testo. In quest’ottica sono d’aiuto le ri-
cerche glottodidattiche sulla comprensione della lingua straniera. Trovo una certa
analogia tra il testo tradotto automaticamente e il testo scritto in lingua straniera,
in cui il livello di competenze linguistiche non è quello della lingua materna: ci
sono, similmente, alcune parole sconosciute, nuove strutture sintattiche o elementi
della realtà extralinguistica nuovi. Gli studi sull’apprendimento della seconda lin-
gua prendono in considerazione diversi aspetti del sapere umano coinvolti nella
comprensione del testo, come: le conoscenze linguistiche (le conoscenze lessicali
ne fanno parte), le conoscenze del mondo (chiamate anche conoscenze di fondo,
background knowledge) e le abilità nell’uso del linguaggio (il cui risultato è anche
la comprensione del testo).
In linea di massima, si possono distinguere tre approcci alla questione: a) ap-
proccio strumentale (instrumental view), che vede il lessico come requisito princi-
pale e spunto per la comprensione del testo (con il rapporto diretto: conoscenza
del lessico → comprensione del testo), b) approccio attitudinale (aptitude view),
che vede le conoscenze lessicali come il risultato delle abilità mentali generali, per
cui le attitudini mentali si manifestano con un vocabolario largo, con alte com-
petenze nella comprensione del testo, ecc., c) approccio conoscitivo (knowledge
view), dove il lessico indica il livello di conoscenze del mondo (a questo proposito
si veda p.es. Hu Hsueh-chao – Nation 2000: 403–406). Il primo metodo nell’af-
frontare il problema è senz’altro riduzionistico, dato che il lessico non è l’unico
aspetto del linguaggio umano che permette di comprendere un dato testo. Dal
punto di vista della lessicografia e della traduzione automatica potrà, comunque,
considerarsi valido per il seguente motivo: dobbiamo assumere che le strutture
sintattiche verranno rese adeguatamente nella traduzione (è il compito dei pro-
grammi come tagger e parser), per cui l’aspetto puramente linguistico che rimane
da trattare è, per l’appunto, il lessico. Le conoscenze extralinguistiche dipendono
dall’utente del programma che, nel caso in cui trovi nel testo dei nuovi elementi
della realtà extralinguistica (elementi sconosciuti) può ricorrere a diverse fonti di
informazioni (lo fa anche con i testi nella lingua madre). Inoltre, il lessico scono-
sciuto è il fattore che determina l’insuccesso nella lettura di ogni testo.
Vediamo anche qual è la soglia (threshold) lessicale sufficiente per una buona e
adeguata comprensione del testo. Ricordiamo anche che the nature of the threshold

129

Lessico computazionale_libro.indb 129 03/02/2016 14:46:35


of reading comprehension indicates that vocabulary is the most critical element for in-
terpretation of the threshold9 (Huang 1999; le ricerche sulla seconda lingua rivelano
che nei test di competenza linguistica il punteggio ottenuto nella parte riguardante
la comprensione globale del testo è direttamente proporzionale al punteggio otte-
nuto nella parte del lessico, le conoscenze grammaticali non risultano altrettanto
importanti10). La questione più importante è il numero delle parole che costitui-
scono la soglia, quindi il lessico, indispensabile per la comprensione del testo.
A questo proposito possiamo citare i numeri proposti da Batia Laufer, secondo
cui la soglia di 3000 parole satura il 95% del lessico e garantisce il 56% di com-
prensione di un testo accademico (Laufer 1992; le ricerche sono state condotte su
un gruppo di studenti universitari). Similmente James Coady (1997) assume che il
livello di 3000 parole sia minimo per un’effettiva lettura da parte degli studenti di
lingua straniera (alcuni studi riportano numeri superiori, come p.es. 5000 parole
che coprono il 98% (Hirsh & Nation 1992); a questo proposito si veda anche
Maher Salah 2008@: 23). Il numero di parole (e della percentuale testuale) dipende
anche dal tipo di testo, dalla lunghezza del testo e dal dominio (ibid.). La soglia
di cui abbiamo appena parlato inquadra il cosiddetto lessico fondamentale di una
lingua su cui si basano principalmente i manuali di lingua straniera (per l’italiano
si veda di seguito, nel paragrafo 4.4.1) e che viene costruito in base al criterio di
frequenza con cui le parole occorrono nei testi. Possiamo quindi constatare che
c’è una stretta relazione tra la comprensione del testo e la frequenza d’uso delle
parole.
Il primo lessico di frequenza dell’italiano, LIF (Lessico di frequenza della
lingua italiana contemporanea), è stato elaborato già nel 1971 presso in Centro
Nazionale Universitario di Calcolo Elettronico di Pisa (per i particolari si veda
Bortolini et al. 1971, Juilland – Traversa 1973). Tra altre liste e dizionari redatti in
base a questo criterio troviamo: VELI (Vocabolario elettronico della lingua italia-
na curato da T. De Mauro) con 10.000 lemmi ordinari in ordine crescente per la
loro frequenza, LIP (Lessico di frequenza dell’italiano parlato) che include testi
raccolti tra il 1990 e il 1991 (si veda De Mauro et al. 1993). Molti altri corpora
della lingua italiana permettono di redigere la lista di frequenza delle parole rac-
colte. Dai primi lavori lessicografici basati sui corpora e sulla frequenza dei lemmi
i successivi progetti hanno man mano adoperato raccolte sempre più ampie e
differenziate di testi. Tra i più grandi dizionari basati sul criterio di frequenza c’è
il Grande Dizionario Italiano dell’Uso curato da Tullio De Mauro (già curatore di
altre opere lessicografiche; vedi sopra). Per illustrare meglio il rapporto tra il nu-

9 
‘La natura della soglia di comprensione per la lettura indica che il vocabolario è l’elemento
cruciale per l’interpretazione della soglia’.
10 
Sono interessanti gli studi sulla comprensione del testo scritto in una lingua non apparen-
tata alla lingua materna, come per esempio inglese-arabo. Anche in questo caso il lessico risulta
essere centrale (si veda p.es. Khalidieh 2001: 416).

130

Lessico computazionale_libro.indb 130 03/02/2016 14:46:35


mero di parole (frequenza) e la percentuale di testi che esse saturano, esaminerò
in dettaglio i rapporti quantitativi del lessico italiano riprodotti nel GRADIT.

4.4.1. Lessico fondamentale del Grande Dizionario Italiano dell’Uso

Nel GRADIT vengono proposte le seguenti marche d’uso (cito dall’introdu-


zione di De Mauro al GRADIT, vol. I: p. XX):

▫ FO: fondamentale: tra i lemmi principali; sono così marcati 2.049 vocaboli di
altissima frequenza, le cui occorrenze costituiscono circa il 90% delle occor-
renze lessicali nell’insieme di tutti i testi scritti o discorsi parlati;
▫ AU: di alto uso: sono così marcati 2.576 vocaboli di alta frequenza, le cui oc-
correnze lessicali costituiscono un altro 6% (circa) delle occorrenze lessicali
nell’insieme di tutti i testi scritti o discorsi parlati;
▫ AD: di alta disponibilità; sono così marcati 1.897 vocaboli, relativamente rari
nel parlare o scrivere, ma tutti ben noti, perché legati ad atti e oggetti di grande
rilevanza nella vita quotidiana (≈ 2% di occorrenze lessicali).

L’insieme dei vocaboli fondamentali, di alto uso e di alta disponibilità costituisce


il Vocabolario di Base della lingua italiana (VdB). Oltre a questi tre principali gruppi
di lemmi, il GRADIT riporta altre marche d’uso: ▫ CO: comune, vocaboli usati e
compresi indipendentemente dalla professione/mestiere, sono 47.060 vocaboli, tra
cui circa 7.000 parole del vocabolario di base; ▫ TS: tecnico-specialistico, 107.194
vocaboli tra cui 11.067 accompagnati da altre marche (FO, AU, CO, OB); ▫ LE:
di uso solo letterario, 5.208 lemmi; ▫ RE: regionale, 5.407 lemmi; ▫ DI: dialettale;
338 lemmi; ▫ ES esotismo; parole straniere, fonologicamente non adattate e non
inserite nella morfologia italiana, 6.938 lemmi; ▫ BU: di basso uso, 22.550 lemmi; ▫
OB: obsoleto: 13.554 lemmi.
Se confrontiamo il numero di lemmi del VdB (6.522) con i rimanenti 190.122
lemmi appartenenti ad altri gruppi (i numeri in esame non sono esatti, dato che
alcune marche d’uso possono cooccorrere nell’intestazione dello stesso lemma;
cfr. ivi: XXI), ne risulta che il 3,31% del lessico costituente il GRADIT equivale al
98% delle «occorrenze lessicali nell’insieme di tutti i testi scritti o discorsi parlati»
(vedi sopra), mentre il lessico fondamentale – 1,3% del GRADIT uguale al 90%
del corpus di tutti i testi italiani, secondo il redattore del suddetto dizionario. I
numeri non vanno presi alla lettera, ma come approssimazioni; rendono comun-
que l’idea della struttura quantitativa del lessico italiano in generale. Il rapporto
tra il lessico e la percentuale del testo secondo GRADIT viene presentato nella
figura 4.3:

131

Lessico computazionale_libro.indb 131 03/02/2016 14:46:35


Figura 4.3:
Dipendenze quantitative del Grande Dizionario Italiano dell’Uso (in approssimazione):
a sinistra: percentuale di occorrenze lessicali nell’insieme di tutti i testi scritti o discorsi parlati,
a destra: numero lemmi vs percentuale occorrenze:

2% 2%
6% AD altri 98
100
96
AU
90
196644

linea = numero lemmi


barre = % corpus

4625 6522
2049

90% FO

Per illustrare meglio la questione del lessico fondamentale (la percentuale del
testo che costituisce il lessico FO) di seguito presento una breve analisi del testo
effettuata tramite l’analizzatore VdB – da consultare sul floppy disk Guida all’u-
so delle parole11. Il testo analizzato è un articolo tratto dal sito yahoo.it (sezione
notizie)12 – uno dei più letti (lo ritengo adatto, perché si presuppone che il pro-
gramma di traduzione automatica del quale si parla in questo lavoro debba tradur-
re, per l’appunto, simili testi).
Nel testo le parole senza formattazione appartengono al livello FO, le parole in
corsivo sono le parole di alto uso, le parole in grassetto fanno parte del gruppo alta
disponibilità, invece le parole sottolineate non entrano nel Vocabolario di Base. I
risultati dell’analisi vengono riportati nella tabella 4.3.

“Intrusi a cena gala Casa Bianca hanno salutato Obama


La coppia che è riuscita ad introdursi senza alcun invito alla cena di gala or-
ganizzata alla Casa Bianca in onore del premier indiano Manmohan Singh ha
raggiunto e salutato il presidente Barack Obama.
Lo dicono funzionari della Casa bianca oggi.
Il Washington Post ha scritto per primo che una coppia della Virginia che

11 
In allegato a: De Mauro 1997; è un programma interattivo che permette la consultazione del
VdB e il confronto del lessico di un testo con lo stesso Vocabolario.
12 
L’indirizzo web esatto è: <http://it.notizie.yahoo.com/4/20091128/tts-oittp-obama-dinner-
security-ca02f96.html>, l’articolo Intrusi a cena gala Casa Bianca hanno salutato Obama è apparso
in data 28/11/2009.

132

Lessico computazionale_libro.indb 132 03/02/2016 14:46:38


non era sulla lista ufficiale degli invitati, Tareq e Michaele Salahi, è entrata al
party della Casa Bianca anche se non si è accomodata a nessuno dei tavoli
organizzati nel gazebo per la cena.
La Casa Bianca ha chiesto ai Servizi segreti un rapporto completo su quanto
accaduto e l’agenzia, incaricata di proteggere il presidente e gli altri invitati di
alto rango, sta conducendo un’accurata indagine su quanto avvenuto.
“I Servizi segreti sono profondamente dispiaciuti e imbarazzati dalle circo-
stanze”, scrive in una nota il direttore Mark Sullivan.
Secondo i primi rilievi, le procedure non sono state rispettate ad un checkpoint
iniziale. La coppia è passata sotto i metal detector ma non sarebbe assoluta-
mente dovuta arrivare sino a lì.
“La colpa è nostra”, ha aggiunto Sullivan.”

Tabella 4.3: Risultati dell’analisi del VdB: un esempio

Vocabolario Parole %Vocabolario


Fondamentale 123 65,08
Alto uso 16 8,47
Alta disponibilità 26 13,73
Non VdB 24 12,70
Totale 189

A prescindere dall’imprecisione del programma (p.es.: l’insieme “è riuscita” è


stato analizzato come due lessemi diversi, pur essendo la forma del passato pros-
simo di un solo verbo riuscire) 123 parole (65% del testo) sono state considerate
Fondamentali. Occorre però fare una precisazione: dal numero delle parole te-
stuali dobbiamo sottrarre il numero degli articoli (determinativi e indeterminativi)
che in questo caso non vanno considerati come parole semanticamente piene; 14
parole trattate come non presenti nel VdB sono nomi propri, quindi invariati nella
traduzione (anche se a volte sottoposti alle regole di flessione), 4 sono forestierismi.
Prese in considerazione le correzioni (FO: 112, AU: 16, AD: 18, non VsB: 6, totale:
152), dall’analisi risulta che il 73,7% delle occorrenze nel testo analizzato sono vo-
caboli di marchio FO. Analisi di altri articoli analoghi confermano questi risultati.

4.5. Quadro di riferimento progettuale – lista dei lemmi

Per creare la lista lemmi di riferimento mi servirò della lista di frequenza CoL-
FIS (di cui anche sopra). Ciò per le seguenti ragioni: a) ColFIS è un corpus dell’ita-
liano scritto effettivamente letto (bilanciato in base alle statistiche dell’ISTAT sulle
letture preferite dagli italiani), b) il volume del corpus è ampio, contiene 3.798.275

133

Lessico computazionale_libro.indb 133 03/02/2016 14:46:38


di parole testuali13, c) il lessico di frequenza presenta le forme ricondotte al lemma
(è inoltre disponibile la lista di frequenza delle parole testuali, dette semplicemen-
te “forme”), anche nel caso delle parole sintagmatiche (cioè polirematiche come
poco di buono, da parte di, ecc.), d) i file del lessico di frequenza sono liberamente
consultabili. Per di più, i file contenenti il lemmario (lista lemmi) e il formario
(lista delle parole testuali) sono stati codificati in formato .txt (solo testo), .mdb
(gestibile con Microsoft Access), .dbf (per Filemaker), per cui la loro consultazione
e l’analisi è stata resa più semplice.
Sia il lemmario che il formario sono strutturati in diversi file tra i quali è possi-
bile scegliere a seconda delle esigenze di ricerca: ci sono file contenenti solo lemmi,
solo forme, sia lemmi che forme, resi in ordine alfabetico o inverso. Inoltre, le
informazioni contenute nei file sono molto dettagliate e riportano il numero del
lemma, la frequenza assoluta totale del lemma nel corpus, le frequenze assolute
relative a sottocorpora indipendenti (quotidiani, periodici, libri), la dispersione
totale nel corpus, le rispettive dispersioni per i sottocorpora, la frequenza relativa
totale più quella per i sottocorpora, il rango d’uso, la lunghezza della parola in
caratteri, la forma o il lemma e la categoria grammaticale.
La codificazione delle categorie grammaticali proposta dai costruttori del
CoLFIS si presenta come segue: B: avverbio, C: congiunzione, E: nome proprio,
G: aggettivo, I: interiezione, K: punteggiatura, N: pronome, NU: numerale, P: pre-
posizione, R: articolo, S: sostantivo, TC: tempo composto di un verbo, V: verbo,
VA: verbo ausiliare, X: lingua non ben identificata, Z: simbolo, @: parola sintag-
matica (@ è il simbolo che accompagna sempre un’altra categoria grammaticale,
p.es.: V@ per esserci o N@ per il quale). Le categorie più importanti dal mio punto
di vista sono le parole tradizionalmente considerate come semanticamente piene,
vale a dire: sostantivi, verbi, aggettivi e avverbi.
Di seguito presento un’analisi sommaria del CoLFIS con la lista dei 10 lemmi
più frequenti nel totale del corpus e, rispettivamente, le liste dei 10 lemmi apparte-
nenti alle categorie grammaticali diverse (vedi sopra).

Tabella 4.4: Analisi quantitative del CoLFIS


a) I lemmi più frequenti.

lemmi più frequenti sostantivi verbi aggettivi avverbi

R Lemma Cat. R Lemma R Lemma R Lemma R Lemma


1 il R 37 anno 9 essere 22 suo 15 non
2 , K 71 giorno 21 fare 33 questo 25 più

Il numero che riferisco è quello apparso sul sito del progetto; il file scaricabile del lemmario
13 

contiene in realtà 3.798.296 occorrenze testuali corrispondenti a 89.352 lemmi.

134

Lessico computazionale_libro.indb 134 03/02/2016 14:46:38


3 di P 77 tempo 30 avere 46 tutto 31 anche
4 . K 84 volta 32 potere 47 quello 39 come
5 e C 85 uomo 38 dire 49 altro 53 poi
6 a P 92 casa 42 dovere 54 primo 61 così
7 uno R 96 vita 44 esserci 57 grande 62 solo
8 in P 99 parte 55 volere 60 mio 66 ancora
9 essere V 110 cosa 63 andare 74 nuovo 67 sempre
10 egli N 117 donna 64 stare 81 loro 78 già

b) Il numero delle manifestazioni di lemmi appartenenti a diverse categorie grammaticali a secon-


da della percentuale di tutte le occorrenze testuali nel corpus

% n.lemmi sost. verbi agg. avv. C E Z K N NU P R


50% 35 0 4 2 3 3 0 0 9 5 0 7 2
55% 67 1 11 8 9 7 0 0 11 9 1 8 2
60% 135 15 27 19 19 11 0 0 12 16 2 11 3
65% 271 55 59 40 38 16 3 0 13 21 6 17 3
70% 524 164 122 73 55 20 4 1 14 29 17 22 3
75% 946 358 230 127 82 24 13 1 15 31 30 32 3
80% 1631 696 377 223 110 31 39 1 15 39 52 45 3

Tra i lemmi più frequenti troviamo prevalentemente i segni di punteggiatura e


le parole funzionali14 (articolo, preposizioni, pronomi). Il verbo essere entra nella
prima decina del lemmario probabilmente perché nella maggior parte dei casi fun-
ge da verbo ausiliare o verbo supporto. La categoria “aggettivi” include i pronomi
dimostrativi, i pronomi possessivi, i pronomi indefiniti e i numerali ordinali, ciò
perché queste categorie si comportano sintatticamente come aggettivi (concorda-
no con i sostantivi dal punto di vista flessionale). La classificazione delle paro-
le dipende ovviamente dal modello adoperato dai creatori del corpus. Le parole
semanticamente piene (sostantivi, verbi, aggettivi, avverbi) appaiono sempre più
spesso oltre la soglia del 55% delle parole testuali del corpus (parte b della tabella
4.4) e il loro numero cresce in maniera parabolica. Le parole più frequenti corri-
spondono al lessico di base insegnato agli studenti stranieri (meno frequente sarà il
lessema, più probabilmente verrà inserito nel corso di lingua sempre più avanzato).

Per parole funzionali intendo generalmente le parole dotate di un significato grammaticale,


14 

prive di un significato lessicale, quindi lessicalmente vuote.

135

Lessico computazionale_libro.indb 135 03/02/2016 14:46:38


L’informazione più importante che è stata resa disponibile dai costruttori del
CoLFIS nei file del lemmario è la frequenza assoluta totale (FAT è il numero di
tutte le manifestazioni del lemma, cioè delle sue forme testuali). Data la FAT del
lemma è facile calcolare il numero di tutte le occorrenze testuali nel corpus in tota-
le, pari alla somma delle FAT di tutti i lemmi. Inoltre è anche possibile calcolare la
frequenza relativa (FR è uguale al risultato della divisione della frequenza assoluta
per il numero di tutte le occorrenze testuali). La FR moltiplicata per 100 dà la
frequenza percentuale, cioè l’impiego reale del lemma nel corpus. Ciò viene pre-
sentato dalle seguenti equazioni: a) numero occorrenze testuali = n1 + n2 + … + ni,
dove n1 è la frequenza assoluta del primo lemma del lemmario, n2 è rispettivamente
la FAT del secondo lemma, ni è la FAT dell’ultimo lemma del lemmario (il lemma
n. 89.352), b) frequenza relativa = frequenza assoluta totale / numero occorrenze
testuali, c) frequenza percentuale = frequenza relativa × 100.
Date le frequenze percentuali dei lemmi, è possibile redigere un grafico del
rapporto tra il numero di lemmi e la percentuale del corpus che essi realmente
saturano. Questo tipo di grafico si presenta come segue:

Figura 4.4:
Grafico delle occorrenze dei primi 10.000 lemmi in ordine di rango sul totale di 89.352 lemmi
del CoLFIS.

% lemmi

50% 35

55% 67

60% 135

65% 271

70% 524

75% 946

80% 1631

Il grafico ha la forma di una parabola con la concavità rivolta verso destra,


dove più alta è la percentuale del corpus, più alto è anche il numero di lemmi che
devono saturare il successivo 1%. In tal modo per salire dal 50% fino al 55% oc-
corrono 32 lemmi, dal 70% al 75% – 422 lemmi, mentre dall’85% al 90% ce ne
vogliono addirittura 2.746. È quindi importante stabilire la soglia del numero di
lemmi che andranno a trovarsi in una banca dati lessicale.
A questo punto propongo di prendere in considerazione i lemmi che saturano
l’80% del CoLFIS, quindi 1.631 unità lessicali. Se vogliamo paragonare il numero

136

Lessico computazionale_libro.indb 136 03/02/2016 14:46:38


alle soglie lessicali di cui ho parlato nel paragrafo 4.4, il numero del vocabolario
di base citato nel GRADIT – 2.049 parole – corrisponde nel CoLFIS al 82% sa-
turato del corpus, invece la soglia di 3.000 lemmi proposta da Laufer e Coady
satura l’85,37% del CoLFIS. Il dizionario-macchina potrà comunque limitarsi in
primo luogo alla lista di verbi, visto che l’analisi di un verbo considera tutto il suo
entourage frastico, per cui comporta la successiva analisi delle classi di oggetti. Il
progetto di creazione di una banca dati lessicale dovrà cominciare con le analisi
dei verbi che daranno un quadro dettagliato delle classi da analizzare (chiaramente
nell’ottica dell’AOO) nella tappa successiva. Il principio lessicografico di maggiore
importanza che sta in base alle mie riflessioni è seguente: non è tanto importante il
numero delle entrate lessicali di cui il dizionario si compone, quanto il contenuto
informativo che le entrate stesse presentano.
Siccome l’Approccio Orientato agli Oggetti è un modello della descrizione
lessicografica che prende in esame tutte le cooccorrenze testuali di una data uni-
tà lessicale, le informazioni contenute in una banca dati costruita secondo questi
principi andranno sicuramente oltre la soglia del 80% del testo da tradurre. Il
quadro di riferimento progettuale sono 377 verbi (si veda la tabella 4.5) – un
numero realmente raggiungibile da un gruppo di lessicografi. In tal modo il no-
stro progetto risulta fattibile15 (a titolo di confronto: tra i primi 2.049 lemmi più
frequenti del CoLFIS troviamo 451 verbi, invece tra i primi 3.000 lemmi ci sono
697 verbi). Ricordiamo anche che, oltre alla banca dati lessicale creata nell’ottica
AOO, il programma-traduttore potrà servirsi di un altro dizionario informatizzato.
I successivi verbi sono meno polisemici (cfr. la legge di Zipf), perciò i loro primi
equivalenti saranno sufficienti.
Tabella 4.5:
Verbi tra i lemmi che saturano l’ 80% del ColFIS (377 verbi su 1631 lemmi in totale)
(le colonne sono continue, anche se separate dal bordo pagina)

ESSERE PIACERE INDICARE CONCEDERE TRASMETTERE


FARE PAGARE BATTERE SOFFRIRE 75% GODERE
AVERE SOSTENERE PORRE GIUDICARE INVIARE
POTERE 50% PARTIRE MANTENERE DORMIRE CITARE
DIRE PREVEDERE NASCONDERE RIFERIRE GUADAGNARE
DOVERE MANCARE COMPIERE ESCLUDERE ROMPERE
ESSERCI PARERE RISCHIARE SOTTOLINEARE RITIRARE
VOLERE CHIUDERE TIRARE DIVIDERE INSERIRE

15 
A titolo d’esempio, il lessico fondamentale del CoLFIS uguale al 90% delle occorrenze
testuali è costituito da 5615 lemmi, tra cui 1131 verbi. Il numero sembra alquanto improbabile da
raggiungere.

137

Lessico computazionale_libro.indb 137 03/02/2016 14:46:38


ANDARE AMARE ABBANDONARE ACCOGLIERE INSISTERE
STARE PROVARE RIVOLGERE APPARTENERE SUGGERIRE
VEDERE 55% APPARIRE ACCOMPAGNARE DISCUTERE IMPEGNARE
SAPERE CREARE VENDERE RIDERE AGIRE
DARE PROPORRE MANGIARE ESSERVI DIVENIRE
TROVARE SUCCEDERE GIUNGERE PROMETTERE MINACCIARE
METTERE EVITARE PARTECIPARE REGISTRARE PREOCCUPARE
PARLARE AVVENIRE RIDURRE SCOMPARIRE PIANGERE
ARRIVARE RICEVERE ASCOLTARE AVVERTIRE OPERARE
PENSARE DIMOSTRARE RISULTARE COMMENTARE ESEGUIRE
SEMBRARE INCONTRARE SPOSARE COMPORTARE ESPORRE
PRENDERE ACCADERE DIFENDERE PROSEGUIRE VOLARE
CHIEDERE PERMETTERE CONDURRE CONQUISTARE ELIMINARE
LASCIARE CORRERE AMMETTERE VERIFICARE PROVENIRE
PORTARE RIGUARDARE ORGANIZZARE RIENTRARE GESTIRE
SENTIRE SCENDERE SALVARE ABITARE RISALIRE
RIUSCIRE ACCETTARE INVITARE ASSISTERE UNIRE
DIVENTARE RAPPRESENTARE IMPARARE CAPITARE SBAGLIARE
VENIRE 60% AIUTARE PROVOCARE SORRIDERE BERE
PASSARE FERMARE RISOLVERE INTERESSARE TENDERE
CERCARE TRASFORMARE UTILIZZARE SUONARE COMBATTERE
VIVERE OCCUPARE AFFIDARE FUNZIONARE RIUNIRE
TORNARE UCCIDERE IMPORRE DENUNCIARE APPROVARE
TENERE TOCCARE ALZARE SOSTITUIRE ADOTTARE
RIMANERE COSTRUIRE OSSERVARE SEDERE FUGGIRE
SPIEGARE TENTARE STUDIARE BLOCCARE PROTEGGERE
FINIRE COSTRINGERE FORMARE SCATTARE MERITARE
CAPIRE DEFINIRE ATTENDERE CURARE SFUGGIRE
CHIAMARE COMPRENDERE PUNTARE LIMITARE SEGNALARE
COMINCIARE AFFRONTARE COSTITUIRE LIBERARE INDOSSARE
SCRIVERE REALIZZARE ACCUSARE COINVOLGERE SPENDERE
RICORDARE AFFERMARE SPINGERE RITORNARE RIFLETTERE
PERDERE SUPERARE DIRIGERE CONSERVARE TRARRE
CREDERE DEDICARE RICHIEDERE CANTARE SPOSTARE

138

Lessico computazionale_libro.indb 138 03/02/2016 14:46:39


CONTINUARE SPERARE FORNIRE CONSEGNARE INTERROMPERE
CONOSCERE COLPIRE ASSICURARE ARRESTARE APPLICARE
RESTARE INIZIARE PUBBLICARE TRASFERIRE CAMMINARE
DECIDERE CADERE 70% OCCORRERE AVVIARE MIGLIORARE
RENDERE RACCOGLIERE ACCORGERE INSEGNARE DESIDERARE
PRESENTARE PREFERIRE FIRMARE COPRIRE CANCELLARE
USCIRE RITROVARE SEGNARE SALTARE SOLLEVARE
RACCONTARE LANCIARE STABILIRE SOTTOPORRE OSPITARE
GUARDARE ANNUNCIARE ANDARSENE ALLONTANARE VERSARE
RISPONDERE GIRARE ASSUMERE INTERPRETARE RECUPERARE
NASCERE SALIRE GUIDARE DISPORRE DISTRUGGERE
SEGUIRE SVOLGERE LEGARE PROCEDERE VESTIRE
TRATTARE RICONOSCERE CONTROLLARE TRASCORRERE CIRCONDARE
ENTRARE DICHIARARE DESTINARE ATTRAVERSARE CONSUMARE
BASTARE PREPARARE AVVICINARE VOLERCI DOMANDARE
LAVORARE VALERE INTERVENIRE SPARARE RIMETTERE
APRIRE 65% RIPRENDERE GARANTIRE ATTACCARE PERCORRERE
CAMBIARE CONCLUDERE CONVINCERE RISPETTARE VIAGGIARE
USARE RIPETERE RIPORTARE COMPORRE RIEMPIRE
SERVIRE DIMENTICARE TAGLIARE NEGARE DESCRIVERE
BISOGNARE CONSENTIRE COSTARE STRINGERE SVILUPPARE
ESISTERE SIGNIFICARE AUMENTARE GETTARE PREGARE
SCEGLIERE CRESCERE ACQUISTARE POSSEDERE IMPORTARE
RAGGIUNGERE RITENERE FISSARE PRECISARE EFFETTUARE
ASPETTARE CONFERMARE IMMAGINARE CEDERE COGLIERE
CONSIDERARE PRODURRE RINUNCIARE BUTTARE COMMETTERE
AGGIUNGERE MOSTRARE IMPEDIRE EMERGERE FAVORIRE
GIOCARE ESPRIMERE RIFIUTARE FREQUENTARE DOMINARE
SCOPRIRE RIVELARE DURARE VOTARE RECITARE
OTTENERE INTENDERE TEMERE DIPENDERE INVENTARE
MORIRE MUOVERE CONTENERE CONFESSARE CONSIGLIARE 80%
OFFRIRE TOGLIERE SUBIRE GRIDARE
VINCERE CONTARE NOTARE SOGNARE
LEGGERE MANDARE COMPRARE CONDANNARE

139

Lessico computazionale_libro.indb 139 03/02/2016 14:46:39


4.6. Considerazioni finali: in risposta agli scettici della traduzione automatica

Prima di concludere il presente lavoro, mi permetto di scrivere qualche parola


di riflessione del tutto personale. Sono già alcuni anni, anche se non molti, che
partecipo alla “vita linguistica” in Polonia e in Italia in maniera abbastanza attiva,
presentando relazioni ai convegni, partecipando ai corsi di addestramento pro-
fessionale o semplicemente scambiando esperienze con i colleghi linguisti. Ogni
volta che parlo della linguistica computazionale e della traduzione automatica tra i
miei interlocutori c’è qualcuno che pone sempre la stessa domanda: “Ma lei crede
davvero che la traduzione automatica sia possibile?” Chi domanda pensa, senz’al-
tro, ai problemi linguistici come metafore, metonimie, anafore (e agli altri aspetti
dell’incalcolabilità del linguaggio umano, di cui ho anche parlato nel corso del
lavoro) e si aspetta, vincente, una risposta negativa.
Una simile domanda mi stupisce almeno per due motivi. Prima di tutto, non
pare lecito chiedere a qualcuno se creda il suo lavoro abbia senso. E come chiedere
a un ricercatore biologo se crede sia possibile trovare il rimedio che combatta una
certa malattia (il biologo potrà, certo, dire: siamo ancora lontani, ma i nostri lavori
ci avvicinano pian piano alla meta). La mia prima risposta all’interlocutore scettico
è quindi: se non credessi che fosse possibile, non avrei cominciato a occuparmene.
Ma prescindendo dal carattere piuttosto scherzoso della prima risposta, ne posso
dare subito un’altra, tanto più seria e convincente: la traduzione automatica non
è una realtà fantastica in cui credere, l a t r a d u z i o n e a u t o m a t i c a è g i à
u n a r e a l t à d i f a t t o . I programmi della TA sono in uso da diversi anni (nel
capitolo 1 ho presentato un breve elenco di quelli più conosciuti) e, nonostante le
loro imperfezioni, permettono di capire, almeno in parte, il testo scritto in una lin-
gua sconosciuta. Un linguista-glottodidatta direbbe a questo proposito che è possi-
bile capire il senso globale di un testo tradotto automaticamente. La comprensione
globale di un testo straniero è, a mio avviso, un vantaggio inestimabile – cosa che,
a quanto pare, viene sottovalutata dagli scettici.
La traduzione dipende chiaramente, oltre che dalle capacità calcolatrici del
programma, soprattutto dai database lessicali di cui un dato programma si serve.
Lasciamo, comunque, per un attimo i presupposti teorici di un “traduttore auto-
matico” e vediamo un esempio di traduzione automatica eseguita da google tran-
slate, il programma probabilmente usato più di frequente per la TA da un utente
medio. Prendiamo in esame un articolo economico apparso on line su un sito turco
(1. la versione originale, 2. la traduzione in italiano)16.
1. İstanbul’u İzmir’e yaklaştıran imza
Türkiye’nin en büyük otoyol projesinde 4 milyar dolarlık imza atıldı İstanbul-

L’articolo pubblicato il 23/12.2011, su: http://ekonomi.haberturk.com/makro-ekonomi/


16 

haber/699445-istanbulu-izmire-yaklastiran-imza.

140

Lessico computazionale_libro.indb 140 03/02/2016 14:46:39


İzmir arasını 3,5 saate indirecek Türkiye’nin en büyük otoyol projesi olan
Gebze-Orhangazi-İzmir otoyolu projesinin finansmanıyla ilgili bankalarla ilk
imzalar atıldı. Konuya ilişkin OTOYOL Yatırım ve İşletme AŞ’den yapılan
yazılı açıklamaya göre, atılan ilk imzalarla projenin üstlenicisi OTOYOL
Yatırım ve İşletme AŞ (Nurol-Özaltın-Makyol-Astaldi-Yüksel-Göçay
ortaklığı) tarafından; Akbank, Finansbank, Türkiye Garanti Bankası, Türkiye
İş Bankası, Türkiye Halk Bankası, Türkiye Vakıflar Bankası, Türkiye Ziraat
Bankası ve Yapı ve Kredi Bankası yerli koordinatör bankalar […] projesinin
finansmanı için yaklaşık 4 milyar dolar sağlamak üzere görevlendirildi.

2. Firma più vicino a Istanbul a Izmir


La Turchia ha firmato 4 miliardi di dollari è stato il più grande progetto auto-
stradale Istanbul-Smirne, che ridurrà a 3,5 ore Orhangazi Gebze-Izmir auto-
stra da project financing relative banche sono stati i primi segni. Investimento
e gestione aziendale da AS, data una dichiarazione scritta sulla questione,
secondo AUTOSTRADA, imprenditore Autostrada del progetto rappresen-
ta le firme prima di investimento e di gestione Inc. (Nurol-Özaltın-Makyol-
Astaldi-Yuksel-Göçaysocietà di persone) da parte, Akbank, Finansbank, Ga-
ranti Bank, Turchia, Turchiabusiness Bank, la Banca popolare della Turchia,
la Turchia Fondazioni Bancarie, Banca agricola della Turchia e della Banca
edificio di prestito e, il coordinatore locale delle banche […] è stato incarica-
to di provvedere al finanziamento di circa $ 4 miliardi.

Nonostante una scorretta sintassi del testo o le parole non tradotte (perché
non trovate nella banca dati), siamo in grado di ritrovare le informazioni più im-
portanti: a) la Turchia ha firmato un contratto per le costruzioni autostradali, b) il
progetto non ha precedenti quanto ai finanziamenti, c) gli investimenti ammontato
a 4 miliardi di dollari, e) sappiamo anche quali sono le imprese che realizzeranno
l’opera. La lettura di un tale testo richiede, senza dubbio, molta più attenzione e,
forse, anche un po’ di pratica interpretativa. Ciononostante, il valore della tradu-
zione è innegabile. Per di più, come ho già accennato alcune volte nelle pagine di
questo lavoro, le traduzioni dei testi meno complessi, con un lessico ben descritto
nei dizionari-macchina, risultano molto più soddisfacenti. Prendiamo come esem-
pio le previsioni del tempo17 (cfr. il progetto canadese “Meteo”), dove la traduzio-
ne italiana è sicuramente molto meglio riuscita:

1. versione turca originale: Hafta sonu kar geliyor! Ülke genelinde hava
sıcaklıkları 6-10 derece azalacak... Türkiye, bugün Balkanlar üzerinden ge-
lecek soğuk havanın etkisine girecek. Meteoroloji Genel Müdürlüğünden
aldığı bilgiye göre, halen Orta Akdeniz üzerinden gelen ılık ve yağışlı hava
kütlesinin etkisi altında olan Türkiye’de, bugün batı kesimlerde görülecek

Testo originale tratto dallo stesso portale con la stessa data (www.haberturk.com/yasam/
17 

haber/699409-hafta-sonu-kar-geliyor).

141

Lessico computazionale_libro.indb 141 03/02/2016 14:46:39


yağışların Antalya ve Muğla çevreleri ile İzmir ve Aydın’ın kıyı kesiminde
kuvvetli olması bekleniyor.

2. traduzione italiana: Weekend  neve  sta arrivando! Temperature di  60-


10 gradi in tutto il paese sarà ridotto... Turchia, l’effetto di aria fredda verrà
fuori dei Balcani oggi. Secondo le informazioni ricevute dalla Direzione Ge-
nerale di Meteorologia, ancora masse d’aria calda e umida dal Mediterraneo
centrale attraverso la Turchia, che è sotto l’influenza, le precipitazioni saran-
no visibili oggi, la parte occidentale di Antalya e Muğla e Izmir e l’ambiente
costiero Aydın si prevede di essere forte.

Credo sia ormai ora di smettere con lo scetticismo programmatico e di comin-


ciare a vedere “il bicchiere mezzo pieno”. La traduzione automatica non è più,
come cinquant’anni fa, un’illusione (alludo qui al famoso, almeno in alcuni gruppi,
testo di Yehoshua Bar-Hillel: Machine translation: the end of an illusion (1963)). Lo
scetticismo verso la TA è inutile non solo perché non conforme ai fatti, ma, forse
soprattutto, perché un simile atteggiamento in ogni settore dell’attività scientifica
arresta il progresso della ricerca. Sono ben consapevole dei limiti della traduzione
eseguita dal computer ma, nonostante tutti gli ostacoli nel trattamento automatico
del linguaggio umano, i nostri lavori ottengono sempre più di frequente buoni
risultati. Anche se ci sono ancora diversi problemi da affrontare, ciò non significa
che tra poco non potremo risolverli. I problemi, a loro volta (ricordiamo il pen-
siero di Popper 1998 [1959]), sono per la scienza come la domanda per il merca-
to economico: generano la richiesta d’informazione scientifica, come la domanda
economica genera la richiesta di beni e servizi (l’analogia economica è proposta in
Rainko 2011: 13). I risultati delle ricerche sono quindi risposte ai problemi o, in
altri termini, sono frutti di un tentativo di soluzione a un dato problema.

142

Lessico computazionale_libro.indb 142 03/02/2016 14:46:39


CONCLUSIONI

Gli autori che parlano della descrizione lessicografica nei termini dell’Approc-
cio Orientato agli Oggetti presentano solitamente le analisi di una data classe di
oggetti (come p.es. la classe “fenomeni naturali” come in Perz 2007) o la disam-
biguazione di un dato verbo o gruppo di verbi (p.es. Żłobińska-Nowak 2008a). Il
presente lavoro differisce dai suoi precedenti non solo perché per la prima volta
espone l’argomento in lingua italiana, ma soprattutto perché propone una visione
olistica del lavoro lessicografico. Non mi sono voluto limitare all’analisi di una data
unità lessicale (né di un gruppo di unità lessicali: in questo caso le analisi seguireb-
bero sempre lo stesso schema), mi sono posto, invece, quattro obiettivi particolari,
che ho voluto raggiungere nel corso dei vari capitoli. Ho quindi presentato: 1) la
traduzione automatica nel suo contesto storico e paradigmatico più ampio, sof-
fermandomi sulle peculiarità del trattamento automatico del linguaggio, 2) i più
importanti modelli lessicali, specie per la lessicografia computazionale, 3) la de-
scrizione lessicografica basata sull’Approccio Orientato agli Oggetti, 4) i principali
strumenti e le risorse per la lessicografia italo-polacca e successivamente delineato
un quadro di riferimento per la creazione del dizionario-macchina destinato prin-
cipalmente alla traduzione automatica del testo scritto. I singoli capitoli possono
perciò leggersi anche separatamente o in ordine sparso.
Rimangono, comunque, alcuni punti che necessitano di ulteriori precisazioni
e conclusioni definitive:

1. L’annotazione semantica del testo


Nel paragrafo 1.2.2 ho parlato dei livelli di annotazione linguistica. Tra i vari
tipi di marcatura testuale abbiamo trovato l’annotazione semantica, cioè la codifica
del contenuto semantico delle unità linguistiche di un testo (Lenci 2005: 215). Le
modalità dell’annotazione semantica variano chiaramente a seconda delle catego-
rie semantico-concettuali predefinite (tratti semantici hum, anim, concr, ecc., o
ruoli tematici, del tipo: agente, paziente, esperiente) ma, in generale, mirano a
precisare la ricerca testuale in un corpus, quindi a evitare le ambiguità semantiche
(p.es.: in un corpus annotato semanticamente sarà possibile trovare tutte le occor-
renze della parola fede come oggetto concreto (anello), senza che tra i risultati della
ricerca ci siano le stesse occorrenze per astratto (culto, religione)). Possiamo anche

143

Lessico computazionale_libro.indb 143 03/02/2016 14:46:39


immaginarci un corpus annotato dal punto di vista delle classi di oggetti: una tale
risorsa testuale sarebbe ancora più versatile e potente. L’annotazione semantica ri-
chiede, però, che ci sia una gerarchia prestabilita di classi, e perciò potrà verificarsi
qualora tutto il dizionario (o ancora meglio, tutto il progetto) sia concluso.
Tra i programmi di analisi automatica del corpus (a questo proposito cfr. pa-
ragrafo 4.3) che consentono di annotare il testo in questa maniera c’è l’Unitex (cfr.
paragrafo 4.3.2), i cui dizionari riportano diverse caratteristiche lessicali (non solo
flessionali, ma anche semantiche) in forma di specifici codici. Un’entrata lessicale
tipica nel formato DELA (Dictionnaires Electroniques du LADL; è il formato de-
finito per l’Unitex) si presenta come segue: tavole,tavola.N+Conc:p, dove tavole è
la forma flessionale, tavola è la forma di base, N+Conc sta per il nome concreto,
invece p è l’informazione sulla flessione, che in questo caso sta per plurale. Le
entrate possono chiaramente essere molto più complesse (l’esempio di Paumier
(2002: 48): hang,.V:W:P1s:P2s:P1p:P2p:P3p, che va letto: infinito o 1. pers. sing.
del presente o 2. pers. sing. del presente, ecc.); i codici grammaticali e semantici
sono prevalentemente intuitivi e standardizzati (p.es.: A, ADV, CONJC, PREP;
Abst, Anl, Conc; per la tabella dei codici si veda ivi: 51), ma non sono esclusivi,
il che significa che l’utente può introdurre la propria lista di marcatori semantici;
ciò è anche nettamente visibile nel confronto dei dizionari redatti in differenti
lingue: i progetti nazionali utilizzano codici personalizzati (sono stati elaborati
alcuni standard di annotazione testuale, come quello definito nell’ambito del pro-
getto EAGLES: Expert Advisory Group for Language Engineering Standards; si
veda p.es. Monachini 1996@). Nella tabella 5.1 vediamo un esempio delle entrate
lessicali tratte dalla banca dati polacco-francese costruita presso il Dipartimen-
to di Linguistica Informatica “LINK” dell’Università Pedagogica di Cracovia (il
dipartimento coopera con LDI Paris 13 nella redazione dei dizionari-macchina
per la traduzione automatica; si veda anche il paragrafo 2.3). I codici riguardanti
le classi di oggetti vengono inseriti dagli autori nei dizionari formato DELA per
l’Unitex.
Possiamo, inoltre, immaginare un analizzatore che annoti automaticamente
anche le unità lessicali non poste nel dizionario (per il momento l’Unitex, una volta
effettuata l’analisi, riporta due liste separate delle occorrenze testuali: quelle rico-
nosciute nel dizionario o meno). L’annotazione delle unità sconosciute può verifi-
carsi per analogia, ricorrendo quindi a esempi noti, dalle cui proprietà semantico-
sintattiche descritte nella banca dati il programma “apprende” come trattare una
nuova parola (si paragoni la traduzione per analogia). Ricordiamo che la classifica-
zione delle parole a seconda delle classi di oggetti nell’AOO si basa, per l’appunto,
sulle caratteristiche semantico-sintattiche. Ad ogni modo, il problema dell’annota-
zione semantica richiede una vera e propria cooperazione tra i gruppi lessicografici
e laboratori informatici, affinché le idee dei primi possano essere implementate in
un programma software creato dai secondi. Il compito di un lessicografo consiste
a questo punto nella creazione delle banche dati lessicali, le quali saranno inserite

144

Lessico computazionale_libro.indb 144 03/02/2016 14:46:39


dai programmatori in un programma di traduzione automatica. In ogni fase del
lavoro, comunque, è necessario un continuo scambio di idee e di punti di vista.

Tabella 5.1: Un frammento della banca dati lessicale pl-fr del “LINK” (tratto da: Hajok 2011@)

mezzo di trasporto cat. gramm. tratto classe dominio equivalente


autobus subst, sg, nom, inc mt-ter-col transp.ter autobus
m3
autobus piętrowy subst, sg, nom, inc mt-ter-col transp.ter autobus à impériale
m3
autokar subst, sg, nom, inc mt-ter-col transp.ter autocar
m3
autokar dalekobieżny subst, sg, nom, inc mt-ter-col transp.ter autocar long-courrier
m3
autokar wycieczkowy subst, sg, nom, inc mt-ter-col transp.ter autocar d’excursion
m3
autokar wysokiego subst, sg, nom, inc mt-ter-col transp.ter autocar de grand
standardu m3 confort
autokar wysokiej klasy subst, sg, nom, inc mt-ter-col transp.ter autocar de grand
m3 confort
bus subst, sg, nom, inc mt-ter-col transp.ter bus
m3
dyliżans subst, sg, nom, inc mt-ter-col transp.ter diligence anglaise
m3
dyliżans angielski subst, sg, nom, inc mt-ter-col transp.ter diligence anglaise
m3

2. Standardizzazione del formato e l’impiego delle entrate lessicali in un program-


ma CAT
Nel corso del lavoro ho parlato dei parametri di valutazione dei programmi
computazionali, tra cui il criterio di riusabilità. Ricordiamo: è riusabile la struttura
che può essere adoperata al di fuori dell’ambiente in cui è stata creata. La banca
dati lessicale creata secondo l’AOO può essere utilizzata anche dai traduttori pro-
fessionisti che usano i programmi di traduzione assistita dal computer (i program-
mi CAT), come per esempio SDL Trados. Il formato dei dati (.xls / .htm /.xml e
altri) è oggi facilmente convertibile in uno dei formati adoperati nei programmi
CAT (.txt per WordFast, .xml per MultiTerm).
Tra i componenti del sistema SDL Trados troviamo SDL Multiterm Convert
(Multiterm è il programma che permette di creare i glossari per Trados) attraverso
cui è possibile convertire, tra l’altro, il file nel formato .xls (di Microsoft Office
Excel) nel formato corrispondente al sistema Trados. Un simile procedimento si

145

Lessico computazionale_libro.indb 145 03/02/2016 14:46:39


effettua in tre tappe: 1) conversione formato nel MultiTerm Convert, 2) creazione
del nuovo progetto nel MultiTerm, 3) importazione dei dati. Il dizionario creato
in SDL MultiTerm è in realtà un tipico dizionario informatizzato, con un motore
di ricerca, un indice di lemmi, ecc. Ho convertito, a titolo d’esempio, l’entrata
lessicale casa (di cui si è parlato nel paragrafo 3.3.1). Il glossario MultiTerm con le
entrate già caricate è presentato in figura 5.1.

Figura 5.1: Schermata del programma SDL MultiTerm 2007 (frammento)

Elementi:
motore di ricerca
elenco entrate
contenuto entrata
nome glossario

Il traduttore professionista che utilizza il programma Trados può servirsi della


banca dati MultiTerm direttamente nel corso del proprio lavoro. Ricordiamo che
tutti i programmi CAT dividono il testo da tradurre in segmenti (di solito frasi, ma
anche unità più piccole, separate da segni di interpunzione, come il punto e vir-
gola); quando, durante la traduzione, il programma trova nel segmento di origine
una parola posta nel glossario, suggerisce al traduttore l’equivalente. Il pannello di
controllo di Trados 2007, denominato Translator’s Workbench, evidenzia l’unità
lessicale con una linea rossa in alto e propone la traduzione nel riquadro destro del
Workbench (cfr. figura 5.2). Il traduttore può chiaramente consultare e accede-
re a tutto il glossario (senza dover aprire il componente MultiTerm), aggiungere
nuove unità lessicali, ecc. Le soluzioni proposte da SDL Trados risultano molto
convenienti.
I formati più versatili delle banche dati sono oggi .mdb di Microsoft Acces o
.xls dell’Excel. Il dizionario-macchina potrebbe, comunque, realizzarsi anche in
un semplice file tipo .txt (solo testo), probabilmente il più versatile e convertibile.

146

Lessico computazionale_libro.indb 146 03/02/2016 14:46:39


Figura 5.2: Panello di controllo del Trados 2007 con un glossario AOO attivato

3. La lessicografia nel programma degli studi


In alcuni programmi universitari dei corsi di laurea (o di laurea magistrale)
in lingue straniere viene inserito un corso interamente dedicato alla lessicografia.
Simili corsi, insieme ad altri insegnamenti, possono essere programmati al fine di
creare un dizionario ben definito nel programma. In tal modo la metodologia ela-
borata presso un dato istituto o dipartimento trova il suo impiego, senza fermarsi
ai limiti astratti della teoria lessicale. Simili programmi standardizzati d’insegna-
mento della lessicografia potrebbero coinvolgere anche ulteriori enti universitari.
Per il momento, un simile scambio di esperienze non si è mai verificato nell’ambito
dell’italianistica polacca, forse per le ragioni di cui parleremo nel punto 5. Mi per-
metto di ripetere: tra i principali aspetti del lavoro lessicografico che dovrebbero
essere presi in considerazione fin dall’inizio del lavoro c’è la fattibilità del pro-
getto. Ricordiamo inoltre che ogni progetto ben definito e coordinato permette
di accedere a finanziamenti ministeriali, borse di studio e altre fonti di sostegno
finanziario.
Il presente lavoro può ritenersi un quadro di riferimento nell’insegnamento
della lessicografia. Ogni singolo capitolo può essere trattato come manuale o una
come solida introduzione agli argomenti di cui si parla.
4. Aspetti metalinguistici delle presenti riflessioni
Le riflessioni sulla traduzione automatica e sulla lessicografia computazionale
si intrecciano con i commenti di natura metalinguistica, quindi con considerazioni
metodologiche, filosofiche, storiche , e – ovviamente – anche critiche, sulla disci-
plina di cui trattiamo in questo testo (si veda la definizione della metalinguistica
di Franciszek Grucza (1983)). Per questo motivo, nel capitolo 1 ho presentato
osservazioni a proposito della storia della traduzione automatica, nonché il conte-
sto paradigmatico della linguistica computazionale. Nei capitoli 2 e 3 ho illustrato
varie metodologie nel campo della lessicografia, ma usando approcci diversi: il
capitolo 2 ha un carattere descrittivo poiché presenta le ricerche lessicografiche
come sono condotte realmente presso diverse istituzioni, il capitolo 3, invece, po-
trebbe leggersi come una metodologia normativa, giacché, oltre alla presentazione
delle ricerche di un dato istituto, vuole proporre una metodologia concreta, che
considero la più adeguata per la traduzione automatica).

147

Lessico computazionale_libro.indb 147 03/02/2016 14:46:39


Perché ho deciso di concentrarmi anche sull’aspetto metalinguistico? Antoni
Furdal ha scritto nel 1977 che la lessicografia stessa non è una materia linguistica
stricto sensu, perché il suo obiettivo sta nel raccogliere lessici e redigere dizionari
(Furdal 1977: 39). Le riflessioni metodologiche, per l’appunto (di natura lessico-
logica e non lessicografica), avrebbero avuto, secondo l’autore, un carattere inter-
pretativo, per cui anche più “scientifico”. Il parere di Furdal sembra forse troppo
radicale: la redazione di un dizionario si basa, comunque, su dei presupposti teo-
rici (lo nota lo stesso Furdal, per questo descrive la lessicografia in termini di una
materia “ausiliare” alla linguistica; ibid.). Concordo con l’autore poiché le conside-
razioni di natura metodologica hanno un valore primario per la lessicografia: una
volta definito il progetto dal punto di vista metodologico, strategico ed editoriale,
i lessicografi possono incominciare a redigere il dizionario (qualunque siano i pre-
supposti da cui partono).
Infine, è lecito concludere le mie riflessioni con un’osservazione puramente
metalessicografica. A questo riguardo Piotr Żmigrodzki propone di impiegare la
categoria di a d e g u a t e z z a (definita similmente a quella delle grammatiche ge-
nerative: è uno dei criteri di valutazione dei modelli grammaticali; si parla a questo
proposito del grado di adeguatezza) anche nel campo metalessicografico: byłaby
to zgodność informacji zawartej w słowniku z danymi, które można wywnioskować
z (wielorako interpretowanego) empirycznego materiału językowego, tj. przede
wszystkim użycia języka poświadczonego w tekstach1 (Żmigrodzki 2005: 130). Tra
gli aspetti metalessicografici che vanno presi in considerazione nella valutazione di
un lavoro lessicografico troviamo quindi: a) l’adeguatezza della descrizione (vedi
sopra), b) il rapporto tra la descrizione lessicografica proposta e le attuali ricerche
linguistiche, c) il grado di chiarezza e semplicità nell’uso del dizionario da parte
dell’utente (ivi: 135–136).
Viste le caratteristiche metalessicografiche, possiamo constatare che il di-
zionario creato secondo i presupposti dell’AOO avrebbe ottenuto una qualifica
maggiore in una classificazione dei dizionari bilingui, perché: a) le entrate lessicali
riflettono, infatti, l’impiego reale delle unità lessicali nei testi (corpora), b) la no-
stra metodologia prende in considerazione il bagaglio delle esperienze scientifiche
della linguistica computazionale, quindi del paradigma linguistico più “giovane”
(ricordiamo che la LC è il contesto disciplinare della traduzione automatica; si
veda il paragrafo 1.2), c) anche se il nostro dizionario è dedicato principalmente
a scopi computazionali (è un dizionario-macchina), le entrate lessicali potranno
essere facilmente consultabili tramite un motore di ricerca anche da un utente
umano (ricordiamo il criterio di riusabilità del lavoro lessicografico illustrato anche
con l’impiego del glossario AOO nel MultiTerm).

1 
‘[…] che sarebbe definita come conformità del contenuto informativo presentato nel di-
zionario con i dati dedotti da un materiale linguistico empirico (variamente interpretato), cioè
soprattutto dall’impiego del lessema testimoniato nei testi’.

148

Lessico computazionale_libro.indb 148 03/02/2016 14:46:39


5. La lessicografia italo-polacca e la comunicazione interparadigmatica
Nel capitolo 1 ho parlato, tra l’altro, dei paradigmi scientifici nella linguistica.
La linguistica moderna, a prescindere dal criterio di demarcazione dei paradigmi,
si caratterizza per una netta coesistenza di differenti scuole linguistiche (paradig-
mi), a volte anche contrastanti. I rappresentanti di queste scuole partono spesso da
diversi presupposti, per percorrere la strada della “verità scientifica” con metodi
altrettanto diversi. Ireneusz Bobrowski parla a questo proposito della moltitudine
di discorsi linguistici (Bobrowski 2005) e sottolinea la mancata comunicazione tra
i rappresentanti delle differenti scuole. Il motivo di una simile condizione scien-
tifica è, secondo Bobrowski, il mito della cornice di Karl Popper, cioè l’opinione
secondo cui una proficua discussione è possibile soltanto all’interno di uno stesso
paradigma scientifico (il mito della cornice è un sistema di concetti e presupposti
elementari, nonché di regole di ricerca, condivisi da un gruppo di studiosi. Il ter-
mine è quindi paragonabile al “paradigma” di Kuhn. Popper, comunque, mette in
rilievo la metodologia scientifica, Kuhn invece punta l’attenzione verso il condizio-
namento sociale delle ricerche scientifiche).
I ricercatori delle lingue moderne formano un gruppo a parte in questa com-
plicata realtà scientifico-accademica. Il lavoro linguistico di un “neofilologo” ri-
sulta molto difficile: i rappresentanti di studia neophilologica appartengono a di-
verse scuole linguistiche, quindi le loro ricerche s’iscrivono in diversi paradigmi
(discorsi) linguistici. Per un linguista “fortemente schierato” (in termini del mito
della cornice; ricordiamo che esso complica una discussione costruttiva con altri
rappresentanti dell’ambiente accademico) il circolo dei potenziali partner per di-
scussione è a volte molto limitato2. Il pluralismo è chiaramente un aspetto positivo
nel lavoro scientifico, a condizione che, in fin dei conti, esso porti comunque a una
discussione e a una collaborazione delle parti.
Come incide tutto ciò sulle mie considerazioni in merito? La lessicografia bilin-
gue (italo-polacca) è un campo di ricerca molto limitato quanto a numero di lingui-
sti che se ne occupano. Tra le cause, prima di tutto, un basso numero di istituzioni
che offrono studi italiani in Polonia o studi polacchi in Italia (se paragonati con i
dipartimenti di anglistica o germanistica), senza contare che i ricercatori-italianisti
sono divisi dal punto di vista paradigmatico. La creazione di una vasta banca dati
lessicale richiede la collaborazione di un largo gruppo di lessicografi, non sempre
appartenenti o provenienti da un solo dipartimento o laboratorio lessicografico
(spesso il numero dei dipendenti di un tale laboratorio è semplicemente insuffi-
ciente per intraprendere lavori indipendenti). Il futuro è, credo, nelle iniziative di

2 
Le ricerche dei neofilologi riguardano soprattutto le lingue straniere, i risultati delle loro
analisi vengono pubblicati in queste lingue. La comunicazione tra gli anglisti è sicuramente più
facile, visto che l’inglese sta diventando (se non lo è già diventato) la lingua franca delle ricerche
linguistiche anche in Italia e in Polonia.

149

Lessico computazionale_libro.indb 149 03/02/2016 14:46:39


ricerca interistituzionali o interaccademiche.
Tra i miei obiettivi c’è anche la divulgazione della metodologia dell’Approccio
Orientato agli Oggetti perché in futuro si possano creare grandi dizionari-mac-
china, non solo per la traduzione automatica ma per tutti i settori della linguistica
computazionale di cui ho parlato nelle precedenti pagine.

150

Lessico computazionale_libro.indb 150 03/02/2016 14:46:39


RIFERIMENTI BIBLIOGRAFICI

Alonso Ramos, M. (1995), Hacia una definición del concepto de colocación: de J.


R. Firth a I. A. Mel’čuk, in «Revista de Lexicografía», 1994-1995, 1, pp. 9–28.
Amsterdamski, S. (1995), Kuhn Thomas: The structure of scientific revolution, in
B. Skarga (a cura di), Przewodnik po literaturze filozoficznej XX wieku, III,
Warszawa, PWN, pp. 211–221.
Apresjan, J. (1966), Idei i metody sovremennoj strukturnoj lingvistiki (Kratkij
očerk), Moskva, Izdatel’stvo Procveŝenie.
– 1974: Leksičeskaâ semantika. Sinonimičeskie sredstva âzyka, Moskva, Nauka.
Atkins, B. (1990), Corpus Lexicography: the Bilingual Dimension, in L. Cignoni
- C. Peters (a cura di), Computational Lexicology and Lexicography (Special
issue dedicated to B. Quemada), Pisa, Giardini, pp. 43–64.
Banyś, W. (1990), Dictionnaires électroniques et conception modifié-modifier, Mi-
meo: Instytut Filologii Romańskiej, Uniwersytet Śląski.
– (1995), Kognitywna leksykografia komputacyjna: Teoria Słownika Generatyw-
nego Pustejowsky’ego i Boguraev’a, in «Biuletyn Polskiego Towarzystwa
Językoznawczego», 51, pp. 49–66.
– (2000), Système de si en français moderne. Esquisse d’un approche cognitive.
Katowice: Wydawnictwo Uniwersytetu Śląskiego.
– (2002a), Bases de données lexicales électroniques – une approche orientée objets.
Partie I: Questions de modularité, in «Neophilologica», 15, pp. 7–29.
– (2002b), Bases de données lexicales électroniques – une approche orientée objets.
Partie II: Questions de description, in «Neophilologica», 15, pp. 209–249.
– (2005), Désambiguïsation des sens des mots et représentation lexicale du monde,
in «Neophilologica», 17, pp. 57–76.
Bar-Hillel, Y. (1963), Machine translation: the end of an illusion, in C.M. Pop-
plewell (a cura di), Information Processing 1962 (proceedings of the IFIP Con-
gress 62), Amsterdam, North-Holland, pp. 331–332.
Bartmiński, J. - Panasiuk, J. (2010), Stereotypy językowe, in J. Bartmiński (a cura
di), Współczesny język polski, Lublin, Wydawnictwo Uniwersytetu Marii Curie-
Skłodowskiej, pp. 371–395.
Bobrowski, I. (1998), Zaproszenie do językoznawstwa, Kraków, Wydawnictwo In-
stytutu Języka Polskiego Polskiej Akademii Nauk.

151

Lessico computazionale_libro.indb 151 03/02/2016 14:46:39


– (2005), O współistnieniu odmiennych dyskursów lingwistycznych, in «Poloni-
ca», 24–25, pp. 5–19.
– (2009a), O dwóch kognitywizmach, in «Biuletyn Polskiego Towarzystwa
Językoznawczego», 65, pp. 57–65.
– (2009b), On truth of linguistic propositions, in «Studia linguistica Universitatis
Iagellonicae Cracoviensis», 126, pp. 7–24.
Bogacki, K. - Karolak, S. (1991), Fondements d’une grammaire à base sémantique,
in «Lingua e Stile», XXVI, 3, pp. 309–345. 
Bogusławski, A. (1991), Lingwistyczny relatywizm względny. Anny Wierzbickiej
rozwiązanie problemu różnorodności języków, in «Etnolingwistyka», 4, pp.
41–49.
Bortolini, U. - Tagliavini, C. - Zampolli, A. (1971), Lessico di frequenza della
lingua italiana contemporanea, Milano, Garzanti.
Bréal, M. (1897), Essai de sémantique (science des significations), Paris, Hachette.
Calamai, S. - Gili Fivela, B. (2004), Progetto API – Unità di ricerca della Scuola
Normale Superiore, in F. Albano Leoni - F. Cutugno - M. Pettorino - R. Savy
(a cura di), Atti del Convegno Nazionale Il parlato italiano, Napoli 13–15 feb-
braio 2003 (CD ROM), Napoli, D’Auria Editore.
Calzolari, N. - Lenci, A. (2004), Linguistica Computazionale. Strumenti e risorse
per il Trattamento Automatico della Lingua, in «Mondo Digitale», 2, pp. 56–69.
Carlucci Aiello, L. - Dapor, M. (2004), Intelligenza artificiale: i primi 50 anni, in
«Mondo Digitale», 2, pp. 3–20.
Chiari, I. (2007), Introduzione alla linguistica computazionale, Roma-Bari, Laterza.
Chomsky, N. (1974), Le strutture della sintassi, Roma-Bari, Laterza [testo originale
Syntactic Structures, Den Haag, Mouton, 1957].
Chrupała, A. (2007), Traduction assistée par ordinateur – espérances trompeuses
ou réalité possible ? Description lexicographique du vocabulaire des sucreries en
québecois selon l’approche orientée objets, in «Neophilologica», 19, pp. 7–23.
– (2008a), Pain quotidien d’un lexicographe ou la description lexicographique du
vocabulaire de la nourriture selon l’approche orientée objets, in «Neophilologi-
ca», 20, pp. 46–56.
– (2008b), Les noms composés avec femme en français. Une étude de leur degré de
figement en vue d’un traitement automatique, Katowice, Para.
Chrupała, A. - Słapek, D. (2010), Maison et casa selon l’approche orientée objets,
in A. Dutka-Mańkowska - T. Giermak-Zielińska (a cura di), Des mots et du
texte aux conceptions de la description linguistique, Warszawa, Wydawnictwo
Uniwersytetu Warszawskiego, pp. 57–66.
Coady, J. (1997), L2 vocabulary acquisition through extensive reading, in J. Coady
- T. Huckin (a cura di), Second Language Vocabulary Acquisition: A Rationale
for Pedagogy, Cambridge, Cambridge University Press, pp. 225–237.
Corbé, M. (1960), La machine à traduire française aura bientôt trente ans, in «Au-
tomatisme», V, 3, pp. 87–91.

152

Lessico computazionale_libro.indb 152 03/02/2016 14:46:39


Couturat, L. - Leau, L. (1903), Histoire de la langue universelle, Paris, Hachette.
Cruden, A. (1736), Complete concordance of the Old and the New Testaments, Lon-
don, Lutterworth Press.
Czekaj, A. (2007), Problème d’héritage sémantique dans la description des parties du
corps, in «Neophilologica», 19, pp. 37–46.
Czekaj, A. - Śmigielska, B. (2009), Autour de la notion de prédicat, in «Neophilo-
logica», 21, pp. 8–17.
Dardano, M. - Trifone, P. (2006), Grammatica italiana con nozioni di stile, Bolo-
gna, Zanichelli.
Descartes, R. (2005), Tutte le lettere 1619-1650. Testo originale a fronte (a cura
di Ch. Adam e P. Tannery), Milano, Bompiani [raccolta originale, Oeuvres De
Descartes, Paris, Vrin, 1983].
De Carli, L. (2011), Di parola in parola, inseguendo sinonimi e analogie (recensio-
ne del Grande Dizionario Italiano dei Sinonimi e Contrari di T. De Mauro e del
Grande Dizionario Analogico di R. Simone, Torino, UTET, 2011), in «Azione,
Settimanale della Cooperativa Migros Ticino», 21 marzo 2011, 12, p. 28.
De Mauro, T. (1997), Guida all’uso delle parole, Roma, Editori Riuniti.
De Mauro, T. - Mancini, F. - Vedovelli, M. - Voghera, M. (1993), Lessico di fre-
quenza dell’italiano parlato, Milano, EtasLibri.
De Saussure, F. (1985), Corso di linguistica generale, Roma-Bari, Laterza [testo
originale, Cours de linguistique générale, Paris, Payot, 1916].
Eco, U. (1996), La ricerca della lingua perfetta nella cultura europea, Roma-Bari,
Laterza [prima edizione del 1993].
Fellbaum, C. (a cura di) (1998), WordNet: An Electronic Lexical Database, Cam-
bridge, The MIT Press.
Ferrari, G. (1991), Introduzione al Natural Language Processing, Bologna, Calderini.
– (2004), A State of the art in Computational Linguistics, in P. van Sterkenburg
(a cura di), Linguistics Today - Facing a Great Challange, Amsterdam-Phila-
delphia, John Benjamins, pp. 163–186.
Furdal, A. (1977), Językoznawsto otwarte, Opole, Opolskie Towarzystwo Przyjaciół
Nauk.
Gabrysiak, K. (2008), Quelques remarques sur la désambuguïsation des sens du verb
mettre, in «Neophilologica», 20, pp. 71–90.
Gatti, M.C. (1992), Dalla semantica alla lessicologia: introduzione al modello Sen-
so-Testo di I.A. Mel’čuk, Brescia, La scuola.
Ghezzi, C. - Jazayeri, M. (1997), Programming Language Concepts, New York,
Wiley & Sons.
Goddard, C. (2010), Semantic primitives (primes), in P. Hogan (a cura di), The
Cambridge Encyclopedia of Language Sciences, Cambridge, Cambridge Univer-
sity Press, pp. 740–741.
Gross, G. (1992a), Forme d’un dictionnaire électronique, in A. Clas - H. Safar
(a cura di), L’environnement traductionnel. La station de travail du traducteur

153

Lessico computazionale_libro.indb 153 03/02/2016 14:46:39


de l’an 2001, Montréal, Presses de l’Université de Québec, Aupelf-Uref, pp.
255–272.
– (1992b), Structuration d’une base de données en vue de l’elaboration d’un dic-
tionnaire bilingue, Mimeo, Laboratoire de Linguistique Informatique de l’U-
niversité Paris 13.
– (1994a), Classes d’objets et synonymie, in I. Amr Helmy (a cura di), Supports,
opérateurs, durées, Paris, Les Belles Lettre, pp. 93–102.
– (1994b), Classes d’objets et description des verbes, in «Langages», 115, pp. 15–30.
– (1994c), Un outil pour le FLE : les classes d’objets, in D. Flament-Boistran-
court (a cura di) Théories,  données  et pratiques en  français  langue étrangère
(Colloque international, Lille, les 12-13 juin 1992), Lille, Presses universitaires
de Lille, pp. 169–186.
– (1996), Rendre les dictionnaires plus actifs, in D. Piotrowski (a cura di), Lexi-
cographie et Informatique. Autour de l’informatisation du Trésor de la Langue
Française, Paris, Didier Erudition, pp. 195–212.
– (1999), Elaboration d’un dictionnaire électronique, in «Bulletin de la Societé de
Linguistique de Paris», XCIV, 1, pp. 113–138.
– (1999b), La notion d’emploi dans le traitement automatique, in S. Karolak (a
cura di), La pensée et la langue, Kraków, Wydawnictwo Naukowe Akademii
Pedagogicznej, pp. 24–35.
– (2008), Les classes d’objets, in «Lalies», 28, pp. 111–165.
Gross, G., Mathieu-Colas M. (2001), Description de la langue de la médecine, in
«Meta : journal des traducteurs», XLVI, 1, pp. 68–81.
Gross, M. (1975), Méthodes en syntaxe, Paris, Hermann.
– (1981), Les bases empiriques de la notion de prédicat sémantique, in «Langa-
ges», 63, pp. 7–52.
Gruber, T. (1993), A translational approach to portable ontology specifications, in
«Knowledge acquisition», V, 2, pp. 199–220.
Grucza, F. (1983), Zagadnienia metalingwistyki. Lingwistyka – jej przedmiot,
lingwistyka stosowana, Warszawa, PWN.
Hanks, P. (2003), Lexicography, in R. Mitkov (a cura di), The Oxford Handbook
of Computational Linguistics, New York, Oxford University Press, pp. 48–69.
Hausser, R. (1999), Foundation of Computational Linguistics. Man-Machine Com-
munication in Natural Language, Berlin-New York, Springer.
Heinz, A. (1979), Dzieje językoznawstwa w zarysie, Warszawa, PWN.
Hirsh, D. - Nation., P. (1992), What vocabulary size is needed to read unsimplified
texts for pleasure?, in Reading in a Foreign Language, VIII, 2, pp. 689–696
Hu Hsueh-Chao, M. - Nation, P. (2000), Unknown vocabulary density and reading
comprehension, in «Reading in a Foreign Language», XIII, 1, pp. 403–430.
Huang, C. (1999), The effects of vocabulary knowledge and prior knowledge on
reading comprehension of EFL students in Taiwan (tesi di dottorato inedita),
Ohio, Ohio University.

154

Lessico computazionale_libro.indb 154 03/02/2016 14:46:39


Hutchins, J. (1995), Machine translation: a brief history, in E.F.K. Koerner - R.E.
Asher (a cura di), Conciese history of the language sciences: from the Sumerians
to the cognitivists, Oxford, Pergamon Press, pp. 431–445.
– (2004), Two precursors of machine translation: Artsrouni and Trojanskij, in «In-
ternational Journal of Translation», XVI, 1, pp. 11–31.
Jassem, K. (2006), Przetwarzanie tekstów polskich w systemie tłumaczenia au-
tomatycznego POLENG, Poznań, Wydawnictwo Uniwersytetu Adama Mi-
ckiewicza.
Ježek, E. (2007), Polysemy of Italian Event Nominals, in «Faits des Langues», 30,
pp. 251–264.
– (2010), Sui Nomi di Risultato (e i loro verbi base) in italiano, in P.M. Bertinetto
- V. Bambini - I. Ricci (a cura di), Linguaggio e cervello / Semantica. Atti del XLII
Convegno della Società di Linguistica Italiana (CD ROM, II), Roma, Bulzoni.
Juilland, A. - Traversa, V. - (1973), Frequency Dictionary of Italian Words, Den
Haag, Mouton.
Jurafsky, D. - Martin, J. H. (2000), Speech and Language Processing: An Introduc-
tion to Natural Language Processing, Computational Linguistics and SpeechRe-
cognition, New York, Prentice Hall.
Karolak, S. (1974), O programie składni wyrażeń predykatywnych w gramatyce
języka polskiego, in A. Orzechowska - R. Laskowski (a cura di), O predykacji,
Wrocław, Ossolineum, pp. 7–23.
– (1984), Składnia wyrażeń predykatywnych, in Z. Topolińska (a cura di), Gra-
matyka współczesnego języka polskiego. Składnia, Warszawa, PWN, pp. 11–
136.
– (1995), Fondements d’une grammaire à base sémantique, in Id., Etudes sur l’ar-
ticle et la détermination, Kraków, Wydawnictwo Naukowe Wyższej Szkoły Pe-
dagogicznej, pp. 11–48.
– (1997), Aspect – catégorie grammaticale ? Formalisation des faits de langu, in
«Études cognitives / Studia kognitywne», 2, pp. 127–143.
Katerinov, K. (1992), La lingua italiana per stranieri. Corso medio lezioni (terza
edizione riveduta e corretta), Perugia, Guerra.
Khaldieh, S. A. (2001), The Relationship between Knowledge of Icraab, Lexical
Knowledge, and Reading Comprehension of Nonnative Readers of Arabic, in
«The Modern Language Journal», LXXXV, 3, pp. 416–431.
Korżyk, K. (1994), “Lingwistyka nie-autonomiczna? Kłopoty z interdyscyplinarnością,
in H. Kardela (a cura di), Podstawy gramatyki kognitywnej, Warszawa,
Zakład Semiotyki Logicznej Uniwersytetu Warszawskiego “Znak, Język,
Rzeczywistość”, Polskie Towarzystwo Semiotyczne, pp. 131–147.
Kozłowski, S. (2004), Co to jest tłumaczenie maszynowe, in J. Szymanik - M.
Zajenkowski (a cura di), Kognitywistyka. O umyśle umyślnie i nieumyślnie,
Warszawa, Koło Filozoficzne przy Kolegium Międzywydziałowych Indywi-
dualnych Studiów Humanistycznych, Uniwersytet Warszawski, pp. 63–93.

155

Lessico computazionale_libro.indb 155 03/02/2016 14:46:39


Kuhn, T. (1974), Second Thoughts on Paradigms, in Id.,  The Essential Tension,
Chicago, University of Chicago Press.
– (1978), La struttura delle rivoluzioni scientifiche, Torino, Einaudi [testo origi-
nale del 1962: The Structure of Scientific Revolutions, Chicago, University of
Chicago Press].
Lakoff, G. - Johnson, M. (2004), Metafora e vita quotidiana, Milano, Bompiani
[testo originale del 1980: Metaphors We Live By, Chicago, University of Chi-
cago Press].
Laudan, L. (1981), Science and Values, Berkeley, University of California Press.
Laudanna, A. - Thornton, A.M. - Brown, G. - Burani, C. - Marconi, L. (1995),
Un corpus dell’italiano scritto contemporaneo dalla parte del ricevente, in S. Bo-
lasco - L. Lebart - A. Salem (a cura di), III Giornate internazionali di Analisi
Statistica dei Dati Testuali, I, Roma, Cisu, pp. 103–109.
Laufer, B. (1992), How much lexic is necessary for reading comprehension?, in P.
Arnaud, H. Béjoint (a cura di), Vocabulary and Applied Linguistics, London,
Macmillan, pp. 126–132.
Laufer, B. - Malamed, L. (1994), Monolingual, bilingual and ‘bilingualised’ dictio-
naries: which are more effective, for what and for whom?, in W. Martin - W.
Meijs - M. Moerland - E. ten Pas - P. van Sterkenburg - P. Vossen (a cura di),
Euralex 1994 Proceedings, Amsterdam, Free University, pp. 565–576.
Leibniz, G.W. (2000), Scritti filosofici, a cura di M. Mugnai, Torino, UTET.
Lenci, A. - Montemagni, S. - Pirelli, V. (2005), Testo e computer. Elementi di lin-
guistica computazionale, Roma, Carocci.
Le Pesant, D. - Mathieu-Colas, M. (1998), Introduction aux classes d’objets, Lan-
gages, 131, pp. 6–33.
Lepschy, G.C. (1992), La linguistica del Novecento, Bologna, il Mulino.
Lewandowska-Tomaszczyk, B. (2005), Podstawy językoznawstwa korpusowego,
Łódź, Wydawnictwo Uniwersytetu Łódzkiego.
Lo Cascio, V. - Nijpels, E. (2006), Grande Dizionario Elettronico Italiano-Neerlan-
dese/ Neerlandese-Italiano. Fondazione Italned Amstelveen (Olanda) 2005, in
E. Corino - C. Marello - C. Onesti (a cura di), Proceedings XII EURALEX
International Congress. Atti, I, Alessandria, Edizioni dell’Orso, pp. 543–548.
Lyons, J. (1977), Semantics, II, Cambridge, Cambridge University Press.
Mańczak, W. (2008), Linguistique générale et linguistique indo-européenne,
Kraków, Polska Akademia Umiejętności & Uniwersytet Jagielloński.
Marignoni, D. (1890), Esperanto ossia la più pratica delle lingue internazionali,
Crema, Tipografia Carlo Cazzamalli.
Mathesius, V. (1991), Sulla cosiddetta articolazione attuale della frase, in R. Sarni-
cola - A. Svoboda (a cura di), Il campo di tensione. La sintassi della Scuola di
Praga, Napoli, Liguori, pp. 181–194 [testo originale del 1939: O takzvaném
aktuálním členění věty, in «Slovo a slovesnost», 5, pp. 171–174].

156

Lessico computazionale_libro.indb 156 03/02/2016 14:46:39


McCawley, J.D. (1968), The role of semantics in a grammar, in E. Bach - R.T.
Harms (a cura di), Universals in linguistic theory, New York, Holt, Rinehart
and Winston, pp. 124–169.
McLuhan, M. (1984), La città come aula. Per capire il linguaggio e i media, Roma,
Armando [testo originale del 1964: Understanding Media: The Extensions of
Man, New York, McGraw Hill].
Meillet, A. (1918), Les langues dans l’Europe nouvelle, Paris, Payot.
Mel’Čuk, I.A. (1974), Opyt teorii lingvističeskih modelej “Smysl↔Tekst”, Moskva,
Nauka.
– (1998), The Meaning-Text Approach to the Study of Natural Language and Lin-
guistic Functional Models, in «LACUS Forum», 24, pp. 3–20.
– (1999), Słowo o Annie, in Wierzbicka, A., pp. 14–19.
– (2003), Collocations dans le dictionnaire, in T. Szende (a cura di), Les écarts
culturels dans les Dictionnaires bilingues, Paris, Honoré Champion, pp. 19–64.
Menza, S. (2010), L’informazione sintattica, in S.C. Trovato (a cura di), Per un
Nuovo Vocabolario Siciliano, Palermo, Centro di studi filologici e linguistici
siciliani, pp. 37–64.
Meyer, B. (1997), Object-Oriented Software Construction, 2d.ed., Upper Saddle
River (NJ), Prentice-Hall.
Migliorini, B. (1995), Manuale di esperanto (introduzione di T. De Mauro), Mi-
lano, Cooperativa Editoriale Esperanto [prima edizione del 1922: Vito al Ta-
gliamento, Paolet].
Migoń, K. (1973), Problem języka uniwersalnego w XVII wieku, in J. Sulowski (a
cura di), Studia z historii semiotyki, Wrocław, Ossolineum, pp. 43–59.
Miller, G.A. (a cura di) (1990), «International Journal of Lexicography», 3-4
(special issue: WordNet: An on-line lexical database), Oxford, Oxford Univer-
sity Press.
Moravcsik, J.M. (1975), Aita as Generative Factor in Aristotle’s Philosophy, in
«Dialogue», 14, pp. 622–636.
Nagao, M. (2003), A framework of a Mechanical Translation between Japanese
and English by Analogy Principle, in S. Nirenburg - S.H. Somers -Y. Wilks
(a cura di), Readings in Machine Translation, Cambridge, The MIT Press, pp.
351–354.
Nunberg, G. - Zaenen, A. (1992), Systematic polysemy in lexicology and lexico-
graphy, in H. Tommola - K. Varantola - T. Salmi-Tolonen - J. Schopp (a cura
di), Proceedings of Euralex, II, Tampere, University of Tampere, pp. 377–396.
Paveau, M.-A. - Sarfati, G.-E. (2003), Les grandes théories de la linguistique. De la
grammaire comparée à la pragmatique, Paris, Colin.
Pawelec, A., (2008), Mentalizm w badaniach nad językiem, in P. Stalmaszczyk (a
cura di), pp. 105–119.
Perz, M. (2006), Phénomènes naturels – une esquisse orientée-objets, in «Neophi-
lologica», 18, pp. 169–178.

157

Lessico computazionale_libro.indb 157 03/02/2016 14:46:39


– (2007a), Classe de «  phénomènes naturels  » en français et en polonais - une
description orientée-objets (tesi di dottorato inedita), Katowice, Wydział Filo-
logiczny, Uniwersytet Śląski.
– (2007b), La classe de «phénomènes naturels» - essai de définition, in «Neophi-
lologica», 19, pp. 178–186.
Pethö, G. (1999), Die Behandlung der Polysemie in der Zwei-Ebenen-Semantik und
den prototypentheoretischen Semantiken, in «Sprachtheorie und Germanisti-
sche Linguistik», IX, 1, pp. 19–57.
Piasecki, M. (2008), Cele i zadania lingwistyki informatycznej, in P. Stalmaszczyk
(a cura di), pp. 252–290.
Piotrowski, T. (2001), Zrozumieć leksykografię, Warszawa, PWN.
– (2005), Komputerowe korpusy tekstowe polszczyzny, in M. Czermińska (a cura
di), Polonistyka w przebudowie, II, Kraków, Universitas, pp. 726–735.
Polguère, A. (1998), La Théorie Sens-Texte, in «Dialangue», 8-9, pp. 9–30.
Popper, K. (1998), Logica della scoperta scientifica, Torino, Einaudi [testo originale
del 1934: Logik der Forschung, Wien, Springer; edizione inglese (rivista) del
1959: The Logic of Scientific Discovery, New York, Basic Books].
Prencipe, V. (2006), Traduzione come doppia comunicazione. Un modello Senso-
Testo per una teoria linguistica della traduzione, Milano, FrancoAngeli.
Przepiórkowski, A. (2004), Korpus IPI PAN. Wersja wstępna / The IPI PAN Cor-
pus: Preliminary version, Warszawa, Instytut Podstaw Informatyki Polskiej
Akademii Nauk.
Pustejovsky, J. (1991), The generative lexicon, in «Computational Linguistics»,
XVII, 4, pp. 409–441.
– (1995), The Generative Lexicon, Cambridge, The MIT Press.
Pustejovsky, J. (a cura di) (1993), Semantics and the Lexicon, Dordrecht, The Ne-
therlands, Kluwer Academic Publishers.
Pustejovsky, J. - Boguraev, B. (1993), Lexical knowledge representation and natu-
ral language processing, in «Artificial Intelligence», LXIII, 1-2, pp. 193–223.
Rainko, S. (2011), Dwa paradygmaty. Esej z teorii wiedzy, Warszawa, PIW.
Renzi, L. - Salvi, G. - Cardinaletti, A. (2001), Grande grammatica italiana di con-
sultazione, nuova edizione, I, Bologna, il Mulino.
Rossini Favretti, R. (2000), Progettazione e costruzione di un corpus di italiano
scritto: CORIS/CODIS, in R. Rossini Favretti (a cura di), Linguistica e infor-
matica. Multimedialità, corpora e percorsi di apprendimento, Roma, Bulzoni,
pp. 39–56.
Rossini Favretti, R. - Tamburini, F. - Martelli, E. (2001), Words from Bononia
Legal Corpus, in «International Journal of Corpus Linguistics», 6, pp. 13–34.
Sapir, E. (1972), Cultura, linguaggio e personalità, Torino, Einaudi [testo originale
del 1949: Culture, Language and Personality. Selected Essays, Berkeley, Univer-
sity of California Press].

158

Lessico computazionale_libro.indb 158 03/02/2016 14:46:39


Semenov, A.L. (2008), Sovremennye informacionnye tehnologii i perevod, Moskva,
Izdatel’skij centr “Akademiâ”.
Serianni, L. (con la collaborazione di A. Castelvecchi) (1999), Grammatica ita-
liana. Italiano comune e lingua letteraria, seconda edizione, Torino, UTET Li-
breria.
Sethi, R. (1996), Programming Languages: Concepts and Constructs, Boston, Ad-
dison-Wesley.
Shannon, C.E. - Weaver, W. (1949) The Mathematical Theory of Communication,
Illinois, The University of Illinois Press.
Słapek, D. - Chrupała, A. (2010), Leksykografia komputacyjna a przekład auto-
matyczny. Zorientowany obiektowo model opisu jednostki leksykalnej, in «Po-
lonica», 30, pp. 59–72.
Spina S. (2001), Fare i conti con le parole. Introduzione alla linguistica dei corpora,
Perugia, Guerra.
Sproat, R. - Samuelsson, C. - Chu-Carrol, J. - Carpenter, B. (2001), Computa-
tional Linguistic, in M. Aronoff - J. Rees-Miller (a cura di), Handbook of
linguistic. Oxford, Blackwell, pp. 608–638.
Stalmaszczyk, P. (a cura di) (2008), Metodologie językoznawstwa. Współczesne ten-
dencje i kontrowersje, Kraków, Lexis.
– (2011), Metodologie językoznawstwa, Łódź, Wydawnictwo UŁ.
Succi, G. (2003), L’evoluzione dei linguaggi di programmazione: analisi e prospetti-
ve, in «Mondo digitale», 4, pp. 39–52.
Such, J. - Szcześniak, M. (2006), Filozofia nauki, Poznań, Wydawnictwo UAM.
Śmigielska, B. (2004), Approche orientée objets et hierarchie linguistique de con-
cepts. Questions d’application, in «Neophilologica», 16, pp. 106–126.
– (2007), Remarques sur la traduction automatique et le contexte, in «Neophilolo-
gica», 19, pp. 253–268.
Śmigielska, B. - Grigowicz, A. (2004), Description lexicografique fondée sur la mo-
dification conceptuelle : conception modifié-modifieur, in «Neophilologica», 16,
pp. 42–51.
Tabossi, P. (1998), Intelligenza naturale e intelligenza artificiale, Bologna, il Mulino.
Ullmann, S. (1957), The priciples of semantics. A linguistic approach to meaning,
Oxford, Blackwell.
Unesco Cultur Sector (2000), Word culture report 2000, Paris, Unesco Publishing.
Uschold, M. - Gruninger, M. (1996), Ontologies: principles, methods, and applica-
tions, in «Knowledge Engineering Review», XI, 2, pp. 93–155.
Victorri, B. - Fuchs, C. (1996), La polysémie. Construction dynamique du sens,
Paris, Hermès.
Vossen, P. (a cura di) (1999), EuroWordNet: A Multilingual Database with Lexical
Semantic Networks, in «Computational Linguistics», XXV, 4, pp. 628–630.
Wanner, L. (a cura di) (1996), Lexical Functions in Lexicography and Natural Lan-
guage Processing, Amsterdam-Philadelphia, Benjamins.

159

Lessico computazionale_libro.indb 159 03/02/2016 14:46:39


Webber, B.L. (2001), Computational prospectives on discourse and dialogue, in D.
Schiffrin - D. Tannen - H.E. Hamilton (a cura di), The Handbook of Di-
scourse Analisis, Oxford, Blackwell, pp. 798–816.
Wierzbicka, A. (1991), Uniwersalne pojęcia ludzkie i ich konfiguracje w różnych
kulturach, in «Etnolingwistyka», 4, pp. 7–40.
– (1996), Semantics: Primes and Universals, Oxford, Oxford University Press.
– (1999), Język – umysł – kultura, Warszawa, PWN.
Wilk-Racięska, J. (2009), Od wizji świata do opisu językoznawczego w kategoriach
lingwistyki kulturowej. Uwagi na temat hiszpańskiej syntagmy nominalnej, Ka-
towice, Wydawnictwo Uniwersytetu Śląskiego.
Winiarska, J. (2011), Kognitywizm – językoznawstwo otwarte?, in P. Stalmaszczyk
(a cura di), pp. 27–48.
Winkin, Y. (1996), Anthropologie de la communication : de la théorie au terrain,
Bruxelles, Éditions De Boeck Université.
Zamenhof, L. (1887), Meždunarodnyj âzyk. Predislovie i polnij učebnik, Varšava,
Tiro-Litografiâ H. Kel’tera.
Zipf, G.K. (1949),  Human behavior and the principle of least effort, Cambridge,
Addison-Wesley Press.
Żłobińska-Nowak, A. (2008a), Désambiguïsation des expressions lexicales des
opérateurs de l’espace dans le cadre d’une approche orientée objets: les ver-
bes de mouvement monter et sortir et leurs équivalents polonais, Katowice,
Wydawnictwo Uniwersytetu Śląskiego.
– (2008b), Le verbe venir – esquisse typologique et essai de traduction en polo-
nais de son emploi spatial français et espagnol, in «Neophilologica», 20, pp.
210–220.
– (2009), La notion du verbe locatif trivalenciel, structure sémantico-syntaxique et
nucléarité du lieu – le cas de monter/subir, in «Neophilologica», 21, pp. 140–
150.
Żmigrodzki, P. (2005), Adekwatność opisu słownikowego jako przedmiot meta-
leksykografii, in M. Kita - B. Witosz (a cura di), Spotkanie. Księga jubileuszo-
wa dla Profesora Aleksandra Wilkonia, Katowice, Wydawnictwo Uniwersytetu
Śląskiego.
– (2006), Metalingwistyka, in P. Stalmaszczyk (a cura di), Metodologie
językoznawstwa. Postawy teoretyczne, Łódź, Wydawnictwo Uniwersytetu
Łódzkiego, pp. 57–73.
Życiński, J. (1983), Język i metoda, Kraków, Znak.
Žolkovskij, A., Mel’čuk, I.A. (1965), O vozmožnom metode i instrumentah
semantičeskogo sinteza, in «Naučno-tehničeskaâ informaciâ», 5, pp. 23–28.

160

Lessico computazionale_libro.indb 160 03/02/2016 14:46:39


Riviste e materiali on line
Cennamo, M. - Ježek, E. (2010), La struttura argomentale dei verbi. Tra semantica e
sintassi, (materiali del laboratorio di ricerca lessicografica “Triple”, Università
Roma Tre, 25-29 gennaio 2010). Disponibile in: http://attach.matita.net/elisa-
bettajezek/file/Roma-Triple2010-2-handout.pdf
Elia, A. - Bocchino, F. - Langella, A.M. - Monteleone, M. - Vellutino, D.
(2010), Grammatiche locali per il riconoscimento automatico e la classificazio-
ne delle FAQ sull’Informazione Comunitaria Europea. Disponibile in: http://
www.ledonline.it/ledonline/JADT-2010/allegati/JADT-2010-1165-1174_160-
Elia.pdf
Giraldo, J.J. (2003), La teoría Sentido-Texto. Introdución. Disponibile in: http://
www.iula.upf.edu/materials/030313giraldo.pdf
Gobbo, F. (2005), Introduzione alla Traduzione Automatica. Disponibile in: http://
www.dicom.uninsubria.it/~fgobbo/it2005GobboF-IntroTA.pdf
Hajok, A. (2011), Metodologia opisu języka dla celów przetwarzania komputero-
wego. Klasa obiektowa (materiali del corso Master “Technologiczne aspekty
przetwarzania języka naturalnego” dell’Università Pedagogica di Cracovia).
Disponibile in: ttp://nf1.up.krakow.pl/moodle/course/view.php?id=4
Hedden, T. (1992), Machine translation: a brief introduction. Disponibile in: http://
ice.he.net/~hedden/intro_mt.html
Hutchins, J. (2005), The history of machine translation in a nutshell. Disponibile
in: http://www.hutchinsweb.me.uk/Nutshell-2005.pdf
Ježek E., 2009: Lessico e significato (materiali del laboratorio di ricerca lessicografi-
ca “Triple”, Università Roma Tre, 26-30 gennaio 2010). Disponibile in: attach.
matita.net/elisabettajezek/file/Jezek_Triple_1.ppt
Ježek, E. - Lenci, A. (2011), Il lemma e l’informazione semantica e pragmatica (ma-
teriali del laboratorio di ricerca lessicografica “Triple”, Università Roma Tre,
24-28 gennaio 2011). Disponibile in: http://attach.matita.net/elisabettajezek/
file/SIT2011Jezek1handout.pdf
Lenci, A. (2010a), Linguistica computazionale. Estrarre relazioni sintagmatiche
(materiali del laboratorio di ricerca lessicografica “Triple”, Università Roma
Tre, 25-29 gennaio 2010). Disponibile in: http://host.uniroma3.it/laboratori/
triple/SIT2010.html
– (2010b), Linguistica computazionale. Esplorare le strutture argomentali dei ver-
bi (materiali del laboratorio di ricerca lessicografica “Triple”, Università Roma
Tre, 25-29 gennaio 2010). Disponibile in: http://host.uniroma3.it/laboratori/
triple/SIT2010.html
– (2010c), Linguistica computazionale. Dal contesto linguistico al significato (ma-
teriali del laboratorio di ricerca lessicografica “Triple”, Università Roma Tre,
25-29 gennaio 2010). Disponibile in: http://host.uniroma3.it/laboratori/tri-
ple/SIT2010.html

161

Lessico computazionale_libro.indb 161 03/02/2016 14:46:39


Maher Salah, S. (2008), The relationship between vocabulary and reading com-
prehension of authentic Arabic texts (tesi di laurea inedita), Provo, Brigham
Young University. Disponibile in: http://contentdm.lib.byu.edu/ETD/image/
etd2508.pdf
Mel’čuk, I. (1997),  Vers une linguistique Sens-Texte. Leçon inaugurale, Paris,
Collège de France. Disponibile in: http://olst.ling.umontreal.ca/melcuk
Meschini, P. (2002), Rappresentazione di conoscenze lessicali. L’esempio di WordNet
e sue possibili estensioni (tesi di laurea inedita), Lugano, Università della Sviz-
zera Italiana, Facoltà di Scienze della comunicazione. Disponibile in: http://
www.bul.unisi.ch/cerca/bul/memorie/com/pdf/0102Meschini.pdf
Monachini, M. (1996), ELM-IT: EAGLES Specifications for Italian Morphosyntax
–Lexicon Specifications and Classification Guidelines, Pisa, EAGLES Technical
Report. Disponibile in: http://www.ilc.cnr.it/EAGLES/elm_it/elm_it.html
Niero, F. (2006), WordNet e sue applicazioni. Revisione e implementazione di un
database di termini matematici (tesi di laurea inedita), Padova, Università de-
gli Studi di Padova, Facoltà di Ingegneria. Disponibile in: http://www.math.
unipd.it/~laurap/grupponlp/TesiNieroFederica.pdf
Osimo, B. (2008), Corso di traduzione (parte terza: produzione). Disponibile in:
http://courses.logos.it/IT/3_3.html
Paumier, S. (2002), Manuel d’utilisation du logiciel Unitex. IGM, Université de
Marne-la-Vallée. Disponibile in: http://www-igm.univ-mlv.fr/_unitex/manue-
lunitex.pdf
Peroni, D. (2000) Concetti base dell’approccio object-oriented alla produzione del
software. Disponibile in: http://webbook.cefriel.it/download/ConcettiOO.
zip?mode=download
Polguère, A. (2010), Polysemy from a semantic and non-semantic viewpoint. Di-
sponibile in: http://jsm.loria.fr/jsm10/documents/lectures/polguere.pdf
Roventini, A. - Alonge, A. - Calzolari, N. - Magnini, B. - Bertagna, F. (2000),
ItalWordNet: a Large Semantic Database for Italian, in Proceedings of the 2nd
International Conference on Language Resources and Evaluation (LREC 2000),
Athens. Disponibile in: http://www.lrec-conf.org/proceedings/lrec2000/
pdf/129.pdf
Ruffolo, M. (2005), Gestione della conoscenza. Disponibile in: http://dns2.icar.
cnr.it/ruffolo/files/Gestione%20della%20Conscenza%202005-2006%20
-%206%20-%20Tipi%20di%20ontologie.pdf
Ruimy, N. (2003), Il modello lessicale SIMPLE: dal monolingue al bilingue. Dispo-
nibile in: http://www.ilc.cnr.it/clips/PONENCIA_SANMILLAN.pdf
– (2006), Un lessico elettronico multilivello dell’italiano per applicazioni di tec-
nologie del linguaggio umano. Disponibile in: www.ilc.cnr.it/clips/SIMPLE-
CLIPS.pps
Valente, A. (2006), Appunti su metodologie di sviluppo del software. Disponibile
in: http://130.251.133.8/CdS/Home/Corsi+e+dispense.htm

162

Lessico computazionale_libro.indb 162 03/02/2016 14:46:39


Valente, R. (2000), Diferenças e Similaridades Colocacionais entre o Português
Brasileiro e o Português Europeu. Estudo baseado na Noção de Função Lexical
da Teoria Sentido-Texto, in «Cadernos do CNLF», série 4, 7. Disponibile in:
http://www.filologia.org.br/anais/anais%20iv/civ07_9.htm
Walker, E. (a cura di) (1978), Cognitive Science, unpublished Report of The State
of the Art Committee to the Advisors of the Alfred P. Soan Foundation. Disponi-
bile nell’archivio di Cognitive Science Journal: http://csjarchive.cogsci.rpi.edu
Zavaglia, C. - Lopes Ferraresi, M. (2006), Construção de um corpus paralelo e
alinhado português-italiano-português para o domínio literário, in «Estudos
Lingüísticos», 35, pp. 502–511. Disponibile in: http://www.gel.org.br/estudo-
slinguisticos/edicoesanteriores/4publica-estudos-2006/sistema06/217.pdf

Dizionari e enciclopedie1
DAZ : Dizionario Analogico della Lingua Italiana di D. Feroldi e E. Dal Pra, Bolo-
gna, Zanichelli, 2011.
DdL: Dictionnaire de Linguistique di J. Dubois et al., Paris, Larousse,
1973.
DEC: Dictionnaire explicatif et combinatoire du français contemporain. Recherches
lexico-sémantiques, a cura di I.A. Mel’čuk et al., I: 1984, II: 1988, III: 1992,
IV: 1999, Montréal, Les Presses de l’Université de Montréal.
DGA: Grande Dizionario Analogico della Lingua Italiana, a cura di R. Simone, To-
rino, UTET, 2010.
DIN: Grande Dizionario Elettronico Italiano-Neerlandese/Neerlandese-Italiano di
Vincenzo lo Cascio, Amstelveen, Fondazione Italned, 2005.
EJO: Encyklopedia Językoznawstwa Ogólnego, a cura di K. Polański, Wrocław,
Ossolineum, 2003.
ENF: Filozofia a nauka. Zarys encyklopedyczny, a cura di Z. Cackowski et al.,
Wrocław, Ossolineum, 1987.
GRADIT: Grande Dizionario Italiano dell’Uso, a cura di T. De Mauro, Torino,
UTET, 1999-2000.
VNZ: Lo Zingarelli 2007. Vocabolario Della Lingua Italiana di N. Zingarelli, Bolo-
gna, Zanichelli.
GRZ: Grande Dizionario di Italiano Garzanti, Torino, UTET, 1994.

1 
Le prime lettere degli acronimi stanno per: D – dizionario, V – vocabolario, E – enciclopedia.

163

Lessico computazionale_libro.indb 163 03/02/2016 14:46:39


Dizionari on line
DGZ: Dizionario Garzanti: http://garzantilinguistica.sapere.it
Disponibili anche: il dizionario di sinonimi, le tavole di coniugazione, i di-
zionari italiano-francese, italiano-inglese; per la consultazione è necessario
essere registrati (registrazione gratuita).
Sul portale Sapere.it
(http://www.sapere.it/sapere/dizionari.html) da cui è possibile consultare
lo stesso DGZ, sono inoltre disponibili i dizionari bilingui italiano da/verso:
inglese, francese, tedesco, portoghese, spagnolo, polacco, albanese, turco e
filippino.
DIH: Dizionario Italiano Hoepli on line: http://dizionari.hoepli.it
Tratto da: Gabrielli, A. (a cura di) (2011), Grande Dizionario Italiano, Mila-
no, Hoepli; disponibili anche le versioni: italiano-francese, italiano-tedesco,
italiano-inglese, italiano-spagnolo; per la consultazione è necessario essere
registrati (registrazione gratuita).
DOL: Dizionario Italiano: http://www.dizionario-italiano.it
Il dizionario in fase di sviluppo sotto la direzione di E. Olivetti; riporta la
trascrizione fonetica dei lemmi secondo API.
DSC: Dizionario Sabatini Coletti: http://dizionari.corriere.it
Il dizionario di italiano disponibile on line dalle pagine del sito del Corriere
della Sera. Il portale dispone inoltre di: dizionario sinonimi e contrati, dizio-
nario dei midi di dire (di M. Quartu, Hoepli Editore), dizionario di citazioni
(Tra virgolette di F. Rosti, Zanichelli Editore), dizionario di inglese (il San-
soni Inglese, redatto da V. Macchi), francese (Francese Compatto, Zanichelli
Editore), spagnolo (Spagnolo Compatto, Zanichelli Editore), tedesco (il San-
soni Tedesco), e  un manuale di consigli pratici sull’uso della lingua italiana
Si dice o non si dice (di A. Gabrielli, Hoepli Editore).
VTR: Vocabolario Treccani: http://www.treccani.it/vocabolario
Le entrate del vocabolario esaustive con numerosi esempi d’uso; il portale
offre anche il servizio di enciclopedia e dizionario bibliografico.
I dizionari Zanichelli on line: il portale della casa editrice Zanichelli (Bolo-
gna: Zanichelli Editore, sito web:
http://dizionari.zanichelli.it/dizionari-online) offre l’accesso a più di 20
opere tra quelle più importanti dell’editore, tra cui p.es.: il dizionario italia-
no-inglese Ragazzini, il vocabolario della lingua latina Castoglioni Mariotti,
il dizionario dei film il Morandini, ecc. La consultazione delle opere è per-
messa agli abbonati, ma è possibile effettuare un periodo di prova gratuito
di 7 giorni (o 100 consultazioni).

164

Lessico computazionale_libro.indb 164 03/02/2016 14:46:39


Per l’italiano
BIZ: Biblioteca Italiana Zanichelli, a cura di P. Stoppelli, 2010.
DSC: Sinonimi e Contrari di G. Pittàno, 20103.
DPR: Il grande dizionario dei Proverbi Italiani di P. Guazzotti - M.F. Oddera, 2010.
VZI: Lo Zingarelli 2012, Vocabolario della lingua italiana di N. Zingarelli, 2011.

165

Lessico computazionale_libro.indb 165 03/02/2016 14:46:39


Lessico computazionale_libro.indb 166 03/02/2016 14:46:39
INDICE DEI NOMI

Alonso Ramos, M., 62 Clas, A., 69


Amsterdamski, S., 36, 38 Coady, J., 130, 137
Apresjan J., 40, 42, 43, 62, 65, 87–90 Comte, A., 36
Artsrouni, G., 19, 22 Corbé, M., 19
Atkins, B. 117 Couturat, L., 18
Austin, J. 25 Cruden, A., 24
Czekaj, A., 55, 56
Bacon, F., 36
Banyś, W., 14, 32, 33, 47, 52, 81, 90, 91, Dal Pra, E., 34
93–96, 104, 105, 116, 117 Dardano, M., 106
Barabási, A.L., 34 De Carli, L., 35
Bar-Hillel, Y., 142 De Mauro, T., 18, 26, 117, 121, 130–132
Bartmiński, J., 25 De Saussure, F., 15, 36
Baudouin de Courtenay, J., 18 Descartes, R., 17
Beck, C., 18 Duhem, P., 36
Beszterda, I., 14
Bobrowski, I., 25, 36, 37, 149 Eco, U., 18, 19
Bogacki, K., 47–52, 85 Elia, A., 127
Boguraev, B., 78, 79, 81
Bogusławski, A., 37, 51 Fellbaum, C., 72
Bortolini, U., 130 Feroldi, D., 34
Bréal, M., 42 Ferrari, G., 14, 26
Busa, M., 24 Feyerabend, P., 36
Fuchs, C., 42–44
Calzolari, N., 24, 25, 27, 29, 84 Furdal, A., 38, 148
Carnap, R., 18, 25
Cennamo, M., 81 Gabrysiak, K., 113
Chiari, I., 12, 20, 26, 30–32, 39–41, 91, Gatti, M.C., 62
116, 117 Ghezzi, C., 12
Chomsky, N., 20, 25, 37, 63, 113, 114 Giordano, P., 30
Chrupała, A., 29, 33, 39, 90, 93, 96, Giraldo, J.J., 65
100, 113, 114 Gobbo, F., 17, 22

167

Lessico computazionale_libro.indb 167 03/02/2016 14:46:39


Goddard, C., 51 Leibniz, G.W., 17, 18
Grigowicz, A., 53 Lenci, A., 24–27, 28–31, 80, 82–84, 143
Gross, G., 14, 47, 54–61, 91, 93, 101, Lewandowska-Tomaszczyk, B., 115, 117,
104, 127 122
Gross, M., 54 Lo Cascio, V., 34, 35, 124
Gruber, T., 71 Lopes Ferraresi, M., 117
Grucza, F., 147 Lyons, J., 42
Gruninger, M., 71
Malamed, L., 35
Hajok, A., 145 Mańczak, W., 38
Hanks, P., 31 Marignoni, D., 18
Hausser, R., 27 Martin, J.H., 28
Hedden, T., 13 Mathesius, V., 51
Hirsh, D., 130 Mathieu-Colas, M., 54–59
Hjelmslev, L., 36 McCawley, J.D., 42
Hu Hsueh-chao, M., 129 McLuhan, M., 12
Huang, C., 130 Meillet, A., 18
Hutchins, J., 17, 19–21 Mel’čuk, I.A., 14, 35, 47, 48, 62–66, 69,
70, 104
Jassem, K., 22, 23 Menza, S., 79
Jazayeri, M., 12 Meschini, P., 72, 73
Jespersen, O., 18 Meyer, B., 90, 91, 116
Ježek, E., 39, 41, 79–82 Migliorini, B., 18
Johnson, M., 37 Migoń, K., 18
Juilland, A., 130 Miller, G.A., 47, 72–74
Jurafsky, D., 28 Monachini, M., 144
Moravcsik, J.M., 78
Karolak, S., 14, 47–52, 78, 85, 95, 105
Katerinov, K., 106, 107 Nagao, M., 23
Khalidieh, S.A., 130 Nation, P., 129, 130
Kilgarriff, A., 124 Niero, F., 72
Korżyk, K., 114 Nijpels, E., 34
Kozłowski, S., 12, 17 Nunberg, G., 42
Kuhn, T., 35, 36, 38, 149
Osimo, B., 63
Lakatos, I., 36
Lakoff, G., 37 Panasiuk, J., 25
Laudan, L., 114 Paumier, S., 127, 144
Laudanna, A., 118 Paveau, M.-A., 36
Laufer, B., 35, 130, 137 Pawelec, A., 25
Le Pesant, D., 54, 57, 58 Peroni, D., 90
Leau, L., 18 Perz, M., 143

168

Lessico computazionale_libro.indb 168 03/02/2016 14:46:39


Pethö, G., 42, 43 Ullmann, S., 42
Piasecki, M., 21, 26–28, 77 Uschold, M., 71
Piotrowski, T., 121
Polguère, A., 42, 62, 63, 67 Valente, A., 91
Popper, K.R., 25, 36, 89, 142, 149 Valente, R., 62
Prencipe, V., 62 Victorri, B., 42, 43
Przepiórkowski, A., 122 Vossen, P., 76
Pustejovsky, J., 14, 35, 43, 47, 78–83
Walker, E., 37
Rainko, S., 142 Wanner, L., 62
Renzi, L., 106 Weaver, W., 12, 20, 22
Rossini Favretti, R., 119 Webber, B.L., 27
Roventini, A., 75 Wierzbicka, A., 18, 48, 50, 51, 78
Ruffolo, M., 72 Wilk-Racięska, J., 48
Ruimy, N., 80, 82–84 Winiarska, J., 25
Russel, 18 Winkin, Y., 87

Sapir, E., 51 Zaenen, A., 42


Sarfati, G.-E., 36 Zamenhof, L., 17, 18
Searl, J., 25 Zampolli, A., 26
Semenov, A.L., 19 Zavaglia, C., 117
Serianni, L., 106 Zipf, G.K., 115, 137
Sethi, R., 12
Shannon, C.E., 20 Žolkovskij, A., 62, 65
Simone, R., 34 Żłobińska-Nowak, A., 33, 95, 107, 108,
Słapek, D., 29, 90, 93, 96, 100, 114 113, 143
Sowa, J., 72, 78 Żmigrodzki, P., 148
Sosnowski, R., 14 Życiński, J., 17, 20
Spina, S., 12, 24, 120
Sproat, R., 26
Succi, G., 12
Such, J., 36
Szcześniak, M., 36

Śmigielska, B., 53, 55, 56

Tabossi, P., 25
Toma, P., 21
Traversa, V., 130
Trifone, P., 106
Troânskij, P., 19, 20

169

Lessico computazionale_libro.indb 169 03/02/2016 14:46:39


Lessico computazionale_libro.indb 170 03/02/2016 14:46:39
SUMMARY

The aim of this work was to study computational lexicography for machine
translation. I have tried in particular 1) to present the machine translation in its
larger disciplinary context of computational linguistics, 2) to describe some of the
most important models for lexical unit treatment, 3) to provide a positive criticism
on Object-Oriented Approach for lexical unit description, 4) to present the
proceeding methodology and computer tools for bilingual Italian-Polish lexical
database. The specific aims, which altogether embrace the title: Constructive
principles of the Italian-Polish machine-tractable dictionary, have been achieved in
four singular chapters.
Chapter 1, Machine Translation: history, disciplinary context, questions,
presents briefly a) the evolution of text analysis and text reconstruction methods
used in MT (such us direct translation, grammatical transfer, interlingua, example-
based and statistical machine translation), b) the philosophical background of MT
which some researchers want to find in the seventeenth-century lingua universalis,
c) the first real experiments in automatic translation sensu stricto conducted
separately by P. Trojansky and G. Artsrouni. The machine translation is shown
as a branch of computational linguistics related in particular to computational
lexicography. Therefore I have tried to expose in detail the paradigmatic
context just mentioned, its definition, assumptions, as well as steps and tools in
automatic text analysis. In my point of view computational linguistics is not a
distinct paradigm – it does not propose a different meaning of language. It is
rather a specific treatment of language data (conditioned by a specific tool) on
every linguistic level: textual, phrastic, lexical etc. The use of computer tools is
nowadays an indispensable part of linguistic research. Furthermore, I have drawn
attention to three important works of Italian lexicography whose architecture is
very close to the structure of machine-tractable dictionaries. These are: Dizionario
Analogico della Lingua Italiana by D. Feroldi & E. Dal Pra, Grande Dizionario
Analogico edited by R. Simone and Grande Dizionario Elettronico Italiano-
Neerlandese/Neerlandese-Italiano by V. Lo Cascio. The first part of my work ends
with a sketch of some linguistic phenomena, whose automatic treatment is still
difficult, such as collocations, expression figée, synonyms, absolute and textual
homonyms, syntactic ambiguity and polysemy.

171

Lessico computazionale_libro.indb 171 03/02/2016 14:46:39


Chapter 2, Models of lexical unit representation, describes: 1) the assumptions
of a semantically-based grammar by S. Karolak and K. Bogacki, in particular:
the concept of predicate and argument, classifications of predicates and the T–R
structure of the phrase. I have compared the Karolak’s semantic composition with
its primitive semantic concepts to the natural semantic metalanguage created by
A. Wierzbicka, 2) the modifié-modifieur methodology proposed by W. Banyś, still
in use by students of our Institute during their lexicological and lexicographical
seminars; in this case the lexical unit description is based on four structures
depending on configuration and grammatical categories used as modified and
modifying elements, 3) classes of objects by G. Gross and its lexical unit usage
(emploi), predicate-arguments structure, categories of support verbs, selective
restrictions; I have presented more specifically the structure of dictionary entries
popularized by Lexiques, Dictionnaires, Informatiques Laboratory in Paris, 4) the
Meaning-Text Theory by I. Mel’čuk, his tools for description of lexical relations:
synonymic paraphrasing and lexical functions (parameters and changes), 5)
types of linguistic ontologies, in particular the WordNet project and its parallel
European versions (EuroWordNet and ItalWordNet); I have pointed out some
semantic and lexical relations used in this project, such us hyponymy, meronymy,
holonymy, troponymy and implication, 6) the J. Pustejovsky’s Generative Lexicon
theory, the levels of semantic representation and aspects of a word definition
(so-called Qualia Structure and lexical roles: agentive, constitutive, formal and
telic; I have mentioned here the Extended Qualia Structure used in two Italian
lexical projects: clips and simple) as well as the semantic heritage phenomenon.
Each paragraph presents an example of a dictionary entry built according to the
discussed methodology.
In Chapter 3, Object-Oriented Approach to lexical unit description, I have
presented the methodology of machine-tractable dictionary edition created by W.
Banyś, promoted also by Department of Applied Linguistics and Translation of
the Institute of Romance Languages and Translation Studies, University of Silesia.
In this model, the main unit used for a semantic-lexical description is the class of
objects where the object is characterized by its attributes and by operations it makes
or operations that can be made with it (the specific operators are: constructors,
manipulators and accessors). The main advantage of the OOA, despite of word sense
disambiguation, is the accurate description of the unit’s context (OOA considers all
kinds of attributes, not only adjectival ones; we describe also constructs like N +
N, N + Prep + N, etc.). It allows to generate all possible phrases where the unit
appears. The lexicographic work in our Department is bipolar: a) the first step in
OOA description is the sense disambiguation for verbal and adjectival predicates,
b) the second step is description of nouns according to Object-Oriented Approach.
Both aspects of our work are closely coordinated: the verbal disambiguation
designates the classes of objects for further analysis. In my dissertation the term
Object-Oriented Approach stands for both directions altogether.

172

Lessico computazionale_libro.indb 172 03/02/2016 14:46:39


In Chapter 3 I have also presented: 1) the architecture of an entry according
to Object-Oriented Approach (illustrating it with the example of Italian noun casa
which belongs to few classes of objects), 2) the semantic heritage phenomenon,
and 3) word sense disambiguation. The presentation of the OOA entries was
preceded by a brief technical characteristics of such database: the machine-
tractable dictionaries should be built according to software creation standards.
For this purpose W. Banyś adopted some parameters proposed by B. Meyer,
such us: extensibility, reusability or modular architecture. The modular structure
should itself respect some constructive principals, i.e.: modular decomposability,
composability, continuity, etc. I have confronted these parameters with similar
criteria for software functionality evaluation proposed by I. Chiari within the
computational linguistics paradigm.
Chapter 4, Machine-tractable dictionary: lexical data sources, computer tools
for analysis and project management, begins with a methodological reflection: the
lexical approach I promote can be defined as probabilistic because it considers the
frequency of lexical units (so the probability that a defined unit appears in texts),
and the principal criterion for the lexical project is its feasibility. The main source
of the lexical data is obviously the text, that is why in this part of my work I have
presented the biggest corpora of written Italian (colfis, coris, bolc) and Polish
(ipi pan, pwn, pelcra i nkjp); this list is completed with a table of spoken Italian
corpora. Besides the corpora, the lexicographers have at their disposal a range
of computer tools for text analysis. I have given an example of Sketch Engine
and Unitext, two systems with an advanced (not only concordance) searching
functionality using regular expressions (Unitext allows as well to annotate the
corpus from a semantic point of view). A very important criterion of choosing
a list of lexical units, as I have mentioned, is their frequency. Aiming to illustrate
better this problem, I have presented the quantitative dependences of the Gradit’s
entries where, according to the editors, 2.049 lemmas correspond to 90% of the
total occurrences in Italian language corpora. Considering the frequency of Italian
lexical units such as tools available for computer textual analysis, I have proposed
a list of dictionary entries that should be a starting point for an Italian-Polish
machine-tractable lexical database. My list is composed of 377 verbs (extrapolated
from 1631 units corresponding to 80% of colfis’s texts). The list is limited to
verbs because the verbal disambiguation with the classes of objects will delineate
a further work phase. A lexical information of the OOA database will surely allow
to reach, or even to exceed, the threshold of 80% of accurately translated text
(the co-occurrence is the most important lexical information in OOA). It is not
important how many lexical entries there are in a dictionary; it is important what
informational content they present.
The architecture of the lexical database in AOO enable to convert the dictionary
entries into a CAT format (Computer Assisted Translation), while the hierarchical
categories of the classes of objects derived from analysis can be used in a semantic

173

Lessico computazionale_libro.indb 173 03/02/2016 14:46:39


corpus annotation. The complex approach to lexicography (both: traditional and
machine-tractable) should consider the practical dimension of the project (i.e.
the time necessary for edition, number of co-executors, etc.). I have proposed to
exploit the potential of the (under)graduate academic lexicography courses. In a
well coordinated project students can be coauthors of our Italian-Polish machine-
tractable dictionary. The lexicography is a difficult linguistic enterprise, mainly
because it requires the cooperation of a larger group of researchers. To facilitate
the realization of the project, we should promote more inter-academic and inter-
institutional initiatives. I have consequently underlined that the most important
criterion in the lexical-linguistic work is the feasibility of the project.
My reflections on lexicography have been completed with some meta-linguistic
observations: the computational lexicography and the machine translation were
shown in its larger historical, methodological and disciplinary context. Therefore,
the present work can be read as a prolegomena to Italian-Polish computational
lexicography.

174

Lessico computazionale_libro.indb 174 03/02/2016 14:46:39


Finito di stampare nel mese di febbraio 2016
presso M. D. Grafica srl – Città di Castello (PG)

Lessico computazionale_libro.indb 175 03/02/2016 14:46:39


Lessico computazionale_libro.indb 176 03/02/2016 14:46:39