Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Nuova serie
5.
LESSICOGRAFIA COMPUTAZIONALE
E TRADUZIONE AUTOMATICA
Costruire un dizionario-macchina
Recensito dal prof. Giacomo Ferrari, Università degli Studi del Piemonte Orientale
“Amedeo Avogadro”.
ISBN 978-88-7667-525-6
Introduzione p.
11
Il lavoro linguistico di qualsiasi genere in cui si faccia uso del computer è oggi
più che frequente. Sul mercato si vendono sia le applicazioni dirette all’utente
“medio” della lingua, come ad es. i correttori ortografici per gli editori di testi (i
cosiddetti spell-checkers), i dizionari informatizzati (non dizionari-macchina, di cui
parlerò in seguito nel presente lavoro), sia le applicazioni create per un destinata-
rio molto più specializzato: i programmi text-to-speach/speach-to-text, gli strumenti
CAT (Computer Assisted Translation), vari tipi di analizzatori testuali, come tokeni-
zer, tagger, chunker e parser, fra gli altri, dai nomi sempre più ricercati e futuristici.
Già nel 1962 era nato un nuovo ramo della linguistica – la linguistica computazio-
nale (Computational Linguistic, di seguito indicata anche come LC) che ha come
scopo lo sviluppo delle metodologie e delle ricerche linguistiche che si basano sulla
potenza di calcolo del computer. Questa è ovviamente una data convenzionale:
nel 1962 è stata fondata la Association for Machine Translation and Computational
Linguistics, denominata poi Association for Computational Linguistics. Per essere
precisi, non si parla qui di un “nuovo ramo” della linguistica in senso stretto. La
LC prende spunto dalle scoperte nei vari settori della scienza (ai quali si appoggia
fin dalle origini), come statistica, informatica, teoria dei linguaggi formali, intelli-
genza artificiale e altri.
Per capire il motivo per cui le due discipline – la linguistica e l’informatica –
apparentemente alquanto lontane, hanno potuto incontrarsi e infine fondersi in
una nuova disciplina che eredita caratteristiche da entrambe, basta pensare alle
definizioni delle due materie. La linguistica, in ogni suo aspetto, dallo strutturali-
smo saussuriano fino ai più recenti studi nel campo della linguistica cognitiva, è lo
studio scientifico del linguaggio umano. L’informatica, a sua volta, mira a elaborare
i linguaggi di programmazione, con lo scopo di trattare in modo automatico ogni
tipo d’informazione. I linguaggi di programmazione, come FORTRAN, Basic, Pa-
scal, ANSI C, ecc., si caratterizzano per la propria sintassi e grammatica, possono
avere i loro dialetti (p.es. i linguaggi Linux) o addirittura formare famiglie linguisti-
che (ANSI C, C++, C#). I programmi di scrittura vengono spesso forniti di dizio-
nari/glossari e l’informatico stesso lavora come traduttore cercando di program-
mare il software con un linguaggio molto specifico. Oltre, certo, alla somiglianza
terminologica, le due discipline frequentemente accostano in maniera simile i loro
11
12
13
14
Nel corso del lavoro mi riferisco sia agli autori italiani che stranieri. Nel caso di autori
stranieri mi riferisco, dov’è possibile, alla loro traduzione italiana. Per permettere al lettore
di seguire il vero andamento temporale del pensiero teorico che presento, dopo il riferimen-
to bibliografico dell’edizione italiana tra parentesi quadre riporto anche la data di pubbli-
cazione del testo originale, come p.es.: (de Saussure 1985: 145 [1916]). I riferimenti biblio-
grafici posti alla fine del lavoro, ugualmente, riportano anche dati delle edizioni originali,
-- nel caso di testi stranieri non tradotti in italiano riporto sempre riferimenti biblio-
grafici dell’originale,
-- tra i testi cui faccio riferimento ci sono riviste e materiali disponibili on line; in tal
caso la data di pubblicazione indicata nel corpo del testo viene seguita da una chioc-
ciola, p.es.: Paumier 2002@: 9; il riferimento bibliografico esaustivo si trova nella
sezione Riviste e materiali on line, inclusa nei Riferimenti bibliografici.
-- poiché il lettore modello del presente testo è plurilingue, le citazioni tratte dai testi
non tradotti in lingua italiana vengono riferite come tali; la traduzione italiana ese-
guita dall’autore del presente lavoro viene proposta nella nota a piè di pagina,
-- la traslitterazione dei caratteri cirillici viene eseguita secondo le norme ISO 9: 1995,
-- gli acronimi delle opere lessicografiche ed enciclopediche vengono sciolti nella se-
zione Dizionari e enciclopedie, inclusa nei Riferimenti bibliografici.
15
Traduzione automatica:
storia, contesto disciplinare, quesiti
1
Se vogliamo dare un quadro più ampio del pensiero filosofico, il sogno di un’ideale lingua
universale, il cui uso permetterebbe di evitare gli errori della comunicazione, continua in realtà il
pensiero di Aristotele – in questa maniera si vuole riflettere una realtà immutabile della materia
precedente al discorso umano, indipendente dalle forme grafiche o uditive del segno (cfr. Życiński
1983: 12).
17
2
La filosofia di Leibniz ha influenzato fortemente le ricerche semantiche di Anna Wierzbicka,
l’autrice del metalinguaggio semantico naturale. Wierzbicka suppone che tutti i concetti di una
data lingua siano a) concetti elementari, non altrimenti definibili (indefinibilia), presenti in tutte le
lingue naturali, oppure b) si compongono di detti concetti elementari. Le analisi vogliono stabilire
l’insieme degli elementi primari, quindi costruire “l’alfabeto del pensiero umano” già voluto da
Leibniz (p.es.: Wierzbicka 1991: 26–27, 1996; si veda anche il paragrafo 2.1).
3
Molte idee della lingua universale affiorano all’epoca in Inghilterra. Il fatto non è casuale:
ricordiamo p.es. l’intenzione di sostituire il latino (ancora in uso comune da parte degli scienziati)
identificato con la Chiesa cattolica e, chiaramente, i motivi commerciali (lo scambio della merce e
l’espansionismo inglese in forte sviluppo).
4
Sui progetti di una comune lingua filosofica del XVII si veda Migoń 1973.
5
‘Tutte le discussioni sono inutili: l’esperanto funziona’.
6
Oggi in esperanto vengono scritti e tradotti i libri, lo si parla in convegni scientifici e addirit-
tura in audizioni televisive; all’Università “Adam Mickiewicz” di Poznań dal 1998 è attivo il corso
Master in interlinguistica (lo studio dell’esperanto), il che conferma l’enorme successo di Zamenhof.
18
7
‘[…] macchina per selezionare e scrivere le parole nella traduzione da una lingua verso l’altra’.
19
8
La coppia di lingue scelte per la presentazione rispecchia la condizione politica dell’epoca.
I primi lavori eseguiti nel campo della traduzione automatica, infatti, hanno spesso scopi militari,
in questo caso una veloce decodifica dei messaggi dell’esercito antagonista. Solo alcuni anni dopo
appaiono simili progetti anche in Canada e in Europa.
9
Secondo Józef Życiński (1983: 20) i modelli formali differiscono dai modelli formalizzati
in cui è possibile delimitare l’insieme di frasi corrette dal punto di vista formale e semantico (ciò
grazie al dizionario, alle regole di costruzione delle espressioni complesse in base alle espressioni
semplici, alle regole di definizione delle nuove espressioni con i termini provenienti dal diziona-
rio). Inoltre i linguaggi formali hanno un’interpretazione semantica procedurale priva di ambiguità.
20
I sistemi di traduzione hanno man mano impiegato, con lo sviluppo delle tecni-
che automatiche, metodi sempre più elaborati di ricodifica testuale. La costruzione
21
Figura 1.1:
Piramide della traduzione automatica secondo F. Gobbo.
Interlingua
22
10
Jassem nota che la traduzione per analogia è stata adoperata per le lingue del tutto diverse
dal punto di vista sintattico (inglese-giapponese). Il metodo a transfer comporterebbe in questo
caso la necessità di creare un numero elevato di complicate regole (Jassem 2006: 18).
11
L’autore riporta l’esempio di Makoto Nagao (2003: 352).
23
Gli anni ’50 del secolo scorso, ai quali risalgono i primi tentativi di costruire un
linguaggio formale capace di comunicare con le macchine calcolatrici, vengono so-
litamente indicati come il “decennio di nascita” della linguistica computazionale.
Difatti, è allora che, man mano, viene a formarsi la LC come «disciplina di frontie-
ra» (Calzolari – Lenci 2004: 57), la cui interdisciplinarietà si deve, tra l’altro, a due
domande poste al ricercatore che studia il rapporto lingua-computer (cfr. Lenci et
al. 2005: 12): 1) “che cosa il linguaggio naturale può fare per il computer?” e 2)
“in che modo il computer può essere messo al servizio dell’indagine linguistica?”
Dal primo punto di vista, gli studi linguistici permettono di aumentare le ca-
pacità del computer di trattare la struttura e il contenuto dei testi, e di interagire
con l’utente attraverso il linguaggio naturale. Tale direzione di ricerche è propria
soprattutto dell’informatica e dell’ingegneria della lingua. La seconda prospettiva,
invece, è più vicina alla linguistica computazionale, dove le questioni avanzate dai
ricercatori assomigliano ai problemi linguistici “tradizionali” (quindi non compu-
tazionali; ibid.): come funziona la lingua, come viene appresa, come cambia, ecc.
La differenza tra un approccio tradizionale e quello computazionale riguarda le
modalità con cui il linguista si serve del computer per trovare e verificare le ri-
sposte alle suddette domande. Le due direzioni nello studio del rapporto lingua-
computer sono, comunque, interdipendenti e complementari, il che comporta la
complessità di cui si è parlato sopra. Da un lato la LC si affianca all’informatica e
all’ingegneria (le discipline logico-formali), dall’altro, condivide interessi e obiet-
tivi con la linguistica, la psicologia, le scienze cognitive – quindi le scienze umane
in generale (ivi: 13).
Gli studi linguistici che inizialmente si definivano computazionali (o indirizzati
agli scopi computazionali) appartengono a due filoni di ricerca diversi (Calzolari
– Lenci 2004: 57–58). Il primo nasce in Italia e vede come obiettivo l’applicazione
dei metodi statistico-matematici (in altre parole: l’applicazione del computer) all’a-
nalisi del testo scritto. Il pioniere in questo campo è Roberto Busa, il quale, presso
il Centro per l’Automazione dell’Analisi Letteraria, crea il primo corpus elettro-
nico che raccoglie le opere di Tommaso d’Aquino (cfr. Spina 2001: 20–21). Con i
lavori di Busa comincia il settore della LC molto fervido che oggi viene identificato
come “linguistica dei corpora” (nel paragrafo 4.2 parlerò a questo proposito in
maniera più dettagliata)12. Questo paradigma di ricerca presenta una metodologia
di natura empiristica.
12
Lo studio della lingua basato sulla raccolta dei testi (corpora di dati) comincia ancora pri-
ma dell’invenzione del computer. Già nel Settecento Alexander Cruden pubblica le concordanze
dell’Antico e del Nuovo Testamento (Cruden 1736). Nell’Ottocento, invece, gran parte degli studi
linguistici necessita l’accesso a un numero sempre maggiore di testi su cui effettuare analisi di tipo
comparatistico (per ulteriori approfondimenti in merito si veda Spina 2001: 17–27).
24
13
Un lento spostamento dell’interesse linguistico dalla langue verso la parole comincia con la
pragmalinguistica di John Austin e di John Searl (Austin suppone che lo studio degli atti linguistici,
e della competenza che li riguarda, appartenga all’aspetto langue, possiamo comunque riconoscere
che con i suoi lavori lo studio dei testi (senso largo) riconquista una certa importanza). Oggi nel
paradigma dominante – nella linguistica cognitiva – i dati testuali hanno, senza dubbio, un valore
primario. In Polonia l’interesse dei linguisti cognitivisti si concentra sulla cosiddetta “immagine
linguistica del mondo”, cioè sul modo di percepire il mondo ricavabile, per così dire, dai fatti
linguistici, vale a dire dai testi (cfr. p.es.: Bartmiński – Panasiuk 2010: 382), perciò il cognitivismo
polacco si avvicina piuttosto alla linguistica culturale/antropologica (cfr. Winiarska 2011; per i
paradigmi linguistici si veda anche Bobrowski 1998).
25
26
Computational work on discourse and dialogue reflects the two general aims
of Natural Language Processing: that of modeling human understanding
and generation of Natural Language in terms of a system of computation-
al processes. Work in this area is usually called Computational Linguistics;
that of enabling computers to analyze and generate Natural Language in
order to provide a useful service. Work in this area has been called Applied
Natural Language Processing, Natural Language Engineering, or more re-
cently, Language Technology14 (Webber 2001: 798).
14
‘Il lavoro computazionale sul discorso e dialogo riflette due obiettivi generali del trattamen-
to automatico del linguaggio naturale: quello della modellazione della comprensione umana e
della generazione del linguaggio naturale in termini di un sistema di processi computazionali. Il la-
voro in questo settore di solito viene chiamato “linguistica computazionale”; quello di permettere
ai computer di analizzare e generare il linguaggio naturale per fornire un servizio utile. Il lavoro in
questo campo è stato chiamato “trattamento automatico applicato del linguaggio naturale”, “inge-
gneria del linguaggio naturale”, o, più recentemente, “tecnologia della lingua”’.
15
Tra i modelli computazionali troviamo anche i modelli del funzionamento lessicale di una
lingua. Nelle pagine che seguono mi concentrerò, per l’appunto, sulla descrizione lessicografica
computazionale (cap. 2), per arrivare infine (cap. 3) a proporre un modello elaborato apposita-
mente ai fini della traduzione automatica, vale a dire l’Approccio Orientato agli Oggetti.
16
Si veda anche la definizione della LC proposta dalla Association for Computational Lingui-
stics: https://www.aclweb.org.
27
28
Restano fuori della mia presentazione i livelli di annotazione relativi alla trascrizione del testo
17
29
30
31
32
33
▪ Dizionario Analogico della Lingua Italiana di Donato Feroldi e Elena Dal Pra
(DAZ; edizione CD della Zanichelli, Bologna: 2011)
Il dizionario analogico serve a trovare una parola x a partire da un’altra parola
y, il cui significato rimane collegato con x. Gli obiettivi di un simile dizionario sono
precisi. Sulla copertina del DAZ troviamo: «si rivolge a chi […] ha la necessità
di trovare le parole o le locuzioni giuste: quelle che sfuggono, di cui si avverte la
mancanza o si presume l’esistenza». Le voci del DAZ sono articolate in “rubriche”
che inquadrano sottoinsiemi lessicali “intuitivamente” più correlati all’informazio-
ne cercata, dando così uno strumento molto efficace di ricerca lessicale (p.es. per
cambiare troviamo le seguenti rubriche con esempi: modi: da cima in fondo, radi-
calmente, da un giorno all’altro, caratteristiche: mutevole, erratico, persone: rivol-
gitore, trasformista, relativo a: cambiamento, mutamento, trasformazione, modi di
dire: tanto per cambiare, non è cambiata neppure una virgola, detti e proverbi: il
mondo è bello perché è vario, curiosità: [elettricità] cumulatore, invertitore, ecc.).
Chiaramente le entrate del dizionario sono collegate tra di loro attraverso i link
(collegamenti ipertestuali), il che facilita un’eventuale ulteriore ricerca.
18
I fondamenti teorici del DGA qui esposti si basano sul seminario tenuto dall’autore il 25
gennaio 2010 durante il laboratorio di ricerca lessicografica “Triple” presso il Dipartimento di
Linguistica dell’Università Roma Tre.
34
19
Il dizionario bilingualizzato (ing.: bilingualised) nasce come unione delle caratteristiche di
un dizionario monolingue e bilingue: la definizione del lemma viene scritta nella lingua del lemma,
dopo vengono esposti gli equivalenti nella lingua target (cfr. Laufer – Malamed 1994).
35
20
Gli studi di Kuhn continuano in realtà la riflessione sul progresso del sapere scientifico. A
questo proposito si distinguono tradizionalmente tre approcci (Such – Szcześniak 2006: 98–100,
ENF: 456–464): a) la visione lineare/cumulativa, secondo cui lo sviluppo scientifico si verifica in
maniera continua, cumulativa (il cumulativismo illimitato di Pierre Duhem e il cumulativismo
limitato di Francis Bacon), b) l’approccio anticumulativo con “l’incommensurabilità scientifica”
(la nozione della rivoluzione permanente di Paul Feyerabend e i primi testi di Karl Popper e l’al-
ternanza evoluzione-rivoluzione di Thomas Kuhn), c) il punto di vista dialettico di Imre Lakatos,
secondo cui le rivoluzioni non marcano una totale rottura con la tradizione scientifica, perché
lasciano alcuni elementi di continuazione nello sviluppo scientifico (ritroviamo un simile parere
nei testi “tardi” di Popper).
21
Nella tradizione grammaticale il termine “paradigma” indica l’insieme delle forme flesse di
un lessema.
22
Kuhn nella sua proposta metodologica osserva che il progresso scientifico è almeno in parte
condizionato da fattori esterni, quali storia, cultura e società, di qui l’attributo “sociologica”.
36
23
Anche lo stesso Bobrowski parla nei suoi lavori più recenti del non-falsificazionismo di
Chomsky; p.es.: 2009a: 61.
24
La linguistica cognitiva si occupa particolarmente del rapporto lingua-mente (lingua-pro-
cessi cognitivi). Oggi, accanto a questo paradigma linguistico, si sviluppa – altrettanto dinamico
– il paradigma culturale (antropologico) – mancante nella classificazione di Bobrowski – al centro
del cui interesse troviamo la relazione lingua-cultura. Questa “bipolarità” degli studi linguistici è
una naturale conseguenza nella natura del linguaggio. Come ha scritto Andrzej Bogusławski: «ci
sono, almeno dal punto di vista teorico, due prospettive per vedere le diversità linguistiche: da un
lato, in relazione alla mente e alla cognizione umana e, dall’altro, in relazione alla cultura» (1991:
43; trad. DS). L’esagono delle scienze cognitive proposto negli anni ’70 (si veda la copertina di
Cognitive Science, Walker 1978@) oggi, credo, non basti per illustrare l’interdisciplinarità della
linguistica. Benché tra “le scienze cognitive” sia stata inclusa l’antropologia, è piuttosto l’antropo-
logia fisica di cui si tratta, e non l’antropologia culturale.
37
Già nel 1977 Antoni Furdal ha notato che i metodi statistici e algebrici migliorano lo studio
25
del sistema linguistico. La matematica non entra, però, nello schema dell’interdisciplinarità lingui-
stica proposto dall’autore, perché, come dice, il rapporto linguistica-matematica è unidirezionale:
il confine tra le due discipline appartiene sempre alla linguistica per la quale si adoperano i metodi
del calcolo matematico. È una situazione del tutto diversa rispetto p.es. al rapporto linguistica-
psicologia, dove, in conseguenza alla cooperazione dei due settori, nasce un nuovo ramo della
scienza, interessante sia per i linguisti che per gli psicologi (Furdal 1977: 31).
26
‘[…] un’affermazione confermata dalle statistiche o, eventualmente, attraverso l’esperimen-
to può considerarsi vera’.
38
39
27
La scelta della parola è motivata anche dal contesto pragmatico, p.es. i cosiddetti sinonimi
eufemistici vengono usati per attenuare un’espressione, p.es.: morire > spegnersi.
Nella traduzione automatica la sinonimia non comporta maggiori problemi. Il programma
traduce una data parola a seconda del suo equivalente nella banca dati. È il lessicografo a decidere
quali equivalenti proporre. Per le parole sinonimiche i traducenti possono anche coincidere (ri-
cordo che nella nostra ottica il significato viene comunque definito in un dato contesto lessicale).
40
41
1.3.1. Polisemia
28
‘[…] simili nella forma, ma con valori differenti’.
29
Alain Polguère propone una distinzione ancora più dettagliata: nella frase What does it take
to take the lead that you now take? egli trova: a) un solo s i g n i f i c a n t e take (forma linguistica
che prescinde dal significato che evoca), b) tre differenti segni linguistici, quindi p a r o l e t e -
s t u a l i (wordform; relazione tra la forma e il significato che evoca): take1 (V; ‘to require’ all’infi-
nito), take2 (V, collocate; ‘to cause to be in a given situation’ all’infinito), take2 (V, collocate; ‘to
cause to be in a given situation’ alla 2. pers. sing. del presente); c) due unità lessicali, quindi l e s -
s e m i : take1 (V ‘to require’) e take2 (V, collocate; ‘to cause to be in a given situation’); d) un solo
v o c a b o l o take: i vocaboli sono raggruppamenti di unità lessicali che hanno significati distinti
ma correlati e che vengono espresse dalle stesse forme (Polguère 2010: 5–6).
30
La distinzione tra la polisemia regolare e irregolare viene tradizionalmente attribuita a
Apresjan (1974). Il problema era comunque già stato notato da James David McCawley, il quale ne
ha parlato anche esplicitamente (McCawley 1968), o da Stephen Ullmann (1957) che, però, non l’ha
definito in termini di regolarità o di sistematicità (a questo proposito si veda anche Pethö 1999: 26).
42
31
Secondo Apresjan (1974: 16): «La polisemia della parola A avente i significati ai e aj è chia-
mata regolare se, in una data lingua, ci è almeno un’altra parola B con i significati bi bj, i quali si
distinguono dal punto di vista semantico l’uno dall’altro esattamente nella stessa maniera come ai
e aj, e se ai e bi, aj e bj non sono sinonimi. La polisemia viene chiamata irregolare se la distinzione
semantica tra ai e aj non si verifica in nessun’altra parola della data lingua» (trad. DS).
32
‘[…] una lingua priva di polisemia sarebbe rigida, incapace di evolvere’.
43
Come appendice al primo capitolo aggiungo la tabella 1.1, che presenta alcu-
ni programmi di traduzione automatica con il componente italiano.
Tabella 1.1:
Alcuni traduttori automatici per l’italiano.
Apertium: http://www.apertium.org
La piattaforma è stata creata inizialmente per le traduzioni tra le lingue imparentate:
-- componente italiano: traduce dall’italiano verso il catalano,
-- altre lingue di lavoro (configurazioni scelte): spagnolo, gallego, portoghese, bra-
siliano, occitano, inglese, aragonese, francese, esperanto, gallese, basco, bretone,
norvegese bokmål, norvegese nynorsk, svedese, danese, asturiano, islandese, ma-
cedone, bulgaro.
Google Translate: http://translate.google.com
È il sistema di traduzione più popolare. Traduce oltre 50 lingue (italiano e polacco com-
prese). Dispone di strumenti linguistici molto raffinati.
Linguatec: http://www.linguatec.net
È il software di traduzione e di tecnologia vocale (voice reader) a pagamento (è disponi-
bile una prova gratuita on line). Il programma dispone di un sistema di rilevamento di aree
tematiche (come: politica, architettura, geografia, ecc.) e di lettura del testo:
-- componente italiano da e verso l’inglese,
33
‘[…] costruire in maniera dinamica il senso a seconda dell’enunciato esaminato. Il lessico
non deve più essere costituito da un elenco esaustivo di possibili sensi, ma di “modalità d’im-
piego”, di regole che indichino come costruire il senso di una data unità, specificando gli effetti
che comportano certe caratteristiche dell’enunciato in cui l’unità appare. Una simile maniera nel
procedere affronta un altro “dogma” dei formalismi classici propri del trattamento automatico
del linguaggio: la composizionalità. È il rapporto tra l’analisi sintattica e l’analisi semantica che va
considerato. Il principio della composizionalità richiede uno stretto accoppiamento tra la sintassi
e la semantica’.
44
45
47
48
1
L’esistenza di regole di cooccorrenza è dovuta al carattere sincategorematico dei concetti
che, non avendo autonomia comunicativa, da soli non possono formare proposizioni. Essendo
sincategoremi, aprono un certo numero di posizioni degli argomenti (questa volta nel senso sintat-
tico del termine). Combinati con oggetti o con altri concetti, formano le strutture proposizionali
o proposizioni (sempre nel senso logico del termine) che stanno alla base delle forme linguistiche
superficiali, le forme di lingue particolari, le uniche accessibili nell’osservazione diretta.
49
delle strutture predicato-argomenti. Voglio soltanto aggiungere che, a mio avviso, il segno del
genio di Karolak e Bogacki è la loro spiegazione dell’aspetto, il quale, in questa ottica, è una cate-
goria semantica (e non grammaticale o modificatore), vale a dire che l’aspetto è una caratteristica
definita dei concetti e come tale non subisce alcuna modifica. Cito da Karolak: «I morfemi gram-
maticali d’aspetto con funzione autonoma non specificano quali concetti specifici cooccorrono
con quelli rappresentati dalla radice […], essi simbolizzano solo una posizione aperta per tutta
una categoria di concetti specifici compatibili. In altri termini, essi impongono una restrizione
aspettuale alla posizione non saturata […]. I morfemi grammaticali d’aspetto che hanno un valore
autonomo ricevono lo stesso valore secondariamente (contestualmente), e più precisamente, nel
caso in cui le posizioni in merito non sono state saturate. Quando, invece, le posizioni vengono
saturate, detti morfemi perdono la loro autonomia semantica, recuperano il valore riflessivo e di-
ventano ridondanti» (Karolak 1997: 134–135; trad. DS). L’autore dà a questo punto alcuni esempi
di frasi: Gli fu fedele, Gli fu fedele fin alla morte. In questa ottica l’aspetto ha due modalità di rap-
presentazione: «Essendo incorporato in un concetto specifico, viene rappresentato sulla superficie
da un semantema (morfema lessicale), essendo liberato del contenuto concettuale specifico, è reso
da un morfema grammaticale» (ivi: 136). «L’aspetto è una caratteristica immanente dei concetti.
Non sono, quindi, le forme verbali ad avere un aspetto, ma i concetti che appartengono, ciascuno,
a un aspetto e, per conseguenza, non subiscono alcuna modificazione come perfettivizzazione o
imperfettivizzazione» (ivi: 143).
50
Possiamo indicare in una data frase l’oggetto – il tema, quindi ciò di cui si par-
la, e ciò che viene attribuito all’oggetto – il rema, quindi ciò che si dice a proposito
dell’oggetto. La grammatica di Karolak e Bogacki rende conto della struttura te-
matico-rematica della frase, ovvero propone una prospettiva funzionale dell’analisi
frastica (ricordiamo che l’opposizione tema-rema viene diffusa nell’ambito lingui-
stico dai rappresentati della Scuola di Praga con la loro articolazione attuale della
frase6: in questa ottica il tema è l’elemento della frase che rende l’informazione già
nota, il rema, contrariamente, porta una nuova informazione; l’opposizione tema-
rema corrisponde qui all’opposizione datum-novum). Nella grammatica su base
semantica la suddetta struttura si presenta sul piano semantico della frase (e non
sul piano pragmatico), per cui anche tema e rema sono due categorie semantiche.
La questione della corrispondenza tra la struttura predicato-argomenti e la
struttura tematico-rematica della frase viene spiegata nel modo seguente: i predi-
cati hanno la funzione di attribuire caratteristiche a oggetti; gli argomenti indicano
oggetti (vedi sopra). La differenza tra le due strutture sta nel fatto che la prima
3
Indefinibilia sono concetti universali, il che dovrebbe smentire la famosa intraducibilità del-
le lingue (tutti i concetti possono scomporsi in una serie di indefinibilia). Questo è, quindi, un
approccio universalista integrato con una tesi di carattere relativistico: ogni lingua dà al parlante
un insieme di costrutti concettuali che si manifestano nelle unità operative preferite (Bogusławski
1991: 45). La proposta di Wierzbicka è stata chiamata da Andrzej Bogusławski il relativismo lin-
guistico relativo in un quadro universalista (trad. DS).
4
L’alfabeto di Wierzbicka del 2010 riporta 16 gruppi di indefinibilia (riferisco alcuni esempi
come in: Goddard 2010, sono le loro traduzioni letterali): 1) nomi: io, tu, qualcuno, qualcosa, gente,
corpo, 2) determinatori: questo, lo stesso, altro, 3) quantificatori: uno, due, alcuni, molto, tutto, 4)
evaluatori: buono, cattivo, 5) descrittori: piccolo, grande, 6) predicati mentali: pensare, sapere, vole-
re, sentire, vedere, udire, 7) parola: parlare, parola, verità, 8) azioni, eventi: fare, succedere, muovere,
9) esistenza, possesso: essere (esistere), avere, 10) vita e morte: vivere, morire, 11) concetti logici: no,
forse, potere, perché (con valore causativo), se, 12) tempo: quando, adesso, momento, dopo, prima,
13) spazio: dove, qui, sotto, sopra, lontano, vicino, 14) nomi di relazioni: genere, parte, 15) intensifi-
catori: molto, più, 16) similitudine: tale quale, così come.
5
A proposito della struttura tema-rema mi baso su Bogacki – Karolak 1991: 334–338.
6
A proposito della sintassi funzionale praghese in lingua italiana troviamo p.es.: Sulla cosid-
detta articolazione attuale della frase (Mathesius 1991 [1939]).
51
7
‘L’argomento è un tema potenziale, il tema è un argomento attualizzato; invece il predicato
è un rema potenziale, il rema è un predicato attualizzato, cioè il predicato definito in termini della
combinatoria semantica’.
52
Struttura 1
FR PL IT
~ x abondants gęste włosy capelli fitti
~ x attaché związane włosy capelli legati
~ x blancs siwe włosy capelli bianchi
~ x blonds blond włosy capelli biondi
~ x brillants lśniące włosy capelli lucidi
Struttura 2:
FR PL IT
brosse à ~ x szczotka do włosów spazzola per capelli
chute des ~ x wypadanie włosów caduta dei capelli
couleur des ~ x kolor włosów colore dei capelli
diamètre du ~ x średnica włosa diametro del capello
épingle à ~ x szpilka do włosów spilla per capelli
8
‘[…] del movimento perpetuo e dell’influsso reciproco’.
53
9
Dove il lessico sta per il materiale di base, il punto di partenza per la descrizione della lin-
gua, il dizionario è la fonte dei dati linguistici e nello stesso tempo l’obiettivo del lavoro, invece
l’informatica è lo strumento di analisi e di elaborazione dei dizionari e di metodologie compatibili
con il trattamento automatico della lingua (si veda il sito web del Laboratorio: http://www-ldi.
univ-paris13.fr).
10
Con il solo cognome Gross mi riferisco a Gaston Gross, quando riporto anche l’iniziale del
nome: M. Gross, mi riferisco a Maurice Gross.
11
‘[…] la grammatica va formattata in lessico, per cui l’enfasi sullo sviluppo dei dizionari
elettronici’.
54
Per capire il senso di una parola non è giusto analizzarla in maniera autonoma.
Ciò che decide del significato di un lessema, quindi anche della sua traduzione,
è il contesto in cui il lessema appare. Di conseguenza l’unità minima dell’analisi
lessicografica è la frase (o la proposizione nei termini della grammatica tradizio-
nale) intesa come predicato accompagnato da un insieme (sequenza) dei suoi ar-
gomenti. La frase elementare può rappresentarsi attraverso uno schema di argo-
menti, con il predicato seguito dal soggetto e dai suoi complementi, come segue:
predicato(arg0,arg1,arg2) (p.es.: Gross 1999: 113, Czekaj – Śmigielska 2009: 10)12.
Secondo Gross (1992b: 2), una netta distinzione tra i livelli dell’analisi lingui-
stica (come sintassi, semantica e lessico) comporta lo svantaggio maggiore nell’e-
laborazione informatica dei dati linguistici. Colui che consulta un dizionario deve
ricorrere a tutte le informazioni linguistiche, per cui i tre sopramenzionati livelli
sono inseparabili. La natura degli argomenti, ad esempio, non è esclusivamente
una questione semantica: coinvolge anche le proprietà sintattiche della frase. In
tal modo le stesse strutture sintattiche possono interpretare diversi predicati. La
struttura N V N può rappresentare le seguenti frasi: Marco ha preso un’aspirina ≠
Marco ha preso una decisione. Nel primo caso il verbo prendere funge da predicato
della frase, nel secondo caso, lo è il sostantivo decisione. Il verbo ha, quindi, un
altro statuto a seconda della natura semantica dell’oggetto, anche se la struttura
superficiale della frase rimane la stessa. D’altro lato, importanti sono anche le ca-
ratteristiche trasformazionali di una data struttura. Prendiamo l’esempio di Gross:
*la prise d’un steak / la prise d’un médicament, dove la nominalizzazione del ver-
12
La rappresentazione della frase per il tramite dell’opposizione predicato-argomenti presen-
ta alcuni vantaggi dal punto di vista del trattamento informatico della lingua. La struttura tema-
tico-rematica della frase, ad esempio, impone una supremazia del soggetto sui complementi. Gli
studi linguistici dimostrano, invece, che vari complementi danno informazioni molto più rilevanti
per la disambiguazione del senso di quanto ne risulti dalla natura del soggetto della frase.
55
Lo schema degli argomenti non è ancora una frase. Questa struttura, per di-
ventare una frase concreta, viene trasformata attraverso due tipi di operazioni: la
l i n e a r i z z a z i o n e , cioè l’organizzazione degli argomenti a seconda della loro
posizione nella frase, e l’a t t u a l i z z a z i o n e , cioè l’aggiunta di un suffisso tem-
porale in caso di predicato verbale (Gross 1992b: 15). Dato che i sostantivi non
si sottopongono alla coniugazione morfologica, la loro attualizzazione si verifica
attraverso i verbi “predicativamente vuoti”, come fare, avere, essere + preposizione,
ecc., che danno un aspetto temporale alla frase, come negli esempi: Marco ha fatto
un viaggio in Cina, Luca è in ritardo, Ho bisogno di te. Tali verbi vengono chiamati
v e r b i s u p p o r t o e, oltre ad attualizzare il predicato nominale, possono di-
sambiguarlo. Il significato di un sostantivo predicativo dipende quindi dal verbo
supporto che lo precede, p.es.: essere d’accordo, andare d’accordo.
Si distinguono tre tipi di verbi supporto (mi baso su Czekaj – Śmigielska 2009:
11): verbi supporto di azione, come fare (fare un viaggio, fare un passo), verbi sup-
porto di stato, p.es.: avere, essere + preposizione (avere fame, essere d’accordo) e ver-
bi supporto di evento, p.es.: c’è, ci sono (c’è il sole). Gli esempi riportati presentano
i verbi generali che non precisano (non specificano) il predicato che segue, e pos-
sono essere impegnati per attualizzare un numero illimitato di predicati nominali
(fare i capelli, fare il pranzo, fare la barba, fare il pittore, e così via). Ci sono, comun-
13
‘[…] questa combinazione ha certe caratteristiche aspettuali e trasformazionali proprie’.
56
Per rendere conto della compatibilità tra i termini che cooccorrono, nella de-
scrizione dell’unità lessicale bisogna introdurre alcune restrizioni selettive di natura
semantica e sintattica (Le Pesant – Mathieu-Colas 1998: 9). I dizionari (cartacei o
elettronici) spesso indicano le caratteristiche del lessema in termini di tratti sin-
tattico-semantici. Per esemplificare la questione: tutti i lessemi appartenenti alla
categoria concreto possono diventare complementi dei verbi come guardare, vedere,
toccare, o saturare la posizione del soggetto dei predicati come essere di colore, essere
grande, pesare, ecc. Una simile informazione, anche se molto utile, non è sufficiente
per rendere conto del funzionamento sintattico dei verbi come prendere o tagliare. I
due (o più) argomenti che appartengono alla stessa categoria concreto possono evo-
care due diversi significati del predicato: Marco ha preso l’autobus ≠ Marco ha preso
un’aspirina; Sofia ha tagliato le cipolle ≠ Un cane mi ha tagliato la strada.
I due verbi presi in esame sono accompagnati dai complementi di tipo concre-
to, hanno però significati diversi a seconda della natura dello stesso complemen-
to. Nel primo caso prendere equivale a salire su, tagliare a affettare; nel secondo
caso prendere significa ingoiare, tagliare = attraversare. Per cui l’informazione resa
dal tratto semantico concreto non basta per spiegare al meglio il funzionamento
57
prendre <photo> : ein Foto machen ; prendre <moyen de transp> : ein Taxi nehmen ;
prendre <voie> : Wie sind (auf der) Autobahn gefahren ; prendre <coups> : Schläge
krieren ; prendre <ordre> : ein Befehl übernehmen
faire <Poss habitation> : putzen ; faire <instrument de mus> : Klavier spielen ; faire
<langue> : Englisch studieren, lerner ; faire <prix> : kosten ; faire <poids> : haben,
schwer sein
essuyer <vaisselle> : das Geschirr abtocken ; essuyer <superficie> : abwischen ; essuyer
<meuble> : abstauben ; essuyer <lunettes> : putzen
essuyer <attaque> : Verluste erleiden ; lancer <bombe> : abwerfen
lancer <satellite> : starten; lancer <cri> : ausstoßen ; lancer <artiste> : fördern ; lancer
<produit> : einführen
‘[…] classe semantica costruita a partire dai criteri sintattici; ogni classe viene definita a
14
partire dai predicati che selezionano in maniera appropriata le unità che la compongono’.
58
I ricercatori del LLI hanno utilizzato, per la compilazione del dizionario elet-
tronico, la standardizzazione del contenuto informativo di un’entrata lessicale.
Per ogni sostantivo-argomento di questo dizionario si è ricorsi a diverse categorie
(campi) che indicano la natura morfologica dell’entrata, le sue proprietà semanti-
che e sintattiche, il dominio, il registro linguistico (quindi le caratteristiche socio-
linguistiche) e la traduzione (Gross 1992a: 255).
I campi morfologici sono:
59
Frère/G:nm/F:/V:/T:hum/C:rel/D:famil/R:/E:/De:
menuisier/G:nm/F:/V:/T:hum/C:prof/D:/R:/E:/De:
traitre/G:nm/FL/V:/T:hum/C:traitre/D:lg/R:/E:De:
sire/G:nm/F:/V:/T: hum/C:titre/D:lg/R:/E:De:
marteau/G:nm/F:/V:/T:inc/C:outil/D:lg/R:/E:/De:
fumeur/G:nm/F:/V:/T:hum/C:npra/D:lg/R:/E:/De:
car/G:nm/T:inc/C:mtc/D:transp/R:/E:/De:
steak/G:nm/F:/V:steack/T:inc/C:alim/D:cuis/R:/E:De:
lampe/G:nf/F:/V:/T:inc/C:moy d’éclair./D:éclair/R:/E:/De:
aspirine/G:nf/F:/V:/T:inc/C:médic/D:pharm/R:/E:/De:
Come nel caso degli argomenti, anche le entrate lessicali dei predicati (verbali,
nominali e aggettivali) si compongono di diversi campi che indicano le proprietà
dei lessemi, come la morfologia, la natura degli argomenti, tratti sintattici, classi
di oggetti, ecc. I predicati verbali sono quindi accompagnati dalle seguenti infor-
mazioni: M, F, i campi che indicano gli argomenti a seconda della loro posizione:
N1, N2, N3, accompagnati dai tratti sintattici e le classi di oggetti (se il solo tratto
non è sufficiente per disambiguare il senso del predicato), S (che, in questo caso,
sta per sinonimo), A (antonimo), D, R, i campi che specificano se l’impiego del
verbo predicativo sia disposto alla nominalizzazione e alla aggettivazione (tramite
il verbo-supporto), o alle trasformazioni sintattiche. Gli ultimi campi riportano
gli equivalenti in lingue straniere (p.es.: E, De, come sopra). Una simile struttura
dell’entrata lessicale permette di ritrovare facilmente tutti i predicati che accompa-
gnano una data classe di oggetti. Di seguito alcuni esempi (ivi: 12–13).
60
61
La teoria “Senso↔Testo” (d’ora in poi anche TST15) nasce negli anni ’60
nell’ambito linguistico di Mosca. È stata ideata da Igor Mel’čuk in stretta colla-
borazione con Aleksandr Žolkovskij e Jurij Apresjan. La prima pubblicazione che
presenta i fondamenti teorici della TST risale al 1965 (Žolkovskij – Mel’čuk), men-
tre la prima completa esposizione della teoria esce nel 1974 (Mel’čuk). La TST
viene sviluppata ancora oggi, non più a Mosca, ma presso l’Observatoire de Lingui-
stique Sens-Text dell’Università di Montréal, dove Mel’čuk si è trasferito, e sembra
un campo di ricerca lessicografica molto fertile (oltre alle analisi in lingua francese,
sono apparsi i lavori in lingua inglese (p.es.: Wanner 1996), spagnola (p.es.: Alonso
Ramos 1995) o portoghese (p.es.: R. Valente 2000@); i lavori più completi in lingua
italiana sono: Gatti 1992, Prencipe 2006. Nell’arco di alcuni decenni i ricercatori,
sotto la direzione di Mel’čuk, hanno elaborato un modello complesso e integrale
della lingua. Mi soffermerò soprattutto sulla parte del pensiero teorico che riguar-
da la sinonimia e la parafrasi sinonimica, presenterò quindi il trattamento del lessi-
co in termini di funzioni lessicali.
15
Riferisco la denominazione scritta con le maiuscole, ormai tradizionale nei lavori dedicati
alla TST. Con le maiuscole, come scrive Polguère, si vuole sottolineare che si tratta di due livelli
estremi della rappresentazione dell’enunciato (1998: 10).
62
16
‘Un MST cerca di comportarsi come un locutore che non passa il suo tempo né a generare
insiemi di frasi grammaticalmente corrette o a scegliere tra frasi corrette e scorrette né a trasfor-
mare strutture astratte; il locutore parla, vale a dire esprime, attraverso testi, il senso che vuole
comunicare. Un MST deve fare la stessa cosa: “tradurre” un dato senso in un testo che lo esprime;
ecco perché il modello viene chiamato “traduttivo”’.
63
Senso: Testi:
Marco ama la sua ragazza Maria ↔ Marco ama follemente la sua ragazza Maria.
in maniera molto intensa Marco ama alla follia la sua ragazza.
Marco ama la sua ragazza come un pazzo.
Marco prova amore per la sua ragazza.
Marco sente un amore intenso per la sua ragazza.
ecc.
64
65
‘[…] espressioni fraseologiche di un certo tipo che non si possono prevedere e che la lingui-
17
66
67
I parametri lessicali possono riferirsi a una sola parola (come argomento della
funzione) o a un insieme di parole, analogicamente: il valore dell’argomento, quin-
di il senso del parametro, può esprimersi con una sola parola (Oper(osservazione):
fare), o con insieme di parole (Magn(mangiare): come un bue), un dato parame-
tro può avere più sensi per un solo argomento (Oper2(influsso): essere sotto l’in-
flusso di / subire l’influsso di), infine, è possibile la composizione delle funzioni
lessicali (FinFunc0(moda): passare di, AntiMagn(mangiare): come un passerotto,
FinOper1(abitudine): perdere).
68
69
70
Oper1 have: ART ~ avoir: ART ~ haben: ART avere: ART mieć: ~ acc
suffer: from souffrir: de ~ acc ~ cierpieć: na
ART ~ ART ~ leiden: an soffrire: di ~ acc
ART ~ acc ART ~
IncepOper1 contract: contracter: erkranken: contrarre: zarazić się: ~
ART ~ ART ~ an ART ~ ART ~ instr
fall ill: with tomber acc ammalarsi: zachorować:
ART ~ malade: de di ART~ na ~ acc
ART~
FinOper1 recover: se remettre: genesen: von guarire: da wyzdrowieć
from ~ ART de ART~ ART ~ ART~ wyleczyć się:
dat z ~ gen
LiquFunc1 cure, heal: guérir: ART heilen: ART curare: wyleczyć: ~
ART ~ ~ ~ acc ART~ acc
71
Dal punto di vista delle mie considerazioni in merito, l’ultima categoria di cui
sopra è anche la più interessante.
19
Tra i lavori più completi nella lingua italiana che trattano del progetto originale WordNet
troviamo due tesi di laurea inedite di Pietro Meschini (2002@) e Federica Niero (2006@), disponibili
on line (si vedano i riferimenti bibliografici).
72
I termini sono divisi per categoria grammaticale: nome, verbo, aggettivo, avver-
bio (inizialmente si prevedeva anche utilizzo della categoria function word, omessa
dopo, perché contenuta separatamente nella memoria lessicale umana; Meschini
2002@: 16). Le categorie sono chiaramente organizzate in maniera diversa: i sostan-
tivi e i verbi sono organizzati in gerarchie basate sulle relazioni di iperonimia e ipo-
nimia tra i synset (inoltre vari “puntatori” indicano altre relazioni). Gli aggettivi si
raggruppano nei cosiddetti cluster, le strutture che hanno un synset principale e dei
synset satelliti (il synset principale presenta una coppia di antonimi, invece i synset
satelliti sono collegati da una relazione di similarità). La descrizione degli avverbi
73
21
Tra le 25 categorie nominali troviamo i sostantivi denotanti atti e azioni, animali, oggetti
prodotti da uomo, attributi di persone e di oggetti, parti del corpo, processi cognitivi e contenuto
concettuale, processi comunicativi, avvenimenti, sentimenti ed emozioni, cibo e bevande, gruppi
di persone e insiemi di oggetti, posizione spaziale, oggetti “naturali”, non prodotti da uomo, fe-
nomeni naturali, persone, piante, possesso, processi naturali, unità di misura e quantità, relazioni
tra persone, oggetti o concetti, forme bi- o tridimensionali, stato o condizione, sostanze, tempo e
relazioni temporali.
74
75
parola, Nome:
[1] - stringa di lettere che esprime un significato
[2] - chiacchiere, discorsi vani
[3] - contenuto di un discorso
[4] - modo di esprimersi con le parole
[5] - in informatica, unità logica minima di informazione
Iperonimi di: parola [1]
• (unità_linguistica_[1])
▫ (parte_[9]) parte non materiale
▪ (collegamento_[1], connessione_[1], correlazione_[1], denominatore_comu-
ne_[1], legame_[2], nesso_[1], rapporto_[2], relazione_[1], riferimento_
[1]) stato di cose correlate tra loro, in rapporto di relazione; punto di contatto;
stato di collegamento
▪ (condizione_[2], stato_[2]) modo di essere, di trovarsi, stato; modo di esse-
re, di trovarsi: situazione
Iponimi di parola [1]:
•• (articolo_[5], voce_[4]) lemma di un dizionario o di una voce enciclopedica; lemma di
un dizionario o di una enciclopedia
•• (appellativo_[1], denominazione_[2], nome_[1], nominativo_[1]) soprannome, epi-
teto; elemento linguistico che indica entità concrete e astratte; elemento linguistico che
indica entità
•• (neologismo_[1]) parola o locuzione nuova, o nuova accezione di una parola già esi-
stente, in uso da poco nel lessico di una lingua
•• (beffa_[1], cilecca_[1], derisione_[1], gogna_[2], ludibrio_[2], scherno_[1]) parola o
atto di scherno
•• (complimento_[1]) parola di cortesia, ossequio, rallegramento
•• (americanismo_[1]) parola o forma propria dell’uso nordamericano
•• (contrario_[2]) la parola che esprime il concetto opposto ad un altro
•• (abbreviazione_[1], sigla_[1]) formula abbreviata di un nome
76
23
Tra i wordnet già sviluppati o in fase di sviluppo troviamo il progetto polacco PlWordNet
(chiamato anche Słowosieć) elaborato presso l’Istituto di Informatica Applicata del Politecnico di
Breslavia. A causa dei limiti economici e per recuperare alcuni anni di ritardo rispetto ai progetti
precedenti, PlWordNet unisce il lavoro manuale dei lessicografi e l’estrazione automatica delle oc-
correnze lessicali dai corpora della lingua polacca (i risultati vengono rivisti sempre manualmente).
Per cui il metodo proposto dai ricercatori polacchi può essere chiamato semiautomatico (Piasecki
2008: 26).
77
‘[…] un quadro teorico per la rappresentazione di conoscenza che offre uno sguardo più
24
78
25
‘Questo approccio richiede, oltre a una flessibile notazione data per esprimere generaliz-
zazioni semantiche al livello lessicale, un meccanismo che renderà possibile la composizione di
queste singole entrate al livello frastico’.
26
In italiano tradotti anche come “circostanziali” (p.es. Menza 2010).
79
aprire
stre- e1 = e1: strarg: arg1 = x: qualia: causativo_lcp
vent: processo individuo formale:
e2 = e2: arg2 = essere_aperto (e2, y)
stato risul- y: ogget- agentivo:
tante to_fisico atto_aprire (e1, x)
restr = e1
< e2
Nelle traduzioni italiane indicata anche come “Struttura dei Qualia” (si vedano p.es. Ruimy
27
2003, 2006).
80
‘[…] questo livello del senso fornisce un collegamento esplicito al sapere generale (comune)
28
sul mondo’.
81
29
Il programma europeo di ricerca, svolto tra il 1995 e il 2000, comprende in realtà tre proget-
ti: MLAP-PP PAROLE e LE-PAROLE, dedicati alla creazione del modello morfologico e sintatti-
co del lessico, e il progetto SIMPLE, disegnato per la creazione del modello semantico. In questo
lavoro ci interessa soprattutto il livello di informazione semantica, per cui parlerò solo dell’ultima
iniziativa di ricerca.
30
Si veda il sito del progetto nato da una collaborazione tra l’Istituto di Linguistica Computa-
zionale di Pisa (ILC) e la Thamus di Salerno: http://www.ilc.cnr.it/clips.
82
83
ruolo formale
∙ isa ∙ antonym_comp ∙ antonym_grad ∙ mult_opposition
ruolo costitutivo
Contitutive Property Location
∙ made_of ∙ uses ∙ causes ∙ measures ∙ produces ∙ is_in
∙ is_a_follower_of ∙ concerns ∙ affects ∙ produced_by ∙ lives_in
∙ has_as_member ∙ constitutive_activity ∙ property_of ∙ typical_location
∙ is_a_member_of ∙ contains ∙ quantifies
∙ has_as_part ∙ has_as_colour ∙ related_to
∙ instrument ∙ has_as_effect ∙ successor_of
∙ kinship ∙ relates ∙ has_as_property ∙ precedes
∙ is_a_part_of ∙ measured_by ∙ typical_of
∙ resulting_state ∙ contains ∙ feeling
ruolo telico
Instrumental Telic Activity Direct telic
∙ used_for ∙ indirect_telic ∙ s_the_activity_of ∙ bject_of_activity
∙ used_as used_by ∙ purpose ∙ is_the_ability_of
∙ used_against ∙ is_the_habit_of
ruolo agentivo
Agentive Artifactual agentive
∙ result_of ∙agentive_experience ∙ caused_by ∙ created_by
∙ agentive_prog ∙ agentive_cause ∙ source ∙ derived_from
84
85
paragoniamo con un meccanismo che ci è ben noto per quanto riguarda il suo funzionamento
(Apresjan 1966: 78–79).
2
A questo punto desidero prescindere dalla definizione di comunicazione come tale. Con-
cordo con la visione orchestrale della comunicazione di Yves Winkin (le modèle orchestral de la
communication), secondo cui la comunicazione è un processo continuo e multicanale che coinvol-
ge tutti i sensi (il modello che si oppone alla comunicazione “telegrafica”, quindi trasmissione di
informazioni; si veda Winkin 1996). Credo, tuttavia, che la comunicazione attraverso la lingua ri-
manga ex definitione l’oggetto della linguistica. L’analisi linguistica coinvolgerà chiaramente tutto
il contesto in senso ampio, purché lo stesso contesto appaia come “accompagnamento” dell’atto
linguistico. È ancora lecito distinguere la comunicazione culturale dalla comunicazione linguistica.
87
88
4
Il punto 4 (la verifica del modello attraverso esperimento) fa sì che, in un certo senso, pos-
siamo paragonare le riflessioni apresjaniane alle considerazioni di K. Popper (ne ho parlato anche
nel cap. 1). Ricordiamo che per Popper un’ipotesi/una teoria può essere definita scientifica, solo
se è possibile falsificarla (chiaramente anche tramite esperimento).
89
5
Ho parlato a questo proposito anche in Leksykografia komputacyjna a przekład automatyczny
(Słapek – Chrupała 2010). Qui presento un’esposizione del problema più dettagliata ed esaustiva.
6
‘Con la realizzazione della stessa struttura in una nuova sostanza’.
7
‘Il modello è tanto più efficace quanto maggiore è il suo dominio di lavoro, cioè il numero
delle sue possibili interpretazioni è maggiore’.
90
8
Nel capitolo 2 ho parlato dei dizionari elettronici di G. Gross. Chiaramente anche il suo
Laboratorio di Linguistica Informatica ha evidenziato alcuni criteri per la creazione dei dizionari.
Questi sono: il numero costante dei campi descrittivi dell’unità lessicale che permette di lavorare
in maniera unificata e coerente, l’utilizzo degli strumenti informatici nella redazione del dizionario,
una possibile remotizzazione del lavoro grazie alla trasmissione elettronica dei dati (Gross 1992b:
1). Le suddette caratteristiche sembrano oggi piuttosto arretrate.
91
▪▪ potenza: la quantità del materiale linguistico che può essere analizzato dal
programma in modo accurato (come il sistema riesce a trattare fenomeni
linguistici periferici, lessemi complessi, ecc.) e la capacità del sistema di
potersi arricchire di nuove strutture senza essere riprogrammato.
L’arricchimento del lessico si verifica, nel nostro caso, solo all’interno della
banca dati, quindi all’interno del componente a parte, in un certo senso separabile
o separato dallo stesso programma di traduzione. Il software non deve essere ri-
programmato. La quantità del materiale linguistico possibilmente trattato dipende
ovviamente dal volume della banca dati. Più entrate ci sono, più vasto sarà il mate-
riale linguistico possibilmente tradotto.
92
93
94
9
‘Possiamo interpretare il senso di un oggetto come elemento identificabile del mondo reale
che si può presentare come concreto o astratto […]. L’oggetto si distingue per la sua struttura
(attributi) o per il suo comportamento, il suo modo di agire (operatori). L’oggetto esiste all’interno
di una classe; la classe, a sua volta, unisce oggetti che dividono le stesse proprietà’.
95
IT FR PL
Casa Maison dom
[Morfologia:] [Morphologie:] [Morfologia:]
[Codice morfologico:] [Code morphologique:] [Kod morfologiczny]
[Sintassi:] [Syntaxe:] [Składnia:]
[Codice sintattico] [Code syntaxique:] [Kod składniowy:]
[Classe di oggetti:] case [Classe d’objets:] maisons [Klasa obiektowa:] domy
[Definizione:] edificio [Définition:] bâtiment de- [Definicja:] budynek
suddiviso in stanze o in stiné à servir d’habitation à przeznaczony na mieszkania.
appartamenti, adibito sp. ad l’homme
abitazione
[Sinonimi:] casa d’abita- [Synonymes:] maison d’ha- [Synonimy:] dom mieszkalny
zione bitation
[Sopraclasse5:] luogo [Superclasse5:] locatifs [Superklasa5:] miejsce
10
Le analisi di <casa> sono già state presentate in parte in Chrupała – Słapek 2010. La com-
ponente francese è stata compilata dalla mia collega. Ho deciso di presentare qui tutta l’entrata
multilingue per non privilegiare la dimensione bilingue dell’AOO.
96
97
98
99
IT FR PL
Casa celeste Maison céleste Dom niebieski
Casa di Dio Maison de Dieu Dom Boży
Casa del Padre Maison du Père Dom Ojca
Casa del Signore Maison du Seigneur Dom Pana
Casa eterna Maison éternelle Dom wieczny
Casa terrestre Maison temporelle Dom doczesny
Casa terrestre Maison terrestre Dom ziemski
Tabella 3.2: Frammento della classe di oggetti <locali> con il componente casa.
CO <locali>
IT FR PL
Casa chiusa Maison close Dom publiczny
Casa comunale Maison communale Ratusz
Casa di moda Maison de confection Dom mody
Casa di convalescenza Maison de convalescence Sanatorium
Casa di correzione Maison de correction Dom poprawczy
100
Per redigere un elenco degli operatori che accompagnano una data classe di
oggetti dovremmo limitarci ai lessemi che sono propri, per l’appunto, di questa
classe (nella terminologia di G. Gross: opérateur approprié). Gli operatori di questo
tipo differiscono dagli operatori ereditati (opérateurs hérités) che possono accom-
pagnare gli elementi di una data classe, perché sono stati ereditati da una delle sue
super-classi, quindi dalla classe di ordine superiore.
Non tutti gli operatori provenienti da una sopra-classe possono essere ereditati
dalle classi di ordine inferiore. In ogni caso, non è necessario alcun tipo di indice
che precisi quali degli operatori verranno ereditati. Il programma della traduzione
automatica inizia a lavorare, per così dire, dal basso, cioè parte dalla classe di og-
getti ritrovata nel testo, verifica se nella griglia della classe (nell’entrata lessicale) si
trova l’attributo o operazione presente nella frase in esame, se non lo trova, cerca
nelle classi di ordine superiore.
Il modello del funzionamento lessicale che vuole rendere conto dell’eredità
semantica deve poter esprimersi in maniera formale, cioè in modo tale che un
sistema elettronico sia in grado di elaborare le informazioni che esso presenta. I
software di ogni tipo vengono scritti in diversi linguaggi di programmazione (ne
ho parlato anche nell’introduzione a questo lavoro). Dato che la scelta del linguag-
gio rientra nelle competenze del programmatore che elabora un dato software, mi
limiterò a esporre il meccanismo ereditario nei termini della tradizione logica o
matematica (ricordiamo che la rappresentazione formale è uno dei tratti caratte-
ristici del modello linguistico, si veda il paragrafo 3.1). Questa è chiaramente una
versione semplificata:
101
1) passo: trova il lessema nella banca dati / trova classe_oggetti V cui appartie-
ne il dato lessema;
2) passo: trova l’attributo/operazione del lessema a in V(x);
3) passo: a) se a V(x) a=x quindi TRADUCI, b) se a V(x) quindi V =
V+1 e torna al passo 2.
Figura 3.2:
Schema approssimativo dell’algoritmo dell’eredità semantica (frammento)
TRADUCI
ATTRIBUTO/
OPERAZIONE
L’algoritmo sarà più complicato per i lessemi che appartengono a diverse classi
di oggetti. In questo caso il programma, nel primo passo, dovrà decidere di quale
classe di oggetti un dato lessema fa parte (dovrebbe quindi essere integrato con un
passo “introduttivo”). Il ritrovamento della classe adeguata è comunque facile grazie,
per l’appunto, all’entourage frastico del lessema (i suoi attributi e le sue operazioni).
Per quanto concerne l’aspetto teorico dell’eredità semantica bisogna ancora
precisare come si presenta la nozione dell’eredità multipla all’interno della meto-
dologia AOO (si veda anche il paragrafo 2.6.1). Per eredità multipla intendiamo
la possibilità di ereditare le caratteristiche da più di una classe (categoria), non
necessariamente poste all’interno di una stessa gerarchia di classi, cioè dalle classi
102
103
11
‘Aggiungiamo che le operazioni in questione e gli attributi sono disposti in maniera supple-
mentare a un livello superiore dell’analisi non appena la classe di oggetti esaminata diventa modulo
organizzato per mezzo di frame (cadre) corrispondente alle funzioni lessicali’.
104
‘Ci sono tanti sensi differenti di una parola […] quante sono le sue traduzioni […] e insiemi
12
di marcatori sintagmatici differenti che distinguono gli uni dagli altri nella lingua di partenza’.
105
13
Le grammatiche italiane discordano per quanto riguarda la funzione logica che svolge lo
stesso pronome. In Dardano e Trifone leggiamo che il pronome relativo formato da due elementi
«si può usare come soggetto (ma ha tono più sostenuto rispetto a che), come complemento oggetto
(molto raro e letterario), come complemento indiretto (di uso corrente accanto a cui)» (Dardano –
Trifone 2006: 285). Secondo Serianni, le forme composte sono usate «come soggetto e soprattutto
come oggetto, la forma composta è molto meno comune di che, e comunque limitata all’uso scritto
formale» (Serianni 1999: 315). Katerinov, con gli esempi che propone, suggerisce addirittura una
totale equivalenza tra che e il quale (il suo esempio: il ragazzo il quale (che) vedo (sic!); l’autore
sbaglia non solo per quanto riguarda la funzione logica del pronome, ma propone un evidente
esempio della relativa restrittiva, dove il quale non dovrebbe mai presentarsi; cfr. Katerinov 1992:
80). Nella Grande grammatica italiana di consultazione troveremo: «che e quale sono varianti pres-
soché facoltative nella realizzazione di soggetti e complementi oggetti» (Renzi et al. 2001: 462),
dopodiché troviamo gli esempi del pronome in quanto oggetto marcati con due punti interrogativi.
Le spiegazioni citate sopra non sono del tutto corrette, perché:
a) la sostituzione di che con le forme composte in funzione di compl. oggetto non è più prevista
dal sistema italiano attuale (la struttura non è più produttiva). È difficile trovare pochi esem-
pi “rari e letterari”, se non nei testi remoti; è giusto prendere in considerazione le capacità
ricettive di chi studia l’italiano: in tal modo, semmai, lo studente potrà riconoscere una simile
struttura. Nelle grammatiche moderne va comunque notato che (art. +) quale come compl.
oggetto non sostituisce più il pronome che;
b) le forme composte vengono usate come complemento indiretto, ma in tal caso sono sempre
precedute da una preposizione. Ciò non viene sottolineato da nessuno degli autori (si parago-
ni p.es.: l’argomento a cui mi riferisco = l’argomento cui mi riferisco, dove è possibile omettere
la preposizione a, ma: l’argomento al quale mi riferisco ≠ *l’argomento il quale mi riferisco;
106
c) per essere precisi: (art. +) quale può funzionare come compl. oggetto in contesti sintattici
molto particolari: dopo un gerundio, un participio o un infinito. Non sostituiscono allora che,
perché il pronome che non potrebbe mai trovarsi in simili contesti. Le grammatiche di cui
sopra presentano le forme variabili come compl. oggetto nelle frasi, la cui struttura è simile a
quella dell’esempio di Katerinov, appena citato.
107
108
109
Prep
Prep
Prep
Prep
Verbo Verbo
CO CO CO Caso CO Caso CO Caso CO
hum togliere - <capo di abbigliamento> - - [nom] [hum] zdjąć - acc <capo di abbigliamento> - - -
hum togliere - <capo di abbigliamento> a [anim] [nom] [hum] zdjąć - acc <capo di abbigliamento> - [dat] [anim]
<recipiente da <recipiente da
all togliere - <prodotti alimentari> da [nom] [all] wyjąć - acc <prodotti alimentari> z [gen]
cucina> cucina>
hum togliere - <dente> a [anim] [nom] [hum] wyrwać - acc <dente> - [dat] [anim]
all togliere di <sostanza liquida> da <contenitore> [nom] [all] Odlać - gen <sostanza liquida> z [gen] <contenitore>
all togliere di <sostanza in polvere> da <contenitore> [nom] [all] odsypać - gen <sostanza in polvere> z [gen] <contenitore>
03/02/2016 14:46:35
(in questa categoria entrano chiaramente frazioni, numerali decimali, ecc.)
I risultati dell’analisi vengono esposti in uno schema riassuntivo, come quello pre-
sentato alla pagina precedente. La mia è solamente un’esposizione esemplare e
frammentaria del problema.
111
113
114
115
116
Ricordiamo le definizioni più comuni del corpus: a) «raccolta completa e ordinata di testi,
1
di uno o più autori, riguardanti una certa materia» (Chiari 2007: 42), b) «campione di una lingua
preso in esame per la descrizione di una lingua» (De Mauro in GRADIT: 346).
2
Per le fasi principali della compilazione di un’entrata lessicale bilingue basata sull’analisi
dei corpora si veda Atkins 1990 in cui l’autrice propone i seguenti passi: analisi, tranfer e sintesi;
ricordiamo anche le tappe di disambiguazione verbale di Banyś esposte nel paragrafo 3.4.
3
Nella terminologia di Chiari i corpora comparabili sono definiti multilingui (Chiari 2007:
53). I corpora multilingui possono, però, essere classificati come una categoria di grado superiore
che include sia corpora paralleli che corpora comparabili.
117
118
4
Le occorrenze si presentano come segue (dati del 2000): stampa 38 milioni, narrativa 25 mil.,
prosa acc. 12 mil., prosa giur.-amm. 10 mil., miscellanea 10 mil., ephemera 5 mil. I dati attuali non
sono stati messi a disposizione.
119
API – Archivio dell’Italiano Parlato / AVIP – Archivio della Varietà d’Italiano Parlato:
coordinatore: A. Leoni, anni progetto: 1999-2001, enti: Università di Napoli Federico II,
Scuola Normale Superiore di Pisa et al., sito:
http://www.parlaritaliano.it/parlare/visualizza_prog.php?idp=59
Raccolta di dialoghi spontanei per uno studio fonetico dell’italiano e delle sue varie-
tà. Il corpus è stato registrato su DVD, distribuito gratuitamente da CIRASS (Fede-
rico II, Napoli), già esaurito, da consultare sul sito del progetto.
CIT – Corpus di Italiano Televisivo: autore S. Spina, inizio progetto 1998, ente: Università
per Stranieri di Perugia, numero parole: 250 000, sito: http://web.me.com/stefania.spina/
Sito/Home.html
Raccolta di trascrizioni di diverse trasmissioni televisive annotate per categoria gram-
maticale, non lemmatizzate. Da consultare la versione dimostrativa del corpus.
Per una più ampia panoramica delle raccolte dei testi letterari si veda il sito web “Letteratura
5
120
* Per un elenco più dettagliato dei corpora di minore entità si veda il sito del progetto BADIP (Banca
Dati dell’Italiano Parlato, http://badip.uni-graz.at). Il sito riporta la lista dei corpora pubblicati a partire
dal 1970.
Il lessicografo che lavora sui dizionari bi- o multilingui dovrebbe servirsi an-
che di corpora della lingua di arrivo, nei quali potrà analizzare l’impiego reale del
termine nella L2. Ritengo perciò lecito presentare almeno sommariamente i più
importanti corpora di lingua polacca. Inoltre, i corpora polacchi sono sicuramente
meno noti a un lettore italiano; mi sento, dunque, in dovere di pubblicizzare i la-
vori dei colleghi linguisti polacchi. Questi sono6:
6
Il primo corpus della lingua polacca è stato realizzato negli anni 1963-1967 per la stesura del
vocabolario di frequenza. Si tratta di un progetto innovativo per l’epoca: ogni parola del corpus
veniva accompagnata dai dati relativi al tipo di flessione e dalla forma lemmatizzata della parola
testuale. Il corpus poteva inoltre considerarsi rappresentativo, data una vasta diversificazione dei
testi raccolti (si veda Piotrowski 2001: 173–175). Il corpus è stato rivisto ed è ora disponibile on
line sul sito http://www.mimuw.edu.pl/polszczyzna.
121
▪ PELCRA Polish and English Language Corpora for Research and Application
▫ enti aderenti al progetto: Cattedra di Lingua Inglese dell’Università di Łódź,
Cattedra di Lingua Inglese Contemporanea dell’Università di Lancaster ▫
anno: il progetto iniziato nel 1997, ▫ sito web: http://www.pelcra.pl
PELCRA nasce come progetto internazionale che mirava a costruire corpora
della lingua polacca e inglese (sia corpora indipendenti che paralleli). Oggi può es-
sere considerato anche come un corpus nazionale della lingua polacca strutturato
sul modello del British National Corpus (si veda di seguito NKJP). Tra i compo-
nenti polacchi troviamo il Corpus referenziale della lingua polacca (Korpus refe-
rencyjny języka polskiego) composto di oltre 93 milioni di parole (disponibile on
line), e il Corpus della lingua polacca di conversazione (Korpus Polszczyzny Kon-
wersacyjnej – KPK), una parte del Corpus referenziale consultabile indipendente-
mente. KPK include le conversazioni spontanee registrate senza che i conversanti
ne fossero a conoscenza (ma pubblicate solo con la successiva autorizzazione dei
locutori). I testi sono stati trascritti e annotati con informazioni relative a: tema,
sesso, istruzione, tratti prosodici dei locutori. Le conversazioni sono disponibili
anche in forma audio. Il volume del corpus è pari a 600 000 parole uguali a 29
ore di registrazioni (per i dati più dettagliati si veda il sito del progetto; e anche
Lewandowska-Tomaszczyk 2005: 18–21).
▪ PWN
▫ enti aderenti al progetto: Casa editrice PWN, ▫ Anno: 1997, ▫ sito web: http://
www.korpus.pwn.pl
Il corpus più rappresentativo è stato creato da un’istituzione commerciale, per
cui l’accesso gratuito è limitato a una sola versione dimostrativa. L’accesso all’inte-
122
▪ NKJP Narodowy Korpus Języka Polskiego (Corpus Nazionale della Lingua Po-
lacca)
▫ enti aderenti al progetto: il consorzio IPI PAN, IJP PAN, PELCRA, Casa edi-
trice PWN, ▫ anno: il progetto finanziato dal Ministero delle Scienze e delle
Università negli anni 2007-2010, ▫ sito web: http://www.nkjp.pl
Il progetto ha come scopo la costruzione di un insieme di centinaia di milioni di
occorrenze testuali, che comprenderanno: testi di letteratura, quotidiani, giornali
specialistici, registrazioni di conversazioni, depliant e siti web. La diversificazione
dei testi dovrà rendere conto del sesso, dell’età e della provenienza territoriale
dell’autore del testo. Il progetto non è ancora terminato. La versione dimostrativa
con i frammenti del NKJP è disponibile direttamente sul sito del progetto.
4.3. Nuove tecnologie al servizio della lessicografia: analisi automatica del corpus
123
7
Per la storia dettagliata del progetto si veda il sito http://xvii-wiek.ijp-pan.krakow.pl; il sito
dà accesso al motore di ricerca del dizionario (ancora incompleto).
A questo proposito possiamo citare anche Słownik języka Jana Chryzostoma Paska (il diziona-
rio di Jan Chryzostom Pasek) uscito tra il 1965 e il 1973. Oggi la stesura di un simile dizionario,
supponendo che tutti i testi di Pasek siano stati digitalizzati, richiederebbe senz’altro molto meno
lavoro e, soprattutto, meno tempo.
124
disponibili: lemma,
phrase, word form, CQL
casella di ricerca
da scegliere anche
il contesto destro e sinistro
L’opzione CQL (Corpus Query Language) favorisce un’analisi ancora più avan-
zata, eseguita attraverso un linguaggio di ricerca specifico (purtroppo vari pro-
grammi dispongono di differenti linguaggi di ricerca), con le principali funzioni:
lemma (ricerca per lessema), word (ricerca per forma flessionale) e tag (parte del
discorso), interscambiabili e variamente combinati, dove ogni unità è chiusa tra
parentesi quadre []. In tal modo, per trovare tutte le forme flesse della parola
andare bisogna immettere la seguente funzione [lemma=“andare”], mentre per
trovare tutti gli avverbi che seguono la stessa parola inserire: [lemma=“andare”]
[tag=ADV], ecc8.
Le combinazioni personalizzate di queste funzioni costituiscono uno stru-
mento davvero potentissimo di ricerca lessicale e testuale. A titolo d’esempio: a)
[word=“pseudo.*”] trova tutte le parole che cominciano con il prefissoide pseu-
do; b) [word=“pseudo.*” & !word=”pseudo|pseudonimo”] trova tutte le parole
che cominciano con pseudo ma non sono lemma pseudo né lemma pseudonimo;
c) [word=”.*bile” & tag=”ADJ”] trova tutte le parole che finiscono con –bile e
sono etichettate come aggettivi; d) [lemma=“buttare”] ([word=“via”]|[word=“gi
Altre funzioni (marchi d’uso) più importanti sono: & che sta per congiunzione, ! eccetto, .*
8
125
casa posto
costruire
abitare
parcheggiare
adibire
situare
occupare
rimanere
isolare
destinare
spettare
ricoprire
mettere
conquistare
piazzare
prenotare
limitare
vacare
assegnare
collocare
coprire
riservare
subentrare
sbagliare
4.3.2. Unitex
126
Figura 4.2: Schermata di Unitex (da sinistra: lista di frequenza, parole riconosciute in DELA,
parole non riconosciute, testo analizzato)
Oltre ai due sistemi di ricerca testuale di cui sopra ci sono altri programmi,
scaricabili gratuitamente da Internet o accessibili tramite licenza, il cui numero è
in continua crescita. La tabella 4.2 presenta un breve confronto di alcuni sistemi
che comprendono l’italiano tra le lingue analizzate.
127
128
129
9
‘La natura della soglia di comprensione per la lettura indica che il vocabolario è l’elemento
cruciale per l’interpretazione della soglia’.
10
Sono interessanti gli studi sulla comprensione del testo scritto in una lingua non apparen-
tata alla lingua materna, come per esempio inglese-arabo. Anche in questo caso il lessico risulta
essere centrale (si veda p.es. Khalidieh 2001: 416).
130
▫ FO: fondamentale: tra i lemmi principali; sono così marcati 2.049 vocaboli di
altissima frequenza, le cui occorrenze costituiscono circa il 90% delle occor-
renze lessicali nell’insieme di tutti i testi scritti o discorsi parlati;
▫ AU: di alto uso: sono così marcati 2.576 vocaboli di alta frequenza, le cui oc-
correnze lessicali costituiscono un altro 6% (circa) delle occorrenze lessicali
nell’insieme di tutti i testi scritti o discorsi parlati;
▫ AD: di alta disponibilità; sono così marcati 1.897 vocaboli, relativamente rari
nel parlare o scrivere, ma tutti ben noti, perché legati ad atti e oggetti di grande
rilevanza nella vita quotidiana (≈ 2% di occorrenze lessicali).
131
2% 2%
6% AD altri 98
100
96
AU
90
196644
4625 6522
2049
90% FO
Per illustrare meglio la questione del lessico fondamentale (la percentuale del
testo che costituisce il lessico FO) di seguito presento una breve analisi del testo
effettuata tramite l’analizzatore VdB – da consultare sul floppy disk Guida all’u-
so delle parole11. Il testo analizzato è un articolo tratto dal sito yahoo.it (sezione
notizie)12 – uno dei più letti (lo ritengo adatto, perché si presuppone che il pro-
gramma di traduzione automatica del quale si parla in questo lavoro debba tradur-
re, per l’appunto, simili testi).
Nel testo le parole senza formattazione appartengono al livello FO, le parole in
corsivo sono le parole di alto uso, le parole in grassetto fanno parte del gruppo alta
disponibilità, invece le parole sottolineate non entrano nel Vocabolario di Base. I
risultati dell’analisi vengono riportati nella tabella 4.3.
11
In allegato a: De Mauro 1997; è un programma interattivo che permette la consultazione del
VdB e il confronto del lessico di un testo con lo stesso Vocabolario.
12
L’indirizzo web esatto è: <http://it.notizie.yahoo.com/4/20091128/tts-oittp-obama-dinner-
security-ca02f96.html>, l’articolo Intrusi a cena gala Casa Bianca hanno salutato Obama è apparso
in data 28/11/2009.
132
Per creare la lista lemmi di riferimento mi servirò della lista di frequenza CoL-
FIS (di cui anche sopra). Ciò per le seguenti ragioni: a) ColFIS è un corpus dell’ita-
liano scritto effettivamente letto (bilanciato in base alle statistiche dell’ISTAT sulle
letture preferite dagli italiani), b) il volume del corpus è ampio, contiene 3.798.275
133
Il numero che riferisco è quello apparso sul sito del progetto; il file scaricabile del lemmario
13
134
135
Figura 4.4:
Grafico delle occorrenze dei primi 10.000 lemmi in ordine di rango sul totale di 89.352 lemmi
del CoLFIS.
% lemmi
50% 35
55% 67
60% 135
65% 271
70% 524
75% 946
80% 1631
136
15
A titolo d’esempio, il lessico fondamentale del CoLFIS uguale al 90% delle occorrenze
testuali è costituito da 5615 lemmi, tra cui 1131 verbi. Il numero sembra alquanto improbabile da
raggiungere.
137
138
139
haber/699445-istanbulu-izmire-yaklastiran-imza.
140
Nonostante una scorretta sintassi del testo o le parole non tradotte (perché
non trovate nella banca dati), siamo in grado di ritrovare le informazioni più im-
portanti: a) la Turchia ha firmato un contratto per le costruzioni autostradali, b) il
progetto non ha precedenti quanto ai finanziamenti, c) gli investimenti ammontato
a 4 miliardi di dollari, e) sappiamo anche quali sono le imprese che realizzeranno
l’opera. La lettura di un tale testo richiede, senza dubbio, molta più attenzione e,
forse, anche un po’ di pratica interpretativa. Ciononostante, il valore della tradu-
zione è innegabile. Per di più, come ho già accennato alcune volte nelle pagine di
questo lavoro, le traduzioni dei testi meno complessi, con un lessico ben descritto
nei dizionari-macchina, risultano molto più soddisfacenti. Prendiamo come esem-
pio le previsioni del tempo17 (cfr. il progetto canadese “Meteo”), dove la traduzio-
ne italiana è sicuramente molto meglio riuscita:
1. versione turca originale: Hafta sonu kar geliyor! Ülke genelinde hava
sıcaklıkları 6-10 derece azalacak... Türkiye, bugün Balkanlar üzerinden ge-
lecek soğuk havanın etkisine girecek. Meteoroloji Genel Müdürlüğünden
aldığı bilgiye göre, halen Orta Akdeniz üzerinden gelen ılık ve yağışlı hava
kütlesinin etkisi altında olan Türkiye’de, bugün batı kesimlerde görülecek
Testo originale tratto dallo stesso portale con la stessa data (www.haberturk.com/yasam/
17
haber/699409-hafta-sonu-kar-geliyor).
141
142
Gli autori che parlano della descrizione lessicografica nei termini dell’Approc-
cio Orientato agli Oggetti presentano solitamente le analisi di una data classe di
oggetti (come p.es. la classe “fenomeni naturali” come in Perz 2007) o la disam-
biguazione di un dato verbo o gruppo di verbi (p.es. Żłobińska-Nowak 2008a). Il
presente lavoro differisce dai suoi precedenti non solo perché per la prima volta
espone l’argomento in lingua italiana, ma soprattutto perché propone una visione
olistica del lavoro lessicografico. Non mi sono voluto limitare all’analisi di una data
unità lessicale (né di un gruppo di unità lessicali: in questo caso le analisi seguireb-
bero sempre lo stesso schema), mi sono posto, invece, quattro obiettivi particolari,
che ho voluto raggiungere nel corso dei vari capitoli. Ho quindi presentato: 1) la
traduzione automatica nel suo contesto storico e paradigmatico più ampio, sof-
fermandomi sulle peculiarità del trattamento automatico del linguaggio, 2) i più
importanti modelli lessicali, specie per la lessicografia computazionale, 3) la de-
scrizione lessicografica basata sull’Approccio Orientato agli Oggetti, 4) i principali
strumenti e le risorse per la lessicografia italo-polacca e successivamente delineato
un quadro di riferimento per la creazione del dizionario-macchina destinato prin-
cipalmente alla traduzione automatica del testo scritto. I singoli capitoli possono
perciò leggersi anche separatamente o in ordine sparso.
Rimangono, comunque, alcuni punti che necessitano di ulteriori precisazioni
e conclusioni definitive:
143
144
Tabella 5.1: Un frammento della banca dati lessicale pl-fr del “LINK” (tratto da: Hajok 2011@)
145
Elementi:
motore di ricerca
elenco entrate
contenuto entrata
nome glossario
146
147
1
‘[…] che sarebbe definita come conformità del contenuto informativo presentato nel di-
zionario con i dati dedotti da un materiale linguistico empirico (variamente interpretato), cioè
soprattutto dall’impiego del lessema testimoniato nei testi’.
148
2
Le ricerche dei neofilologi riguardano soprattutto le lingue straniere, i risultati delle loro
analisi vengono pubblicati in queste lingue. La comunicazione tra gli anglisti è sicuramente più
facile, visto che l’inglese sta diventando (se non lo è già diventato) la lingua franca delle ricerche
linguistiche anche in Italia e in Polonia.
149
150
151
152
153
154
155
156
157
158
159
160
161
162
Dizionari e enciclopedie1
DAZ : Dizionario Analogico della Lingua Italiana di D. Feroldi e E. Dal Pra, Bolo-
gna, Zanichelli, 2011.
DdL: Dictionnaire de Linguistique di J. Dubois et al., Paris, Larousse,
1973.
DEC: Dictionnaire explicatif et combinatoire du français contemporain. Recherches
lexico-sémantiques, a cura di I.A. Mel’čuk et al., I: 1984, II: 1988, III: 1992,
IV: 1999, Montréal, Les Presses de l’Université de Montréal.
DGA: Grande Dizionario Analogico della Lingua Italiana, a cura di R. Simone, To-
rino, UTET, 2010.
DIN: Grande Dizionario Elettronico Italiano-Neerlandese/Neerlandese-Italiano di
Vincenzo lo Cascio, Amstelveen, Fondazione Italned, 2005.
EJO: Encyklopedia Językoznawstwa Ogólnego, a cura di K. Polański, Wrocław,
Ossolineum, 2003.
ENF: Filozofia a nauka. Zarys encyklopedyczny, a cura di Z. Cackowski et al.,
Wrocław, Ossolineum, 1987.
GRADIT: Grande Dizionario Italiano dell’Uso, a cura di T. De Mauro, Torino,
UTET, 1999-2000.
VNZ: Lo Zingarelli 2007. Vocabolario Della Lingua Italiana di N. Zingarelli, Bolo-
gna, Zanichelli.
GRZ: Grande Dizionario di Italiano Garzanti, Torino, UTET, 1994.
1
Le prime lettere degli acronimi stanno per: D – dizionario, V – vocabolario, E – enciclopedia.
163
164
165
167
168
Tabossi, P., 25
Toma, P., 21
Traversa, V., 130
Trifone, P., 106
Troânskij, P., 19, 20
169
The aim of this work was to study computational lexicography for machine
translation. I have tried in particular 1) to present the machine translation in its
larger disciplinary context of computational linguistics, 2) to describe some of the
most important models for lexical unit treatment, 3) to provide a positive criticism
on Object-Oriented Approach for lexical unit description, 4) to present the
proceeding methodology and computer tools for bilingual Italian-Polish lexical
database. The specific aims, which altogether embrace the title: Constructive
principles of the Italian-Polish machine-tractable dictionary, have been achieved in
four singular chapters.
Chapter 1, Machine Translation: history, disciplinary context, questions,
presents briefly a) the evolution of text analysis and text reconstruction methods
used in MT (such us direct translation, grammatical transfer, interlingua, example-
based and statistical machine translation), b) the philosophical background of MT
which some researchers want to find in the seventeenth-century lingua universalis,
c) the first real experiments in automatic translation sensu stricto conducted
separately by P. Trojansky and G. Artsrouni. The machine translation is shown
as a branch of computational linguistics related in particular to computational
lexicography. Therefore I have tried to expose in detail the paradigmatic
context just mentioned, its definition, assumptions, as well as steps and tools in
automatic text analysis. In my point of view computational linguistics is not a
distinct paradigm – it does not propose a different meaning of language. It is
rather a specific treatment of language data (conditioned by a specific tool) on
every linguistic level: textual, phrastic, lexical etc. The use of computer tools is
nowadays an indispensable part of linguistic research. Furthermore, I have drawn
attention to three important works of Italian lexicography whose architecture is
very close to the structure of machine-tractable dictionaries. These are: Dizionario
Analogico della Lingua Italiana by D. Feroldi & E. Dal Pra, Grande Dizionario
Analogico edited by R. Simone and Grande Dizionario Elettronico Italiano-
Neerlandese/Neerlandese-Italiano by V. Lo Cascio. The first part of my work ends
with a sketch of some linguistic phenomena, whose automatic treatment is still
difficult, such as collocations, expression figée, synonyms, absolute and textual
homonyms, syntactic ambiguity and polysemy.
171
172
173
174