Sei sulla pagina 1di 51

12/03/2010

I. Chiari, Linguistica computazionale - a.a. 2009/2010

SEMANTICA E LESSICO
Per la lessicografia contemporanea

Definizioni Discipline
2

Vocabolario: insieme delle parole di una lingua o parte di esso; insieme di parole che parlanti specifici di una lingua possiedono; nelluso comune lopera che raccoglie il lessico; in questa accezione sinonimo di dizionario Lessicografia: tecnica di composizione dei dizionari Semantica: settore del lessico relativo al significato e ai suoi meccanismi Parola: definizione problematica. Spesso usata con il significato di voce,vocabolo.La definizione pi diffusa di parola segmento della catena parlata o del testo scritto tale che non sia interrompibile da altri elementi, che sia mobile, che possa comparire da solo e che abbia un significato
(Beccaria, G. (1994). Dizionario di linguistica e di filologia, metrica, retorica. Torino, Einaudi)
I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

vocabolario
3

Da

T. De Mauro, La fabbrica delle parole, UTET, 2000.


I. Chiari, Linguistica computazionale - a.a. 2009/2010

lessico
4

Da T. De Mauro, La fabbrica delle parole, UTET, 2000.


I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

dizionario
5

Da T. De Mauro, La fabbrica delle parole, UTET, 2000.

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Terminologia della lessicologia


6

Parole chiave
LESSEMA termine adoperato in lessicologia strutturale e indica lunit lessicale a due facce (significante e significato) appartenente al piano della langue, del sistema linguistico e come tale astratta LEMMA Forma di citazione del lessema nel dizionario TERMINE parola appartenente a un linguaggio settoriale, ad un ambito definito,avente un significato preciso e univoco (es. termine regionale, dialettale) PAROLA TESTUALE o occorrenza PAROLA GRAFICA Sequenza di caratteri alfabetici compresi tra due spazi o segni di interpunzione POLIREMATICA

I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

TERMINOLOGIA
7

PAROLA (Inglese: WORD)

Ununita linguistica a cui sono associate una funzione grammaticale ed un significato (Marello) Varianti morfologiche di una parola con funzioni grammaticali anche diverse:

FORME di parola / parole testuali

BELLO, BELLISSIMO DOTTORE, DOTTORI MANGERO, MANGIARE

da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)


I. Chiari, Linguistica computazionale - a.a. 2009/2010

TERMINOLOGIA (2)
8

VOCE di un dizionario (Inglese: ENTRY)

Le informazioni date da un dizionario su una parola indicizzata da un certo LEMMA

LEMMA
La forma di parola canonica usata per rappresentare la parola nel dizionario (per esempio, per deciderne la posizione alfabetica) Per esempio,

DOTTORE per il sostantivo con forme DOTTORE, DOTTORI MANGIARE per il verbo con forme MANGIO / MANGIERO / MANGIO

da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)


I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

Lessemi e parole testuali


9

Quel ramo del lago di Como, che volge a mezzogiorno, tra due catene non interrotte di monti, tutto a seni e a golfi, a seconda dello sporgere e del rientrare di quelli, vien, quasi a un tratto, a ristringersi, e a prender corso e figura di fiume, tra un promontorio a destra, e un'ampia costiera dall'altra parte; e il ponte, che ivi congiunge le due rive, par che renda ancor pi sensibile all'occhio questa trasformazione, e segni il punto in cui il lago cessa, e l'Adda rincomincia, per ripigliar poi nome di lago dove le rive, allontanandosi di nuovo, lascian l'acqua distendersi e rallentarsi in nuovi golfi e in nuovi seni.

Il testo contiene 116 parole testuali/grafiche (tokens) 76 tipi di parole (types)

la congiunzione e occorre 10 volte, la preposizione a e di, rispettivamente 8 e 6 volte, ecc.

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Dizionari ed enciclopedie
10

Dictionaries are about words

La voce di un dizionario sulla parola TOAD ne da forma e pronuncia, etimologia, grammatica, uso, e significati Un articolo di enciclopedia su TOAD e un riassunto piu o meno breve della conoscenza sullargomento

Encyclopedias are about knowledge

ovviamente ci sono aspetti in comune

da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)

I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

UN ESEMPIO DI VOCE IN DIZIONARIO


11

toad /td/ n. 1 any froglike amphibian of the family Bufonidae, esp. of the genus Bufo, breeding in water but living chiefly on land. 2 any of various similar tailless amphibians. 3 a repulsive or detestable person. toadish adj. [Old English tadige, tadde, tada, of unknown origin] (COD 9)
da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010

UN ESEMPIO DI VOCE IN ENCICLOPEDIA


12

TOAD The true toads are amphibians in the Bufonidae family. A number of species in other families of Amphibia are commonly referred to as toads. This is because the characteristics that are popularly used to distinguish frogs from toads are not quite the same as those used for scientific classification. The type species of the family Bufonidae is the Common toad, Bufo bufo, and around it cluster a large number of species of the same genus, and some smaller genera. B. bufo is a tailless amphibian of stout build, with a warty skin, and any animal that shares these characteristics is liable to be called a toad, regardless of its location in formal taxonomy. That the shape of the body is not a safe guide in judging of anuran groups is shown by some true frogs (Rana), which have adapted to burrowing habits, and are absolutely toad-like. The Bufonidae include terrestrial, burrowing, thoroughly aquatic and arboreal types; Rhinophrynus, of Mexico, may be described as an anteater. Almost all toads have two lumps near the head, called the parotid glands. These glands da Poesio, diapositive di Lessicografia contain poison, which oozes out if the toad is angered. Some, like cane toads, are more (http://www.dit.unitn.it/~poesio/Teach/IU) poisonous than others.
I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

13

SEMANTICA E LESSICO
Principi di base

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Semantica lessicale Ambiguit del significato


14

Ambiguit: alcuni lessemi hanno pi di un significato (pi di un riferimento)

Polisemia: un lessema con pi significati in qualche misura collegati fra di loro


esecuzione: mano:

1. realizzazione di un brano musicale 2. messa in atto di una pena 1. arto superiore 2. quantit di vernice data su un muro'

Omonimia: un lessema con pi significati non collegati fra di loro (in realt si tratta di lessemi diversi)

SCANNARE come fare a pezzi / italianizzazione di TO SCAN; GRU come uccello / macchina per sollevare pesi

spesso: letto:

1. Agg., denso 2. Avv., frequentemente 1. nome, mobile per dormire 2. p.pass., voce del verbo leggere'

I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

Ancora sulla polisemia


15

La polisemia di una parola pu essere causata dal contesto sintattico in cui si trova:
(1) Gianni si dimenticato di aver chiuso la porta

ricaviamo linformazione che Gianni aveva chiuso la porta presupposizione di fattivit ricaviamo linformazione contraria, ossia che Gianni non aveva chiuso la porta le uova esistevano anche prima che Gianni le cuocesse, cambiamento di stato, presupposizione di esistenza Gianni ha prodotto qualcosa di nuovo, la frittata esiste solo perch Gianni lha cotta
I. Chiari, Linguistica computazionale - a.a. 2009/2010

(2) Gianni si dimenticato di chiudere la porta

(3) Gianni ha cotto le uova

(4) Gianni ha cotto una frittata

Estensioni del significato: metafora e metonimia


16

La polisemia pu anche essere causata da metafora e metonimia

Metafora: uso traslato di una parola, sulla base di una somiglianza tra il significato fondamentale e il significato traslato
vite 1: pianta, con viticci attorcigliati => vite 2: utensile, con filettatura (la filettatura della vite 2 assomiglia al viticcio della vite 1)

Metonimia: consiste nellestendere il significato di una parola a un altro connesso al primo per contiguit
mano 1: arto => mano 2: turno nel gioco di carte mano 3: quantit di vernice data ( con la mano che si gioca a carte o si vernicia)

I. Chiari, Linguistica computazionale - a.a. 2009/2010

12/03/2010

Relazioni di significato
17

Sinonimia: lessemi diversi con lo stesso significato


mano sovente = manche = smazzata = frequentemente = spesso (turno di gioco)

Antonimia: lessemi che esprimono significati opposti


Antonimi contrari:

bianco vs. nero, caldo vs. freddo

ammettono entit intermedie (per es. grigio, tiepido)

Antonimi contraddittori: scapolo vs. sposato, vero vs. falso

Iponimia: il sign. di un lessema incluso in quello di un altro lessema


airone iponimo di uccello uccello iponimo di animale

Iperonimia: il sign. di un lessema include quello di un altro lessema


animale iperonimo di uccello uccello iperonimo di airone
I. Chiari, Linguistica computazionale - a.a. 2009/2010

SINONIMIA
18

Origini:

Words from different strata:


Begin vs commence (Jackson p. 17) Biscuit / cookie; Lorry / truck

Dialect difference

Non e mai perfetta:


Italiano: PAPA vs. PADRE / PEDALINO vs. CALZINO Everything is illuminated:


`harmonize invece di agree rigid invece di hard disseminate invece di spend forgetful dogs.

Vedi: http://parole.alice.it/parole/sinonimi_e_contrari/
da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

12/03/2010

Semantica frasale
19

Lipotesi pi semplice: il principio di composizionalit


il significato di una frase il risultato della combinazione dei significati delle parole che la compongono

Funziona in molti casi, ma a volte risulta troppo restrittivo:


1. 2.

le frasi spesso contengono qualcosa in pi rispetto ai singoli elementi che le compongono alcune combinazioni di parole hanno un significato che non ricavabile dalle singole parole da cui sono costituite

lessicalizzazioni (espressioni idiomatiche, polirematiche) tagliare la corda sbarcare il lunario essere al verde

I. Chiari, Linguistica computazionale - a.a. 2009/2010

20

DIZIONARI
Costruzione, caratteristiche, prospettive

I. Chiari, Linguistica computazionale - a.a. 2009/2010

10

12/03/2010

2. Dizionari
21

Un dizionario non corrisponde al lessico mentale:

La lessicografia cerca di raccogliere linsieme delle parole usate da tutta una comunit linguistica, anche dal punto di vista diacronico

Un dizionario si pone a livello della langue saussuriana

La lessicografia tradizionale non cerca di descrivere la competenza lessicale di un parlante

Un dizionario non rappresenta la competenza chomskiana

Un dizionario costituito da entrate lessicali o lemmi

necessario lemmatizzare le parole: (per es. avremmo amato, amando, amavamo, amammo ecc. vanno tutte ricondotte al lemma amare) per ogni lemma troviamo altre informazioni

trascrizione fonetica o fonologica, etimologia, categoria lessicale, esempi di utilizzo e varie accezioni semantiche
I. Chiari, Linguistica computazionale - a.a. 2009/2010

2.2 Lessicalizzazioni
22

In un dizionario trovano posto tutte le forme imprevedibili, che hanno forme o significati idiosincratici (non formate tramite regole):

parole semplici: casa, libro, felice forme lessicalizzate: (espressioni il cui significato non desumibile dalla somma dei significati delle parti)

parole complesse non-trasparenti: dirigibile, volante costruzioni polirematiche: tagliare la corda, nontiscordardim

sigle, acronimi, parole macedonia, abbreviazioni: CGIL, polfer, racc. gli altri tipi di parole vengono invece costruiti tramite le regole della morfologia, e non necessario scriverle esplicitamente nel dizionario

I. Chiari, Linguistica computazionale - a.a. 2009/2010

11

12/03/2010

Stratificazioni dellitaliano: uso e registro stilistico nei dizionari


23

I livelli duso nel DISC:


antico (aderbare, adunazione) antiquato (accorruomo, dappoich) dialettale (cadrega, ceraso) letterario (accadimento, gemebondo) non comune (accarezzevole, acquiescere) regionale (abbacchio, appizzare, bagigi) toscano (babbione, berciare, bischeraggio) familiare (acciderba, aggeggiare, appioppare, baluba) gergale (attacchinaggio, cuccare, fico, matusa, sfiga) ironico (ambientino, genietto, lentocrazia, santerello) popolare (ammucchiata, arruffianamento, buggerare) scherzoso (cervellone, comprendonio, fantastilione) spregiativo (canzonettaro, galoppino, mangiapolenta) volgare (bagascia, incazzato, leccaculo, stronzata)
I. Chiari, Linguistica computazionale - a.a. 2009/2010

I registri stilistici nel DISC:


Stratificazioni dellitaliano: frequenza duso


24

I dizionari pi recenti introducono indicazioni sulla frequenza duso delle parole Per esempio, il De Mauro - Paravia usa queste categorie:
FO: fondamentale (vocaboli frequentissimi, come a, di, il, faccia, andare; da soli coprono il 90% dello scritto o del parlato) AU: alto uso/frequenza (parole come bens, viso, recarsi che coprono allincirca il 6-8% dei testi e discorsi, note a chi ha un livello almeno medio di istruzione) AD: di alta disponibilit (relativamente rari nel parlare o scrivere, ma legati a oggetti o atti della vita quotidiana, come coperchio, furgone, garza, pantofola)

I. Chiari, Linguistica computazionale - a.a. 2009/2010

12

12/03/2010

Il vocabolario di base (De Mauro 1980)


25

FO : fondamentale; tra i lemmi principali, sono cos marcati 2049 vocaboli di altissima frequenza, le cui occorrenze costituiscono circa il 90% delle occorrenze lessicali nellinsieme di tutti i testi scritti o discorsi parlati; AU : di alto uso; sono cos marcati 2576 vocaboli di alta frequenza, le cui occorrenze costituiscono un altro 6% circa delle occorrenze lessicali nellinsieme di tutti i testi scritti o discorsi parlati; AD : di alta disponibilit; sono cos marcati 1897 vocaboli, relativamente rari nel parlare o scrivere, ma tutti ben noti perch legati ad atti e oggetti di grande rilevanza nella vita quotidiana (alluce, batuffolo, carrozzeria, dogana, ecc.). I vocaboli fondamentali, di alto uso e di alta disponibilit (questultimo il gruppo pi esposto al variare della cultura materiale e richiede aggiornamenti relativamente frequenti) costituiscono nellinsieme il vocabolario di base (De Mauro 1999a, XX).
I. Chiari, Linguistica computazionale - a.a. 2009/2010

Stratificazione del lessico


26

LS

Vocabolario comune

Vocabolario Di base

I. Chiari, Linguistica computazionale - a.a. 2009/2010

13

12/03/2010

Vocabolario COMUNE (Gradit)


27

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Vocabolario tecnico-specialistico
28

I. Chiari, Linguistica computazionale - a.a. 2009/2010

14

12/03/2010

Letterario, regionale, dialettale


29

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Esotismi, basso uso, obsoleti


30

I. Chiari, Linguistica computazionale - a.a. 2009/2010

15

12/03/2010

COMPILARE UN DIZIONARIO
31

La compilazione di un dizionario comporta tre aspetti:


Scelta

delle voci Identificazione dei testi Scrittura delle voci

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

SCELTA DELLE VOCI


32

Tre fonti primarie:


Dizionari

precedenti (non si parte da zero) Citation file (= archivio di citazioni della casa editrice)
(Vedi

sotto per quel che riguarda Dr. Johnsons / OED)

Nuovi

testi

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

16

12/03/2010

RESTRIZIONI
33

Costo
Della

creazione (OED: tra il 1858 ed il 1928) Del volume

Spazio

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

ORGANIZZAZIONE
34

Le voci in un dizionario possono essere organizzate


In

ordine ALFABETICO In ordine TEMATICO

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

17

12/03/2010

35

Le voci del dizionario


Come sono fatte, cosa contengono

I. Chiari, Linguistica computazionale - a.a. 2009/2010

COSA SI TROVA IN UNA VOCE


36

Il LEMMA della parola Le altre FORME (ortografia e pronuncia) La loro STRUTTURA (da quali morfemi sono composti) Informazioni GRAMMATICALI Esempi di USO ETIMOLOGIA Il SIGNIFICATO della parola (compresi sinonimi)
da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010

18

12/03/2010

TRE TIPI DI PAROLE


37

Main words Subordinate words


Afforse,

obs. variant of AFFORCE Afforst, obs. variant of ATHIRST

Composite

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

STRUTTURA DELLE VOCI


38

IDENTIFICATION
Spelling

(con alternanze): Jowl, jole `Citizenship in the language: Kursaal Pronunciation (non ancora IPA)

MORPHOLOGY
Form

history of the word

SIGNIFICATION ILLUSTRATIVE QUOTATIONS


da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

19

12/03/2010

FORME DI PAROLA
39

PRONUNCIA
Fonemi,

oggigiorno solitamente IPA /td/ Prosodia (accento)

ORTOGRAFIA
Sillabe Varianti

da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)


I. Chiari, Linguistica computazionale - a.a. 2009/2010

INFORMAZIONI GRAMMATICALI
40

Morfologia
Verbi: inflessioni Nomi: forma del plurale

dito

dita

Sintassi
Parte del discorso (con restrizioni: awake predicative (the baby is awake) ma non attributive (*the awake baby) Verbi: transitivo / intransitivo, quali tipi di preposizioni, etc. Classe flessionale

Modificata da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)


I. Chiari, Linguistica computazionale - a.a. 2009/2010

20

12/03/2010

DESCRIZIONE DELLUSO
41

Fascia duso (su analisi di corpora); marca Spesso in forma di citazioni (vedi esempi successivi) Espressioni comuni (collocazioni)

Modificata dada Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)


I. Chiari, Linguistica computazionale - a.a. 2009/2010

COLLOCAZIONI
42

Frasi fatte: Studente lavoratore, padre padrone, governo ombra Preferenze duso:
Il

sostantivo ban tipicamente modificato dagli aggettivi total o complete, associato con il verbo impose, etc.

da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)


I. Chiari, Linguistica computazionale - a.a. 2009/2010

21

12/03/2010

SIGNIFICATO
43

Una delle funzioni piu importanti di un dizionario e caratterizzare le ACCEZIONI di una parola attraverso DEFINIZIONI Probabilmente laspetto piu difficile della lessicografia

da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)


I. Chiari, Linguistica computazionale - a.a. 2009/2010

IL PROBLEMA DEL SIGNIFICATO


44

Come possiamo caratterizzare questo significato? Come minimo, come trovare un modo per caratterizzare questo significato che ci permetta di distinguere tra queste accezioni diverse?
da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010

22

12/03/2010

SIGNIFICATO IN UN DIZIONARIO
45

RIFERIMENTO
OK: bicicletta / `tromba Piu difficile: deferenza / ridicolo

RELAZIONI SEMANTICHE
Sinonimia Antonimia Iponimia

CONNOTAZIONE

inspire vs. fundamentalist


da Poesio, diapositive di Lessicografia (http://www.dit.unitn.it/~poesio/Teach/IU)
I. Chiari, Linguistica computazionale - a.a. 2009/2010

COLLOCAZIONI

Significato, senso, accezioni (GRADIT)


46

I. Chiari, Linguistica computazionale - a.a. 2009/2010

23

12/03/2010

47

ESEMPI DI DEFINIZIONI
Tutti tratti dal GRADIT

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Abbracciare1 e 2
48

I. Chiari, Linguistica computazionale - a.a. 2009/2010

24

12/03/2010

circostanza
49

I. Chiari, Linguistica computazionale - a.a. 2009/2010

palazzo
50

I. Chiari, Linguistica computazionale - a.a. 2009/2010

25

12/03/2010

fortuna
51

I. Chiari, Linguistica computazionale - a.a. 2009/2010

guadagnare
52

I. Chiari, Linguistica computazionale - a.a. 2009/2010

26

12/03/2010

nutrire
53

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Fare
54

I. Chiari, Linguistica computazionale - a.a. 2009/2010

27

12/03/2010

Parole grammaticali
55

I. Chiari, Linguistica computazionale - a.a. 2009/2010

56

I. Chiari, Linguistica computazionale - a.a. 2009/2010

28

12/03/2010

LINGUAGGI SETTORIALI: folle


57

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

Lesempio di forza
58

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

29

12/03/2010

Frizione e candela
59

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

7. definizioni analogiche
60

Soprattutto per la formazione di polirematiche basate su meccanismi metaforici


(elettrodo

a baffo di gatto, valvole a farfalla, cellule a palizzata, a bastoncello, a fiamma)

Master EDITORIA GIORNALISMO E MANAGEMENT CULTURALE (2010)

30

12/03/2010

61

Tipi di dizionari
Caratteristiche ed esempi

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Differenze tra dizionari


62

Il contenuto delle voci cambia a seconda de


Il

TIPO di dizionario (monolingue / bilingue, eta dellutente, livello di specializzazione) La FUNZIONE (duso, di riferimento)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

31

12/03/2010

TIPI DI DIZIONARI
63

Dizionari `general purpose


=

`desk o concise Dizionari di riferimento Dizionari per learners


Dizionari specialistici Dizionari BILINGUI

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

DIZIONARI ONOMASIOLOGICI/ TESAURI


64

Dizionario ONOMASIOLOGICO: voci raggruppate per SOGGETTI invece che in ordine alfabetico

I dizionari Italiani piu antichi sono in questa forma (Alunno, 1548)

TESAURI: dizionari organizzati per RELAZIONI LESSICALI e tipicamente strutturati in modo CONCETTUALE

Peter Mark Roget, THESAURUS OF ENGLISH WORDS AND PHRASES (1852)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

32

12/03/2010

ALTRI TIPI DI DIZIONARI


65

Dizionari ETIMOLOGICI
Concentra solamente su derivazione delle parole LEI Lessico Epistemologico Italiano (Max Pfister, in completamento) Pianigiani: http://www.etimo.it/

Dizionari dei SINONIMI e dei CONTRARI

Tommaseo, 1830

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

GRADIT De Mauro 1999: ca 360.000 lemmi e sottolemmi


66

260.709 lemmi monorematici 67.678 polirematiche (130.000 lemmi con associate polirematiche)

I. Chiari, Linguistica computazionale - a.a. 2009/2010

33

12/03/2010

Criteri ordinamento accezioni e quantit


67

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Legami tra accezioni


68

I. Chiari, Linguistica computazionale - a.a. 2009/2010

34

12/03/2010

Definizioni e significati
69

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Struttura delle definizioni


70

I. Chiari, Linguistica computazionale - a.a. 2009/2010

35

12/03/2010

Tipologie di voci
71

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Nomi di piante e animali


72

I. Chiari, Linguistica computazionale - a.a. 2009/2010

36

12/03/2010

Sinonimi nel GRADIT


73

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Lessico TS nel GRADIT


74

I. Chiari, Linguistica computazionale - a.a. 2009/2010

37

12/03/2010

75

Dizionari di frequenza
Liste di frequenza, LIP

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Dizionari di frequenza
76

Usando il computer, si possono raccogliere grandi quantit di testi in formato elettronico (un corpus) e riordinare le parole contenute:

per es. ordine alfabetico, ordine alfabetico inverso, ordine di frequenza

LIF - Lessico di frequenza della lingua italiana contemporanea: 500.000 parole (scritte) circa 5.000 lemmi in ordine alfabetico e in ordine di frequenza

Il corpus del LIF contiene testi teatrali (T) romanzi (R) copioni cinematografici (C) periodici (P) sussidiari (S) Le parole pi frequenti dellitaliano sono: il, di, egli, a, essere, e, uno, in, che, non, io, avere, da ecc. Le liste di frequenza possono aiutare nello studio delle lingue Le prime 100 parole pi frequenti arrivano a coprire il 60% di qualsiasi testo Le prime 1.000, l85% Le prime 4.000, il 97%
I. Chiari, Linguistica computazionale - a.a. 2009/2010

38

12/03/2010

Liste di frequenza
77

Forma elenco di tutte le forme (type, tipi di parole) indici di frequenza (ossia il numero di occorrenze nel testo) frequenza relativa, (Fw/N) rapporto tra le occorrenze della singola parola (Fw) e il numero di parole testuali del corpus (N) frequenza relativa normalizzata Presentazione per frequenza decrescente Al primo posto compare la parola testuale pi frequente, allultimo la meno frequente. La forma che ha frequenza maggiore, e che si trova al primo posto, si dice di primo rango. parole vuote e, di, che, a, il, in parole grammaticali parole piene Don, era sostantivi, verbi, aggettivi, avverbi

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Lista di frequenza del primo capitolo dei Promessi Sposi


78

255 195 162 146 109 100 100 97 80 78 55 53 47 44 42

4,1255% e 3,1548% di 2,6209% che 2,3621% a 1,7635% il 1,6179% in 1,6179% un 1,5693% non 1,2943% la 1,2619% per 0,8898% le 0,8575% con 0,7604% si 0,7119% del 0,6795% i

41 39 38 38 34 31 28 28 26 25 24 24 24 23 22

0,6633% come 0,6310% una 0,6148% ma 0,6148% pi 0,5501% o 0,5015% gli 0,4530% don 0,4530% da 0,4206% due 0,4045% se 0,3883% poi 0,3883% della 0,3883% era 0,3721% al 0,3559% abbondio

I Frequenze assolute II frequenza relative III tipi di parole


I. Chiari, Linguistica computazionale - a.a. 2009/2010

39

12/03/2010

4.4 Dizionari di frequenza


79

LIP - Lessico di frequenza dellitaliano parlato: dimensioni simili al LIF Raccoglie campioni di italiano parlato in quattro citt:

Milano, Firenze, Roma e Napoli Vari tipi di interazioni linguistiche:


scambi faccia a faccia conversazioni telefoniche dibattiti lezioni conferenze trasmissioni radio e TV Anglicismi ed esotismi sono minimi Il parlato relativamente povero dal punto di vista lessicale rispetto allo scritto Non sembra esistere un lessico specifico del parlato molto diverso dal lessico della lingua scritta

Il vocabolario del parlato per il 97% costituito da parole ben radicate nellitaliano

I. Chiari, Linguistica computazionale - a.a. 2009/2010

Lemmi LIP in ordine alfabetico


80

I. Chiari, Linguistica computazionale - a.a. 2009/2010

40

12/03/2010

81

Storia della lessicografia italiana

I. Chiari, Linguistica computazionale - a.a. 2009/2010

STORIA DEI DIZIONARI ITALIANI


82

VOCABOLARIO DEGLI ACCADEMICI DELLA CRUSCA (1612 1729/38)


Primo dizionario storico in Europa Obiettivo: fissare la lingua 1612: 30000 voci Primo dizionario a registrare termini tecnici Ultimo vocabolario storico disponibile Collaboratori molto validi per voci specialistiche Etimologie spesso fantasiose

Francesco DAlberti di Villanuova (1797-1805)

TOMMASEO-BELLINI (1865-1879)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

41

12/03/2010

GRANDE DIZIONARIO DELLA LINGUA ITALIANA


83

Nato come aggiornamento del Tommaseo Edito da Battaglia , poi Barberi Squarotti Statistiche:
Tempi di realizzazione: 19612006 185 594 voci, 21 volumi, 22 000 pagine

Metodi:
Registra tutte le parole e le varianti Citazioni da 14 000 autori

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

Informatica e dizionari
84

Uso di collezioni di testi (CORPORA) in formato elettronico per identificare


LEMMI COLLOCAZIONI USI

dei lemmi (CONCORDANZE)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

42

12/03/2010

Dizionari elettronici
85

Il passaggio dalla forma cartacea alla forma elettronica ha rivoluzionato molti aspetti della lessicografia e delluso dei dizionari
Molte limitazioni di spazio si sono ridotte La ricerca di voci non piu ristretta allordine alfabetico Sono apparsi dizionari la cui organizzazione riflette lorganizzazione del LESSICO MENTALE (WordNet)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

86

Fine ?
O la Storia dei dizionari inglesi

I. Chiari, Linguistica computazionale - a.a. 2009/2010

43

12/03/2010

87

Storia della lessicografia inglese

I. Chiari, Linguistica computazionale - a.a. 2009/2010

STORIA DEI DIZIONARI INGLESI, 1: GLOSSARI


88

Primi `dizionari: i GLOSSARI medievali


raccolte

di GLOSSE in Old English di parole latine, tipicamente scritte da monaci Primi dizionari sono bilingui!

Uno dei piu noti: The London Vocabulary di lfric (XI secolo)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

44

12/03/2010

STORIA DEI DIZIONARI INGLESI, 2: `HARD WORDS


89

Rinascimento: cominciano i prestiti da altre lingue (non solo Latino, ma anche Francese, Greco, Italiano) Nasce la necessita di aver spiegazioni su `hard words: neologismi introdotti di recente, con cui un uneducated reader puo non avere familiarita Esempio piu noto di risorsa di questo tipo: Robert Cawdrey, A Table Alphabeticall, 1604

2500 parole

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

DA `A TABLE ALPHABETICALL DI CAWDREY


90

Abandon, cast away, or yeelde up, to leave, or forsake Abash, blush abba, father abbesse, abbatesse, Mistris of a Nunnerie, comforters of others abbettors, counsellors . Apocrypha (g), not of authoritie, a thing hidden, whose originall is not knowne
da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

45

12/03/2010

DA HARD WORDS A ALL WORDS


91

John Bullokar, AN ENGLISH EXPOSITOR (1616) Cockerams THE ENGLISH DICTIONARIE (1623)

Primo ad essere chiamato DICTIONARY Anche `vulgar words

Prime etimologie: Thomas Blount (1656), Stephen Skinner (1671) A NEW ENGLISH DICTIONARY, di `J.K. (1702)

primo tentativo di produrre un dizionario completo (28 000 lemmi) Per artigiani e mercanti

Nathaniel Bailey, AN UNIVERSAL ETYMOLOGICAL ENGLISH DICTIONARY

sia completezza (40000 parole prima edizione, poi 50000) che etimologia

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

CORREGGERE E `BLOCCARE (ASCERTAINING) LA LINGUA


92

XVII secolo: molta preoccupazione che un numero eccessivo di parole straniere venisse assorbito nellInglese Si guardo con favore al modello dell Acadmie Francaise, fondata nel 1635, e che produsse tra il 1639 ed il 1694 il DICTIONNAIRE DE LACADEMIE FRANCAISE con lintenzione di codificare e `ripulire il linguaggio

Cfr. Dizionario degli Accademici della Crusca

Jonathan Swift: A PROPOSAL FOR CORRECTING, IMPROVING AND ASCERTAINING (= FIX) THE ENGLISH LANGUAGE (1712)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

46

12/03/2010

SAMUEL JOHNSON (1709-1784)


93

When we see men grow old and die at a certain time one after another, from century to century, we laugh at the elixir that promises to prolong life to a thousand years; and with equal justice may the lexicographer be derided, who being able to produce no example of a nation that has preserved their words and phrases from mutability; shall imagine that his dictionary can embalm the language, and secure it from corruption and decay (Preface al Dictionary of the English Language, 1755)

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

THE DICTIONARY OF THE ENGLISH LANGUAGE


94

Prodotto tra il 1746 ed il 1755 con 6 assistenti 42773 lemmi Primo dizionario sviluppato secondo metodi lessicografici moderni; la creazione del dizionario sollevo problemi ancora attuali per la lessicografia

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

47

12/03/2010

SAMUEL JOHNSON: PLAN FOR A DICTIONARY OF THE ENGLISH LANGUAGE (1747)


95

Il lavoro comincio con lo sviluppo di principi da seguire


Criteri

di SELEZIONE ORTOGRAFIA e PRONUNCIA ETIMOLOGIA ANALOGY (inflessione) e SYNTAX INTERPRETATION (= definizione) CITAZIONI con AUTORE

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

METODOLOGIA
96

Punto di partenza: dizionario di Bailey Identificazione di nuove voci: lettura di autori ammirati da Johnson
Ogni volta che trovava un uso corretto di una parola, sottolineava e marcava la citazione; un assistente avrebbe creato uno SLIP Gli slip con citazioni (114000 in tutto) poi ordinati in modo alfabetico

A partire dal 1749, Johnson comincio ad identificare i sensi e scrivere le definizioni Primo volume 1753
da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

48

12/03/2010

RISULTATO
97

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

THE NEW ENGLISH DICTIONARY


98

LOxford English Dictionary e quanto di piu vicino ci sia ad un record ufficiale dellInglese (Britannico) Obiettivo: creare un dizionario le cui definizioni fossero basate sui criteri scientifici sviluppati nella nuova scienza della filologia

Sotto gli auspici della Philological Society

Prima edizione richiese 70 anni (tra il 1858 ed il 1928) e 5 editors

Editor chiave: JAMES MURRAY


da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

49

12/03/2010

THE NEW ENGLISH DICTIONARY: METODO


99

Principio: to furnish an adequate account of the meaning, origin, and history of English words now in general use, or known to have been in general use at any time during the last seven hundred years (dalla prefazione di Murray al volume I, 1888) Basato sul lavoro di MIGLIAIA di volontari (READERS) che produssero 5 millioni di slips

Tra cui D. W. C. Minor, paziente schizofrenico

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

THE NEW ENGLISH DICTIONARY: LA PRIMA EDIZIONE


100

10 volumi 252 000 voci, 414 000 definizioni

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

50

12/03/2010

SVILUPPI SUCCESSIVI
101

Primo supplemento (4 volumi, 1955 1986)


Distinzione

main / subordinate scompare Molte subject labels aggiuntive

OED2 (1984 1989)


Versione

elettronica su CD-ROM 20 volumi, 500000 definizioni,

OED3 (1993 2010): www.oed.com

da Poesio, diapositive di Lessicografia I. Chiari, Linguistica computazionale - a.a. 2009/2010 (http://www.dit.unitn.it/~poesio/Teach/IU)

51