Sei sulla pagina 1di 102

Linguis'ca dei corpora

alessandro.panunzi@unifi.it
Programma
• Il corpus come fonte di dati linguistici
– Campionamento e rappresentatività; costruzione di un corpus
– Codifica e annotazione
– Distribuzione del lessico e liste di frequenza
– Esplorazione del corpus: concordanze, collocazioni, espressioni
regolari
• Analisi della lingua parlata
– Corpora orali, funzioni della prosodia, pragmatica della comunicazione
parlata
• Introduzione alla linguistica testuale
– corpora scritti, struttura del testo, unità comunicative
Testi di riferimento
• Manuale
– E. Cresti & A. Panunzi, Introduzione ai corpora dell'italiano, Bologna, Mulino, 2013

• Approfondimenti
– A. Ferrari, Linguistica del testo, Roma, Carocci, 2014
– A. Lenci, S. Montemagni, V. Pirrelli, Testo e Computer, Roma, Carocci, 2005
– E. Lombardi Vallauri, La struttura informativa. Forma e funzione negli enunciati linguistici,
Carocci, 2009
– P. Sorianello, Prosodia. Modelli e ricerca empirica, Roma, Carocci, 2006
– M. Voghera, Dal parlato alla grammatica, Roma, Carocci, 2017
Iscrizione
• Pia,aforma Moodle
– h,ps://e-l.unifi.it/course/view.php?id=7214
– chiave e accesso ospiD: corpora1819

• Nel sito saranno caricate le slide del corso e i


materiali per le esercitazioni
PARTE PRIMA

Il corpus come fonte


di dati linguistici
1. Fondamenti e storia
della linguistica dei corpora
Cos’è un corpus?
• «I cosiddetti corpora (sing. corpus) linguistici sono collezioni,
per lo più di grandi dimensioni, di testi orali o scritti prodotti
in contesti comunicativi reali (per es., registrazioni di discorsi
o articoli di giornale), conservati in formato elettronico e
spesso corredati di strumenti di consultazione informatici.
I corpora permettono di osservare l’uso effettivo di una lingua
e di verificarne tendenze generali su base statistica. Rivestono
un’importanza fondamentale nella lessicografia
contemporanea, all’interno della quale sono utilizzati tra
l’altro per selezionare lemmi in base alla loro frequenza
d’uso, per identificare le costruzioni tipiche in cui una parola
occorre e per coglierne le sfumature di senso in base ai
contesti» (Baroni 2010, ENCIT)
Cos’è un corpus?
• «Un corpus è una raccolta strutturata di eventi comunicativi
prodotti in ambiente naturale e selezionati sulla base di criteri
espliciti al fine di rappresentare una lingua o una sua specifica
varietà» (Cresti & Panunzi 2013, p. 52)

• «Raccolta di testi (scritti, orali o multimediali) o parti di essi in


numero finito in formato elettronico trattati in modo
uniforme (ossia tokenizzati ed addizionati di markup
adeguato) così da essere gestibili ed interrogabili
informaticamente; […] i testi sono perlopiù scelti in modo da
essere autentici e rappresentativi» (Barbera 2013, p. 18)
www.bmanuel.org/man/Barbera_IntroduzioneCL_2013=Ver1-54.pdf
Corpora e da) linguis)ci
• Il “problema del dato” in linguistica
– Quando studiamo il linguaggio, quali sono i dati di cui ci serviamo?

• «[…] in linguistica descrittiva, la ricerca consiste nella


registrazione di enunciati di una lingua e nell’analisi del
materiale raccolto. L’insieme degli enunciati registrati
costituisce il corpus di dati, e l’analisi che ne viene fatta non è
altro che una descrizione sintetica della distribuzione degli
elementi che si ritrovano al suo interno» (Harris, 1951)
La critica di Chomsky
• «La teoria linguistica si occupa in primo luogo di un parlante-
ascoltatore ideale, in una comunità linguistica
completamente omogenea, il quale conosce perfettamente la
sua lingua e non è influenzato da condizioni
grammaticalmente irrilevanti quali le limitazioni di memoria,
le distrazioni, i cambiamenti di attenzione e di interesse, e gli
errori (casuali e caratteristici) nell’applicazione della propria
conoscenza della lingua nel corso dell’esecuzione effettiva»
(Chomsky, 1965)

• Competence (competenza) Vs. Performance (esecuzione)


Introspezione e osservazione
• Dati ottenuti per via “sperimentale” (introspezione)
– Test sulla competenza linguistica dei parlanti madrelingua
à test di grammaticalità
– Fonte: il parlante stesso

• Dati (più o meno) spontaneamente realizzati (osservazione)


– Prodotto dell’attività linguistica dei parlanti
à evidenza empirica
– Fonte: i “testi” prodotti dai parlanti, eventualmente trascritti
come sequenze di caratteri
I dati dei corpora
• Dato naturale (“ecologico”, Lenci, Montemagni & Pirrelli 2005)

• I tes? rappresentano l’habitat naturale dei da? linguis?ci


– Vs. da? “controlla?”

• Cfr. Scienze naturali (es. zoologia)


– Raccolta di da? sul campo Vs. esperimen? e studi in laboratorio

• Corpora e informa?ca
– Lo sviluppo delle tecnologie informa?che ha permesso la
creazione di corpora di grandi dimensioni e degli strumen? in
grado di analizzarli automa?camente
Casi d’uso
• Induzione di proprietà e strutture linguistiche
– Usare le osservazioni condotte su un corpus campionario per
estenderle all’intera popolazione
– Utilizzo dei corpora nell’insegnamento di L2

• Comparazione tra diversi usi linguistici


– Comparare le osservazioni condotte su diversi corpora per
confrontarle infine con un corpus di riferimento,
individuandone le deviazioni

• Analisi statistica
– Estrazione dei caratteri di una lingua (es. lessico) a fini
applicativi e computazionali (cfr. training corpora)
I corpora nella tradizione
• Corpora della tradizione giuridica
– Corpus iuris civilis

• Corpora della tradizione religiosa


– Bibbia, Corano, Veda

• Corpora della tradizione mitologica e fiabesca


– Biblioteca (Pseudo-Apollodoro), Le mille e una notte

• Corpora e dizionari
– Vocabolario degli Accademici della Crusca (1612); dizionario Kangxi
del cinese mandarino (1716); A Dictionary of the English Language (S.
Johnson 1746-1755)
Corpora e grammatiche
• Otto Jespersen (1909-1949), Modern English Grammar
– Corpus di schede con esempi dell’inglese scritto e parlato

• Fries (1940 e 1952), due grammatiche descrittive sull’inglese americano


– Corpora di scritto e di parlato

• Quirk et al. (1985), A Comprehensive Grammar of English Language


– Survey of the English Usage (SEU)

• Sinclair (1990), Collins COBUILD English Grammar


– Bank of English

• Biber et al. (1999), Longman Grammar of Spoken and Written English


– British National Corpus (BNC)
Storia del corpus ele/ronico (1)
• 1953: padre Busa SJ fonda a Milano il Centro per
l’Automazione dell’Analisi Letteraria (CAAL) con il supporto
dell’IBM: inizia l’elaborazione dell’Index Tomisticus
• Metà anni ’50: Alphonse Juilland inizia la raccolta di corpora
elettronici di francese, spagnolo, rumeno e italiano
• Anni ’60: Francis e Kučera iniziano l’elaborazione del Brown
Corpus (Brown University, Providence, Rhode Island)
– Prototipo dei corpora elettronici di prima generazione
• Anni ’70: inizia la digitalizzazione del London-Lund Corpus,
corpus dell’inglese parlato (raccolto per il SEU); viene anche
sviluppato il Lancaster-Oslo-Bergen (LOB) Corpus, sul modello
del Brown Corpus ma contenente testi di inglese britannico
Storia del corpus elettronico (2)
• 1987: John Sinclair pubblica il Collins COBUILD English
Language Dictionary, un dizionario completamente costruito
attraverso lo spoglio della Birmingham Collection of English
Texts, un corpus di oltre 18 milioni di parole.
• 1994: viene pubblicato il British National Corpus (BNC),
corpus di riferimento dell’inglese contemporaneo di circa 100
milioni di parole
– Prototipo dei corpora elettronici di seconda generazione
• 2003: pubblicazione del numero speciale della rivista
Computational Linguistics dedicata al Web as Corpus
– Verso una terza generazione di corpora, derivati dalla rete
Numero di parole
• La fattoria degli animali, di George Orwell: 29.966 parole
• Il mondo nuovo, di Aldous Huxley: 64.531 parole
• Le avventure di Tom Sawyer, di Mark Twain: 70.570 parole
• Lolita, di Vladimir Nabokov: 112.473 parole
• Madame Bovary, di Gustave Flaubert: 117.963 parole
• Moby Dick, di Herman Melville: 209.117 parole
• Ulisse, di James Joyce: 262.869 parole
• Guerra e pace, di Lev Tolstoj: 544.406 parole
Il Web
• Il più grande agglomerato di da0 testuali che sia mai
stato a disposizione dell’uomo
– Di libero accesso
– In con0nua espansione

• Indici dei maggiori motori di ricerca (fonte:


h<p://www.worldwidewebsize.com/)
– 1998: 26 milioni di pagine
– 2000: un miliardo di pagine
– 2013: 50 miliardi di pagine
Il web è un corpus?
• Risultati dei motori di ricerca
– Una grande quantità di occorrenze non annotate

• Algoritmi di ricerca
– Trovano e ordinano i risultati sulla base di criteri non linguistici (es.
numero di accessi a un sito, numero di collegamenti…)
– Non sono pubblici

• La rete è poco controllabile


– Le pagine della rete possono essere cancellate e modificate
– Risultati non stabili, non verificabili
Importanza del web
• In rete possiamo trovare quantità di dati enormi
– i salti dimensionali significativi per incrementare le risorse linguistiche
sono quelli di un andamento esponenziale (1…10… 100 milioni)

• La rete è multilingue, e permette di costruire grandi corpora


anche per lingue che hanno meno risorse a disposizione

• La rete rappresenta oggigiorno il canale primario di accesso


all’uso linguistico scritto, sia in fruizione che in produzione
– Sviluppo di nuovi generi testuali “in rete”, come blog e chat
– Nel web si registrano in tempo reale importanti fenomeni del
cambiamento linguistico e delle pratiche di scrittura
Dal Web as Corpus ai web corpora
• Costruzione di grandi corpora raccolti dalla rete, sulla base di
criteri espliciti
– Formazioni di risorse stabili, annotabili, verificabili

• Salto dimensionale
– Prime iniziative: produzione di web corpora in varie lingue, tarati sulla
dimensione del BNC (100 Mw)
– Gruppo di ricerca WaCKy (Web as Corpus kool ynitiative): 4 grandi
corpora (inglese, francese, italiano e tedesco) di 1,5-2 Gw
– Sketch Engine: TenTen Corpora, una serie di risorse linguistiche
derivate dal web dell’ordine di grandezza di 10 Gw (1010)
2. Criteri di costruzione e
0pologie di corpora
Il corpus come campione
• Una popolazione è un insieme di individui (unità statistiche)
di cui è possibile rilevare le modalità con le quali si presenta
un certo fenomeno (collettivo)
• Un campione, invece, corrisponde a una parte della
popolazione, che include solo alcune delle unità statistiche
Popolazione

Campione
La rappresentatività
• Il campione deve, per il fenomeno che si intende studiare,
essere atto a esibire lo stesso tipo di informazioni (qualitative)
con la stessa probabilità di occorrenza (quantitativa) della
popolazione
– I fenomeni variano rispetto a determinati parametri
– Le unità statistiche che compongono un campionamento
devono adeguatamente rappresentare questa variazione

• Corpora di riferimento
– Campionamenti in grado di rappresentare l’intero ambito di
variabilità dei tratti e delle proprietà di una lingua
Il campionamento
• Qual è l’unità statistica di riferimento?

• Criterio situazionale: i fenomeni linguistici co-variano rispetto


alle tipologie testuali e ai registri comunicativi
– L’unità statistica è il testo o, più in generale, l’evento
comunicativo (scritto o orale)

• Criterio demografico: variazione rispetto a età, sesso,


professione e altri parametri che identificano i parlanti
– L’unità statistica è il parlante stesso
– Utilizzato solo per i corpora di parlato
Tipi di corpora (1)
• Generalità
– Corpora specialistici (es. linguaggio giornalistico, burocratico,
medico; acquisizione di L1 o apprendimento di L2; patologie
linguistiche)
– Corpora di riferimento

• Mezzo di trasmissione linguistico


– Corpora scritti
– Corpora orali à materiale sonoro e trascrizione
• Corpora multimediali (suono e video)
– Corpora segnati (LIS)
Tipi di corpora (2)
• Cronologia
– Corpora sincronici
– Corpora diacronici
– Corpora di monitoraggio (dinamici): il campionamento viene
arricchito da nuovi testi à cambiamento linguistico

• Lingue
– Corpora monolingui
– Corpora multilingui
• paralleli (traduzione e allineamento) à EUROPARL
http://www.statmt.org/europarl/
• comparabili (stessa struttura in più lingue) à C-ORAL-ROM
Estensione
• L’estensione è una variabile che influenza il grado di
rappresenta9vità di un campione testuale

• Esistono diverse estensioni standard a seconda del livello di


analisi linguis9ca obie<vo del design del corpus stesso
– Es. le analisi di 9po lessicale richiedono estensioni maggiori

• Numero di parole grafiche (o di tokens)

• Numero di tes9
– Dimensioni dei singoli tes9: sample corpora vs. text corpora (es. Bank
of English, CORIS/CODIS)
Corpus design: Brown Corpus
• Corpus di inglese scritto, 1Mw
– 500 testi di circa 2.000 parole l’uno suddivisi in 15 tipologie testuali
Corpus design: BNC (written)
• Circa 90 milioni di parole in 3.141 testi
• Media di circa 28.000 parole per testo
• Criteri di selezione:
– Dominio, data di pubblicazione, medium (es. libro, periodico, etc.)
Corpus design: BNC (spoken)
• Circa 10 milioni di parole; 915 samples
– TYPE OF INTERACTION: Dialogue (672), monologue (218), unclass. (25)
– REGIONAL VARIATION: South (296), Midlands (208), North (334),
unclassified (77)

• Campionamento situazionale (CONTEXT GOVERNED, 762)


– Domain: Educational (144), Business (136), Institutional (241), Leisure
(187), unclassified (54)

• Campionamento demografico (DEMOGRAPHIC, 153)


– Age: 0-14 (26), 15-24 (36), 25-35 (22), 45-59 (20), 60+ (20)
– Class: AB (59), C1 (36), C2 (31), DE (20), unclassified (7)
– Sex: Male (73), Female (75), unclassified (5)
Corpus design: C-ORAL-ROM
Acquisizione del materiale
• Testi scritti disponibili in formato digitale
– Testi giornalistici
– Testi letterari: biblioteche digitali online o su cd-rom
– Web corpora!

• Testi scritti non disponibili in formato digitale


– Acquisizione tramite digitazione, dettatura e/o scannerizzazione

• Testi parlati
– acquisizione del segnale audio (analogico o digitalizzato)
– standardizzazione delle procedure di trascrizione del parlato
Web corpora
• Nuovo ordine di grandezza: miliardi di parole
– Per l’italiano: corpora ItWaC, itTenTen, RIDIRE, Paisà

• Procedura di raccolta
– Download delle risorse (crawling)
– Pulizia del materiale scaricato (HTML cleaning)

• Problemi di bilanciamento
– Spesso le risorse derivate dal web sono scarsamente controllate per
quanto riguarda il corpus design (cfr. tipologie testuali)
– Strategie di targeted crawling (RIDIRE)
3. Formato e annotazione
Formato dei dati
• I corpora sono archivia2 in un formato ele6ronico
– Machine-Readable Format
– Il formato deve essere reso esplicito da chi compila un corpus
– Facilità di conservazione, di scambio e di interrogazione dei da2
raccol2

• Il modo in cui sono rappresenta2 i da2 cambia da corpus a


corpus
– Es.: corpora di parlato e forma2 di trascrizione

• Il formato dei da2 è inoltre stre6amente dipendente dai livelli


di annotazione presen2 in un corpus
L’annotazione
• L’annotazione consiste nell’attribuzione di una etichetta (tag)
a una porzione specifica e limitata di testo
– Aggiunta di informazioni di tipo linguistico
– Linguaggi di mark-up (es. XML)
– Annotazione manuale / automatica / semiautomatica

• Livelli di annotazione
– Informazione strutturale (porzioni del testo)
– Annotazione morfosintattica (PoS tagging)
– Annotazione sintattica (parsing, dipendenze…)
– Annotazione semantica (word sense disambiguation…)
– Annotazione pragmatica
Annotazione strutturale
• Standard TEI (Text Encoding Initiative) in XML
– http://www.tei-c.org/
<poem>
<title>The SICK ROSE</title>
<stanza>
<line>O Rose thou art sick.</line>
<line>The invisible worm,</line>
<line>That flies in the night</line>
<line>In the howling storm:</line>
</stanza>
<stanza>
<line>Has found out thy bed</line>
<line>Of crimson joy:</line>
<line>And his dark secret love</line>
<line>Does thy life destroy.</line>
</stanza>
</poem>
Unità linguistiche e annotazione
• L’annotazione dei corpora consente l’analisi automatica di
risorse di grandi dimensioni

• Primo livello dell’annotazione: la parola


– Parola grafica: sequenza di caratteri compresa tra due spazi
bianchi o segni di interpunzione

• Token: costituente grafico minimo in cui è suddivisibile un


testo elettronico; due accezioni:
– Le singole occorrenze delle parole del corpus (word token)
– L’insieme di tutti gli elementi grafici che hanno valore unitario (parole,
punteggiatura, numeri, sigle e altri simboli)
La tokenizzazione
• Operazione che suddivide il testo in singoli token
– Tokenizzatori: programmi che eseguono automaticamente la
tokenizzazione del testo (dipendenti dalla lingua)

• Spazi bianchi come criterio per la separazione dei token


– Segni di punteggiatura: vengono scritti senza spazio
– Preposizioni articolate: uno o due token?
– Proclitici ed enclitici: “se lo mette” vs. “metterselo”
– Nomi propri composti: es. “New York”, “Rio de Janeiro”
– Espressioni polirematiche (locuzioni): “ferro da stiro”, “tirare le
cuoia”, “all’acqua di rose”, “per filo e per segno”
La “parola” nel corpus
• Occorrenze, o word tokens
– Es. amò, farà, cavalli, belle, ecc.

• Forme di parola, o types


– Ogni forma può occorrere nel corpus da più di una volta

• Lemmi
– Lessema: entità linguistica astratta che include tutte le forme
flesse di una parola; vengono solitamente indicati con una
forma di citazione convenzionale (il lemma, appunto)
– Es. amare, fare, cavallo, bello, ecc.
In un momento
In un momento
Sono sfiorite le rose
I petali caduti
Perché io non potevo dimenticare le rose
Le cercavamo insieme
Abbiamo trovato delle rose
Erano le sue rose erano le mie rose
Questo viaggio chiamavamo amore
Col nostro sangue e colle nostre lagrime facevamo le rose
Che brillavano un momento al sole del mattino
Le abbiamo sfiorite sotto il sole tra i rovi
Le rose che non erano le nostre rose
Le mie rose le sue rose

P.S. E così dimenticammo le rose.


Occorrenze, forme, lemmi
• 84 occorrenze

• 48 forme di parola
– 12 “rose”
– 12 “le”
– etc.

• 42 lemmi
– “le” può appartenere a 2 lemmi dis<n<!
Ambiguità
In un momento
Sono sfiorite le rose
I petali caduti
Perché io non potevo dimenticare le rose
Le cercavamo insieme
Abbiamo trovato delle rose
Erano le sue rose erano le mie rose
Questo viaggio chiamavamo amore
Col nostro sangue e colle nostre lagrime facevamo le rose
Che brillavano un momento al sole del mattino
Le abbiamo sfiorite sotto il sole tra i rovi
Le rose che non erano le nostre rose
Le mie rose le sue rose

P.S. E così dimenticammo le rose.


PoS tagging e lemmatizzazione
• Annotazione morfosintattica e lessicale à obiettivo
principale: disambiguazione delle forme ambigue
– Es.: “la vecchia porta la sbarra”

FORMA POS LEMMA FORMA POS LEMMA

la ART IL la ART IL

vecchia NOM VECCHIA vecchia AGG VECCHIO

porta VER PORTARE porta NOM PORTA

la ART IL la PRO LO

sbarra NOM SBARRA sbarra VER SBARRARE


CorDIC – tagset (1)
CorDIC - tagset (2)
CorDIC – tagset (2)
Treebanks (1)
• Annotazione sintattica in formato Penn (constituency)
– Turin Treebank, frase n. 4

( (S
(NP-SBJ
(NP (ART~DE Il) (NOU~CS Governo))
(PP (PREP di)
(NP (NOU~PR Berisha))))
(VP (VMA~RE appare)
(PP-PRD (PREP in)
(NP (NOU~CA difficolta'))))
(. .)) )
Treebanks (2)
• Annotazione sintattica in formato CONLL (dependency)
– Turin Treebank, frase n. 4 (semplificata)

1 Il IL ART DEF|M|SING 5 SUBJ


2 Governo GOVERNO NOUN COMMON|M|SING 1 ARG
3 di DI PREP MONO 2 RMOD
4 Berisha BERISHA NOUN PROPER 3 ARG
5 appare APPARIRE VERB MAIN|IND|PRES|INTRANS|3|SING 0 TOP
6 in IN PREP MONO 5 PREDCOMPL+SUBJ
7 difficoltà DIFFICOLTÀ NOUN COMMON|F|ALLVAL 6 ARG
8 . #\. PUNCT _ 5 END
Indicatori sintagmatici
Costituenti Dipendenze
Annotazione del parlato
• Trascrizione del materiale sonoro
– Livello di annotazione intrinseco
– Cfr. trascrizioni ortografiche Vs. fone;che

• Dato primario: sequenza con;nua e lineare di suono


– trascrizione = conversione di questo dato in segni grafici

• Metada; necessari per la rappresentazione dell’interazione


comunica;va e del suo contesto
– Situazione (luogo, tempo, occasione, ambiente, scopo)
– Parlan; (sesso, età, origine, professione, scolarità)
– Even; che accompagnano il dialogo
Fenomeni tipici del parlato
• Parole non standard
– Forme non registrate nella norma ortografica
– Varian4 regionali forme conversazionali, varietà gergali o individuali

• Disfluenza
– Frammen4 di parola, interruzioni, autocorrezioni e riformulazioni
– Es. “falsa partenza” (retrac&ng): abbandono da parte del parlante di
una parola o di una sequenza di parole già prodoGa

• Sovrapposizioni tra i parlan4


– Rappresentazione grafica lineare di un fenomeno che avviene in
parallelo
Segmentazione del parlato
• Individuazione delle unità linguis5che superiori alla parola

• Cfr. Segni interpun5vi


– Nella codifica scri=a, segnalano i nessi logico-sinta@ci, la
segmentazione delle frasi e dei cos5tuen5, le macro-unità̀ testuali
(capoversi e periodi) ecc.

• La segmentazione del parlato necessita di unità individuabili a


par5re dalle cara=eris5che proprie della comunicazione orale
– Mezzo di trasmissione sonoro e modalità dello scambio comunica5vo
Unità di segmentazione
• Parola grafica
– Unità minima convenzionale (trascrizioni ortografiche)

• Turno dialogico
– Macro-unità naturale che deriva dall’interazione dei
parlanti
– Segmento che va dal silenzio di un locutore al suo
successivo silenzio (cambio di voce)
Unità di segmentazione
• Parola grafica
– Unità minima convenzionale (trascrizioni ortografiche)

• Turno dialogico
– Macro-unità naturale che deriva dall’interazione dei
parlanti
– Segmento che va dal silenzio di un locutore al suo
successivo silenzio (cambio di voce)
È sufficiente?
• Corpus LIP (De Mauro et al. 1993), testo “RA1”

B: deve rilasciare la concessione edilizia # e non


lo fa omette un atto del suo ufficio l’insegnante il
medico della mutua che non corre che fa che sta
facendo la guardia medica e non corre eh a visitare
un malato che invece lo chiama perche’ e’ grave
commette anche il reato di omissione di atti
d’uf<ficio> insomma io fino a una settimana fa ero
di un’opinione # dopo di che # cosi’ ripensandoci
studiando cambio idea oggi mi dimostrano che ho ho
completamente preso una toppa micidiale
Intonazione
• Fondamento della produzione linguis3ca orale
– Stru6urazione del parlato e assegnazione di valori pragma3ci

• Unità tonali
– Unità naturali delimitate da profili intona3vi coeren3 e
perce;vamente iden3ficabili

• Sequenze terminate
– Percepite dai parlan3 come concluse a livello intona3vo
– Corrispondono ad enuncia3 (compimento di un a6o linguis3co)
– Unità di riferimento della lingua parlata
– Cfr. Teoria della lingua in a6o (Cres3 2000)
Tagset LABLITA (CorDIC-parlato)
Un esempio (C-ORAL-ROM)
@Title: progettazione urbana
@File: ifamcv16
@Participants: ANG, Angelo, (man, B, 3, university student,
conversation participant, Lecce); LAU, Laura, (woman, B, 3,
university student, conversation participant, Lecce); LUI, Luisa,
(woman, B, 3, university student, conversation participant,
Terni); MIC, Michele, (man, B, 3, university student,
conversation participant, Verona)
@Date: 29/05/2002
@Place: Florence
@Situation: exchange of ideas about a project for a university
examination between students of Architecture at home, not hidden,
researcher observer
@Topic: about a museum project which is underway
[…]
*LAU: no / io &di [/] adesso vi volevo chiedere una cosa //
*LUI: dimmi //
*LAU: eh / questa parete qui //
*LUI: mh //
*LAU: curva //
*LUI: mh //
*LAU: va bene / se mettiamo &uns + cioè / &he [/] dobbiamo creare
un movimento //
*LUI: mh //
*LAU: a questa parete // per allungare un po’ la prospettiva / no
// senza inserire un muro / così / dritto / lineare ...
*LUI: beh / il movimento è dato dalla forma del [/] del posto //
*LAU: solo questo ?
*LUI: sì // io / almeno / ho utilizzato quello // cioè / la curva
/ viene fuori dalla [/] dalla forma del lotto / in realtà //
*ANG: in parte sì // <xxx> +
*LUI: [<] <poi puoi dare delle> [/] dei movimenti / qualcosa di
tuo <personale / però> +
*ANG: [<] <ma anche / già> / perché appunto è [/] è curvo / dà
un’ idea di movimento //
4. Ricerche e analisi
Corpora e analisi linguis.ca
• I corpora perme2ono di analizzare i fenomeni dal punto di
vista della produzione concreta, all’interno di contes. d’uso
reali e in situazioni comunica.ve naturali
– Concordanze: ricerca dei contes. all’interno dei quali occorre una
certa espressione linguis.ca

• Da un punto di vista quan.ta.vo, l’analisi dei corpora


perme2e di accedere ai valori di frequenza e alla distribuzione
dei fenomeni linguis.ci
– Frequenze lessicali: campo di applicazione delle metodologie di analisi
distribu.ve su corpora fin dai primi esordi
La variazione linguistica
• I corpora possono rappresentare diverse varietà di una lingua
– L’analisi compara7va è in grado di dare un contributo determinante
per lo studio della variazione in situazioni diverse e in diversi registri
comunica7vi (Biber 1988, 1995).

• Se si analizzano raccolte 7pologicamente diverse a par7re


dagli stessi criteri, è possibile misurare le differenze tra i
fenomeni riscontra7 e iden7ficare i traG più prominen7 che,
in termini di uso, dis7nguono una varietà rispeJo a un’altra
– Corpora CorDIC: tes7moniano due fondamentali poli della variazione
d’uso dell’italiano: la varietà scriJa e quella parlata
CorDIC
• Corpora Dida+ci Italiani di Confronto
– h2p://corporadida+ci.lablita.it

• Due risorse comparabili, di scri2o e di parlato


– circa 500.000 parole ciascuna, suddivise in 200 campioni testuali

• CorDIC-scri2o
– tesA scaricaA dalla rete a2raverso la pia2aforma RIDIRE-CPI e poi
filtraA manualmente con un lavoro di selezione, analisi e pulizia

• CorDIC-parlato
– derivato dalle trascrizioni del corpus di parlato spontaneo raccolto
presso LABLITA
CorDIC-scritto

CorDIC-parlato
Altri corpora italiani online
• RIDIRE
– http://www.ridire.it/
• CORIS/CODIS
– http://corpora.dslo.unibo.it/coris_ita.html
• Corpus La Repubblica
– http://dev.sslmit.unibo.it/corpora/corpora.php
• corpora.unito
– http://www.corpora.unito.it/
• ItWaC
– http://nl.ijs.si/noske/wacs.cgi/first_form
• Paisà
– http://www.corpusitaliano.it/
Liste di frequenza
• Forme
Liste di frequenza
• Lemmi
Frequenza e classi di parola
• Parole lessicalmente piene à classi aperte
– contenuto seman4co autonomo, perlopiù indipendente dal contesto:
nomi, verbi, agge;vi e avverbi
– numero molto alto (e ampliabile)

• Parole lessicalmente vuote à classi chiuse


– esprimono relazioni gramma4cali o valori funzionali; assumono un
significato in combinazione con altre parole, o in funzione del
contesto: ar4coli, preposizioni, congiunzioni e pronomi
– numero di elemen4 basso (e non ampliabile)

• Le prime posizioni delle liste di frequenza: parole di classe chiusa


Vocabolario di un corpus
• Repertorio delle forme concretamente usate in una raccolta di
tes4

• Type/Token Ra+o (TTR): rapporto tra l’ampiezza del


vocabolario di un corpus (numero delle forme) e il numero
delle occorrenze totali
– Misura approssimata della variabilità lessicale
– Valore: compreso tra 0 e 1
Distribuzione di PoS
• L’annotazione linguis5ca per par5 del discorso perme9e di
sfru9are i da5 di frequenza per valutare la composizione del
lessico u5lizzato nei corpora

• Noun/verb ra+o
– Tendenza opposta tra scri9o (1,62) e parlato (0,77)
Concordanze
• Strumento classico per l’analisi dei tes4
– Studi testuali di stampo filologico o cri4co-le8erario
– Ugo di San Caro: concordanze del testo biblico della
Vulgata di San Girolamo, intorno alla metà del XIII secolo

• Indice in cui sono elencate alfabe4camente le parole


presen4 in una o più opere di un autore
– Indicazione dei pun4 (capitoli, paragrafi, commi o versi) in
cui compaiono
– Talvolta riportano anche riporta4 brevi contes4
Concordanze ele+roniche
• Ricerca di una stringa di testo
– Formato KWIC (Key Word In Context) ogni singola occorrenza viene
posizionata al centro di una riga, e ai suoi lati vengono riportate le
porzioni del contesto destro e sinistro
CQL
• Corpus Query Language, sviluppato a partire dagli anni ’90
presso l’Institut für Maschinelle Sprachverarbeitung (IMS)
dell’Università di Stoccarda
– CorDIC, corpora.unito, CORIS/CODIS, corpus La Repubblica, ItWaC,
corpus Paisà

• Il linguaggio CQL permette di impostare ricerche attraverso


l’uso di espressioni regolari (regular expressions, regex)
– Codifica standard che consente di definire con precisione classi di
stringhe (sequenze di caratteri o altro) complesse e articolate
– Sviluppate dal matematico Steven Cole Kleene (1956)
– Specifica sintassi, molte varianti di implementazione
CQL
• Elementi di base
– [attributo=”valore”]

• Esempi
– [word=”taglio”]
– [lemma=”distruggere”]
– [word=”taglio” & pos=”NOM”]
– [word=”una”][word=”serie”][word=”di”]
– [lemma=”stare”][pos=”VER:geru”]
CQL
Collocazioni
• Definite a par0re da due prospe4ve

• Studi lessicologici e lessicografici


– combinazioni di parole che manifestano una preferenza di
associazione e che creano un significato unitario e ben delineato (Lo
Cascio 1997; Ježek 2011)

• Ricerche su corpora
– sistema0ca co-occorrenza di due o più parole all’interno di un
contesto linguis0co ristreLo (Sinclair 1991; Krishnamurthy 2006)
Le collocazioni in lessicologia
• Associazione di parole nella quale, dato un significato, la
scelta lessicale dei termini risulta in qualche modo “vincolata”
– prestare a(enzione (verbo + nome)
– pizzico di sale (nome + sintagma preposizionale)
– caffè macchiato (nome + agge?vo)
– pen4rsi amaramente (verbo + avverbio)

• Non sono immediatamente traducibili da lingua a lingua


– Italiano: bandire un concorso
– Inglese: announce a compe44on
– Francese: ouvrir un concours (leD. aprire)
– Spagnolo: sacar a concurso (leD. estrarre)
Collocazioni e polirematiche
• Le collocazioni sono una conseguenza delle operazioni di co-
selezione lessicale specifiche di un sistema linguis7co

• A metà strada tra le combinazioni libere di parole e le


stru;ure più fisse, come le unità lessicali polirema7che
– Come le polirema7che: blocchi di significato coesi e par7colarmente
precisi; convenzionalità dell’associazione
– Le collocazioni mostrano però una maggiore tendenza alla
composizionalità seman7ca; cfr. sos7tuzione sinonimica, bandire un
concorso, ma anche indire, pubblicare o lanciare un concorso
– I parlan7 madrelingua avvertono la collocazione come scelta
preferenziale, più naturale
Collocazioni e polirema.che
• Le polirematiche presentano un ordine marcatamente fisso
dei costituenti, mentre le collocazioni godono di un maggior
grado di libertà
– aria condizionata Vs. caffè macchiato (nome + aggettivo)

• Test di interrompibilità (modificatore)


– *aria poco condizionata Vs. caffè poco macchiato

• Test di mobilità sintattica


– *il tecnico ha condizionato l’aria Vs. il barista mi ha macchiato il caffè
Collocazioni e corpora
• In un corpus è possibile
– osservare i fenomeni di co-occorrenza delle parole
– estrarre dati sulla frequenza di occorrenza dei singoli elementi lessicali
e delle loro associazioni in contesto
• Data un’unità lessicale, detta nodo (anche nucleo o base), si
estraggono le sue occorrenze all’interno di un contesto di
collocazione (ing. collocational span)
– Intervallo di parole, a destra e a sinistra del nodo, in cui cerchiamo le
associazioni lessicali (notazione sintetica: n parole)
• Una volta estratti i contesti, si calcola la frequenza di co-
occorrenza di ogni parola che compare al loro interno, ovvero
di ogni possibile collocata (ing. collocate)
Collocazioni e corpora
• Ricerche possibili
– Collocate per frequenza
– Collocate per misura statistica di associazione (es. Mutual
Information)
– Collocate ristrette per PoS
– Collocate ristrette rispetto a una configurazione sintattica
(Sketches)
– Sketch differences
Frequenza
L’ANALISI DEI CORPORA: STRUMENTI DI BASE 133
• Collocate del lemma prendere nel corpus CorDIC-scri7o,
TAB. calcolate sulla
4.12. Collocate frequenza
del lemma prendere(nel corpus
5 parole)
CorDIC-scritto, calcolate sulla frequenza

LEMMA FREQUENZA DI CO-OCCORRENZA


il 133
un 76
di 73
che 57
e 54
del 51
avere 49
essere 49
in 48
a 44

considerazione 12
decisione 12
Frequenza
• Il semplice calcolo delle frequenze me4e in evidenza una
serie di parole gramma7cali, che sono poco significa7ve per
evidenziare le collocazioni lessicali del lemma prendere

• Le prime parole lessicalmente piene (considerazione e


decisione) hanno frequenze di co-occorrenza molto più basse
di ar7coli e preposizioni

• Le parole gramma7cali sono di per sé molto frequen7, e


hanno quindi un’alta probabilità di trovarsi all’interno dei
contes7 di collocazione
Misure statistiche di associazione
• Secondo la teoria della probabilità, per valutare se
l’associazione tra due even8 (nel nostro caso,
l’occorrenza di due parole) è veramente significa8va,
bisogna considerare la probabilità indipendente di
ciascuno di ques8 due even8 e assicurarsi che la loro
concomitanza non sia dovuta al caso

• Non dobbiamo cercare le co-occorrenze più


ricorren8, ma quelle che hanno una frequenza
superiore alle aspeDa8ve
Mutual Information
tual Information (K. Church & P. Hanks. Word
Mutual
ociation norms, mutual Information
information, and lexicography.
• Rapporto tra
L 1989, 76- 83)
– Frequenza di co-occorrenza nel corpus (nodo + collocata)
garitmo del) rapporto tra probabilità di co-occorrenza di
– Probabilità che la loro co-occorrenza sia casuale (s?mata
e parole stimata sui dati del corpus, e probabilità
tramite l’assunzione di indipendenza sta?s?ca)
di
occorrenza nell’assunzione che le due parole capitino
Il “cuore”
eme “per caso”, ovveroIsiano della formula (logaritmo non cam
indipendenti:
• La formula
relativo di coppie ordinate
stima per MI; N è cost
Pcorpus (w1 , w2 )
MI(w1 , w2 ) = log2
Pind (w1 , w2 ) fq(w1 , w2 )
fq(w1 )fq(w2 )
– Par?colarmente sensibile alle associazioni
I L’intuizione: più le duepiù rare sono frequen
parole
denominatore cresce e dunque, anche se
Mutual Information
L’ANALISI DEI CORPORA: STRUMENTI DI BASE 135

• Collocate del lemma prendere nel corpus CorDIC-scri6o,


calcolate
TAB. 4.13. condellalemma
Collocate Mutual Informa/on
prendere nel corpus CorDIC-scritto, calcolate con la Mutual
Information

LEMMA FREQUENZA DI CO-OCCORRENZA FREQUENZA ASSOLUTA MUTUAL INFORMATION


spunto 3 9 9.544
piega 3 10 9.392
generalità 3 11 9.255
birra 3 13 9.014
caffè 4 18 8.959
considerazione 12 65 8.692
cucina 3 23 8.190
decisione 12 107 7.973
intanto 3 35 7.585
prestito 3 44 7.255

TAB. 4.14. Collocate del lemma richiesta (corpus RIDIRE)


Note metodologiche
• Il calcolo sta0s0co delle collocazioni non 0ene conto delle
dis0nzioni lessicologiche, ma solo delle informazioni rela0ve
alla frequenza delle parole
– Verbi supporto (prendere spunto, prendere in considerazione, prendere
una decisione)
– Polirema0che (prendere una piega)
– Stru@ure sintagma0che libere (prendere una birra, prendere un caffè)

• La metodologia del lavoro su corpus lascia al linguista il


compito di discriminare i casi rilevan0
Note metodologiche
• Il calcolo delle collocazioni si basa sulle frequenze lessicali,
che hanno un andamento non lineare e tendono ad
addensarsi su pochi elemen9 molto ricorren9
– Necessità di risorse molto estese per l’analisi delle collocazioni à
RIDIRE.it

• Varie misure sta9s9che applicate al calcolo della significa9vità


delle associazioni lessicali
– Mutual Informa,on tende a premiare associazioni più rare
– log-Likelihood e t-score danno punteggi più al9 ad associazioni molto
frequen9
– log-Dice è una misura più equilibrata, assunta come standard
nell’interfaccia RIDIRE.it
birra 3 13 9.014
caffè 4 18 8.959
considerazione 12 65 8.692
cucina 3 23 8.190
decisione
intanto
prestito
Misure sta*s*che
12
3
3
107
35
44
7.973
7.585
7.255

• Collocate del lemma richiesta (test-corpus RIDIRE)


TAB. 4.14. Collocate del lemma richiesta (corpus RIDIRE)

MUTUAL INFORMATION LOG-DICE LOG-LIKELIHOOD T-SCORE

riconvocazione su su la
esaudire pervenire la di
estorsivo avanzare di su
sospensiva documentazione pervenire alla
inoltrato presentare avanzare della
esoso accogliere documentazione presentare
duplicato rimborso presentare pervenire
inoltrare riscatto rimborso documentazione
riesame informazione riscatto informazione
depenalizzato risarcimento alla avanzare

notare che varie misure mettono in risalto diversi tipi di collocate: la Mutual
Misure sta*s*che e restrizioni
136 CAPITOLO 4

• Collocate aggettivali del lemma richiesta (test-corpus RIDIRE)


TAB. 4.15. Collocate aggettivale del lemma richiesta (corpus RIDIRE)

CONTESTO DESTRO E SINISTRO SOLO CONTESTO SINISTRO SOLO CONTESTO DESTRO

eventuale eventuale inferiore


inferiore specifico telematico
specifico esplicito relativo
relativo previo sostitutivo
telematico apposito scritto
esplicito semplice inoltrato
apposito successivo interessato
previo suddetto apposito
sostitutivo tale immediato
tale relativo formale

TAB. 4.16. Collocate del lemma mettere rispetto al contesto nodo + preposizione + nome (corpus
RIDIRE)

A ALLA IN FUORI SOTTO SUL


sostitutivo tale immediato
tale relativo formale

Sketch (me#ere + PRE + NOM)


TAB. 4.16. Collocate del lemma mettere rispetto al contesto nodo + preposizione + nome (corpus
RIDIRE)

A ALLA IN FUORI SOTTO SUL

disposizione berlina evidenza combattimento torchio piatto


segno prova discussione gioco accusa tavolo
nudo stretta scena uso pressione lastrico
fuoco gogna luce causa sequestro tappeto
punto corda risalto squadra scacco banco
confronto frusta guardia legge riflettore trono
frutto sbarra pratica pista osservazione piedistallo
rischio costola campo concorso inchiesta binario
prova porta atto catalogo assedio fuoco
morte guida moto bacino dente mercato
referto ricerca gioco corsa microscopio piano
concorso caccia contatto servizio sorveglianza comodino
letto finestra mostra strada naso tavolino
posto forca piede gara materasso palo
tavola pericolo mercato pressa ciglio
contatto dubbio
disagio palio
dieta rilievo
crisi
relazione
Corpus RIDIRE
DOMAINS # WEBSITES # PAGES # TOKENS # WORDS
Functional (total) 189 976,460 854,388,230 747,268,841
Information 27 550,169 216,431,868 186,577,769
Economics and Business 123 226,535 179,710,476 161,377,152
Administration and Law 39 199,756 458,245,886 399,313,920
Semantic (total) 816 907,374 660,243,564 566,229,119
Sport 49 138,235 98,172,470 82,695,548
Architecture and Design 142 136,725 93,822,675 81,235,939
Cooking 20 123,376 52,784,045 45,523,096
Cinema 25 122,850 51,466,145 44,370,692
Music 195 113,015 12,906,213 106,287,283
Fashion 103 74,584 24,645,980 21,690,140
Visual Arts 118 70,601 56,517,442 48,929,903
Religion 51 66,053 72,454,492 62,291,806
Literature and Theatre 113 61,935 85,474,102 73,204,712

TOTAL 2,010 3,767,668 1,514,631,794 1,313,497,960


RELIGIONE MODA CUCINA
vita 210,420 collezione 56,685 ricetta 135,498
uomo 169,995 moda 50,381 iscritto 104,610
amore 110,831 anno 49,369 località 93,692
fede 100,514 colore 32,777 acqua 82,492
mondo 98,913 abito 30,085 farina 81,695
pagina 95,462 mondo 28,816 volta 81,274
parola 92,532 donna 28,657 pasta 75,144
cuore 92,351 stile 26,815 zucchero 67,609
tempo 82,891 linea 26,026 minuto 66,579
giorno 76,190 pelle 20,962 impasto 65,074
figlio 70,231 capo 20,619 forno 61,672
persona 69,251 euro 19,199 olio 59,151
anno 69,054 modello 18,947 cucina 56,065
popolo 66,595 articolo 18,747 gr 55,079
modo 65,716 tempo 18,307 burro 52,101
preghiera 64,907 prodotto 17,365 uovo 49,057
MUSICA ARTI VISIVE CINEMA
anno 297.990 opera 118.082 film 333.877
musica 216.633 artista 112.359 cinema 99.894
album 187.958 arte 100.373 anno 94.652
canzone 174.815 anno 97.968 regista 85.483
disco 172.892 mostra 81.167 storia 71.837
tempo 126.922 storia 61.849 pubblico 61.147
parte 125.019 lavoro 61.647 pagina 59.974
brano 124.101 tempo 57.769 vita 57.427
concerto 121.471 mondo 50.059 personaggio 51.136
volta 119.850 parte 48.509 critica 49.955
band 108.138 fumetto 47.459 protagonista 49.610
giorno 98.509 volta 46.466 mondo 47.611
voce 95.995 immagine 42.348 parte 47.415
commento 87.488 spazio 40.669 recensione 45.403
cosa 86.571 vita 40.632 attore 45.347
artista 83.248 serie 37.981 giudizio 45.211
Sketch differences tra lemmi
• Due lemmi,
stesso dominio

forte Vs.
resistente nel
dominio Moda
Sketch differences tra domini
• Stesso lemma,
due domini

forte nei domini


Cucina Vs.
Religione
Sketch grammars
AofN/NofA
1:"NOUN" "ADV.*|NEG"? 2:"ADJ”
2:"ADJ" 1:"NOUN"

e_o (for ADJ)


1:"ADJ" [word=","]{0,1} [word="e|o|od|ed|oppure|,"]{0,1}
"ADV.*"{0,2} 2:"ADJ"

=postV_N/preN_V
1:"VER:.*" "ADV.*"{0,2} "DET:.*|ART|NUM"{0,3} "ADV.*|NEG"?
"ADJ|DET:num|NUM"* 2:"NOUN”

=preV_N/postN_V
2:"NOUN" "ADJ"* "ADV|NEG"{0,3} "CLI"{0,2} ([tag="AUX:.*|VER2:.*"
& lemma !="essere" & lemma!="venire" & lemma!="fare"]
"ADV.*|NEG"?){0,2} 1:"VER:.*"
Esempi di ricerche
con Sketch e collocate
• CORPUS RIDIRE
– Scegliere un lemma nominale
• verificare le collocazioni aggettivali (lemmi) che seguono il lemma
scelto (entro 3 posizioni, min. freq. correlazione 10, min. freq.
collocato 15)
• verificare le collocazioni aggettivali che lo precedono
• differenze?
– Scegliere un lemma aggettivale
• Verificate con quali nomi colloca ( 3 posizioni)
• Distinguete i risultati rispetto alla posizione del nome (dx o sx
dell'aggettivo)
Esempi di ricerche
con Sketch e collocate
• CORPUS RIDIRE
– Sketches di un verbo di azione (es. mettere,
colpire...)
• Confrontare con un lemma semanticamente vicino
• Confrontare i risultati degli sketch in due domini
semantici differenti