Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
alessandro.panunzi@unifi.it
Programma
• Il corpus come fonte di dati linguistici
– Campionamento e rappresentatività; costruzione di un corpus
– Codifica e annotazione
– Distribuzione del lessico e liste di frequenza
– Esplorazione del corpus: concordanze, collocazioni, espressioni
regolari
• Analisi della lingua parlata
– Corpora orali, funzioni della prosodia, pragmatica della comunicazione
parlata
• Introduzione alla linguistica testuale
– corpora scritti, struttura del testo, unità comunicative
Testi di riferimento
• Manuale
– E. Cresti & A. Panunzi, Introduzione ai corpora dell'italiano, Bologna, Mulino, 2013
• Approfondimenti
– A. Ferrari, Linguistica del testo, Roma, Carocci, 2014
– A. Lenci, S. Montemagni, V. Pirrelli, Testo e Computer, Roma, Carocci, 2005
– E. Lombardi Vallauri, La struttura informativa. Forma e funzione negli enunciati linguistici,
Carocci, 2009
– P. Sorianello, Prosodia. Modelli e ricerca empirica, Roma, Carocci, 2006
– M. Voghera, Dal parlato alla grammatica, Roma, Carocci, 2017
Iscrizione
• Pia,aforma Moodle
– h,ps://e-l.unifi.it/course/view.php?id=7214
– chiave e accesso ospiD: corpora1819
• Corpora e informa?ca
– Lo sviluppo delle tecnologie informa?che ha permesso la
creazione di corpora di grandi dimensioni e degli strumen? in
grado di analizzarli automa?camente
Casi d’uso
• Induzione di proprietà e strutture linguistiche
– Usare le osservazioni condotte su un corpus campionario per
estenderle all’intera popolazione
– Utilizzo dei corpora nell’insegnamento di L2
• Analisi statistica
– Estrazione dei caratteri di una lingua (es. lessico) a fini
applicativi e computazionali (cfr. training corpora)
I corpora nella tradizione
• Corpora della tradizione giuridica
– Corpus iuris civilis
• Corpora e dizionari
– Vocabolario degli Accademici della Crusca (1612); dizionario Kangxi
del cinese mandarino (1716); A Dictionary of the English Language (S.
Johnson 1746-1755)
Corpora e grammatiche
• Otto Jespersen (1909-1949), Modern English Grammar
– Corpus di schede con esempi dell’inglese scritto e parlato
• Algoritmi di ricerca
– Trovano e ordinano i risultati sulla base di criteri non linguistici (es.
numero di accessi a un sito, numero di collegamenti…)
– Non sono pubblici
• Salto dimensionale
– Prime iniziative: produzione di web corpora in varie lingue, tarati sulla
dimensione del BNC (100 Mw)
– Gruppo di ricerca WaCKy (Web as Corpus kool ynitiative): 4 grandi
corpora (inglese, francese, italiano e tedesco) di 1,5-2 Gw
– Sketch Engine: TenTen Corpora, una serie di risorse linguistiche
derivate dal web dell’ordine di grandezza di 10 Gw (1010)
2. Criteri di costruzione e
0pologie di corpora
Il corpus come campione
• Una popolazione è un insieme di individui (unità statistiche)
di cui è possibile rilevare le modalità con le quali si presenta
un certo fenomeno (collettivo)
• Un campione, invece, corrisponde a una parte della
popolazione, che include solo alcune delle unità statistiche
Popolazione
Campione
La rappresentatività
• Il campione deve, per il fenomeno che si intende studiare,
essere atto a esibire lo stesso tipo di informazioni (qualitative)
con la stessa probabilità di occorrenza (quantitativa) della
popolazione
– I fenomeni variano rispetto a determinati parametri
– Le unità statistiche che compongono un campionamento
devono adeguatamente rappresentare questa variazione
• Corpora di riferimento
– Campionamenti in grado di rappresentare l’intero ambito di
variabilità dei tratti e delle proprietà di una lingua
Il campionamento
• Qual è l’unità statistica di riferimento?
• Lingue
– Corpora monolingui
– Corpora multilingui
• paralleli (traduzione e allineamento) à EUROPARL
http://www.statmt.org/europarl/
• comparabili (stessa struttura in più lingue) à C-ORAL-ROM
Estensione
• L’estensione è una variabile che influenza il grado di
rappresenta9vità di un campione testuale
• Numero di tes9
– Dimensioni dei singoli tes9: sample corpora vs. text corpora (es. Bank
of English, CORIS/CODIS)
Corpus design: Brown Corpus
• Corpus di inglese scritto, 1Mw
– 500 testi di circa 2.000 parole l’uno suddivisi in 15 tipologie testuali
Corpus design: BNC (written)
• Circa 90 milioni di parole in 3.141 testi
• Media di circa 28.000 parole per testo
• Criteri di selezione:
– Dominio, data di pubblicazione, medium (es. libro, periodico, etc.)
Corpus design: BNC (spoken)
• Circa 10 milioni di parole; 915 samples
– TYPE OF INTERACTION: Dialogue (672), monologue (218), unclass. (25)
– REGIONAL VARIATION: South (296), Midlands (208), North (334),
unclassified (77)
• Testi parlati
– acquisizione del segnale audio (analogico o digitalizzato)
– standardizzazione delle procedure di trascrizione del parlato
Web corpora
• Nuovo ordine di grandezza: miliardi di parole
– Per l’italiano: corpora ItWaC, itTenTen, RIDIRE, Paisà
• Procedura di raccolta
– Download delle risorse (crawling)
– Pulizia del materiale scaricato (HTML cleaning)
• Problemi di bilanciamento
– Spesso le risorse derivate dal web sono scarsamente controllate per
quanto riguarda il corpus design (cfr. tipologie testuali)
– Strategie di targeted crawling (RIDIRE)
3. Formato e annotazione
Formato dei dati
• I corpora sono archivia2 in un formato ele6ronico
– Machine-Readable Format
– Il formato deve essere reso esplicito da chi compila un corpus
– Facilità di conservazione, di scambio e di interrogazione dei da2
raccol2
• Livelli di annotazione
– Informazione strutturale (porzioni del testo)
– Annotazione morfosintattica (PoS tagging)
– Annotazione sintattica (parsing, dipendenze…)
– Annotazione semantica (word sense disambiguation…)
– Annotazione pragmatica
Annotazione strutturale
• Standard TEI (Text Encoding Initiative) in XML
– http://www.tei-c.org/
<poem>
<title>The SICK ROSE</title>
<stanza>
<line>O Rose thou art sick.</line>
<line>The invisible worm,</line>
<line>That flies in the night</line>
<line>In the howling storm:</line>
</stanza>
<stanza>
<line>Has found out thy bed</line>
<line>Of crimson joy:</line>
<line>And his dark secret love</line>
<line>Does thy life destroy.</line>
</stanza>
</poem>
Unità linguistiche e annotazione
• L’annotazione dei corpora consente l’analisi automatica di
risorse di grandi dimensioni
• Lemmi
– Lessema: entità linguistica astratta che include tutte le forme
flesse di una parola; vengono solitamente indicati con una
forma di citazione convenzionale (il lemma, appunto)
– Es. amare, fare, cavallo, bello, ecc.
In un momento
In un momento
Sono sfiorite le rose
I petali caduti
Perché io non potevo dimenticare le rose
Le cercavamo insieme
Abbiamo trovato delle rose
Erano le sue rose erano le mie rose
Questo viaggio chiamavamo amore
Col nostro sangue e colle nostre lagrime facevamo le rose
Che brillavano un momento al sole del mattino
Le abbiamo sfiorite sotto il sole tra i rovi
Le rose che non erano le nostre rose
Le mie rose le sue rose
• 48 forme di parola
– 12 “rose”
– 12 “le”
– etc.
• 42 lemmi
– “le” può appartenere a 2 lemmi dis<n<!
Ambiguità
In un momento
Sono sfiorite le rose
I petali caduti
Perché io non potevo dimenticare le rose
Le cercavamo insieme
Abbiamo trovato delle rose
Erano le sue rose erano le mie rose
Questo viaggio chiamavamo amore
Col nostro sangue e colle nostre lagrime facevamo le rose
Che brillavano un momento al sole del mattino
Le abbiamo sfiorite sotto il sole tra i rovi
Le rose che non erano le nostre rose
Le mie rose le sue rose
la ART IL la ART IL
la ART IL la PRO LO
( (S
(NP-SBJ
(NP (ART~DE Il) (NOU~CS Governo))
(PP (PREP di)
(NP (NOU~PR Berisha))))
(VP (VMA~RE appare)
(PP-PRD (PREP in)
(NP (NOU~CA difficolta'))))
(. .)) )
Treebanks (2)
• Annotazione sintattica in formato CONLL (dependency)
– Turin Treebank, frase n. 4 (semplificata)
• Disfluenza
– Frammen4 di parola, interruzioni, autocorrezioni e riformulazioni
– Es. “falsa partenza” (retrac&ng): abbandono da parte del parlante di
una parola o di una sequenza di parole già prodoGa
• Turno dialogico
– Macro-unità naturale che deriva dall’interazione dei
parlanti
– Segmento che va dal silenzio di un locutore al suo
successivo silenzio (cambio di voce)
Unità di segmentazione
• Parola grafica
– Unità minima convenzionale (trascrizioni ortografiche)
• Turno dialogico
– Macro-unità naturale che deriva dall’interazione dei
parlanti
– Segmento che va dal silenzio di un locutore al suo
successivo silenzio (cambio di voce)
È sufficiente?
• Corpus LIP (De Mauro et al. 1993), testo “RA1”
• Unità tonali
– Unità naturali delimitate da profili intona3vi coeren3 e
perce;vamente iden3ficabili
• Sequenze terminate
– Percepite dai parlan3 come concluse a livello intona3vo
– Corrispondono ad enuncia3 (compimento di un a6o linguis3co)
– Unità di riferimento della lingua parlata
– Cfr. Teoria della lingua in a6o (Cres3 2000)
Tagset LABLITA (CorDIC-parlato)
Un esempio (C-ORAL-ROM)
@Title: progettazione urbana
@File: ifamcv16
@Participants: ANG, Angelo, (man, B, 3, university student,
conversation participant, Lecce); LAU, Laura, (woman, B, 3,
university student, conversation participant, Lecce); LUI, Luisa,
(woman, B, 3, university student, conversation participant,
Terni); MIC, Michele, (man, B, 3, university student,
conversation participant, Verona)
@Date: 29/05/2002
@Place: Florence
@Situation: exchange of ideas about a project for a university
examination between students of Architecture at home, not hidden,
researcher observer
@Topic: about a museum project which is underway
[…]
*LAU: no / io &di [/] adesso vi volevo chiedere una cosa //
*LUI: dimmi //
*LAU: eh / questa parete qui //
*LUI: mh //
*LAU: curva //
*LUI: mh //
*LAU: va bene / se mettiamo &uns + cioè / &he [/] dobbiamo creare
un movimento //
*LUI: mh //
*LAU: a questa parete // per allungare un po’ la prospettiva / no
// senza inserire un muro / così / dritto / lineare ...
*LUI: beh / il movimento è dato dalla forma del [/] del posto //
*LAU: solo questo ?
*LUI: sì // io / almeno / ho utilizzato quello // cioè / la curva
/ viene fuori dalla [/] dalla forma del lotto / in realtà //
*ANG: in parte sì // <xxx> +
*LUI: [<] <poi puoi dare delle> [/] dei movimenti / qualcosa di
tuo <personale / però> +
*ANG: [<] <ma anche / già> / perché appunto è [/] è curvo / dà
un’ idea di movimento //
4. Ricerche e analisi
Corpora e analisi linguis.ca
• I corpora perme2ono di analizzare i fenomeni dal punto di
vista della produzione concreta, all’interno di contes. d’uso
reali e in situazioni comunica.ve naturali
– Concordanze: ricerca dei contes. all’interno dei quali occorre una
certa espressione linguis.ca
• CorDIC-scri2o
– tesA scaricaA dalla rete a2raverso la pia2aforma RIDIRE-CPI e poi
filtraA manualmente con un lavoro di selezione, analisi e pulizia
• CorDIC-parlato
– derivato dalle trascrizioni del corpus di parlato spontaneo raccolto
presso LABLITA
CorDIC-scritto
CorDIC-parlato
Altri corpora italiani online
• RIDIRE
– http://www.ridire.it/
• CORIS/CODIS
– http://corpora.dslo.unibo.it/coris_ita.html
• Corpus La Repubblica
– http://dev.sslmit.unibo.it/corpora/corpora.php
• corpora.unito
– http://www.corpora.unito.it/
• ItWaC
– http://nl.ijs.si/noske/wacs.cgi/first_form
• Paisà
– http://www.corpusitaliano.it/
Liste di frequenza
• Forme
Liste di frequenza
• Lemmi
Frequenza e classi di parola
• Parole lessicalmente piene à classi aperte
– contenuto seman4co autonomo, perlopiù indipendente dal contesto:
nomi, verbi, agge;vi e avverbi
– numero molto alto (e ampliabile)
• Noun/verb ra+o
– Tendenza opposta tra scri9o (1,62) e parlato (0,77)
Concordanze
• Strumento classico per l’analisi dei tes4
– Studi testuali di stampo filologico o cri4co-le8erario
– Ugo di San Caro: concordanze del testo biblico della
Vulgata di San Girolamo, intorno alla metà del XIII secolo
• Esempi
– [word=”taglio”]
– [lemma=”distruggere”]
– [word=”taglio” & pos=”NOM”]
– [word=”una”][word=”serie”][word=”di”]
– [lemma=”stare”][pos=”VER:geru”]
CQL
Collocazioni
• Definite a par0re da due prospe4ve
• Ricerche su corpora
– sistema0ca co-occorrenza di due o più parole all’interno di un
contesto linguis0co ristreLo (Sinclair 1991; Krishnamurthy 2006)
Le collocazioni in lessicologia
• Associazione di parole nella quale, dato un significato, la
scelta lessicale dei termini risulta in qualche modo “vincolata”
– prestare a(enzione (verbo + nome)
– pizzico di sale (nome + sintagma preposizionale)
– caffè macchiato (nome + agge?vo)
– pen4rsi amaramente (verbo + avverbio)
riconvocazione su su la
esaudire pervenire la di
estorsivo avanzare di su
sospensiva documentazione pervenire alla
inoltrato presentare avanzare della
esoso accogliere documentazione presentare
duplicato rimborso presentare pervenire
inoltrare riscatto rimborso documentazione
riesame informazione riscatto informazione
depenalizzato risarcimento alla avanzare
notare che varie misure mettono in risalto diversi tipi di collocate: la Mutual
Misure sta*s*che e restrizioni
136 CAPITOLO 4
TAB. 4.16. Collocate del lemma mettere rispetto al contesto nodo + preposizione + nome (corpus
RIDIRE)
forte Vs.
resistente nel
dominio Moda
Sketch differences tra domini
• Stesso lemma,
due domini
=postV_N/preN_V
1:"VER:.*" "ADV.*"{0,2} "DET:.*|ART|NUM"{0,3} "ADV.*|NEG"?
"ADJ|DET:num|NUM"* 2:"NOUN”
=preV_N/postN_V
2:"NOUN" "ADJ"* "ADV|NEG"{0,3} "CLI"{0,2} ([tag="AUX:.*|VER2:.*"
& lemma !="essere" & lemma!="venire" & lemma!="fare"]
"ADV.*|NEG"?){0,2} 1:"VER:.*"
Esempi di ricerche
con Sketch e collocate
• CORPUS RIDIRE
– Scegliere un lemma nominale
• verificare le collocazioni aggettivali (lemmi) che seguono il lemma
scelto (entro 3 posizioni, min. freq. correlazione 10, min. freq.
collocato 15)
• verificare le collocazioni aggettivali che lo precedono
• differenze?
– Scegliere un lemma aggettivale
• Verificate con quali nomi colloca ( 3 posizioni)
• Distinguete i risultati rispetto alla posizione del nome (dx o sx
dell'aggettivo)
Esempi di ricerche
con Sketch e collocate
• CORPUS RIDIRE
– Sketches di un verbo di azione (es. mettere,
colpire...)
• Confrontare con un lemma semanticamente vicino
• Confrontare i risultati degli sketch in due domini
semantici differenti