Sei sulla pagina 1di 19

I Corpora

Da M. Freddi, Linguistica dei Corpora


I corpora
Ogni corpus è per sua definizione il risultato di un’opera di selezione. La
tipologia è definita sulla base dei parametri di:
1. Generalità
2. Modalità
3. Cronologia
4. Lingua
5. Integrità dei testi
6. Codifica digitale dei testi
1. Generalità
• Il grado di generalità di un corpus dipende dalla misura in cui i suoi
testi sono stati selezionati in maniera trasversale rispetto a varietà
diverse di una lingua.
• I corpora specialistici o verticali hanno il grado minimo di generalità,
poiché includono solo testi che appartengono a una specifica varietà
linguistica (sublanguage) o a un particolare dominio tematico. In
questo caso l’ampiezza del linguaggio che il corpus cerca di descrivere
è molto ristretta: si tratta in genere di linguaggi settoriali (linguaggio
medico, linguaggio giuridico, ecc….) oppure di linguaggi con
particolari caratteristiche (linguaggio infantile, linguaggio patologico,
ecc….).
• Es.: Childes
1. Generalità
• I corpora generali si collocano all’opposto dei precedenti; i testi che li
compongono appartengono alle diverse varietà, comunità d’uso o
registri di una lingua e sono selezionati per comporre il quadro
descrittivo della lingua nel suo complesso. I corpora generali sono
essenzialmente plurifunzionali, ovvero non sono costruiti per una
specifica applicazione o obiettivo di ricerca. I corpora generali sono
spesso progettati come risorse trasversali di riferimento per lo studio
di una lingua, per esempio come fonte di evidenza per realizzare un
dizionario o sviluppare una grammatica: di qui anche il nome corpora
di riferimento (reference corpora).
• Spesso sono articolati in sottocorpora: sottoinsiemi di testi che
appartengono a una particolare varietà.
2. Modalità
• La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella
parlata rende la modalità (scritta e orale) di produzione dei testi un
parametro estremamente rilevante per definire la fisonomia del corpus e
anche deciderne gli usi più opportuni.
• Rispetto a questa dimensione possiamo distinguere:
a. Corpora di lingua scritta: contengono solo testi originariamente prodotti
in forma scritta.
b. Corpora di lingua parlata: contengono solo testi originariamente
prodotti in modalità orale e successivamente trascritti.
c. Corpora misti: contengono in proporzioni variabili sia testi prodotti in
modalità scritta sia trascrizioni di lingua parlata.
3. Cronologia
• I corpora differiscono anche per il modo in cui i testi sono selezionati
rispetto all’asse temporale.
• Un corpus sincronico include testi che appartengono a una stessa finestra
temporale, selezionata per lo studio di una particolare fase della lingua.
• Es: Brown Corpus
• Un corpus diacronico comprende al contrario testi appartenenti a periodi
diversi con lo scopo di monitorare il mutamento linguistico su scala
microtemporale oppure su scala macrotemporale.
• Es.: TLIO
4. Lingua
• Un corpus monolingue contiene solo testi in una lingua.
• Un corpus bilingue o multilingue contiene testi di due o più lingue.
Questi possono essere ulteriormente divisi in corpora paralleli e in
corpora comparabili.
a. Un corpus parallelo comprende testi sia nella loro lingua originaria
(L1) sia in traduzione in un’altra lingua (L2). Se le unità linguistiche dei
testi L1 sono esplicitamente collegate alle unità linguistiche nei testi
L2 che ne costituiscono la traduzione, si parla allora di corpus
bilingue allineato. Es.: Canadian Hansards Corpus.
b. Un corpus bilingue (multilingue) comparabile non contiene invece
testi in traduzione, ma testi originali in lingue diverse. Il corpus è
comparabile nella lingua in cui i criteri di selezioni dei testi sono gli
stessi nelle varie lingue. Es.: Parole.
5. Integrità dei testi
Un corpus può contenere testi interi oppure porzioni di testi di
una lunghezza prefissata: il Brown Corpus include campioni di
2.000 parole mentre i testi in Parole sono integrali. Per alcuni
tipi di indagini la disponibilità di testi completi è importante
per evitare che la selezione di un frammento possa incidere
negativamente sulla naturalezza dei dati da estrarre. Dall’altro
lato, ragioni di bilanciamento del corpus possono invece far
preferire la selezione di porzioni di testi di lunghezza
uniforme. Questo permette di aumentare il numero di testi
rappresentati nel corpus evitando che quelli molto lunghi
condizionino la composizione della collezione.
6. Codifica digitale dei testi
I corpora si differenziano ulteriormente secondo il
modo in cui sono rappresentati testi digitali. Nei
corpora codificati ad alto livello i testi sono arricchiti
con etichette che ne rendono espliciti vari tipi di
informazione, come ad esempio la struttura e la
composizione. Tipi particolari di corpora codificati sono
i corpora annotati nei quali le informazioni codificate
riguardano la struttura linguistica del testo a livelli
diversi di rappresentazione.
I corpora: estensione
Le diverse dimensioni analizzate contribuiscono a comporre la
fisionomia di un corpus. Un altro fondamentale è però la sua
estensione, la cui unità di misura è il numero di parole unità
(token) che esso contiene. Nel caso dei corpora di parlato o
dei corpora audio un’ulteriore unità di misura è la durata della
registrazione. In realtà la dimensione quantitativa non è solo
un elemento accessorio, ma entra come uno degli aspetti
cruciali per determinare la conformazione e la fruibilità stessa
del corpus.
I corpora: estensione
• Concentrandosi sui corpora generali, la loro evoluzione è
contraddistinta dall’ampliamento costante dell’estensione.
• La grandezza tipica dei cosiddetti corpora di prima generazione degli
anni sessanta-settanta è di circa 1 milione di parole; il modello di
riferimento (sia per le dimensioni sia per i criteri di selezione dei testi)
per questa generazione è il Brown Corpus, la cui importanza risiede
nel fatto di essere il primo corpus elettronico progettato come
riferimento per lo studio di una lingua.
• A partire dagli anni 80, la grandezza media dei corpora di riferimento
è andata progressivamente aumentando, fino a raggiungere le
centinaia di milioni di parole.
I corpora: estensione
• Un corpus di monitoraggio è una collezione aperta di testi che muta
nel tempo, pur conservando la propria fisionomia fisionomia
originale, introducendo nuovi testi selezionati secondo gli stessi criteri
usati per determinare la collezione iniziale.
• Questo tipo di corpus permette di monitorare le dinamiche del lessico
della lingua e dunque può essere usato in contesti lessicografici come
fonti di dati per mantenere aggiornati i dizionari.
• Es.: Bank of English; Coris; ANC.
I corpora: estensione
• Al di là degli aspetti quantitativi, è possibile tracciare alcune linee di
tendenza nell’evoluzione dei corpora:
1. mentre i corpora di prima generazione sono generalmente non mi
sti (tipicamente di lingua scritta), i corpora generali più recenti
ospitano spesso proporzioni variabili di parlato trascritto. Sempre
più diffusa è anche la presenza di nuove forme testuali digitali,
come pagine web, e-mail ecc.;
2. esiste un numero crescente di corpora audio e di corpora
multilingui, soprattutto allineati. A questo va aggiunta la
disponibilità amplissima di corpora specialistici, per le più diverse
varietà linguistiche e applicazioni;
I corpora: estensione
3. il numero di lingue per le quali esistono corpora di varie tipologie è
in continuo aumento, sotto la spinta sia delle esigenze di mercato
per le tecnologie linguistiche, sia della comunità di ricerca
interessata ad allargare a nuove lingue la disponibilità di corpora di
riferimento;
4. si preferisce includere in un corpus testi interi per garantire la
massima naturalezza dei dati linguistici estraibili. Un’eccezione
importante a questa tendenza è il BNC, che contiene porzioni di
testi di circa 45.000 parole;
I corpora: estensione
5. I testi sono riccamente codificati attraverso linguaggi di marcatura e
schemi di codifica standardizzati;
6. I corpora sono sempre più esclusivamente annotati: l’annotazione
delle parole con la loro categoria grammaticale (annotazione morfo-
sintattica) è ormai comune, ma a questa si aggiungono spesso
anche informazioni linguistiche maggiormente avanzate, per
esempio sintattiche, semantiche ecc.;
7. Strumenti informatici avanzati (basi di dati, interfacce di ricerca
ecc.) permettono la consultazione e l’esplorazione efficiente dei
grandi corpora di riferimento.
Il corpus come campione
• Un corpus si configura come un campione di una lingua o di una sua
varietà, nel senso statistico di sottoinsieme di unità di una popolazione
oggetto di studio, opportunamente selezionate come fonte di dati per
formulare generalizzazioni corrette e affidabili sull’intera popolazione
di riferimento.
• Rappresentatività e variabilità: per essere rappresentativo un corpus
deve tenere traccia dell’intero ambito di variabilità dei tratti e
proprietà di una lingua.
• Bilanciamento: affinché un corpus sia rappresentativo deve contenere
un ampio repertorio di testi diversi di eventi comunicativi, definiti sulla
base di criteri esterni, che vanno dalla diversità di edizione e
distribuzione dei testi stampati ai loro diversi generi e funzioni testuali,
o dalle variabili sociolinguistiche che definiscono le interazioni parlate
alla struttura in termini di partecipanti.

Potrebbero piacerti anche