Capitolo 1

CAPITOLO 1
Linguista computazionale deve:

1. Saper selezionare e raccogliere i dati linguistici più appropriati per i propri scopi;
2. Conoscere i metodi formali per l’analisi di questi dati;
3. Saper utilizzare tecniche informatiche per condurre le proprie analisi.
Dato linguistico = i prodotti del linguaggio che sono oggetto di un processo di analisi e che formano
l’evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche.
Parole, frasi, enunciati.
Come individuare le fonti dalle quali attingere i dati necessari alle proprie analisi = uno dei problemi più
importanti.
Esistono sue fonti principali:

1. I testi dei parlanti di una lingua  cioè qualsiasi prodotto dell’attività linguistica dei parlanti
elaborato o trascritto come una sequenza di caratteri. Questi prodotti sono intesi nel senso più
ampio possibile dai testi fortemente strutturati come articoli scientifici a trascrizioni di
conversazioni spontanee;
Questi sono dati linguistici ecologici dove il testo è l’habitat naturale dei dati linguistici
2. I parlanti stessi  viene assunto come evidenza empirica la capacità di un soggetto di svolgere un
certo compito linguistico. Il linguista prepara dei test ad hoc per lo studio di un particolare
fenomeno e il somministra a un gruppo predefinito di parlanti (questionari o esperimenti eseguiti
in un contesto controllato di laboratorio).  le risposte dei parlanti costituiscono i dati oggetto di
indagine linguistica.
Questi sono dati linguistici controllati (ottenuti somministrando test), dove è più facile fare
astrazione da circostanze di contorno a discapito della naturalezza.
Astrazione e idealizzazione sono momenti normali della metodologia scientifica perché permettono
di controllare le variabili rilevanti in un dato processo.
Per la LC si dovrebbe combinare in modo equilibrato i dati linguistici naturali con il ricorso a
dati linguistici controllati Che consentono di superare i limiti
derivanti dalla natura limitata
dell’evidenza sul campo
Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. I corpora
testuali sono la principale fonte di dati in LC.
Lo sviluppo della tecnologia informatica ha promosso la creazione e l’uso di corpora.
Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis[1],
al Corpus Inscriptionum Latinarum[2] e a molti altri che sono andati sviluppandosi nel tempo.
I corpora possono essere creati su carta oppure oralmente; oggi, tuttavia, il ruolo del computer nell'uso
dei corpora è diventato così preponderante che ormai il termine stesso di corpus non di rado è sinonimo
di corpus elettronico (un esempio del quale – consultabile via web – è quello riferito al quotidiano "La
Repubblica"). Il computer permette di:
1. Immagazzinare una grande quantità di dati;
2. Facilitare la loro esplorazione;
3. Sviluppare modelli computazionali della lingua
Il settore della linguistica in cui vengono usati i corpora è noto pure come Linguistica dei corpora.
La linguistica dei corpora

La linguistica dei corpora rappresenta una disciplina scientifica ormai giunta alla sua compiutezza; in
cinquant'anni di attività, grazie alla moltitudine dei gruppi di ricerca in essa operanti, è riuscita a
conquistarsi una posizione di centralità indiscussa nel panorama scientifico nazionale e internazionale.
Servendosi di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono
dai testi e che costituiscono la base per la descrizione della struttura del linguaggio.
L'obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano traducibili
in programmi che possano essere eseguiti da calcolatore elettronico; in tal modo, esso può acquisire le
competenze necessarie per comunicare direttamente nella nostra lingua.
Si tratta di un àmbito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato, per qualificare le
attività rivolte allo sviluppo di applicativi basati sulle tecnologie del linguaggio, essa si intreccia con
l'informatica e l'ingegneria; dall'altro lato, invece, dialoga con la linguistica, le scienze cognitive,
la psicologia, la filosofia e le scienze umane in generale, con le quali condivide appunto l'obiettivo di
indagare la struttura, il funzionamento e l'uso del linguaggio, nonché il suo rapporto con le altre facoltà
cognitive dell'uomo.
Storia
La linguistica dei corpora nasce nella seconda metà del Novecento come disciplina di frontiera rispetto sia
al mondo umanistico che alle applicazioni più centrali delle scienze dell'informazione.
Tra i primi risultati della disciplina troviamo lo sviluppo di programmi per lo spoglio elettronico dei testi, il
calcolo della frequenza delle parole, la compilazione di indici e concordanze [3], come pure la creazione di
ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici.
Negli anni Cinquanta e Sessanta, Roberto Busa S. J. realizza il primo corpus elettronico delle opere
di Tommaso d'Aquino presso il Centro per l'Automazione dell'Analisi Linguisticadi Gallarate: si tratta di un
corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo.
Nel 1957, parallelamente al diffondersi della grammatica generativa, in area anglosassone continua a
svilupparsi una tradizione di ricerca linguistica ancorata a una metodologia di derivazione empirista, la
quale fonda l'indagine linguistica sulla raccolta e analisi di corpora.
Successivamente, nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson
Francis realizzano il Brown Corpus: lungo circa un milione di parole, è il primo corpus elettronico progettato
e costruito per lo studio di una particolare varietà linguistica contemporanea (nel caso specifico, l'inglese
americano degli anni Sessanta).
In seguito, la dimensione dei corpora è andata sempre più crescendo, e la loro disponibilità è diventata una
variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL [4]. Al tempo
stesso, la crescita del web – con la sua grande quantità di materiale testuale multiforme, e in continua
evoluzione – ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali
e non più con testi da laboratorio.
La crescente disponibilità di corpora testuali ha facilitato l'innovazione metodologica in linguistica dei
corpora, fornendo i dati linguistici [5] necessari per un uso intensivo dei metodi statistici. Inoltre, i
primi linguaggi standard di marcatura del testo (come l'XML) hanno migliorato il processo di creazione, uso
e interscambio dei corpora: di fatto, oggi il computerpermette di immagazzinare quantità di dati testuali
prima inimmaginabili, e di interrogare in maniera avanzata il contenuto del corpus. Al contempo, tali
linguaggi hanno reso possibile l'annotazione linguistica [6] del testo su ampia scala, la quale consente di
rappresentare in maniera esplicita e dettagliata la struttura e l'organizzazione linguistica del testo stesso,
offrendo l'occasione per una riflessione rigorosa sulla natura dei dati annotati e sui modelli interpretativi
più adatti per darne conto.
La scelta dei testi può essere fatta su criteri diversi che determinano la natura del corpus e i suoi possibili
usi, quindi dobbiamo valutare attentamente il suo contenuto e la sua organizzazione.
Generalità:
Il grado di generalità di un corpus dipende dalla misura in cui i suoi testi sono stati selezionati rispetto a
varietà diverse di una lingua. I corpora specialistici sono orientati alla descrizione di una particolare varietà
linguistica (sublanguage) o ad un ristretto dominio applicativo (si pensi al linguaggio giornalistico, infantile,
giuridico, medico, ecc.); per questo motivo hanno il grado minimo di generalità. Al contrario, i testi dei
corpora generali appartengono a diverse varietà linguistiche e sono selezionati per comporre il quadro
descrittivo della lingua nel suo complesso. Si tratta, quindi, di corpora plurifunzionali che sono spesso
progettati come risorse trasversali di riferimento per lo studio di una lingua, ad esempio come fonte di dati
per sviluppare un dizionario. Spesso i corpora generali sono articolati in vari sottocorpora, ovvero in
sottoinsiemi di testi che appartengono ad una particolare varietà.
Modalità:
La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta
e orale) di produzione dei testi un parametro estremamente rilevante per definire la fisionomia del corpus
e anche deciderne gli usi più opportuni. Rispetto a questa dimensione possiamo suddividere i corpora in:
 corpora di lingua scritta;
 corpora di lingua parlata;
 corpora misti.
I corpora di lingua scritta contengono solo testi prodotti originariamente in forma scritta,
come libri o articoli di giornale, ecc. (si pensi, ad esempio, al Brown Corpus). I corpora di lingua parlata
contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti, come
conversazioni spontanee, trasmissioni radiofoniche, ecc. (ad esempio il corpus CHILDES).
Da questi ultimi si distinguono i corpora audio, ovvero i campioni di linguaggio parlato in forma di segnale
acustico, eventualmente accompagnati dalla loro trascrizione. Questi stanno acquistando sempre più
importanza come strumenti per lo sviluppo di applicazioni per il riconoscimento o la sintesi automatica del
parlato, in cui è necessario accedere a dati acustici.
Un tipo di corpus ancora più di frontiera, ma in rapida diffusione, è il corpus multimediale (o corpus audio-
visivo), che contiene le registrazioni audio-video di scambi comunicativi. Queste consentono di acquisire
dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali, facciali, emozionali e
ambientali della comunicazione. I corpora misti contengono in proporzioni variabili sia testi prodotti in
modalità scritta sia trascrizioni di lingua parlata (ad esempio è composto in questo modo il British National
Corpus).
Cronologia
I corpora differiscono anche per il modo in cui i testi sono selezionati rispetto all'asse temporale. In base
alla cronologia è possibile distinguere corpora sincronici e corpora diacronici.
 I corpora sincronici includono testi che appartengono a una stessa finestra temporale, selezionata
per lo studio di una particolare fase della lingua. (Brown Corpus)
 I corpora diacronici comprendono, invece, testi appartenenti a periodi diversi, con lo scopo di
descrivere il mutamento linguistico (Italnet)
Lingua
In base alla lingua esistono corpora monolingui e corpora bilingui (o multilingui), che possono essere
ulteriormente distinti in corpora paralleli e corpora comparabili.
 I corpora monolingui contengono testi di una sola lingua.

 I corpora bilingui (o multilingui) contengono testi di due (o più) lingue.
o I corpora paralleli comprendono testi sia nella loro lingua originaria sia in traduzione in
un'altra lingua. Se le unità linguistiche dei testi nella loro lingua originaria sono
esplicitamente collegate alle unità linguistiche nei testi in traduzione in un'altra lingua che
ne costituiscono le traduzioni, si parla di corpora paralleli allineati: l'unità tipica di
allineamento è la frase.
o I corpora comparabili non contengono, invece, testi in traduzione, ma testi originali in
lingue diverse. Questi corpora permettono di confrontare due o più lingue rispetto allo
stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i
dati raccolti possiedono un maggiore grado di naturalezza, evitando le artificiosità che
talvolta conseguono dall'opera di traduzione (Parole 12 lingue europee)
Integrità
I corpora possono contenere:
 testi interi;
 porzioni di testi di lunghezza prefissata.
Es: il Brown Corpus include campioni di 2000 parole, mentre i testi in "Parole" e in "Coris" sono integrali.
Codifica digitale dei testi

Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali.
Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari
tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora
codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica
del testo a livelli diversi di rappresentazione.
Estensione = aspetto cruciale per l’usabilità e la conformazione del corpus.

L’estensione è costituita dal numero d parole unità (token) che contiene.
Nei corpora audio o di parlato si considera la lunghezza della registrazione
 Anni ’60-’70: lunghezza tipica un milione di parole (Brown Corpus 1964  primo corpus elettronico
usato come riferimento per lo studio di una lingua);
 Anni ’80: da decine a centinai di milioni di parole (BNC 100 milioni)
I corpora sono realtà chiuse  ci restituiscono una sorta di fotografia di una lingua ma non seguono i suoi
mutamenti e le sue evoluzioni tipici della sua natura dinamica
Sinclair ha proposto il corpus di monitoraggio  collezione aperta di testi che muta nel tempo per
monitorare il lessico di una lingua e utilizzabile per mantenere aggiornati i dizionari
Es: bank of English ideato da Sinclair nel 1981. Nel 2002 conteneva 450 milioni di parole.
In italia vi è il Coris e il America l’American National Corpus.
 I prodotti di prima generazione sono non misti;
 I corposa generali recenti hanno proporzioni variabili di parlato trascritto (10%);
 Numero crescente di corpora audio e corpora multilingui;
 Sempre più lingue per le quali esistono corpora;
 Si preferisce includere testi interi per una maggior naturalezza dei dati;
 I testi sono riccamente codificati attraverso linguaggi di marcatura e schemi di codifica
standardizzati;
 I corpora sono sempre più annotti;
 Grazie a strumenti informatici sofisticati si esplora efficacemente grandi corpora di riferimento.
La facilità di elaborazione e memorizzazione dei dati da parte del computer, lo sviluppo di metodi avanzati
per il trattamento die testi digitali e la presenza crescente di testi in formato digitale hanno portato a un
ampliamento quantitativo e a una grande evoluzione qualitativa dei corpora
Il corpus come campione

Il grado di adeguatezza di un corpus come fonte di dati dipende dalla :
Dimensione quantitativa Dimensione qualitativa
Ovvero la composizione e organizzazione

del corpus; i criteri di selezione dei testi
Ovvero la grandezza del corpus
sono stati ottimizzati grazie anche alla
linguistica dei corpora
Disciplina che si fatta portavoce della

necessità di potenziare i corpora per la
selezione dei testi, non solo legati agli
aspetti quantitativi.
Leech: più grande non significa migliore.
Un corpus è un campione di una lingua o di una sua varietà, intesto come sottoinsieme di unità di una
popolazione oggetto di studio, selezionate come fonte di dati per formulare generalizzazioni corrette e
affidabili sull’intera popolazione di riferimento.
Rappresentatività = concetto chiave per qualificare una collezione di testi come corpus.
Il campione deve essere il più possibile simile alla popolazione e rappresentare un modelle fedele in scala
ridotta.
La rappresentatività agisce come vincolo quantitativo e qualitativo affinché un corpus sia un modello in
scala ridotta delle proprietà di una lingua o delle sue varietà.
È rappresentativo un corpus che tiene traccia dell'intero ambito di variabilità dei tratti e delle proprietà di
una lingua.
Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato,
ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più
accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le
proprietà linguistiche del corpus all'intera popolazione[7]. Tuttavia non si può dimostrare che un corpus sia
veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni
ricavate dall'analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.
La linguistica dei corpora ha sottolineato l’importanza di adottare criteri di selezione dei testi che
accrescano la rappresentatività del campione. La complessità dell’operazione di selezione dipende dalla
trasversalità o generalità della lingua che il corpus deve rappresentare.
Corpora verticali o specialistici
Varietà linguistiche ristrette o ben definibili;

 Corpora per lo studio della lingua di un autore;
 Corpora di domini linguistici settoriali;
 Corpora di testi che appartengono a generi particolari o di
facile identificazione (SMS, collettini meteorologici).
I parametri di variabilità interna della lingua sono

limitati e controllabili, i quali consentono una
maggiore accuratezza nella selezione dei testi
Bilanciamento
Nella linguistica dei corpora il bilanciamento è assunto come condizione essenziale per garantire la
rappresentatività di un corpus che voglia essere plurifunzionale e trasversale rispetto alle diverse varietà di
una lingua. Un corpus generale deve essere bilanciato per poter essere diversificato rispetto a un ampio
spettro di tipi testuali.
Il bilanciamento presuppone la creazione di una descrizione accurata della popolazione linguistica di

riferimento: è necessario dunque definire una mappa della lingua tracciando:
 i confini spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione);
 la tipologia dei testi (l'articolazione in strati della popolazione).
Un bilanciamento corretto richiede una quantità consistente di testi selezionati per le diverse tipologie
individuate nella popolazione (aspetti qualitativi + dimensione quantitativa). La possibilità di gestire
quantità maggiori di testi elettronici ha inciso sulla rappresentatività dei corpora generali.
Se la selezione dei testi di un corpus è fatta bene, esso è ben bilanciato e quindi può essere
rappresentativo.
BNC è uno standard qualitativo de facto.

Il limite dei corpora è quello di essere insiemi finiti, parziali e legati alla prospettiva di osservazione sui
dati.
≠
Conoscenza umana  intrinsecamente infinita
Affidabilità di un corpus come fonte di dati linguistici  deve offrire un modello fedele del lessico e della
grammatica di una lingua
 Chomsky afferma che il modello offerto da un corpus è destinato a essere sistematicamente

distorto e fuori scala perché il numero di volte in cui occorre una certa costruzione, o la su assenza,
sono legati alle contingenze d’uso e alla selezione dei testi. Proprio per questo un corpus è al più
una fonte di curiosità linguistiche ma non una fonte d’evidenza su cui sviluppare modelli della
conoscenza di una lingua.
 Ma all’obiezione di Chomsky che nessun corpus è perfetto si potrebbe dire che nessun campione è
perfettamente rappresentativo della sua popolazione. Infatti la linguistica dei corpora afferma la
natura relativa e non assoluta della rappresentatività.
 Applicando rigorose metodologie statistiche il corpus dovrebbe essere il più possibile
rappresentativo di una popolazione più ampia.
 Per la linguistica dei corpora il controllo degli aspetti qualitativi di un corpus è lo strumento
fondamentale per migliorare la rappresentatività  cioè risorse estese di materiali testuali
trasversali rispetto alle diverse varietà di una lingua e ottenute attraverso accurate opere di
selezione.
 Ogni corpus è il risultato dell’applicazione di metodologie di campionamento rigorose miste a
soluzioni pragmatiche e all’intuizione del progettista del corpus
 La selezione dei testi dipende anche dalla loro effettiva disponibilità.
 Alcuni corpora nascono con una vocazione opportunistica  materiale scelto solo per la sua
abbondante disponibilità in formato digitale (la Repubblica, collezioni di alcune annate
dell’omonimo quotidiano).
 Altra critica chomskiana: la rappresentatività statistica non è in grado di dare una risposta
soddisfacente  la composizione di un corpus è sempre dipendente dalla particolare prospettiva
con cui organizziamo e raggruppiamo i testi.
 Più che la nozione di bilanciamento, ciò che conta è sapere che il corpus è sbilanciato. Cioè, in altre
parole, il controllo dei criteri qualitativi di scelta dei testi per migliorare la rappresentatività del
corpus deve sempre accompagnarsi alla consapevolezza dei limiti di questo processo.
 I criteri di campionamento di un corpus devono essere resi il più possibile espliciti e ben
documentati.
 Il corpus è una fonte che deve essere usata con cautela e con la consapevolezza di dove risieda lo
sbilanciamento
Nella LC esiste un forte interesse a elaborare strumenti per controllare la variabilità dei corpora.
Se il corpus perfettamente rappresentativo non esiste, la LC è sempre più consapevole dell’importanza di

metodi e strategie che permettano di controllare e limitare gli effetti dei possibili sbilanciamenti dei
corpora.
Il corpus come benchmark

La scelta di un corpus come fonte di evidenza dipende anche da come costituisce uno standard di
riferimento per una particolare applicazione linguistica.
Il tipo di corpus scelto e la sua composizione influenzano fortemente i risultati che otteniamo, quindi alcuni
corpora hanno progressivamente assunto il ruolo di standard de facto per una certa comunità come dati di
confronto (benchmark) nella valutazioni.
Il BNC (corpus generale) = standard riconosciuto per molti tipi di analisi computazioni sulla lingua inglese.
Qualità del corpus, facile disponibilità e la conoscenza dei suoi limiti e la sua composizione = fattori che
contribuiscono a rendere un corpus uno standard di riferimento.
La scelta di un corpus è guidata da
Il suo grado di rappresentatività Livello di rappresentatività per

verso una lingua una comunità di ricerca (per una
migliore valutazione comparativa
dei risultati)
I corpora specialistici
 Utili per lo sviluppo di sistemi fortemente adattati a un particolare tipo di linguaggio;
 Corpora focalizzati su un particolare dominio di interesse utili al linguista computazionale;
 Problema: l’evidenza linguistica che forniscono è spesso generalizzabile solo in maniera limitata, a
causa dei tratti fortemente idiosincratici (influenza solo una particolare varietà) della loro
popolazione di riferimento.
 Grazie a questi corpora cambia il modo in cui affrontare l’analisi computazionale della lingua
perché si possono sviluppare modelli e strumenti che operano su ambiti linguistici ristretti ma che
si possono estendere a nuove varietà della lingua.
 Infatti la competenza generale di una lingua è inteso come il risultato di un processo di estensione a
partire dalle competenze settoriali, le quali vengono generalizzate e ampliate;
 Quindi, invece di sviluppare sistemi dotati di conoscenze linguistiche generali, si preferisce spesso
sviluppare sistemi e modelli “specializzati” su domini linguistici locali (cioè dai provenienti da
corpora verticali), dotando questi sistemi di capacità di adattamento linguistico sempre più
sofisticate.
Corpora di addestramento
 È un corpus all’interno del quale vengono osservati degli eventi per costruire modelli di un
determinato fenomeno linguistico;
 Gli eventi osservati possono essere parole del corpus, i loro significati o categorie sintattiche,
espressioni e strutture complesse come sequenze di parole, sintagmi, frasi etc.
 In un corpus di addestramento si possono raccogliere dati quantitativi sull’occorrenza di
determinati fenomeni linguistici.
 Grazie ai metodi statistici infatti, le regolarità rilevate nei dati vengono trasformate in modelli con
cui effettuare previsioni su un dato fenomeno linguistico.
 I modelli ottenuti vengono utilizzati per l’analisi computazionale del linguaggio;
 L’affidabilità e la generalità dei modelli statistici dipendono da:
1. Quali espressioni sono attestate nel nostro corpus;
2. Quante volte sono attestate.
 Ovviamente esisono eventi linguistici che non siamo in grado di osservare perché comunque il
corpus rappresenta una porzione limitata di una popolazione linguistica;
 Anche riguardo glie eventi attestati, in un corpus esiste sempre una grande quantità di eventi
linguistici rari, cioè che ricorrono pochissime volte  quindi è estremamente difficile ricavare da
essi modelli statistici affidabili.
 Per questo motivo la fonte di dati migliore è semplicemente quella con l’estensione maggiore
perché aumenta la probabilità di osservare gli eventi rilevanti ai fini dei modelli linguistici da
costruire
World Wide Web = miniera di testi elettronici, materiale testuale in formato elettronico
 1999: 6 terabyte di pagine di testo accessibile;
 2003: 20 terabyte  2.000 miliardi di parole.
 Il Web è una risorsa di informazione testuale multilingue  ma 75% in inglese, seguito dal
giapponese. L’italiano è fermo allo 0,9%.
 Grazie al web multilingue è possibile facilitare la raccolta di corpora paralleli o lo sviluppo di risorse
testuali per le lingue minoritarie;
 Il web è anarchico e dinamico;
 Il mezzo elettronico ha determinato la nascita della lingua del web, con un suo lessico;
 Esso affiancherà i corpora tradizionali (ma non li sostituisce)
Per concludere:
 I corpora offrono l’opportunità al linguista computazionale di sviluppare modelli sulla base di dati
linguistici ecologici, estratti dal loro habitat naturale;
 I parametri che determinano la sua conformazione sono la quantità e la qualità.
Dimensione
La dimensione del corpus è determinata dal numero di parole contenute nel corpus stesso, per quanto
riguarda i corpora di lingua scritta, e dal numero di ore di registrazione, per quanto riguarda i corpora di
lingua parlata. È possibile distinguere corpus chiusi e corpus aperti. Il primo rappresenta il corpus standard
tradizionale, in cui la quantità dei testi e delle parole è prefissata all'inizio del progetto. I corpora chiusi ci
restituiscono una sorta di “fotografia” di una lingua attraverso i testi selezionati, ma non sono adatti a
seguire i mutamenti e le evoluzioni che in una lingua avvengono come conseguenza della sua natura
intrinsecamente dinamica. Per superare questo limite, John Sinclair ha proposto di estendere la nozione
tradizionale di corpus in uno strumento di monitoraggio linguistico. Un corpus di monitoraggio (monitor
corpus) è una collezione “aperta” di testi che muta nel tempo, introducendo nuovi testi selezionati secondo
gli stessi criteri usati per determinare la collezione iniziale. Questo tipo di corpus permette per esempio di
monitorare le dinamiche del lessico della lingua e dunque può essere usato in contesti lessicografici come
fonte di dati per mantenere aggiornati i dizionari.
Evoluzione
I corpora di prima generazione, negli anni sessanta e settanta contenevano milioni di parole. Negli anni
ottanta e novanta, nei corpora di seconda generazione, troviamo decine di milioni di parole; dopo il 2000 si
contano centinaia di milioni di parole. Nei corpora di ultima generazione, oggi si contano miliardi di parole.
1. “I linguisti da sempre hanno utilizzato la parola corpus per descrivere una raccolta di esempi di uso
naturale di una lingua, costituita a partire da poche frasi fino ad una serie di testi scritti o
registrazioni, raccolti per condurre studi linguistici.” (Hunston, 2002: 2)
2. “Una raccolta di testi scritti e/o parlati archiviati su un computer e adoperati per la ricerca
linguistica e per scrivere dizionari.” (Macmillan English Dictionary, Second Edition, 2008)
3. “Insieme di testi parlati o scritti utilizzati per compiere ricerche finalizzate a stabilire determinate
caratteristiche del codice linguistico in esame e del suo uso.” (Corda, Marello 2004: 220)
Tipologia
I corpora possono derivare dalla lingua scritta o dalla lingua parlata. Esempi di corpora di lingua scritta sono
i libri, i giornali, le riviste e le pagine web. Le conversazioni telefoniche o faccia a faccia, invece,
rappresentano corpus di lingua parlata.
Corpora di lingua italiana
Corpora di lingua italiana scritta
Parole
Corpus di riferimento bilanciato sincronico, dell'italiano scritto contemporaneo. Il corpus è stato sviluppato
nel progetto europeo “Parole” ed è comparabile con altri corpora per lingueeuropee.

Capitolo 1

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Capitolo 1

Caricato da

Copyright:

Formati disponibili

CAPITOLO 1

Linguista computazionale deve:

Parole, frasi, enunciati.

Esistono sue fonti principali:

La linguistica dei corpora

 I corpora monolingui contengono testi di una sola lingua.

Codifica digitale dei testi

Estensione = aspetto cruciale per l’usabilità e la conformazione del corpus.

Il corpus come campione

Dimensione quantitativa Dimensione qualitativa

Ovvero la composizione e organizzazione

Disciplina che si fatta portavoce della

Corpora verticali o specialistici

Varietà linguistiche ristrette o ben definibili;

I parametri di variabilità interna della lingua sono

Il bilanciamento presuppone la creazione di una descrizione accurata della popolazione linguistica di

BNC è uno standard qualitativo de facto.

 Chomsky afferma che il modello offerto da un corpus è destinato a essere sistematicamente

Se il corpus perfettamente rappresentativo non esiste, la LC è sempre più consapevole dell’importanza di

Il corpus come benchmark

La scelta di un corpus è guidata da

Il suo grado di rappresentatività Livello di rappresentatività per

Potrebbero piacerti anche