Sei sulla pagina 1di 16

Il corpus nella tradizione

I corpora nell’antichità
 Raccolte di testi tramandate oralmente e successivamente fissate in
forma scritta
 Non concepiti per il fine della ricerca linguistica, ma impatto
linguistico fondamentale

Corpora della tradizione giuridica


• Corpus iuris civilis (528-533)
• Institutiones grammaticae latinae
• Code civil de Français (1804)
Corpora della tradizione religiosa
• Torah
• Bibbia
• Corano
• Veda
• Grammatica del Pāṇini (IV sec. a.C.)

Corpora della tradizione mitologica e fiabesca


• Biblioteca di Pseudo-Apollodoro (I sec. a.C.)
• Le mille e una notte (X sec.)
• Cunto de li cunti di Giambattista Basile (1634-1636)
• Fiabe di Jacob e Wilhelm Grimm (primi decenni ‘800)
• Le fiabe italiane di Italo Calvino (1956)
Dizionari e grammatiche moderni
• Vocabolario degli Accademici della Crusca (1612)

• Dizionario Kangxi del cinese mandarino (1716)

• A Dictionary of the English Language di Samuel Johnson (1746-1755)

• Deutsches Wörterbuch (1838-1961) dei fratelli Grimm

• Dizionario della Lingua Italiana di Nicolò Tommaseo e Bernardo Bellini


(1861-1879)
• Grande Dizionario della Lingua Italiana di Salvatore Battaglia (1961)

• The Oxford English Dictionary (1933)

• Lessico Etimologico Italiano di Max Pfister (1979)

• Modern English Grammar di O. Jespersen (1909-1949)


• Grammatica italiana, Italiano comune e lingua letteraria di L. Serianni e A.
Castelvecchi (1989)
• A Comprehensive Grammar of English Language di R. Quirk (1985)

• Longman Grammar of Spoken and Written English di D. Biber (1999)


• Collins COBUILD English Language Dictionary/English Grammar di J. Sinclair
< fraseologia estratta dalla Bank of English
Corpora elettronici
Fine del XIX/metà XX sec.
• Analisi quantitative dei dati linguistici

• Friedrich Wilhelm Kaeding (1897) > misurazione di frequenze d’uso a partire da un


corpus

• Estrazione di lessici di frequenza


• Edward Lee Thorndike (1921) > lessico di base dell’inglese

• Studi grammaticali basati sull’uso


• Charles Carpenter Fries
• 1940: variazione d’uso dell’inglese americano a partire da un corpus di lettere
• 1952: corpus di conversazioni telefoniche di 250.000 parole
• Difficoltà alla nascita della linguistica dei corpora come scienza
empirica
• Metodologia condivisa
• Criteri di ricerca omogenei
• Scarsa affidabilità delle procedure di elaborazione dei dati

Costi molto elevati


Problemi metodologici legati agli spogli manuali
• Concezione del linguaggio come oggetto descrivibile attraverso un
approccio statistico-matematico

Statistica linguistica
 rango: il posto che un’unità lessicale occupa in una lista di frequenza
di ordine decrescente, e il numero intero che denota questo posto
• George Kingsley Zipf (1935; 1949) > il rango cresce proporzionalmente
al decrescere delle frequenze (legge di Zipf) > relazione inversa tra la
frequenza di una parola in un corpus e il suo rango
• Avvento dei computer > base per lo sviluppo di risorse testuali in
formato elettronico > nascita dell’odierna linguistica dei corpora

Roberto Busa > Index Thomisticus (1980)


• CAAL > Centro per l’Automazione dell’Analisi Letteraria (1953)

Alphonse Juilland (metà anni ‘50)


• Corpora elettronici di diverse lingue
• Embrionali procedure di annotazione
• Statistica lessicale > dispersione: misura che indica se la distribuzione delle
frequenze di una parola è omogenea luogo tutto il corpus o se si concentra
solo in determinate tipologie testuali
Corpora di prima generazione
• Anni ‘60
 Brown Corpus di Kučera e Francis
• Prima edizione: 1964; successive edizioni: 1971, 1979
• Analisi computazionali e interdisciplinari
• Produzione di una risorsa per lo studio linguistico
• Corpus design
• 500 testi/1 milione di parole
• 15 tipi di testi scritti
• Tradizione britannica
 2 linee di ricerca:

• corpus based > ricerche basate su corpora, il corpus è la base sulla quale
verificare un’ipotesi scientifica > strutture grammaticali
• corpus driven > il corpus stesso suggerisce, attraverso l’osservazione delle
regolarità d’uso, fenomeni frequenti e generalizzazioni teoriche > lessico-
sintassi
 Corpus based
• Randolph Quirk, primi anni ‘60
• Survey of the English Usage (SEU) < Brown Corpus + testi orali
• A Comprehensive Grammar of English Language (1985)

• J. Svartvik, anni ‘70 > London-Lud Corpus, testi orali annotati


prosodicamente del SEU
• S. Greenbaum (dal 1990) > International Corpus of English, corpora
scritti e parlati acquisiti in vari paesi di lingua inglese
• G. Leech > Lancaster-Oslo-Bergen Corpus (Johansson 1978) < Brown
corpus, con testi in inglese britannico
Corpus driven
• John Sinclair, 1963 > English Lexical Studies quali corpora elettronici
• Introduzione del concetto di collocazione >
• «combinazioni di parole che manifestano una preferenza di associazione e
che creano un significato unitario e ben delineato»;
• «sistematica co-occorrenza di due o più parole all’interno di un contesto
linguistico ristretto»
• Collins COBUILD English Language Dictionary, 1987 < Birmingham
Collection of English Texts, oltre 18 milioni di parole
Corpora di seconda generazione
• Primi anni ‘90
• Corpus based
Esigenza di dati maggiori
• Corpus driven
Interesse case editrici britanniche per lavori estratti da corpora
Rivitalizzazione della prospettiva empiristica nella linguistica
computazionale

1991, British National Corpus


• Nuovo standard: 100 milioni di parole, di cui 10 di inglese parlato,
corpus design molto articolato
Bank of English
• 1991, J. Sinclair
• Nuovo modello di riferimento: raccolta aperta in continuo
aggiornamento e contenete testi completi (monitor corpus vs sample
corpora)
• Oggi: 4,5 miliardi di parole prevalentemente scritte
Dagli anni ‘90 a oggi > web come fonte di dati linguistici
• Enormi quantità di testi in formato elettronico liberamente accessibili
• https://www.worldwidewebsize.com/

 «Web as Corpus»
• Limitazioni
• Motori di ricerca dedicati agli studi linguistici
Vantaggi e disvantaggi > web corpora

Potrebbero piacerti anche