I corpora Ogni corpus è per sua definizione il risultato di un’opera di selezione. La tipologia è definita sulla base dei parametri di: 1. Generalità 2. Modalità 3. Cronologia 4. Lingua 5. Integrità dei testi 6. Codifica digitale dei testi 1. Generalità • Il grado di generalità di un corpus dipende dalla misura in cui i suoi testi sono stati selezionati in maniera trasversale rispetto a varietà diverse di una lingua. • I corpora specialistici o verticali hanno il grado minimo di generalità, poiché includono solo testi che appartengono a una specifica varietà linguistica (sublanguage) o a un particolare dominio tematico. In questo caso l’ampiezza del linguaggio che il corpus cerca di descrivere è molto ristretta: si tratta in genere di linguaggi settoriali (linguaggio medico, linguaggio giuridico, ecc….) oppure di linguaggi con particolari caratteristiche (linguaggio infantile, linguaggio patologico, ecc….). • Es.: Childes 1. Generalità • I corpora generali si collocano all’opposto dei precedenti; i testi che li compongono appartengono alle diverse varietà, comunità d’uso o registri di una lingua e sono selezionati per comporre il quadro descrittivo della lingua nel suo complesso. I corpora generali sono essenzialmente plurifunzionali, ovvero non sono costruiti per una specifica applicazione o obiettivo di ricerca. I corpora generali sono spesso progettati come risorse trasversali di riferimento per lo studio di una lingua, per esempio come fonte di evidenza per realizzare un dizionario o sviluppare una grammatica: di qui anche il nome corpora di riferimento (reference corpora). • Spesso sono articolati in sottocorpora: sottoinsiemi di testi che appartengono a una particolare varietà. 2. Modalità • La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta e orale) di produzione dei testi un parametro estremamente rilevante per definire la fisonomia del corpus e anche deciderne gli usi più opportuni. • Rispetto a questa dimensione possiamo distinguere: a. Corpora di lingua scritta: contengono solo testi originariamente prodotti in forma scritta. b. Corpora di lingua parlata: contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti. c. Corpora misti: contengono in proporzioni variabili sia testi prodotti in modalità scritta sia trascrizioni di lingua parlata. 3. Cronologia • I corpora differiscono anche per il modo in cui i testi sono selezionati rispetto all’asse temporale. • Un corpus sincronico include testi che appartengono a una stessa finestra temporale, selezionata per lo studio di una particolare fase della lingua. • Es: Brown Corpus • Un corpus diacronico comprende al contrario testi appartenenti a periodi diversi con lo scopo di monitorare il mutamento linguistico su scala microtemporale oppure su scala macrotemporale. • Es.: TLIO 4. Lingua • Un corpus monolingue contiene solo testi in una lingua. • Un corpus bilingue o multilingue contiene testi di due o più lingue. Questi possono essere ulteriormente divisi in corpora paralleli e in corpora comparabili. a. Un corpus parallelo comprende testi sia nella loro lingua originaria (L1) sia in traduzione in un’altra lingua (L2). Se le unità linguistiche dei testi L1 sono esplicitamente collegate alle unità linguistiche nei testi L2 che ne costituiscono la traduzione, si parla allora di corpus bilingue allineato. Es.: Canadian Hansards Corpus. b. Un corpus bilingue (multilingue) comparabile non contiene invece testi in traduzione, ma testi originali in lingue diverse. Il corpus è comparabile nella lingua in cui i criteri di selezioni dei testi sono gli stessi nelle varie lingue. Es.: Parole. 5. Integrità dei testi Un corpus può contenere testi interi oppure porzioni di testi di una lunghezza prefissata: il Brown Corpus include campioni di 2.000 parole mentre i testi in Parole sono integrali. Per alcuni tipi di indagini la disponibilità di testi completi è importante per evitare che la selezione di un frammento possa incidere negativamente sulla naturalezza dei dati da estrarre. Dall’altro lato, ragioni di bilanciamento del corpus possono invece far preferire la selezione di porzioni di testi di lunghezza uniforme. Questo permette di aumentare il numero di testi rappresentati nel corpus evitando che quelli molto lunghi condizionino la composizione della collezione. 6. Codifica digitale dei testi I corpora si differenziano ulteriormente secondo il modo in cui sono rappresentati testi digitali. Nei corpora codificati ad alto livello i testi sono arricchiti con etichette che ne rendono espliciti vari tipi di informazione, come ad esempio la struttura e la composizione. Tipi particolari di corpora codificati sono i corpora annotati nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione. I corpora: estensione Le diverse dimensioni analizzate contribuiscono a comporre la fisionomia di un corpus. Un altro fondamentale è però la sua estensione, la cui unità di misura è il numero di parole unità (token) che esso contiene. Nel caso dei corpora di parlato o dei corpora audio un’ulteriore unità di misura è la durata della registrazione. In realtà la dimensione quantitativa non è solo un elemento accessorio, ma entra come uno degli aspetti cruciali per determinare la conformazione e la fruibilità stessa del corpus. I corpora: estensione • Concentrandosi sui corpora generali, la loro evoluzione è contraddistinta dall’ampliamento costante dell’estensione. • La grandezza tipica dei cosiddetti corpora di prima generazione degli anni sessanta-settanta è di circa 1 milione di parole; il modello di riferimento (sia per le dimensioni sia per i criteri di selezione dei testi) per questa generazione è il Brown Corpus, la cui importanza risiede nel fatto di essere il primo corpus elettronico progettato come riferimento per lo studio di una lingua. • A partire dagli anni 80, la grandezza media dei corpora di riferimento è andata progressivamente aumentando, fino a raggiungere le centinaia di milioni di parole. I corpora: estensione • Un corpus di monitoraggio è una collezione aperta di testi che muta nel tempo, pur conservando la propria fisionomia fisionomia originale, introducendo nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale. • Questo tipo di corpus permette di monitorare le dinamiche del lessico della lingua e dunque può essere usato in contesti lessicografici come fonti di dati per mantenere aggiornati i dizionari. • Es.: Bank of English; Coris; ANC. I corpora: estensione • Al di là degli aspetti quantitativi, è possibile tracciare alcune linee di tendenza nell’evoluzione dei corpora: 1. mentre i corpora di prima generazione sono generalmente non mi sti (tipicamente di lingua scritta), i corpora generali più recenti ospitano spesso proporzioni variabili di parlato trascritto. Sempre più diffusa è anche la presenza di nuove forme testuali digitali, come pagine web, e-mail ecc.; 2. esiste un numero crescente di corpora audio e di corpora multilingui, soprattutto allineati. A questo va aggiunta la disponibilità amplissima di corpora specialistici, per le più diverse varietà linguistiche e applicazioni; I corpora: estensione 3. il numero di lingue per le quali esistono corpora di varie tipologie è in continuo aumento, sotto la spinta sia delle esigenze di mercato per le tecnologie linguistiche, sia della comunità di ricerca interessata ad allargare a nuove lingue la disponibilità di corpora di riferimento; 4. si preferisce includere in un corpus testi interi per garantire la massima naturalezza dei dati linguistici estraibili. Un’eccezione importante a questa tendenza è il BNC, che contiene porzioni di testi di circa 45.000 parole; I corpora: estensione 5. I testi sono riccamente codificati attraverso linguaggi di marcatura e schemi di codifica standardizzati; 6. I corpora sono sempre più esclusivamente annotati: l’annotazione delle parole con la loro categoria grammaticale (annotazione morfo- sintattica) è ormai comune, ma a questa si aggiungono spesso anche informazioni linguistiche maggiormente avanzate, per esempio sintattiche, semantiche ecc.; 7. Strumenti informatici avanzati (basi di dati, interfacce di ricerca ecc.) permettono la consultazione e l’esplorazione efficiente dei grandi corpora di riferimento. Il corpus come campione • Un corpus si configura come un campione di una lingua o di una sua varietà, nel senso statistico di sottoinsieme di unità di una popolazione oggetto di studio, opportunamente selezionate come fonte di dati per formulare generalizzazioni corrette e affidabili sull’intera popolazione di riferimento. • Rappresentatività e variabilità: per essere rappresentativo un corpus deve tenere traccia dell’intero ambito di variabilità dei tratti e proprietà di una lingua. • Bilanciamento: affinché un corpus sia rappresentativo deve contenere un ampio repertorio di testi diversi di eventi comunicativi, definiti sulla base di criteri esterni, che vanno dalla diversità di edizione e distribuzione dei testi stampati ai loro diversi generi e funzioni testuali, o dalle variabili sociolinguistiche che definiscono le interazioni parlate alla struttura in termini di partecipanti.
La Continuità Topicale e Le Forme Di Riferimento Anaforico A Persone All'interno Di Narrazioni in Italiano L2. L'uso Dei Pronomi Da Parte Di Apprendenti Anglofoni