Sei sulla pagina 1di 12

Linguistica dei corpora

Fare clic per inserire testo


Corso di Linguistica Generale
Università del Salento
CdL Lettere
a.a. 2021/2022
Linguistica dei corpora
• Calco dall’inglese corpus linguistics
• Linguistica > studio scientifico delle lingue e del linguaggio
• Corpus > raccolte di dati linguistici
• Corpus (lat.) > corpo; individuo, persona, essere vivente; cadavere,
corpo inanimato; materia, massa, sostanza materiale; organismo,
struttura, insieme, complesso unitario; società, classe, corporazione,
unione, casta, gruppo organizzato; raccolta di scritti, opera, volume;
essenza, sostanza

• Corpo (it.) > porzione limitata di materia; entità fisica (contrapposta a


entità immateriali); caratterizzata da proprietà diverse a seconda del
campo di riferimento
• Corpus (it.) > raccolta ordinata e completa di opere o di autori;
collezioni di testi selezionati e organizzati per facilitare le analisi
linguistiche
• Corpus
• Raccolta di oggetti di lingua
• Insieme delle opere di un autore
• Base empirica per l’analisi delle lingue naturali
• Rappresentatività > ampiezza e caratteri dipendenti dai fini
• Autenticità
• Corpora di lingue morte o di lingue vive
• Corpora di testi scritti, parlati o multimediali
• Conservazione in formato elettronico e in modo uniforme
• Consultazione attraverso strumenti informatici
• Osservazione dell’uso effettivo di una lingua
• Verifica di tendenze generali su base statistica
 raccolta significativa di dati linguistici
 vs antologie
Il problema del dato
• Cfr. R. Simone, Diacronia accelerata o dissoluzione dei dati?, XLV
Convegno della Società Italiana di Glottologia, Pisa, 21-23 ottobre
2021

esempi, materiali grezzi > dati < ricercati e raccolti consapevolmente

corpora

 linguistica quale scienza più vicina ad altre scienze empiriche


dati linguistici > «intrinseca e stratificata fragilità»

• Il dato linguistico non si dà da se ma deve essere costituito


appositamente > dalla materia grezza al dato linguistico
• Le lingue non offrono entità percepibili immediatamente
• Saussure: è il punto di vista che crea l’oggetto > teorie diverse creano
dati diversi
• Processi diversi di 1) individuazione e 2) segmentazione
• Dati quali riflesso impoverito della realtà linguistica
• Variabilità dei dati in sincronia e in diacronia
Il problema del dato

• Raccolte di dati linguistici dall’uso nella tradizione linguistica vs


nascita recente della linguistica dei corpora
Costi alti: risorse umane ed economiche
Problema di metodo

• Forte impulso grazie allo sviluppo della tecnologia informatica


 Principi di costituzione di un corpus e dei diversi tipi di corpora
 Criteri per la loro interrogazione
• Dissidenza di Noam Chomsky (metà anni ‘60)

Competenza vs esecuzione
Creatività linguistica > lingua potenzialmente infinita
Ricorsività

Lo studio del dato linguistico a partire da corpora non ha senso perché
questi contengono esclusivamente atti di esecuzione
L’esecuzione può essere disturbata da fattori contestuali
L’esecuzione non da informazioni sulla facoltà che ha permesso la
realizzazione dei dati stessi
Il carattere di finitezza di un corpus non consentirebbe di studiare la totale
complessità del linguaggio
• Dato linguistico per Chomsky
dati artificiali costruiti ad hoc
verifica di un certo fenomeno linguistico
sottoposti a giudizi di competenza da parte di parlanti madrelingua

• Complessità degli esempi desunti dall’uso tale da non permettere


punti di accordo intersoggettivi
• La realtà dell’espressione umana è incommensurabile

ma…
• La sola competenza non può dare conto di tutte le produzioni possibili
di una lingua
Lingue antiche
Prima acquisizione
Patologia linguistica
Parlato connesso spontaneo

• L’analisi di un corpus permette di


Rilevare fatti linguistici scarsamente prevedibili
Decidere della basicità di un determinato costrutto sulla base dei dati di
frequenza
Complessità del dato vivo > analisi quantitativa o qualitativa?
Bibliografia selettiva

• R. Simone, Diacronia accelerata o dissoluzione dei dati?, XLV


Convegno della Società Italiana di Glottologia, Pisa, 21-23 ottobre
2021
• Linguistica dei corpora > studio empirico delle manifestazioni della
creatività linguistica quale creatività semantica a partire
dall’associazione di un metodo induttivo alle ipotesi di tipo deduttivo
• Linguistica dei corpora > condizione preliminare è l’assunzione di una
metodologia e la scelta di un campo
• Ruolo delle tecnologie informatiche

Potrebbero piacerti anche