Sei sulla pagina 1di 4

COME SI COSTRUISCE UN CORPUS

Riassumiamo le tappe di costruzione di un corpus. La prima fase è la raccolta dei


corpora, anche se propriamente sarebbe quella fase che chiamiamo corpus design,
cioè la pianificazione della composizione del corpus dal punto di vista qualitativo e
quantitativo, ovvero quale tipologia testuale voglio utilizzare e quanto di ciascuna
tipologia testuale voglio inserire. Segue la raccolta dei testi, successivamente avrò
una fase che possiamo definire superficiale, cioè non è un' aggiunta di formazione
linguistica è più preparatoria, infatti chiamata anche fase di pre-processamento che
consiste nella:
• preparazione del corpus
• segmentazione
A seconda degli obiettivi del mio corpus ho due possibilità:
1. posso creare un corpus per distribuirlo, quindi per permettere ad altri di fare
un'analisi
2. per svolgere un'analisi personalmente su un particolare tipo di tema.
In questo secondo caso la prima cosa che mi devo chiedere è se la domanda di
ricerca a cui voglio rispondere con il mio corpus ha bisogno di un trattamento del
corpus ulteriore, oppure se mi basta solamente il testo così come l'ho raccolto; cioè
molto banalmente la domanda è se per fare l'analisi che devo condurre posso
accontentarmi di analizzare le forme grafiche così come me le ritrovo in un
documento qualsiasi (tipo word) oppure ho bisogno di un' informazioni aggiuntiva,
tipo la categoria grammaticale o la struttura semantica delle parole. Due esempi di
domande di ricerca che ci portano a due soluzioni diverse di trattamento del corpus:
voglio analizzare la parola ASSERTIVO, questa parola ha diverse accezioni; quindi,
il problema potrebbe essere quello di cercare di capire le diverse accezioni. La
domanda di ricerca è cercare di comprendere nel corso del tempo quando e come si
sono sviluppate le diverse accezioni dell'aggettivo “assertivo” in italiano e quando
ha iniziato a comparire in questa accezione e cioè nel senso di “molto convinto delle
proprie opinioni”. Vediamo che tipo di problema è questo dal punto di vista tecnico.
Andrei a guardare un corpus specifico, e una specifica tipologia testuale che
potrebbe essere particolarmente indicativa dei nuovi usi delle parole, per esempio il
corpus giornalistico. Ho ad esempio una raccolta di tutti i testi di La Repubblica e
voglio andare a guardare tutti gli usi della parola assertivo; mi serve sapere che
assertivo è un aggettivo o no? Oppure posso fare la ricerca utilizzando solamente le
forme grafiche che ho a disposizione? Non ho bisogno dell'informazione riguardo il
fatto se sia o meno un aggettivo , perché è sempre aggettivo, e sono fortunata che gli
aggettivi in italiano hanno solo 4 forme: assertivo-assertiva-assertivi-assertive.
Posso fare quattro ricerche su queste quattro forme, tiro fuori tutte le occorrenze e le
studio.Questo tipo di problema è un tipo di problema per cui nello schema, dopo
essere arrivata alla fase della Raccolta del corpus, Preparazione, vado verso
Concordanze, cioè vado direttamente a una prima esplorazione del corpus. Quindi in
questo caso non c'è bisogno della fase chiamata Etichettatura, ovvero è un tipo di
analisi che posso fare su quello che definisco il Corpus Grezzo, non annotato. Se
voglio lavorare su un verbo, dato che ha molti forme e tempi verbali, non posso
lavorare su un corpus grezzo. Se analizzo strutture sintattiche, tipo composti nome-
nome, il mio obiettivo è estrarre quanti compost nome-nome sono nel mio corpus,
quindi non ho delle forme ma delle classi. Questo è un problema che può e non può
essere risolto con il corpus grezzo, ha bisogno della fase chiamata Etichettatura o
Annotazione, perché vado a pescare classi e non forme. Quando costruisco un
corpus, poiché voglio svolgere uno specifico tipo di analisi, la prima cosa che devo
chiedermi è se mi basta il corpus grezzo oppure no. Con il corpus grezzo posso fare
le Concordanze, sono delle liste di frequenza delle forme grafiche e già da lì posso
avere quella che si può chiamare una prima esplorazione del corpus. Se invece
faccio l'etichettatura potrò fare l'Interrogazione avanzata, ovvero poter chiedere al
mio corpus una combinazione di proprietà che possono essere in parte formali e in
parte classi, tipo baby+nome. Qualunque tipo di corpus io voglia costruire devo fare
un Design, una progettazione, devo cioè decidere come è composto internamente,
capire quali sono le proprietà dal punto di vista quantitativo e qualitativo che voglio
inserire. Esiste anche l'errore di design, che sarebbe l'incoerenza nell'identificazione
delle tipologie (ad esempio se faccio l'e-mail posso avere come gruppi le mail
private e quelle di lavoro, se decido di inserire anche il gruppo delle mail tra
studente e docente questo è un gruppo sbagliato, perché per il docente questa è
comunque mail di lavoro, quindi il design è errato). Fatto il corpus design adeguato
arriviamo alla fase della raccolta dei testi; questi possono essere raccolti in modi
diversi: esistono delle biblioteche digitali, ci sono i cd-rom, il terzo metodo è quello
di riscrivere un libro che non è stato ancora digitalizzato, anche se questo è un
rischio, perché riscrivendolo al computer posso fare errori di battitura. Anche se
qualunque sia il metodo di acquisizione del materiale che utilizzo, i materiali
contengono errori, ovviamente di natura diversa perché un errore di digitazione è
completamente differente da un errore di dettatura. Infatti, il quarto sistema di
acquisizione rapida di materiale che non sia già disponibile in materiale elettronico è
la dettatura vocale. L'ultima tipologia è quella oggi più comune, la scannerizzazione
accompagnata dal riconoscimento caratteri, da questi sistemi chiamati OCR, che a
loro volta fanno errori perché alcune lettere si somigliano, e perché i testi esistenti
utilizzano caratteri diversi, quelli che oggi chiamiamo Font e che hanno delle
proprietà dal punto di vista grafico diverse, c'è per esempio la distinzione tra
caratteri con le grazie e caratteri senza, dove le grazie sono quegli elementi
“decorativi”, quindi il sistema di riconoscimento automatico può fare errori. La fase
successiva all'acquisizione di materiale è quindi la correzione degli errori tecnici.
Segue la fase del pretrattamento, ovvero la preparazione del corpus, che è una fase
un po' superficiale in quanto riguarda il carattere del corpus però importantissima
perché sbagliare il pretrattamento ci comporta errori estensivi, cioè l'impossibilità di
utilizzare adeguatamente il corpus. La fase più importante della preparazione è
l'individuazione di ciò che devo considerare alfabeto o separatore. Mi serve fare
questa operazione perché devo individuare i confini tra le due parole, cioè
individuare dove inizia una parola e dove finisce. Per fare questo non basta sapere
cosa è lo spazio, ma devo sapere anche cosa separa le parole, come il punto la
virgola ecc. Il problema è che la distinzione tra ciò che è alfabeto e ciò che è un
separazione è una distinzione che cambia da lingua a lingua (pensiamo al punto e
virgola che può essere sia separatore, sia parola, ed è parola quando serve per
realizzare una “faccina”, un elemento che in quello specifico contesto io non posso
non notare, in quanto funge da parola), ogni lingua può avere diversi tipologie di
separatore e alfabeto; ma non solo perché il ruolo di un elemento è contestuale, cioè
un punto non è detto che sia separatore poiché posso anche trovarlo in un
acronimo.Il pre-trattamento può anche consistere in altri tipi di operazioni più
complesse che dipendono dal tipo di applicazione che voglio fare del corpus, ma di
questo ne parleremo più avanti, per ora ci basti dire che il problema è meno banale
di quello che sembra, è superficiale perché riguarda i caratteri [ VA VIA L'AUDIO]
è un insieme di procedure contestuali che devono tenere conto dei contenuti del
corpus, quindi non sono delle procedure che posso definire una volta per tutte ma
dipende dal tipo di testo qual è l'insieme delle procedure che devo applicare.Dopo la
preparazione del testo potrei anche fermarmi e iniziare a fare i primi di
Interrogazione però nei corpora di cui parliamo, nella linguistica dei corpora, non ci
basta, saremmo ancora a un corpus grezzo o raw corpus.Quando siamo difronte a un
corpus grezzo non è chiamato nella linguistica neanche corpus, deve essere annotato,
cioè deve subire un processo di etichettatura e annotazione. L'ultima fase è
l'interrogazione che può essere fatta in tanti modi diversi, i 3 principali sono:
1. ESPLORAZIONE DELLE LISTE DI FREQUENZA
2. ESPLORAZIONE DI CONCORDANZE
3. RICHERCHE AVANZATE
La “parola”, quando facciamo analisi sui corpora, nella linguistica è polisemica.
Quando operiamo all'interno di un settore specifico della linguistica abbiamo
bisogno di individuare una terminologia che ci faccia capire a cosa ci stiamo
riferendo nello specifico. La prima definizione di parola è parola GRAFICA che
serve molto in linguistica dei corpora, ed è una sequenza di caratteri compresa tra
due bianchi (spazi) o segni di punteggiatura. Questa è una definizione funzionale che
ci serve nel praticamente, per esempio per misurare la lunghezza de corpora, però
allo stesso tempo è una nozione sotto la quale poi soggiacciono grandi complessità
(una parola grafica al cui interno ho tanti lessemi, per esempio portamelo=porta me
lo 3 lessemi, ma posso avere anche il contrario carta di credito=3 parole grafiche e 1
lessema). La nozione più importante dal punto di vista linguistico a cui miriamo è
proprio la nozione di lessema appena citata. Il lessema è l'entità linguistica astratta
che include tutte le forme flesse di una parola, per esempio quando parlavamo di
assertivo il lemma include anche assertiva-assertivi-assertive. Il lessema è poi
indicato con una forma di citazione convenzionale. Per lingue diverse abbiamo
forme di citazione diverse, per esempio per i verbi italiani la forma di citazione è
l'infinito, mentre l'arabo usa la terza persona singolare del passato. I lessemi nei testi
si presentano come forme flesse, ogni forma flessa è anche chiamata PAROLA
TESTUALE. Usiamo il termine “Occorrenza” per indicare le singole [VA VIA
L'AUDIO] a determinare la parola testuale, per esempio il cane del barista è nero
come il gatto ho una forma testuale il che ha due occorrenze, una che è il cane e una
che è il gatto. Poi ho i word types, delle forme grafiche delle parole, però non
contate come occorrenze ma come tipi. La nozione di lemma si identifica con la
nozione di lessema. In sostanza il lemma rappresenta il lessema, però lo rappresenta
in un dizionario attraverso la sua forma di citazione, ad esempio un dizionario non
dico che contiene X lessemi, dico che contiene 80000 lemmi, il lemma in realtà è la
rappresentazione di un lessema nel dizionario, e questa rappresentazione viene fatta
attraverso quella che viene chiamata un'Entrata , che è una forma di citazione.

Potrebbero piacerti anche