Riassumiamo le tappe di costruzione di un corpus. La prima fase è la raccolta dei
corpora, anche se propriamente sarebbe quella fase che chiamiamo corpus design, cioè la pianificazione della composizione del corpus dal punto di vista qualitativo e quantitativo, ovvero quale tipologia testuale voglio utilizzare e quanto di ciascuna tipologia testuale voglio inserire. Segue la raccolta dei testi, successivamente avrò una fase che possiamo definire superficiale, cioè non è un' aggiunta di formazione linguistica è più preparatoria, infatti chiamata anche fase di pre-processamento che consiste nella: • preparazione del corpus • segmentazione A seconda degli obiettivi del mio corpus ho due possibilità: 1. posso creare un corpus per distribuirlo, quindi per permettere ad altri di fare un'analisi 2. per svolgere un'analisi personalmente su un particolare tipo di tema. In questo secondo caso la prima cosa che mi devo chiedere è se la domanda di ricerca a cui voglio rispondere con il mio corpus ha bisogno di un trattamento del corpus ulteriore, oppure se mi basta solamente il testo così come l'ho raccolto; cioè molto banalmente la domanda è se per fare l'analisi che devo condurre posso accontentarmi di analizzare le forme grafiche così come me le ritrovo in un documento qualsiasi (tipo word) oppure ho bisogno di un' informazioni aggiuntiva, tipo la categoria grammaticale o la struttura semantica delle parole. Due esempi di domande di ricerca che ci portano a due soluzioni diverse di trattamento del corpus: voglio analizzare la parola ASSERTIVO, questa parola ha diverse accezioni; quindi, il problema potrebbe essere quello di cercare di capire le diverse accezioni. La domanda di ricerca è cercare di comprendere nel corso del tempo quando e come si sono sviluppate le diverse accezioni dell'aggettivo “assertivo” in italiano e quando ha iniziato a comparire in questa accezione e cioè nel senso di “molto convinto delle proprie opinioni”. Vediamo che tipo di problema è questo dal punto di vista tecnico. Andrei a guardare un corpus specifico, e una specifica tipologia testuale che potrebbe essere particolarmente indicativa dei nuovi usi delle parole, per esempio il corpus giornalistico. Ho ad esempio una raccolta di tutti i testi di La Repubblica e voglio andare a guardare tutti gli usi della parola assertivo; mi serve sapere che assertivo è un aggettivo o no? Oppure posso fare la ricerca utilizzando solamente le forme grafiche che ho a disposizione? Non ho bisogno dell'informazione riguardo il fatto se sia o meno un aggettivo , perché è sempre aggettivo, e sono fortunata che gli aggettivi in italiano hanno solo 4 forme: assertivo-assertiva-assertivi-assertive. Posso fare quattro ricerche su queste quattro forme, tiro fuori tutte le occorrenze e le studio.Questo tipo di problema è un tipo di problema per cui nello schema, dopo essere arrivata alla fase della Raccolta del corpus, Preparazione, vado verso Concordanze, cioè vado direttamente a una prima esplorazione del corpus. Quindi in questo caso non c'è bisogno della fase chiamata Etichettatura, ovvero è un tipo di analisi che posso fare su quello che definisco il Corpus Grezzo, non annotato. Se voglio lavorare su un verbo, dato che ha molti forme e tempi verbali, non posso lavorare su un corpus grezzo. Se analizzo strutture sintattiche, tipo composti nome- nome, il mio obiettivo è estrarre quanti compost nome-nome sono nel mio corpus, quindi non ho delle forme ma delle classi. Questo è un problema che può e non può essere risolto con il corpus grezzo, ha bisogno della fase chiamata Etichettatura o Annotazione, perché vado a pescare classi e non forme. Quando costruisco un corpus, poiché voglio svolgere uno specifico tipo di analisi, la prima cosa che devo chiedermi è se mi basta il corpus grezzo oppure no. Con il corpus grezzo posso fare le Concordanze, sono delle liste di frequenza delle forme grafiche e già da lì posso avere quella che si può chiamare una prima esplorazione del corpus. Se invece faccio l'etichettatura potrò fare l'Interrogazione avanzata, ovvero poter chiedere al mio corpus una combinazione di proprietà che possono essere in parte formali e in parte classi, tipo baby+nome. Qualunque tipo di corpus io voglia costruire devo fare un Design, una progettazione, devo cioè decidere come è composto internamente, capire quali sono le proprietà dal punto di vista quantitativo e qualitativo che voglio inserire. Esiste anche l'errore di design, che sarebbe l'incoerenza nell'identificazione delle tipologie (ad esempio se faccio l'e-mail posso avere come gruppi le mail private e quelle di lavoro, se decido di inserire anche il gruppo delle mail tra studente e docente questo è un gruppo sbagliato, perché per il docente questa è comunque mail di lavoro, quindi il design è errato). Fatto il corpus design adeguato arriviamo alla fase della raccolta dei testi; questi possono essere raccolti in modi diversi: esistono delle biblioteche digitali, ci sono i cd-rom, il terzo metodo è quello di riscrivere un libro che non è stato ancora digitalizzato, anche se questo è un rischio, perché riscrivendolo al computer posso fare errori di battitura. Anche se qualunque sia il metodo di acquisizione del materiale che utilizzo, i materiali contengono errori, ovviamente di natura diversa perché un errore di digitazione è completamente differente da un errore di dettatura. Infatti, il quarto sistema di acquisizione rapida di materiale che non sia già disponibile in materiale elettronico è la dettatura vocale. L'ultima tipologia è quella oggi più comune, la scannerizzazione accompagnata dal riconoscimento caratteri, da questi sistemi chiamati OCR, che a loro volta fanno errori perché alcune lettere si somigliano, e perché i testi esistenti utilizzano caratteri diversi, quelli che oggi chiamiamo Font e che hanno delle proprietà dal punto di vista grafico diverse, c'è per esempio la distinzione tra caratteri con le grazie e caratteri senza, dove le grazie sono quegli elementi “decorativi”, quindi il sistema di riconoscimento automatico può fare errori. La fase successiva all'acquisizione di materiale è quindi la correzione degli errori tecnici. Segue la fase del pretrattamento, ovvero la preparazione del corpus, che è una fase un po' superficiale in quanto riguarda il carattere del corpus però importantissima perché sbagliare il pretrattamento ci comporta errori estensivi, cioè l'impossibilità di utilizzare adeguatamente il corpus. La fase più importante della preparazione è l'individuazione di ciò che devo considerare alfabeto o separatore. Mi serve fare questa operazione perché devo individuare i confini tra le due parole, cioè individuare dove inizia una parola e dove finisce. Per fare questo non basta sapere cosa è lo spazio, ma devo sapere anche cosa separa le parole, come il punto la virgola ecc. Il problema è che la distinzione tra ciò che è alfabeto e ciò che è un separazione è una distinzione che cambia da lingua a lingua (pensiamo al punto e virgola che può essere sia separatore, sia parola, ed è parola quando serve per realizzare una “faccina”, un elemento che in quello specifico contesto io non posso non notare, in quanto funge da parola), ogni lingua può avere diversi tipologie di separatore e alfabeto; ma non solo perché il ruolo di un elemento è contestuale, cioè un punto non è detto che sia separatore poiché posso anche trovarlo in un acronimo.Il pre-trattamento può anche consistere in altri tipi di operazioni più complesse che dipendono dal tipo di applicazione che voglio fare del corpus, ma di questo ne parleremo più avanti, per ora ci basti dire che il problema è meno banale di quello che sembra, è superficiale perché riguarda i caratteri [ VA VIA L'AUDIO] è un insieme di procedure contestuali che devono tenere conto dei contenuti del corpus, quindi non sono delle procedure che posso definire una volta per tutte ma dipende dal tipo di testo qual è l'insieme delle procedure che devo applicare.Dopo la preparazione del testo potrei anche fermarmi e iniziare a fare i primi di Interrogazione però nei corpora di cui parliamo, nella linguistica dei corpora, non ci basta, saremmo ancora a un corpus grezzo o raw corpus.Quando siamo difronte a un corpus grezzo non è chiamato nella linguistica neanche corpus, deve essere annotato, cioè deve subire un processo di etichettatura e annotazione. L'ultima fase è l'interrogazione che può essere fatta in tanti modi diversi, i 3 principali sono: 1. ESPLORAZIONE DELLE LISTE DI FREQUENZA 2. ESPLORAZIONE DI CONCORDANZE 3. RICHERCHE AVANZATE La “parola”, quando facciamo analisi sui corpora, nella linguistica è polisemica. Quando operiamo all'interno di un settore specifico della linguistica abbiamo bisogno di individuare una terminologia che ci faccia capire a cosa ci stiamo riferendo nello specifico. La prima definizione di parola è parola GRAFICA che serve molto in linguistica dei corpora, ed è una sequenza di caratteri compresa tra due bianchi (spazi) o segni di punteggiatura. Questa è una definizione funzionale che ci serve nel praticamente, per esempio per misurare la lunghezza de corpora, però allo stesso tempo è una nozione sotto la quale poi soggiacciono grandi complessità (una parola grafica al cui interno ho tanti lessemi, per esempio portamelo=porta me lo 3 lessemi, ma posso avere anche il contrario carta di credito=3 parole grafiche e 1 lessema). La nozione più importante dal punto di vista linguistico a cui miriamo è proprio la nozione di lessema appena citata. Il lessema è l'entità linguistica astratta che include tutte le forme flesse di una parola, per esempio quando parlavamo di assertivo il lemma include anche assertiva-assertivi-assertive. Il lessema è poi indicato con una forma di citazione convenzionale. Per lingue diverse abbiamo forme di citazione diverse, per esempio per i verbi italiani la forma di citazione è l'infinito, mentre l'arabo usa la terza persona singolare del passato. I lessemi nei testi si presentano come forme flesse, ogni forma flessa è anche chiamata PAROLA TESTUALE. Usiamo il termine “Occorrenza” per indicare le singole [VA VIA L'AUDIO] a determinare la parola testuale, per esempio il cane del barista è nero come il gatto ho una forma testuale il che ha due occorrenze, una che è il cane e una che è il gatto. Poi ho i word types, delle forme grafiche delle parole, però non contate come occorrenze ma come tipi. La nozione di lemma si identifica con la nozione di lessema. In sostanza il lemma rappresenta il lessema, però lo rappresenta in un dizionario attraverso la sua forma di citazione, ad esempio un dizionario non dico che contiene X lessemi, dico che contiene 80000 lemmi, il lemma in realtà è la rappresentazione di un lessema nel dizionario, e questa rappresentazione viene fatta attraverso quella che viene chiamata un'Entrata , che è una forma di citazione.