Sei sulla pagina 1di 3

16.

LA LINGUISTICA DEI CORPORA 2


TYPES & TOKENS o Al fine del trattamento linguistico vanno distinti: i lessemi (classi astratte di parole che includono tutte le possibili forme flesse di una data parola [gialla, giallo, gialli, gialle giallo]); i tipi di parola (types) [le parole diverse che occorrono in un testo] le occorrenze di parole testuali (tokens). Le parole testuali sono le forme diverse che le parole possono assumere allinterno dei testi concreti. [tutte le parole di un testo, anche se si ripetono] ESEMPIO DI CALCOLO TYPE & TOKENS Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Il mattino ha loro in bocca Questo testo contiene 7 type e 72 token TYPE/TOKEN RATIO o Il rapporto tra tipi di parole e occorrenze testuali (type/ token ratio) ci d unapprossimazione della variet o ricchezza del vocabolario del testo esaminato: quanto maggiore il valore di questo rapporto, maggiore la variet del vocabolario presente nel testo. o Se lestensione del corpus, ovvero linsieme dei token, N, e il numero dei type V (vocabolario del testo) la ricchezza del vocabolario data dalla formula V/N. PROBLEMI POSTI DALLE PAROLE GRAFICHE Esistono problemi legati alla definizione di parola grafica che abbiamo visto. Ci sono espressioni formate da pi parole (lotta di classe), forme composte di verbi (sono stato ferito) e infine termini univerbati (sbrigarsela) che invece morfosintatticamente sarebbero pi parole. Si pu tener conto di queste anomalie in fase di pretrattamento dei dati, cercando dei modi per far emergere, rendere esplicite queste caratteristiche del corpus (altrimenti il computer non sa cosa fare!). CORPORA PARALLELI Sono paralleli i corpora costituiti da testi originali in una lingua SL (source language) e da traduzioni di questi testi in una o pi altre lingue TL (target language). CORPORA MULTILINGUI Sono multilingui i corpora in cui i tesi raccolti sono in lingue diverse, non sono traduzioni reciproche, ma vertono su ambiti disciplinari corrispondenti permettendo la costituzione di banche dati terminologiche. Non vi sono esatte corrispondenze di contenuto, n superficialmente di lessico o sintassi. E IL WEB? o Il web un corpus? molto ampio in formato digitale ma non rappresentativo e il tasso di errori molto alto dinamicit incontrollata o bisogna saper valutare il valore dei dati linguistici raccolti sul web ETICHETTATURA DEL CORPUS o Raccolto il corpus occorre aggiungere al testo informazioni di tipo linguistico: etichettatura linguistica o annotazione. Essa consiste nellassociazione di unetichetta (tag o markup) a una porzione specifica e ben delimitata di testo. o Lannotazione serve per poter estrarre in seguito in modo agile e veloce una gran quantit di dati linguistici.

o o

Il problema principale la disambiguazione, per esempio tra omografi. Annotazione manuale e annotazione automatica: tutte e due provocano errori.

TEI Standard di codifica pi noto: TEI (Text Encoding Initiative), dellanno 2000. Obiettivo la definizione di sistemi di etichette standard. ESEMPIO DI TESTO TAGGATO DAL LIR \(G)IC\\(C)mp'\ \(S)2em\ [Garroni] io ho riletto && &{S b} && spesso dei libri / ho riletto Musil / per esempio / e ho riletto: / Dostoevskij / in particolare / Dostoevskij stata la &{S&/T} / come / non soltanto per me / per la mia generazione / forse anche per he / le generazioni precedenti / stata una lettura canonica al liceo // # la scoperta di Dostoevskij sconvolgente / # e / mhm / mi capitato pi volte di rileggerlo // [musica] per esempio nel caso di Dostoevskij / dico / il giudizio si confermato / e si tratta di uno degli autori pi importanti dico / tra Ottocento e Novecento / he / forse oggi l'interesse per Dostoevskij leggermente scemato / eh / lo vivevo pi dall'interno soprattutto / quegli aspetti che / # possono essere definiti pensiero negativo / come le &CMemorie dal sottosuolo&c dico / che stato una specie di piccolo Vangelo per me / quando ero ragazzo // io per esempio non ho mai fatto letture amene / se non in rarissimi casi / in generale le letture amene / mi annoiano / cio mi annoiano profondamente && &{S non } && / non snobismo il mio / he la lettura &{S&/T} / s forse qualche romanzo giallo ecco / l'unico perch c' la tensione dico / && &{S del} && del meccanismo narrativo // LA LISTA DI FREQUENZA o Osservazione del corpus: struttura statistica del lessico. lista di frequenza: elenco di tutte le forme (types) che compaiono nel corpus, ciascuna con lindicazione di quante volte essa compare nel corpus. Inoltre spesso si pu trovare un altro valore, detto frequenza relativa, che il rapporto tra le occorrenze della singola parola e il numero di parole testuali del corpus, di solito espressa in percentuale. PAROLE PIENE E PAROLE VUOTE o parole semanticamente piene: sono quelle alle quali riusciamo immediatamente ad associare unimmagine mentale (albero, casa, cane) o parole semanticamente vuote: sono quelle parole che ci servono per fare le frasi (preposizioni, pronomi, ecc., come per, tra, lei, io, per) LEMMATIZZAZIONE DEL CORPUS Loperazione di ridurre le forme flesse di uno stesso lessema a una forma di citazione (lemma) si chiama lemmatizzazione di un corpus. Non solo occorre marcare tutti i type ma anche disambiguare gli omografi. Otteniamo cos una lista lemmatizzata, e si pu ottenere una lista che contiene solo i lemmi di riferimento. CONCORDANZA o La concordanza la presentazione delle parole di un testo, con lindicazione della frequenza con la quale la parola occorre e il contesto linguistico precedente e successivo (cotesto). o Le principali funzioni delle concordanze sono: a) osservare i diversi usi di una parola; b) esaminare i diversi contesti (semantici, sintattici o testuali) in cui occorre una parola; c) analizzare la regolarit con la quale una parola accompagnata ad altre nel suo contesto. LESSICO DI FREQUENZA Le liste di frequenza applicate a corpora testuali o a singoli testi forniscono informazioni generali sulla distribuzione in fasce dei tipi di parola, mentre le liste lemmatizzate permettono di approfondire lo sguardo cogliendo la distribuzione dei lessemi in relazione alle forme testuali che assumono nei testi. Unendo le potenzialit di questi due strumenti si possono costruire i lessici di frequenza. Lutilit dei lessici di

frequenza basati su grandi corpora di riferimento risiede nella possibilit di fornire un quadro delle principali fasce di uso dei lessemi e della loro copertura testuale. COLLOCAZIONI E POLIREMATICHE o Serie di locuzioni costituite da pi di una parola che risultano cristallizzate o irrigidite nelluso: Collocazioni, come prescrivere una ricetta, richiedere un ricovero ospedaliero; Polirematiche, come vedere rosso, navigare a vista. o Per determinare le collocazioni si usano procedure di associazione statistica: mutual information compara la co-occorrenza effettiva di una coppia di parole con il valore di cooccorrenza che le due parole avrebbero se il fatto di trovarsi vicine fosse casuale; z-score prende come unit di confronto la frequenza di occorrenza di una parola comparata alla frequenza attesa di occorrenza con altre parole, divisa per la deviazione standard della parola cooccorrente. CRISTALLIZZAZIONI LESSICALI o Perch rilevante trovarle? Lindividuazione delle cristallizzazioni lessicali serve indirettamente a tutti i domini della linguistica computazionale: In lessicografia computazionale serve a estrarre espressioni da lemmatizzare come voce autonoma Nella traduzione automatica serve per individuare traducenti cristallizzati e arricchire le banche dati terminologiche Nel Natural Language Processing serve per operare corrette analisi sintattiche e anche nella generazione linguistica Nellinformation retrieval serve a disambiguare i sensi di una parola ALCUNI STRUMENTI DA CONOSCERE o Biblioteca Italiana: http://www.bibliotecaitaliana.it/index.php o La Lessicografia della Crusca in Rete: http://www.lessicografia.it/ (alcune informazioni aggiuntive sul lavoro qui http://www.accademiadellacrusca.it/la_crusca_in_rete.shtml) o Corpus OVI dellItaliano Antico: http://gattoweb.ovi.cnr.it/ DOP: Dizionario Italiano multimediale e multilingue dOrtografia http://www.dizionario.rai.it/ il Tesoro della Lingua Italiana delle Origini (http://tlio.ovi.cnr.it/TLIO/)

Pronunzia