Sei sulla pagina 1di 6

Appunti Isabella Chiari - Introduzione alla linguistica computazionale Prefazione Tullio De Mauro Cap.

1 Lingue, calcoli e macchine La nascita ufficiale della linguistica computazionale si fa coincidere solitamente con la fondazione dell'Associaton for Computational Linguistics (ACL) nel 1962. E' caratterizzata da una pi accentuata ed evidente pluralit di programmi di ricerca e metodologie, se un necessario e contro chi si realizza tra linguistica teorica (e applicata) e tecnologie informatiche. Applicazioni di linguistica computazionale sono per esempio gli spell-checkers, text-to.speech, ecc. . La linguistica computazionale ha tra i suoi compiti principali, quello di definire i modelli e rendano possibile una performance adeguata da parte della macchina. Fig. 1 Il ruolo del modello linguistico

Definiamo il comportamento di una macchina in base all'output che fornisce a un dato input. Input = stimolo(sensoriale, linguistico, ecc.). Output = comportamento che la macchina e esibisce dopo aver ricevuto l'input: produzione di una risposta, 1 suono,1 azione,1 movimento, eccetera. Modello = sistema di mediazione astratto, che filtra l'input, lo analizza e via associa, a seconda delle sue caratteristiche, mediante una serie di algoritmi, un output. Algoritmo = serie finita di procedimenti e operazioni che servono per risolvere un problema. Un algoritmo pensabile come un programma, che richiede un linguaggio formale. Si pu dire che il linguaggio formale (L) contiene tutte le possibili sequenze di elementi (stringhe) estratti da un inventario finito (I, insieme di elementi di base) e formate seguendo un insieme finito di regole (R). Il linguaggio formale contiene tutte le possibili stringhe: I pi R = grammatica del linguaggio formale. I = 3 [a, b, c] si pu costruire una stringa, formando una combinazione di due elementi ripetibili dell'inventario, nei quali la posizione degli elementi rilevante (cio

genera stringhe diverse), allora avremo che aa, ab e c sono stringhe di linguaggio formale: aa, ab, ac, ba, bb, bc, ca, cb, cc; mentre *a, *b, *c, *aaa, *a non sono stringhe del linguaggio formale. Le stringhe di un linguaggio formale devono essere sequenze finite dei simboli dell'inventario. 1.3. Il carattere probabilistico degli usi linguistici Una regola linguistica pu essere vista come la descrizione di una pratica linguistica; in senso forte come l'effetto di una regola grammaticale. Una regola linguistica non pu essere intesa come una generalizzazione dell'esperienza. Posizione affermata da Noam Chomsky, il quale assume la centralit della competenza linguistica, intesa come capacit di produrre frasi ben formate e di esprimere intuitivamente giudizi di grammaticalit. Creativit linguistica = caratteristica tipica delle lingue naturali e dei loro usi. Ridondanza Creativit linguistica 1. Chomsky - rule-based creativity; 2. De Mauro - che tocca il sistema stesso delle regole; una " capacit umana di muoversi all'interno e, per cos dire, all'esterno di sistemi e codici linguistici e non linguistici diversi, dandosi diverse tecniche e occorrenze mutandole." (1982). Ridondanza - caratteristica che dipende dalla credibilit di molti aspetti di testi linguistici specifici contesti nazionali e pragmatici, ossia dalle caratteristiche che permettono ai locutori di ricostruire il senso o la forma di un testo, anche quando questo risulti per qualche motivo mutilato. La ridondanza assume dunque un ruolo centrale nelle dinamiche linguistiche, svolgendo in modo parallelo numerose funzioni essenziali: 1. capacit di pre-correzione di eventuali errori della trasmissione e di lotta ai disturbi che possono intervenire a tutti gli stadi del processo di comunicazione. 2. il conferimento di predicibilit e struttura ai vari elementi del discorso; 3. agevolazione della percezione e della comprensione degli enunciati e la garanzia di un buon funzionamento anche delle articolazioni poco accurate; 4. la garanzia della sincronizzazione tra i parlanti; 5. il mantenimento di un serbatoio di parole ad operarli quando si formano nuovi bisogni comunicativi; 6. La articolazione della struttura complessa del sistema linguistico; 7. La compensazione, cio l'equilibrio dei diversi livelli linguistici interni di ciascuna lingua. 1.4. Alcuni aspetti dell'incalcolabilit delle lingue Una caratteristica tipica delle lingue naturali e l'imprevedibilit

dell'organizzazione dei sensi entro un dato significato. I significati sono infatti organizzati al loro interno in: 1. accezioni, le quali rappresentano le polarizzazioni dei sensi in famiglie, che vanno specializzandosi in direzioni poco prevedibili, tanto che a volte difficile ricostruire la parentela con le altre famiglie di sensi veicolati da un dato lessema. 2. estensibilit, ossia la capacit nel tempo, ma anche nei diversi strati della massa parlante, di sviluppare nuovi musi e dunque di inserire nuovi sensi in un dato significato, per rispondere ai bisogni comunicativi. Capitolo 3 La linguistica dei corpora Corpus (plurale corpora), latino, indica una qualsiasi raccolta completa e ordinata di scritti, di uno o pi autori, riguardante una certa materia, oppure in "campione di una lingua preso in esame nella descrizione di una lingua" (De Mauro). Un campione, per essere utile e significativo, deve essere rappresentativo, ossia deve presentare alcune caratteristiche simili a quelle che avrebbe l'intera popolazione. Il campione deve, per l'aspetto che si intende studiare, essere atto a esibire lo stesso tipo di informazioni (qualitativa) con la stessa probabilit di occorrenza (quantitativa) della popolazione. La qualit e la frequenza di occorrenze dei tratti presenti nella popolazione devono essere rispecchiati in un modo il pi fedele possibile nel campione scelto: deve dunque essere costruita una sorta di omologia tra campione e popolazione. Questa omologia raggiungibile solamente a patto di selezionare, progettare e disegnare il campione in modo adeguato alla popolazione. Caratteristiche del corpus: - rappresentativit; - estensione; Corpora: - testuali uso frequente; - campionari (sample corpora) uso raro. LIF: Lessico di frequenza della lingua italiana contemporanea, 1971 Due scopi principali nelle ricerche condotte su corpora (di popolazione o di campione): a) usare le osservazioni condotte su un corpus campionario per estenderle allintera popolazione; b) comparare le osservazioni condotte su diverse corpora per confrontarle infine con un corpus di riferimento, individuandone le deviazioni. Il riferimento standard segnala la possibilit per i grandi corpora di diventare dei punti di riferimento per lo studio della variet che rappresentano, attraverso lesplicitazione delle metodologie di analisi, facilitando la comparazione tra corpora diversi ed evitando la necessit di ripetere i computi per ogni analisi successiva.

Fig. 2 Tappe dellanalisi testuale su corpus 0100090000031602000002009601000000009601000026060f002203574d4643010 00000000001005a620000000001000000000300000000000000030000010000006c0000 0000000000000000001a0000003700000000000000000000000d390000c41d000020454 d4600000100000300001000000002000000000000000000000000000000b0090000b40d 0000d2000000290100000000000000000000000000005034030028880400160000000c0 00000180000000a0000001000000000000000000000000900000010000000bd06000084 030000520000007001000001000000d2ffffff00000000000000000000000090010000000 0000004400022430061006c006900620072006900000000000000000000000000000000 00000000000000000000000000000000000000000000000000000000000000000000000 000280064b2280010000000c8b5280048b328000957485fc8b52800c0b2280010000000 30b42800acb52800b155485fc8b52800c0b2280020000000a8155861c0b22800c8b52800 20000000fffffffffc02a5012f165861ffffffffffff0180ffff0180efff0180ffffffff00000000000 80000000800004300000001000000000000002c01000025000000372e90010000020f05 02020204030204ef0200a07b20004000000000000000009f00000000000000430061006c 00690062007200000000000000000088b3280029b85761e88d3062e8b62800f4b22800d 33a4f61090000000100000030b3280030b3280038794d610900000058b32800fc02a5016 476000800000000250000000c00000001000000250000000c0000000100000025000000 0c00000001000000120000000c00000001000000180000000c000000000000025400000 05400000000000000000000001a0000003700000001000000df7b074139760741000000 002c000000010000004c000000040000000000000000000000bd0600008403000050000 000200065651b00000046000000280000001c0000004744494302000000ffffffffffffffffb e0600008503000000000000460000001400000008000000474449430300000025000000 0c0000000e000080250000000c0000000e0000800e00000014000000000000001000000 0140000000400000003010800050000000b0200000000050000000c02d8009e01040000 002e0118001c000000fb02f5ff0000000000009001000000000440002243616c69627269 00000000000000000000000000000000000000000000000000040000002d01000004000 0002d010000040000002d0100000400000002010100050000000902000000020d000000 320a0b00000001000400000000009e01d800200006001c000000fb02040002000000000 0bc02000000000102022253797374656d000000000000000000003f3f3f3f000000003f3f 3f3f3f3f3f00040000002d010100040000002d010100030000000000 3.3. La costruzione di un corpus elettronico

Lutilit di un corpus si misura in base alle possibilit che ci fornisce per accedere a informazioni linguistiche in modo sintetico e rapido. Per interrogare un corpus necessario procedere secondo una successione di tappe (fig. 2). Nel caso di corpora di parlato sar necessario digitalizzare il materiale audio e stabilire uno standard di trascrizione delle registrazioni, o rifarsi agli standard predisposti per progetti gi avviati. Il testo elettronico contiene sempre una certa quantit di errori. Leliminazione dellerrore avverr sempre in modo manuale o semi-automatico. I testi elettronici sono costituiti essenzialmente da sequenze di caratteri, codificati con diversi sistemi (ASCII, Unicode) a seconda della necessit. Prima di predisporre il testo per letichettatura, si stabiliscono delle regole su come vanno trattati questi caratteri, individuando una serie di simboli come alfabeto e un insieme di separatori. E necessario, inoltre, che ci si assicuri che ogni simbolo non sia ambiguo, ossia non venga utilizzato in modi diversi nello stesso corpus. La procedura di segmentazione dei confini delle unit linguistiche fa emergere il problema della individuazione di che cosa si debba considerare parola. Parola: a) termine molto complesso dal punto di vista teorico; b)dal punto di vista del trattamento elettronico dei testi; Si ha la definizione pratica: una parola una sequenza qualsiasi di caratteri delimitata da due spazi o da separatori (segni di interpunzione). In questo senso lunit di analisi linguistica detta parola grafica o parola testuale. Vanno distinti i lessemi, i tipi di parola (types) e le occorrenze di parole testuali (tokens). Lessemi = parole nella loro forma astratta; Lemma = forma di citazione dei lessemi nei dizionari. Le occorrenze testuali o word tokens sono le parole che si ripetono pi volte nello stesso testo. Il rapporto tra i tipi di parole e le occorrenze testuali (type/token/ratio) ci d una approssimazione della variet o ricchezza del vocabolario del testo esaminato: quanto maggiore il valore di questo rapporto, maggiore la variet del vocabolario presente nel testo. Se token = N; type = V, allora la ricchezza del vocabolario costituita dalla formula: Ratio = V/N. Esempio. Se in un testo ci sono 1000 occorrenze (N) e i tipi di parole sono 50 (V), il rapporto type token sar uguale a 0,05. Se invece N = 1000, V = 750, Ratio = 0,75, e ci significa che nel testo vi una maggiore variet nella scelta delle parole. 3.4. I corpora di riferimento delle lingue europee reference corpus Il reference corpus : un corpus che intende registrare tutte le principali variet di una lingua, quindi rappresentativo della lingua stessa.

Il primo corpus di riferimento per litaliano stato il corpus raccolto per lelaborazione del Lessico di frequenza della lingua italiana contemporanea elaborato al Centro nazionale Universitario di Calcolo Elettronico (CNUCE) di Pisa (Bartolini, 1971). Sulla falsariga del LIF, negli anni 90 nato il corpus LIP (Lessico di frequenza dellitaliano parlato, 1993). Corpus di lingua parlata LABLITA lablita.dit.unifi.it CLIPS www.clips.unina.it Cap. 4 Lesplorazione e lanalisi dei corpora 4.4. I lessici di frequenza e i vocabolari fondamentali Le liste di frequenza applicate a corpora testuali o a singoli testi forniscono informazioni generali sulla distribuzione in fasce dei tipi di parola, mentre le liste lemmatizzate permettono di approfondire lo sguardo cogliendo la distribuzione dei lessemi in relazione alle forme testuali che assumono nei testi. Unendo le potenzialit di questi due strumenti si possono costruire i lessici di frequenza. I lessici di frequenza sono liste lemmatizzate organizzate in ordine di frequenza decrescente. Lutilit dei lessici di frequenza basati su grandi corpora di riferimento risiede nella possibilit di fornire un quadro delle principali fasce di uso dei lessemi e della loro copertura testuale. Impieghi dei lessici di frequenza: - sviluppo di risorse per la didattica delle lingue; - la ricerca di lessicologia statistica; - la produzione di dizionari macchina per lNLP (Natural Language Processing); - lintegrazione di dati lessicali per diverse applicazioni di linguistica computazionale; I dizionari di frequenza sono il naturale antecedente, pi spesso logico che cronologico, dellelaborazione dei vocabolari fondamentali. I vocabolari fondamentali si identificano con la zona di massimo uso tra le fasce in cui si pu suddividere il lessico di una lingua. I vocabolari fondamentali, a loro volta, sono unelaborazione metodologicamente pi valida e precisa dei cosiddetti word books, contenenti le parole pi usate in una lingua come ausili nella didattica.