Sei sulla pagina 1di 22

Linguistica

italiana II mod. A Prof. Mirko Tavoni Chi trova un corpus trova un tesoro
Simone Ferrucci 302549 Magistrale in Informatica Umanistica 2011-2012

Indice

1. Introduzione 3 2. Riassunto del libro.4 2.1. Prima parte del libro..4 2.1.1. Tutte le lingue sono uguali? (e qualcosa di pi)...4 2.1.2. Parole idiomi e collocazioni..8 2.1.3. Corpus linguistics: a different look at language9 2.2. Seconda parte del libro..11 2.2.1. Linguaggio e rappresentativit.11 2.2.2. Tipologia dei corpora..13 2.2.2.1. Corpus di riferimento..13 2.2.2.2. Corpus di monitoraggio.13 2.2.2.3. Corpora paralleli....14 2.2.2.4. Corpora da internet..14 2.2.3. Il significato del discorso...15 2.2.4. Significato come uso e come parafrasi.....15 2.2.5. Collocazioni, traduzioni e corpora paralleli...17 3. Esperimento.17 3.1. La Repubblica....18 3.2. Google Ngram....19 Bibliografia.......22

1.Introduzione
Questo testo parte dallanalisi del libro Corpus Linguistics: A short introduction pubblicato nel 2004, nel quale sono analizzati i corpora come strumento per lidentificazione delle unit di significato: parole, collocazioni, frasi idiomatiche ecc.. . I corpora sono collezioni di testi. La prima parte ''Lingua e linguistica del corpus'' divisa in cinque sottocapitoli. Nella prima parte sono esposte le teorie sulla grammatica generativa, le quali si concentrano sulle regole grammaticali che definiscono le strutture possibili per formulare frasi corrette (Chomsky). Nel libro troviamo subito un riferimento a Chomsky, il quale afferma che in fondo sul nostro pianeta parliamo tutti la solita lingua, poich le lingue naturali hanno molti punti in comune tra di loro. Tutte le lingue sono dei sistemi complessi con i quali si pu realizzare unenunciazione, dotata di un contenuto,

che non equivale all'enunciazione stessa. Il contenuto il messaggio che si vuole trasmettere, mentre l'enunciazione come il messaggio viene espresso.

2.Riassunto del libro


2.1.Prima parte del libro 2.1.1.Tutte le lingue sono uguali?(e qualcosa di pi)
Noam Chomsky ipotizza che uno scienziato Marziano, dopo uno studio delle lingue terrestri, concluderebbe sicuramente che, a parte l'insieme dei vocaboli , sono tutte uguali. Infatti, se non teniamo di conto il significato delle parole, delle frasi e del testo, le nostre lingue naturali condividono un discreto insieme di caratteristiche. Esse sono lineari. Ogni espressione, come anche la lingua dei segni (per esempio immagini) ha un inizio e una fine, quindi si pu definire monodimensionale. Per oggetto monodimensionale, sintende che ha una direzione ben precisa e facilmente identificabile. Le espressioni differiscono dalle immagini, in quanto le seconde sono bidiensionali. Le lingue non possono essere utilizzate per formare delle espressioni bidimensionali: la descrizione di unimmagine anchessa monodimensionale mentre l'immagine in se stessa bidimensionale. Le espressioni hanno un contenuto che viene rappresentato con dei segni. Questi segni per hanno una capacit di espressione con dei limiti, quindi l'espressione spesso non coincide perfettamente con il contenuto che si vuole esprimere. John Sinclair, uno dei pionieri della linguistica dei corpora, si trova a ripetere le parole del grammatico E. O. Winter "la grammatica necessaria perch non si pu dire tutto allo stesso momento", questa certamente la ragione per cui tutte le lingue naturali hanno bisogno di una grammatica. Tra laltro, questultima

affermazione pu spiegare perch le grammatiche delle rispettive lingue possono essere spiegate con termini simili. Con queste riflessioni sulla grammatica si pu capire l'idea sostenuta da Noam Chomsky, cio che tutti gli uomini condividono uninnata facolt che regola il modo in cui i segni devono essere organizzati per formare delle espressioni. In poche parole secondo questa visione gli uomini hanno uninnata (e latente) capacit grammaticale. I Chomskyani, e Chomsky stesso, vedono le lingue come un apparato che permette un numero limitato di opzioni. Il libro di "Study oh language and mind (Chomsky 2000) il frutto del lavoro di Chomsky e raccoglie lo stato dell'arte della sua linea di ricerca scientifica, ma se sia riuscito davvero a dimostrare la sua visione ancora un argomento su cui si discute. Geoffrey Sampson (1997) afferma che ci sono alcune contraddizioni sulle caratteristiche che Chomsky e Pinker espongono come universali. Nel lontano passato gli studiosi del linguaggio sono stati molto bravi nell'esplorare il comportamento della sintassi e della morfologia delle lingue. Ci sono una serie di assunzioni sviluppate fin dall'antichit, una delle quali il fatto che esista una unit che chiamiamo frase, e una che chiamiamo clausola nelle quali abbiamo dei soggetti, oggetti e dei predicati, e tutte queste entit sono parole. Delle parole poi ne esistono moltissimi tipi. Nonostante le diverse scuole linguistiche definiscano le stesse entit in modo differente -ci che alcuni chiamano oggetto, altri lo definiranno complemento, mentre altri ancora faranno una differenziazione tra le tipologie di oggetti- queste terminologie possono essere in linea di massima tradotte da un sistema allaltro, e sono usate non solo per descrivere linglese o altre lingue indoeuropee, ma tutte le lingue. Alcune di esse possono avere caratteristiche che altre non hanno -come le lingue aborigene australiane che distinguono tra il singolare, il plurale e il duale- ma principalmente sono gli stessi insiemi di entit e propriet che usiamo per descrivere i linguaggi del nostro pianeta, e non ci sorprenderemmo se dovessimo usarli anche per le lingue extraterrestri. Le entit pi piccole possono essere combinate per formare unit pi grandi. Le regole sintattiche ci aiutano in questo, dicendoci cosa possibile e cosa no. Alcuni studiosi sostengono che la pi piccola entit sia la parola, altri i morfemi,

ossia la pi piccola unit linguistica che possiede un significato. Accettando che le parole sono lunit minima, esse formano la base della sintassi, e quindi anche il lessico di una lingua (vocabolario). Utilizzando le definizioni date da Chomsky la lingua dunque composta da: entit, propriet e regole. Seguendo questa definizione l'ipotesi di Chomsky secondo cui le lingue terrestri hanno un certo livello di similarit tra di loro non del tutto da scartare. Oltre a questo le lingue posseggono dei parametri e dei termini molto simili tra di loro per spiegare sia la rispettiva fonologia, sia la sintassi, e anche la loro morfologia. Secondo il punto di vista di Chomsky, i linguisti dovrebbero descrivere la capacita dell'individuo di comporre frasi corrette dal punto di vista grammaticale in una o pi lingue. Questo tipo di approccio alla linguistica non pu dunque accettare l'approccio empirico allo studio del linguaggio, in quanto quest'ultimo si limita a descrivere il passato di una lingua mentre l'obbiettivo dei Chomskyani il futuro di essa, ovvero scoprire le regole che ne guidano la variazione per predirne gli sviluppi. Ma se, come dice Chomsky, tutti gli uomini nascono con delle capacit grammaticali latenti, per capire come funziona il linguaggio, bisogna guardare alla mente e non ai testi. La rivoluzione linguistica chomskyana riguarda il potere generativo delle regole. Chomsky sostiene che non descrivano cosa c, ma cosa pu essere possibile. Il ruolo della linguistica non pi interpretare ci che troviamo in testi gi esistenti, ma descrivere la facolt della lingua o la competenza del parlante nel produrre nuove frasi grammaticali. Mentre prima le regole venivano formulate da esperti del linguaggio in modo da facilitare la comprensione di testi esistenti, il compito di un linguista chomskyano era scoprire le regole che seguivamo senza che neanche ci accorgessimo di esse. I linguisti premoderni in Europa non erano interessati alla capacita produttiva del linguaggio, dal medioevo all'inizio del diciannovesimo secolo i linguisti erano dei filologi, quindi dei classicisti. Le loro ricerche avvenivano su lingue morte per comprenderle meglio e riuscire ad analizzare ad un livello approfondito i testi prodotte in esse. Le regole che trovavano avevano il principale scopo di facilitare la traduzione e la comprensione di un testo. Questo tipo di analisi potrebbe non corrispondere

ad un vero e proprio metodo scientifico. Dai primi anni del ventesimo secolo l'empiricismo Inglese ha dato il via ad un nuovo paradigma alla filosofia analitica. La domanda viene spostata da "Quale il significato di una frase?" a "Come facciamo a sapere che vera? Rispecchia la realt esterna?". La filologia ha dato ai classici e agli orientalisti la loro base metodologica. Il filologo linterprete dei testi passati e ci aiuta a rendere comprensibili la storia intellettuale e quella culturale. Interpretare un testo sempre un atto di interpretazione soggettiva, di scelte, al contrario di un processo che segue regole ben precise. Nel diciannovesimo secolo troviamo un nuovo interesse verso le lingue, differenti dalla filologia tradizionale, che riguarda lo studio delle relazioni tra le lingue. Si parla della discendenza delle maggiori famiglie linguistiche europee dallindo-europeo, una lingua di cui non ci sono tracce, la quale port i linguisti a preoccuparsi meno dellinterpretazione dei testi per scoprire le leggi che stanno dietro i cambiamenti fonetici. Fu la prima volta che divenne possibile descrivere una lingua in termini di regole, e la preoccupazione riguardo queste coinvolge sia i Chomskyani che quelli che non lo sono. Chomsky sostiene che anche se molte parti delle lingue hanno un certo livello di similarit il lessico fa da eccezione. Egli sostiene che pi facile imparare le regole di una nuova lingua che il lessico perch non ci sono regole che aiutino nella scelta di quest'ultimo. Il significato delle parole generalmente molto vago. Dal punto di vista grammaticale lunit di lavoro ideale la parola, ma lo molto di meno per quanto riguarda il significato: le singole parole sono ambigue, solo quando le troviamo in un contesto siamo in grado di attribuire un giusto significato. La singola parola per sua natura pu essere associata a un discreto numero di significati a seconda del contesto, del registro linguistico, del parlante. Non possibile quindi darne uninterpretazione certa senza alcuna conoscenza del resto, ma solo una serie di casi che potrebbero essere rappresentati dalla parola. Questa ambiguit pu essere risolta ricorrendo a delle unit di significato composte da pi parole come le collocazioni oppure le frasi idiomatiche. Alle persone piace parlare per idiomi come dimostrano alcune ricerche linguistiche. Queste sono una parte importante del patrimonio linguistico delle persone. Esistono molti libri che spiegano le origini degli idiomi, e difficilmente troviamo

un dizionario che non li tratti. Un eccellente studio di Rosamund Moon intitolato Fixed Expressions and Idioms in English(1998) stato realizzato con una tecnica di analisi basata su di un corpus. Uno spazio agli idiomi stato dato nel dizionario bilingue Wildhagen Hraucourt German-English (1963-1972) il quale in grado di dirci la corretta equivalenza in lingua tedesca di numerosi idiomi Inglesi. Per gli studiosi di linguistica la parola rimane ancora lunit di significato pi attraente, nonostante la sua ambiguit. La parola perfetta per il lavoro grammaticale, un buon esempio Syntactic Structures (1957) di Chomsky. Le strutture sintattiche sono costituite dallunione di varie unit, ognuna delle quali con determinati attributi e regole. Lelemento lessicale di base la singola parola, che viene posta in un punto della frase con un criterio molto rigoroso. Il problema arriva quando pretendiamo che le frasi generate abbiano un senso. Questo tipo di approccio ci permette di generare tutto quello che si pu fare seguendo le regole grammaticali, ma non detto che il risultato abbia un senso per un parlante della lingua. Riassumendo, i principali problemi con la singola parola come unit di significato sono la sua polisemia, la sua ambiguit e la sua imprecisione. In tempi passati lindividuazione degli idiomi e delle collocazioni era un lavoro lungo e difficile, invece con lavvento del corpus elettronico la ricerca di queste unit si fatta molto pi semplice, o per lo meno realizzabile in tempi brevi.

2.1.2.Parole idiomi e collocazioni


Alcune combinazioni di unit grammaticali sono pi indicate per formare una collocazione rispetto ad altre e questo fatto non sfuggito allocchio attento dei lessicografi. Comunque, senza lapplicazione delle metodologie sviluppate per la linguistica dei corpora, sembra che linclusione delle collocazioni sia lasciata alla soggettivit dei realizzatori dei dizionari. Tuttavia, le interpretazioni date da un dizionario di una parola ci forniscono unidea di come realizzare uninterfaccia pi utile. Per tradurre una parola da una lingua ci serve una lista di parole equivalenti nellaltra lingua. Dobbiamo scegliere a questo punto tra le varie opzioni sulla base delle nostre competenze linguistiche. L'utilizzo di un corpus

pu guidarci nella scelta grazie al contesto in cui la parola viene usata. Attraverso le collocazioni della parola che vogliamo tradurre con un'altra potremmo restringere il campo delle opzioni oppure arrivare a scoprire che fa parte di una collocazione e che quindi non pu essere tradotta come unit singola, ma solo lintero elemento pu esserlo (pan grattato-> bread crumbs).

2.1.3.Corpus linguistics: a different look at language


Il linguaggio la facolt con cui siamo nati e che, una volta sviluppata, ci permette il contatto verbale con altri parlanti della medesima lingua. Se questo il linguaggio, dobbiamo studiare la mente umana e le regole che segue, di cui lindividuo non conscio. Dobbiamo anche capire cosa una parola significhi: una volta che apprendiamo una parola la colleghiamo con un concetto mentale nel quale viene tradotta. Da un altro punto di vista il linguaggio qualcosa dintangibile, che corrisponde a tutti gli atti di comunicazione generati da una comunit linguistica, come larchitettura medievale in Toscana pu essere la somma di tutti gli edifici che vi sono risalenti a quel periodo. Se fosse davvero possibile accumulare e archiviare tutti i testi e le interazioni verbali di una data lingua in un dato periodo, questo tipo di linguaggio non pi qualcosa dintangibile, ma diventa qualcosa con un suo corpo ed un suo peso. Il problema della rappresentativit ci impone delle scelte, non possibile rappresentare una lingua in qualsiasi momento della sua storia e in tutte le sue sfaccettature. La composizione del
corpus dovrebbe rappresentare la lingua, o alcune sezioni predefinite di questa. Ad esempio il Brown Corpus ritraeva linglese del 1961 e ogni pubblicazione era affidata ad una delle 15 categorie in cui era divisa la Library of Congress. Dai 500 testi scelti, un campione di 2000 parole stato inserito nel corpus, dunque una rappresentazione del catalogo della biblioteca del congresso. La divisione in queste 15 parti discutibile: categorie che secoli fa avevano un perch, adesso potrebbero essere inglobate in altre o addirittura soppiantate. Un discorso consiste nella totalit dinterazioni verbali che hanno avuto o stanno avendo luogo nella comunit in cui una determinata lingua parlata. Spesso si parla di comunit di discorso, la quale una cosa astratta che rappresenterebbe diverse persone con una lingua in comune. Queste comunit possono essere di piccole dimensioni, come nel caso delle lingue

uraliche che in gran parte si sono estinte, o di grandi numeri e diversit come succede con linglese. La totalit dinterazioni verbali di una specifica comunit
includono gli idioletti, i dialetti, le varianti regionali e qualsiasi altro tipo di variet in cui la lingua possa essere distinta. In realt le comunit di discorso e di linguaggio non esistono, sono delle costruzioni sociali create per specifici scopi. Basti pensare al caso del serbocroato, una lingua che non mai esistita giacch il serbo e il croato sono sempre stati delle lingue diverse. Non c un modo chiaro per capire quale sia la comunit linguistica e quale la lingua, dipende dalle intenzioni.

La prospettiva di Chomsky e la linguistica cognitiva rappresentano un punto divista differente del linguaggio. In prospettiva, il linguaggio visto come un fenomeno psicologico e mentale. La linguistica dei corpora tratta il significato, la linguistica cognitiva, invece, si concentra sulla comprensione. Spesso significato e comprensione vengono confusi, ma la comprensione qualcosa di personale. Chomsky sostiene che tutti i concetti, anche quelli non ancora scoperti, siano innati e universali. Altri invece come Anna Wierzbicka, sostengono che solo un numero limitato di concetti di base sia universale e che quindi ogni cultura ne crea di nuovi combinando questi elementi di base. Lirrisolta questione della natura dei concetti mentali solo uno dei problemi con cui la linguistica cognitiva si confronta. Laltro problema sono le Qualia Arisoteliche, le quali secondo Daniel Dennett sono come le cose ci sembrano. Le Qualia sono inafferrabili, intrinseche e private per lindividuo. La linguistica dei corpora pu dirci molto di pi sul significato rispetto alla linguistica Chomskyana o alla linguistica tradizionale. Allo stesso tempo, la linguistica dei corpora non potr mai darci limmagine completa. Se il significato non una formula, se il significato non unimmagine formata da Qualia inafferrabili, esso qualcosa che pu essere rappresentato solo con il linguaggio naturale. Noi sappiamo cosa significhi albero non perch siamo andati sul dizionario a cercare, ma pi probabilmente perch una persona o pi ci hanno parlato di alberi. Linsieme di tutti i discorsi che conosciamo sulla parola albero formano il significato della parola. La linguistica dei corpora studia le lingue basandosi sul discorso. Tutti i testi prodotti, nei secoli, dai membri della comunit di discorso inglese compongono il discorso di questa comunit.

10

Noam Chomsky e molti di quelli che condividono le sue teorie hanno smesso di utilizzare il corpus come fonte per le loro ricerche linguistiche. Il linguaggio, secondo la loro corrente di pensiero, produttivo. E' possibile generare un infinito numero di espressioni con un limitato numero di segni. Nel lungo periodo verranno generate espressioni che fino ad ora non sono state utilizzate, ma che sono disponibili agli utenti di una lingua. Mentre, sempre secondo loro, la linguistica dei corpora ci dice solo quello che le persone hanno detto nel passato, e non pu dirci quello che le persone diranno domani. Nellultimo sottocapitolo troviamo una breve storia della linguistica dei corpora ma la parte pi interessante per questo lavoro la distinzione sviluppata da Tognini-Bonelli, i quali sostengono che lapproccio di una ricerca linguistica al corpus possa essere di due tipi, Corpus-Driven e Corpus-Based. Le ricerche linguistiche sono corpus-driven se tutto quello che sostengono validato da un corpus. Sono corpus-based invece se i dati vengono estratti da un corpus utilizzando delle metodologie linguistiche, successivamente elaborati e poi organizzati in risultati. Questa una distinzione cruciale. Il primo tipo di approccio genera solo delle prove di quello che sosteniamo, quindi viene visto solo come uno strumento per avere dei dati in pi. Il secondo approccio, invece vede il corpus al centro del processo di ricerca generando un nuovo paradigma di analisi linguistica. Il libro stato scritto per dimostrare che, se la linguistica vuole fare dei passi avanti sullutilizzo dei corpus, deve concentrarsi sul corpus- based.

2.2.Seconda parte del libro 2.2.1.Linguaggio e rappresentativit


Dal momento che i corpora sono stati utilizzati ci si sempre posto il problema di come dovessero essere composti. Il corpus dovrebbe rappresentare il discorso, o una parte di esso scelta a tavolino. Il Brown Corpus rappresenta linglese del 1961 ed composto dai testi archiviati nella libreria del congresso. Ma come decidere se un testo abbastanza importante da rientrare nel nostro corpus una questione di non poco conto. Bisogna tenere presente che solo una

11

parte della lingua si esprime in forma scritta, quindi tutte le interazioni non scritte in una lingua andranno perse. Il linguaggio, o il discorso, consiste nella totalit delle interazioni verbali con cui si esprimono tutti gli appartenenti alla sua comunit linguistica. Per interazioni verbali di una lingua, si intendono anche i dialetti e tutte le altre sue varianti.
Secondo John Sinclair un corpus una collezione di testi campionati ricorrenti naturalmente in un linguaggio scelti per caratterizzare lo stato o le variet presenti in esso. Il campionamento del discorso pu variare a seconda del focus. Ad esempio se fossimo interessati a conoscere la frequenza delle parole importante innanzitutto differenziare le parole tra quelle molto frequenti e quelle poco frequenti. Un importantissimo studio sulla frequenza delle parole nella lingua italiana stato realizzato da Tullio De Mauro, il quale ha proposto una divisione del vocabolario in base alla frequenza di utilizzo:

La frequenza delle parole potrebbe essere utilizzata come strumento di decisione se un corpus rappresentativo di una lingua. Avvalendoci di un corpus di riferimento della lingua in questione ed estraendo la distribuzione delle parole, possiamo confrontarla con quella del corpus da validare. Se le distribuzioni sono abbastanza simili, il corpus rappresentativo. Un corpus sarebbe del tutto rappresentativo di un discorso se, dopo averlo definito, potesse accedere a tutti i testi che sono stati generati in questo. Questa purtroppo un'utopia, se cosi fosse non servirebbe pi il corpus. Nella realt il linguista deve scendere ad un compromesso cercando di realizzare un campione il pi rappresentativo possibile del discorso della comunit linguistica che vuole analizzare. Lessico fondamentale: composto da 2000 parole ; Lessico di alto uso: composto da 2750 parole; Lessico di alta disponibilit: composto da 2300 parole.

12

2.2.2.Tipologia dei corpora


2.2.2.1.Corpus di riferimento Sono cosi chiamati i corpora che rappresentano lo standard per una determinata lingua. La loro dimensione indicativa tra i 50 e i 500 milioni di parole. Per l'Inglese il pi grande il Bank of English con 450 milioni di parole. In oltre i corpora di riferimento possono essere confrontati tra loro se hanno dimensioni simili. Questi corpora contengono il vocabolario standard di una lingua e sono molto utili per ottenere informazioni sul significato delle varie parole analizzando il contesto. Tramite le analisi delle occorrenze di una parola e di quelle intorno ad essa spesso possibile capire il corretto significato del termine. Per esempio, se cerco la scuola molto probabilmente avr una serie di frasi in cui viene usata lespressione, molti di questi saranno utili per capire cosa significhi scuola per la comunit di discorso. I corpora di riferimento sono anche il banco di prova per i corpora speciali di una data lingua. In un corpus di riferimento dovrebbero andare quei testi molto diffusi e che possono essere letti da un pubblico di cultura media e qualche volta anche delle conversazioni. Questi corpora solitamente contengono anche la data di pubblicazione di ogni singolo testo e del corpus stesso, cosi da specificare meglio quale momento della lingua rappresentano. 2.2.2.2.Corpus di monitoraggio Questi corpora sono in continuo aggiornamento perch vi sono aggiunti costantemente dei testi per monitorare se nel linguaggio ci sono stati dei mutamenti rilevanti; sono molto utili, inoltre per effettuare delle analisi dei mutamenti lessicali. Per esempio potremmo accorgerci che un termine viene spesso usato in un contesto diverso dal solito oppure ha una forte correlazione con una altro termine e questo potrebbe essere indice di un cambiamento. Alcuni cambiamenti potrebbero essere: La frequenza di una o pi parole cambia sensibilmente; Il significato di una o pi parole cambia; Compaiono nuove parole; 13

Compaiono nuove unit di significato; Cambiano i profili dei contesti, cambia la frequenza delle parole

che ricorrono in un dato contesto. 2.2.2.3.Corpora paralleli Un corpus parallelo, qualche volta chiamato anche corpus tradotto, contiene testi prodotti in una lingua e la loro traduzione in unaltra (o pi). Con questi strumenti possiamo vedere, dove una traduzione dell'inglese differisce dall'inglese originale, non a caso i corpora paralleli sono unimportantissima fonte di conoscenza per i traduttori automatici. Per un utilizzo ottimale, i testi nelle diverse lingue di solito sono allineati a livello di frase. Per fare un esempio pensiamo ad un corpus parallelo di testi giuridici riguardanti le norme europee in materia di tutela del consumatore, questo corpus contiene le leggi in Inglese e la loro traduzione in Italiano. Unaltra variante di questo tipo di corpora la raccolta dei testi scritti ognuno per la propria lingua e non come traduzione di un altro testo, questi sono molto utili per comparare il lessico di due lingue. 2.2.2.4.Corpora da internet Internet sicuramente una risorsa molto vasta e possiede molte caratteristiche interessanti per la raccolta di testi. Non solo sul web si trovano tanti testi, ma anche da fonti e di generi molto differenti tra loro e sono costantemente aggiornati. Per questi motivi il web spesso usato per la costruzione di corpora in maniera molto veloce.

2.2.3.Il significato nel discorso


I membri di una comunit che cercano di enunciare qualcosa che non rientra nellinsieme dei significati della propria comunit, hanno sostanzialmente due possibilit per esprimersi:

14

Prendendo per esempio la parola globalization. Questa una derivazione dellaggettivo global che fa parte della lingua inglese da secoli. Non tutti i dizionari Inglesi hanno riportato che allinizio degli anni 90 questa parola incominci a far parte dellinglese comune. Linizio della sua diffusione fu nel 1983 quando leconomista Ted Levitt intitol un suo articolo Harvard Business Review The globalization of markets nel quale utilizzo questa parola in solo nove frasi. Un corpus pu dirci molto sulle nuove parole, per esempio che molte citazioni nel Bank of English scrivono globalisation e non globalization, mentre negli Stati Uniti si preferisce la versione con la z. Questo gi ci fa capire che i termini potrebbero essere analizzati in maniera diversa poich possiamo a grandi linee analizzare le differenze tra le citazioni britanniche e quelle americane. Posso introdurre una nuova parola; Posso collegare un nuovo significato a una parola che gi

esiste.

2.2.4.Significato come uso e come parafrasi


Luso e la parafrasi riflettono i due modi con cui abbiamo a che fare con il linguaggio, sono due aspetti fondamentali del significato. Conoscere luso di una parola permette di essere partecipi di un discorso in modo efficace, per poter comunicare correttamente dobbiamo utilizzare i componenti linguistici a seconda delle aspettative del nostro interlocutore. Il contesto duso di una parola si definisce come linsieme delle parole che appaiono spesso vicine ad essa. Un insieme di parole che ricorrono spesso insieme con una data proporzione tra di loro si definisce come un argomento. I computer possono gestire luso di una parola, osservando che questo processo non richiede un livello di comprensione ma solo di osservazione. I computer potrebbero anche generare dei testi partendo dal contesto duso e dai profili, ma questo non significa che comprendano. Per apprendere luso di una parola il parlante nativo osserva il comportamento degli altri componenti della comunit interagendo con loro. Un

15

compito linguistico essenziale quello di determinare limpiego di ununit lessicale, infatti se vogliamo che un computer sia in grado di disambiguare una espressione dobbiamo fornirgli dei profili duso con cui confrontarla. Il significato composto dalluso e dalla parafrasi, il computer in grado di darci il profilo duso di unespressione senza sapere cosa questa significa effettivamente. Al computer, quindi manca la capacit di comprendere cosa c al di la delle cose, si potrebbe dire che al computer manca la consapevolezza. Proprio la consapevolezza porta luomo a chiedersi cosa altro ci sia vicino a quello che sta guardando. Questabilit chiamata intenzionalit, una caratteristica fondamentale oltre che del linguaggio, di ogni sistema di comunicazione, ed anzi, ancora pi in generale, di ogni stato mentale. Un lavoro molto esaustivo Intentionality di John Searle. Il vocabolario di una lingua visto comunemente come un insieme di parole a cui i lessicografi hanno assegnato un senso. Tutte queste unit sono utilizzabili dal parlante. Da notare che i lessicografi molto probabilmente non hanno fatto altro che portare alla luce il significato latente che era gi stato assegnato alle parole dai parlanti della comunit. Le lingue si esprimono attraverso i segni e questi hanno due caratteristiche, significato e forma. Proprio per questo motivo sbagliato considerare il linguaggio come semplice processo di codifica e decodifica di un messaggio: senza la forma non c significato quindi non possiamo dire che un testo possiede un significato proprio perch il testo il significato. Ci sono molte teorie sul significato, molte di queste affermano che il significato di una unit linguistica qualcosa al di fuori del discorso. Alcuni sostengono che questo corrisponde con le rappresentazioni che abbiamo di esso nella nostra mente. Nella parte successiva del libro viene mostrato lapporto che un coprus pu portare nella comprensione del significato di una parola e nella sua analisi, questo capitolo non viene sviluppato in quanto verranno riproposte le tecniche nel mio esperimento finale.

16

2.2.2.5.Collocazioni, traduzioni e corpora paralleli


In questa sezione affrontato laspetto metodologico del lavoro con le collocazioni e dellimpatto che queste hanno nelle traduzioni da una lingua ad unaltra. Per lavorare in questo settore si usano dei corpora paralleli allineati a livello di frase. Durante la traduzione di un testo i dizionari bilingue ci danno varie scelte per una parola senza per rendere disponibile il profilo duso per le varie opzioni. Il traduttore deve scegliere da solo la soluzione che gli sembra pi logica. Ovviamente non ha senso tradurre una singola parola alla volta, visto lambiguit della parola stessa, ma pi logico prendere delle unit di significato composte da pi parole e quindi con maggior probabilit di monosemia. I corpora paralleli ci aiutano con le collocazioni, ossia le parole che stanno vicino al termine da tradurre, che possono guidarci nella scelta della traduzione corretta. Il problema che mappare le unit di significato da una lingua a unaltra si rivela come un processo molto difficile e non sempre possibile. Per esempio, ci che in una lingua si dice con una frase di cinque parole nellaltra potrebbe essere detto con una parola sola. Un altro esempio sono le regole grammaticali che non sono universali. Le unit di significato di una lingua sono il frutto di una negoziazione con i suoi membri e quindi i membri dellaltra lingua non sono necessariamente daccordo con il risultato della transazione non avendovi partecipato.

3.Esperimento
Seguendo lesempio del libro (Cap 2.5) ho realizzato alcuni piccoli esperimenti per estrarre informazioni sulla storia di un termine e sulle sue equivalenze nella lingua Italiana. La parola sotto analisi globalizzazione.

3.1.La Repubblica
La prima cosa da analizzare il significato della parola. Ho utilizzato il corpus di Repubblica come punto di partenza, per prima cosa ho iniziato una ricerca semplice e molto generale. Ho cercato la parola globalizzazione specificando che 17

non ci dovevano essere differenze tra maiuscole e minuscole. Ho ottenuto 2445 risultati, nei primi venti di questi troviamo: Osservando questi risultati la globalizzazione sembra essere un processo non solo economico, ma anche sociale. Per estrarre il significato di questa espressione ho posto la seguente interrogazione globalizzazione . I risultati sono 56 e primi sono: Secondo i risultati estratti nelle due ricerche la globalizzazione: una parola che descrive un fenomeno, che colpisce principalmente i mercati e il suo effetto si ripercuote negli aspetti sociali. Il termine diventato molto frequente e oramai fa parte della nostra storia. globalizzazione il fenomeno; globalizzazione una parola che pu avere significati differenti; globalizzazione appena agli inizi; globalizzazione diventata una realt; globalizzazione evidente; Globalizzazione un termine che sta diventando frequente; globalizzazione unesigenza reale; globalizzazione parte integrante della nostra storia. Globalizzazione dell'economia; Globalizzazione dei mercati finanziari; Globalizzazione, internazionalizzazione; Globalizzazione degli scioperi; Globalizzazione dei conflitti sociali.

3.2.Google Ngram
Per individuare lorigine dei neologismi potremmo utilizzare un sistema di monitoraggio linguistico. Nel caso la frequenza di una parola cambi

18

repentinamente, il sistema ci restituisce il grafico della sua frequenza in un determinato lasso di tempo. Non avendo il sistema ipotizzato, verr utilizzato il sistema Ngram, per scoprire l'origine del termine tramite unanalisi temporale della sua distribuzione. Ngram di Google un tool per interrogare un corpus composto da oltre cinque milioni di libri, principalmente in lingua inglese, ovvero i testi digitalizzati nel sistema Google Books. Quindi si appoggia su di un corpus molto grande e in costante aggiornamento. Nel capitolo precedente abbiamo analizzato i vari tipi di corpora, si detto che i corpus che per definizione devono essere aggiornati sono quelli di monitoraggio. Linterfaccia di Ngram molto intuitiva. Si scelgono le parole da cercare (si possono aggiungere diverse parole a patto che siano separate della virgola), poi simposta la finestra temporale (es. dal 1930 al 2000) e si sceglie il corpus su cui fare la ricerca (per l'inglese si distingue il corpus della lingua americana e quelli della lingua britannica oppure c il corpus dell'inglese generale). Sarebbe interessante rivelare la nascita di nuovi termini oppure l'assegnamento di un nuovo significato ad un termine gi esistente tramite la frequenza delle parole nei differenti anni. Un esempio con Globalization

Come si pu notare la frequenza della parola inizia a crescere nel 1985. Sapendo che la parola nasce da un articolo scritto nel 1983 possiamo dire che la rilevazione corretta. Possiamo anche vedere che costantemente in aumento. Altre distribuzioni interessanti sono:

19

Globalization of markets

Globalization Theory

Mettiamole tutte e queste distribuzioni a confronto ci accorgiamo che le occorrenze delle ultime due sono solo una piccola parte della prima.

In confronto alla frequenza di globalization gli altri due termini spariscono, quindi quando si parla di globalizzazione non si parla necessariamente dei mercati o della teoria. Nel libro viene fatto presente il fatto che a volte nei testi troviamo globalization e altre volte globalisation, ma quale rapporto c' tra le due parole?

20

Dal grafico si nota che c' una stretta parentela tra le due parole ma la prima molto pi diffusa della seconda e dall'appiattimento della linea blu si pu dedurre che globalization continuer ad essere il termine pi usato. Nel libro si dice che il termine globalization nato in un articolo del 1983, dai grafici precedenti si nota che questo vero per il termine e la sua applicazione con i mercati ma la teoria della globalizzazione sembra pi tarda. La nascita, intesa come esplosione della frequenza della parola sembra avvenire intorno al 1994. Tramite Google Books possiamo vedere nel 1994 esce il libro Globalization: social theory and global culture il secondo capitolo del quale intitolato Globalization theory and civilization analisis. Purtroppo il libro non consultabile in quanto protetto dal diritto d'autore. Per possiamo vedere che il libro ha nella sua bibliografia un articolo del 1988 :

In questa mia piccola ricerca ho cercato di mostrare come un sistema di visualizzazione della distribuzione delle frequenze in un corpus, diviso per anni (non necessariamente si deve usare Ngram), possa essere utile per risalire all'origine di alcuni nuovi termini e come ci aiuti a monitorare il loro andamento nel tempo.

21

Bibliografia
Teubert W., Cermakova A., Corpus Linguistics: A Short Introduction, Continuum, London, 2007 Giulio C. Lepschy, La linguistica del Novecento, il Mulino, Bologna, 2000

22