Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
italiana
II
mod.
A
Prof.
Mirko
Tavoni
Chi
trova
un
corpus
trova
un
tesoro
Simone
Ferrucci
302549
Magistrale
in
Informatica
Umanistica
2011-2012
Indice
1. Introduzione 3 2. Riassunto del libro.4 2.1. Prima parte del libro..4 2.1.1. Tutte le lingue sono uguali? (e qualcosa di pi)...4 2.1.2. Parole idiomi e collocazioni..8 2.1.3. Corpus linguistics: a different look at language9 2.2. Seconda parte del libro..11 2.2.1. Linguaggio e rappresentativit.11 2.2.2. Tipologia dei corpora..13 2.2.2.1. Corpus di riferimento..13 2.2.2.2. Corpus di monitoraggio.13 2.2.2.3. Corpora paralleli....14 2.2.2.4. Corpora da internet..14 2.2.3. Il significato del discorso...15 2.2.4. Significato come uso e come parafrasi.....15 2.2.5. Collocazioni, traduzioni e corpora paralleli...17 3. Esperimento.17 3.1. La Repubblica....18 3.2. Google Ngram....19 Bibliografia.......22
1.Introduzione
Questo
testo
parte
dallanalisi
del
libro
Corpus
Linguistics:
A
short
introduction
pubblicato
nel
2004,
nel
quale
sono
analizzati
i
corpora
come
strumento
per
lidentificazione
delle
unit
di
significato:
parole,
collocazioni,
frasi
idiomatiche
ecc..
.
I
corpora
sono
collezioni
di
testi.
La
prima
parte
''Lingua
e
linguistica
del
corpus''
divisa
in
cinque
sottocapitoli.
Nella
prima
parte
sono
esposte
le
teorie
sulla
grammatica
generativa,
le
quali
si
concentrano
sulle
regole
grammaticali
che
definiscono
le
strutture
possibili
per
formulare
frasi
corrette
(Chomsky).
Nel
libro
troviamo
subito
un
riferimento
a
Chomsky,
il
quale
afferma
che
in
fondo
sul
nostro
pianeta
parliamo
tutti
la
solita
lingua,
poich
le
lingue
naturali
hanno
molti
punti
in
comune
tra
di
loro.
Tutte
le
lingue
sono
dei
sistemi
complessi
con
i
quali
si
pu
realizzare
unenunciazione,
dotata
di
un
contenuto,
che non equivale all'enunciazione stessa. Il contenuto il messaggio che si vuole trasmettere, mentre l'enunciazione come il messaggio viene espresso.
2.1.Prima
parte
del
libro
2.1.1.Tutte
le
lingue
sono
uguali?(e
qualcosa
di
pi)
Noam
Chomsky
ipotizza
che
uno
scienziato
Marziano,
dopo
uno
studio
delle
lingue
terrestri,
concluderebbe
sicuramente
che,
a
parte
l'insieme
dei
vocaboli
,
sono
tutte
uguali.
Infatti,
se
non
teniamo
di
conto
il
significato
delle
parole,
delle
frasi
e
del
testo,
le
nostre
lingue
naturali
condividono
un
discreto
insieme
di
caratteristiche.
Esse
sono
lineari.
Ogni
espressione,
come
anche
la
lingua
dei
segni
(per
esempio
immagini)
ha
un
inizio
e
una
fine,
quindi
si
pu
definire
monodimensionale.
Per
oggetto
monodimensionale,
sintende
che
ha
una
direzione
ben
precisa
e
facilmente
identificabile.
Le
espressioni
differiscono
dalle
immagini,
in
quanto
le
seconde
sono
bidiensionali.
Le
lingue
non
possono
essere
utilizzate
per
formare
delle
espressioni
bidimensionali:
la
descrizione
di
unimmagine
anchessa
monodimensionale
mentre
l'immagine
in
se
stessa
bidimensionale.
Le
espressioni
hanno
un
contenuto
che
viene
rappresentato
con
dei
segni.
Questi
segni
per
hanno
una
capacit
di
espressione
con
dei
limiti,
quindi
l'espressione
spesso
non
coincide
perfettamente
con
il
contenuto
che
si
vuole
esprimere.
John
Sinclair,
uno
dei
pionieri
della
linguistica
dei
corpora,
si
trova
a
ripetere
le
parole
del
grammatico
E.
O.
Winter
"la
grammatica
necessaria
perch
non
si
pu
dire
tutto
allo
stesso
momento",
questa
certamente
la
ragione
per
cui
tutte
le
lingue
naturali
hanno
bisogno
di
una
grammatica.
Tra
laltro,
questultima
affermazione pu spiegare perch le grammatiche delle rispettive lingue possono essere spiegate con termini simili. Con queste riflessioni sulla grammatica si pu capire l'idea sostenuta da Noam Chomsky, cio che tutti gli uomini condividono uninnata facolt che regola il modo in cui i segni devono essere organizzati per formare delle espressioni. In poche parole secondo questa visione gli uomini hanno uninnata (e latente) capacit grammaticale. I Chomskyani, e Chomsky stesso, vedono le lingue come un apparato che permette un numero limitato di opzioni. Il libro di "Study oh language and mind (Chomsky 2000) il frutto del lavoro di Chomsky e raccoglie lo stato dell'arte della sua linea di ricerca scientifica, ma se sia riuscito davvero a dimostrare la sua visione ancora un argomento su cui si discute. Geoffrey Sampson (1997) afferma che ci sono alcune contraddizioni sulle caratteristiche che Chomsky e Pinker espongono come universali. Nel lontano passato gli studiosi del linguaggio sono stati molto bravi nell'esplorare il comportamento della sintassi e della morfologia delle lingue. Ci sono una serie di assunzioni sviluppate fin dall'antichit, una delle quali il fatto che esista una unit che chiamiamo frase, e una che chiamiamo clausola nelle quali abbiamo dei soggetti, oggetti e dei predicati, e tutte queste entit sono parole. Delle parole poi ne esistono moltissimi tipi. Nonostante le diverse scuole linguistiche definiscano le stesse entit in modo differente -ci che alcuni chiamano oggetto, altri lo definiranno complemento, mentre altri ancora faranno una differenziazione tra le tipologie di oggetti- queste terminologie possono essere in linea di massima tradotte da un sistema allaltro, e sono usate non solo per descrivere linglese o altre lingue indoeuropee, ma tutte le lingue. Alcune di esse possono avere caratteristiche che altre non hanno -come le lingue aborigene australiane che distinguono tra il singolare, il plurale e il duale- ma principalmente sono gli stessi insiemi di entit e propriet che usiamo per descrivere i linguaggi del nostro pianeta, e non ci sorprenderemmo se dovessimo usarli anche per le lingue extraterrestri. Le entit pi piccole possono essere combinate per formare unit pi grandi. Le regole sintattiche ci aiutano in questo, dicendoci cosa possibile e cosa no. Alcuni studiosi sostengono che la pi piccola entit sia la parola, altri i morfemi,
ossia la pi piccola unit linguistica che possiede un significato. Accettando che le parole sono lunit minima, esse formano la base della sintassi, e quindi anche il lessico di una lingua (vocabolario). Utilizzando le definizioni date da Chomsky la lingua dunque composta da: entit, propriet e regole. Seguendo questa definizione l'ipotesi di Chomsky secondo cui le lingue terrestri hanno un certo livello di similarit tra di loro non del tutto da scartare. Oltre a questo le lingue posseggono dei parametri e dei termini molto simili tra di loro per spiegare sia la rispettiva fonologia, sia la sintassi, e anche la loro morfologia. Secondo il punto di vista di Chomsky, i linguisti dovrebbero descrivere la capacita dell'individuo di comporre frasi corrette dal punto di vista grammaticale in una o pi lingue. Questo tipo di approccio alla linguistica non pu dunque accettare l'approccio empirico allo studio del linguaggio, in quanto quest'ultimo si limita a descrivere il passato di una lingua mentre l'obbiettivo dei Chomskyani il futuro di essa, ovvero scoprire le regole che ne guidano la variazione per predirne gli sviluppi. Ma se, come dice Chomsky, tutti gli uomini nascono con delle capacit grammaticali latenti, per capire come funziona il linguaggio, bisogna guardare alla mente e non ai testi. La rivoluzione linguistica chomskyana riguarda il potere generativo delle regole. Chomsky sostiene che non descrivano cosa c, ma cosa pu essere possibile. Il ruolo della linguistica non pi interpretare ci che troviamo in testi gi esistenti, ma descrivere la facolt della lingua o la competenza del parlante nel produrre nuove frasi grammaticali. Mentre prima le regole venivano formulate da esperti del linguaggio in modo da facilitare la comprensione di testi esistenti, il compito di un linguista chomskyano era scoprire le regole che seguivamo senza che neanche ci accorgessimo di esse. I linguisti premoderni in Europa non erano interessati alla capacita produttiva del linguaggio, dal medioevo all'inizio del diciannovesimo secolo i linguisti erano dei filologi, quindi dei classicisti. Le loro ricerche avvenivano su lingue morte per comprenderle meglio e riuscire ad analizzare ad un livello approfondito i testi prodotte in esse. Le regole che trovavano avevano il principale scopo di facilitare la traduzione e la comprensione di un testo. Questo tipo di analisi potrebbe non corrispondere
ad un vero e proprio metodo scientifico. Dai primi anni del ventesimo secolo l'empiricismo Inglese ha dato il via ad un nuovo paradigma alla filosofia analitica. La domanda viene spostata da "Quale il significato di una frase?" a "Come facciamo a sapere che vera? Rispecchia la realt esterna?". La filologia ha dato ai classici e agli orientalisti la loro base metodologica. Il filologo linterprete dei testi passati e ci aiuta a rendere comprensibili la storia intellettuale e quella culturale. Interpretare un testo sempre un atto di interpretazione soggettiva, di scelte, al contrario di un processo che segue regole ben precise. Nel diciannovesimo secolo troviamo un nuovo interesse verso le lingue, differenti dalla filologia tradizionale, che riguarda lo studio delle relazioni tra le lingue. Si parla della discendenza delle maggiori famiglie linguistiche europee dallindo-europeo, una lingua di cui non ci sono tracce, la quale port i linguisti a preoccuparsi meno dellinterpretazione dei testi per scoprire le leggi che stanno dietro i cambiamenti fonetici. Fu la prima volta che divenne possibile descrivere una lingua in termini di regole, e la preoccupazione riguardo queste coinvolge sia i Chomskyani che quelli che non lo sono. Chomsky sostiene che anche se molte parti delle lingue hanno un certo livello di similarit il lessico fa da eccezione. Egli sostiene che pi facile imparare le regole di una nuova lingua che il lessico perch non ci sono regole che aiutino nella scelta di quest'ultimo. Il significato delle parole generalmente molto vago. Dal punto di vista grammaticale lunit di lavoro ideale la parola, ma lo molto di meno per quanto riguarda il significato: le singole parole sono ambigue, solo quando le troviamo in un contesto siamo in grado di attribuire un giusto significato. La singola parola per sua natura pu essere associata a un discreto numero di significati a seconda del contesto, del registro linguistico, del parlante. Non possibile quindi darne uninterpretazione certa senza alcuna conoscenza del resto, ma solo una serie di casi che potrebbero essere rappresentati dalla parola. Questa ambiguit pu essere risolta ricorrendo a delle unit di significato composte da pi parole come le collocazioni oppure le frasi idiomatiche. Alle persone piace parlare per idiomi come dimostrano alcune ricerche linguistiche. Queste sono una parte importante del patrimonio linguistico delle persone. Esistono molti libri che spiegano le origini degli idiomi, e difficilmente troviamo
un dizionario che non li tratti. Un eccellente studio di Rosamund Moon intitolato Fixed Expressions and Idioms in English(1998) stato realizzato con una tecnica di analisi basata su di un corpus. Uno spazio agli idiomi stato dato nel dizionario bilingue Wildhagen Hraucourt German-English (1963-1972) il quale in grado di dirci la corretta equivalenza in lingua tedesca di numerosi idiomi Inglesi. Per gli studiosi di linguistica la parola rimane ancora lunit di significato pi attraente, nonostante la sua ambiguit. La parola perfetta per il lavoro grammaticale, un buon esempio Syntactic Structures (1957) di Chomsky. Le strutture sintattiche sono costituite dallunione di varie unit, ognuna delle quali con determinati attributi e regole. Lelemento lessicale di base la singola parola, che viene posta in un punto della frase con un criterio molto rigoroso. Il problema arriva quando pretendiamo che le frasi generate abbiano un senso. Questo tipo di approccio ci permette di generare tutto quello che si pu fare seguendo le regole grammaticali, ma non detto che il risultato abbia un senso per un parlante della lingua. Riassumendo, i principali problemi con la singola parola come unit di significato sono la sua polisemia, la sua ambiguit e la sua imprecisione. In tempi passati lindividuazione degli idiomi e delle collocazioni era un lavoro lungo e difficile, invece con lavvento del corpus elettronico la ricerca di queste unit si fatta molto pi semplice, o per lo meno realizzabile in tempi brevi.
pu guidarci nella scelta grazie al contesto in cui la parola viene usata. Attraverso le collocazioni della parola che vogliamo tradurre con un'altra potremmo restringere il campo delle opzioni oppure arrivare a scoprire che fa parte di una collocazione e che quindi non pu essere tradotta come unit singola, ma solo lintero elemento pu esserlo (pan grattato-> bread crumbs).
uraliche
che
in
gran
parte
si
sono
estinte,
o
di
grandi
numeri
e
diversit
come
succede
con
linglese.
La
totalit
dinterazioni
verbali
di
una
specifica
comunit
includono
gli
idioletti,
i
dialetti,
le
varianti
regionali
e
qualsiasi
altro
tipo
di
variet
in
cui
la
lingua
possa
essere
distinta.
In
realt
le
comunit
di
discorso
e
di
linguaggio
non
esistono,
sono
delle
costruzioni
sociali
create
per
specifici
scopi.
Basti
pensare
al
caso
del
serbocroato,
una
lingua
che
non
mai
esistita
giacch
il
serbo
e
il
croato
sono
sempre
stati
delle
lingue
diverse.
Non
c
un
modo
chiaro
per
capire
quale
sia
la
comunit
linguistica
e
quale
la
lingua,
dipende
dalle
intenzioni.
La prospettiva di Chomsky e la linguistica cognitiva rappresentano un punto divista differente del linguaggio. In prospettiva, il linguaggio visto come un fenomeno psicologico e mentale. La linguistica dei corpora tratta il significato, la linguistica cognitiva, invece, si concentra sulla comprensione. Spesso significato e comprensione vengono confusi, ma la comprensione qualcosa di personale. Chomsky sostiene che tutti i concetti, anche quelli non ancora scoperti, siano innati e universali. Altri invece come Anna Wierzbicka, sostengono che solo un numero limitato di concetti di base sia universale e che quindi ogni cultura ne crea di nuovi combinando questi elementi di base. Lirrisolta questione della natura dei concetti mentali solo uno dei problemi con cui la linguistica cognitiva si confronta. Laltro problema sono le Qualia Arisoteliche, le quali secondo Daniel Dennett sono come le cose ci sembrano. Le Qualia sono inafferrabili, intrinseche e private per lindividuo. La linguistica dei corpora pu dirci molto di pi sul significato rispetto alla linguistica Chomskyana o alla linguistica tradizionale. Allo stesso tempo, la linguistica dei corpora non potr mai darci limmagine completa. Se il significato non una formula, se il significato non unimmagine formata da Qualia inafferrabili, esso qualcosa che pu essere rappresentato solo con il linguaggio naturale. Noi sappiamo cosa significhi albero non perch siamo andati sul dizionario a cercare, ma pi probabilmente perch una persona o pi ci hanno parlato di alberi. Linsieme di tutti i discorsi che conosciamo sulla parola albero formano il significato della parola. La linguistica dei corpora studia le lingue basandosi sul discorso. Tutti i testi prodotti, nei secoli, dai membri della comunit di discorso inglese compongono il discorso di questa comunit.
10
Noam Chomsky e molti di quelli che condividono le sue teorie hanno smesso di utilizzare il corpus come fonte per le loro ricerche linguistiche. Il linguaggio, secondo la loro corrente di pensiero, produttivo. E' possibile generare un infinito numero di espressioni con un limitato numero di segni. Nel lungo periodo verranno generate espressioni che fino ad ora non sono state utilizzate, ma che sono disponibili agli utenti di una lingua. Mentre, sempre secondo loro, la linguistica dei corpora ci dice solo quello che le persone hanno detto nel passato, e non pu dirci quello che le persone diranno domani. Nellultimo sottocapitolo troviamo una breve storia della linguistica dei corpora ma la parte pi interessante per questo lavoro la distinzione sviluppata da Tognini-Bonelli, i quali sostengono che lapproccio di una ricerca linguistica al corpus possa essere di due tipi, Corpus-Driven e Corpus-Based. Le ricerche linguistiche sono corpus-driven se tutto quello che sostengono validato da un corpus. Sono corpus-based invece se i dati vengono estratti da un corpus utilizzando delle metodologie linguistiche, successivamente elaborati e poi organizzati in risultati. Questa una distinzione cruciale. Il primo tipo di approccio genera solo delle prove di quello che sosteniamo, quindi viene visto solo come uno strumento per avere dei dati in pi. Il secondo approccio, invece vede il corpus al centro del processo di ricerca generando un nuovo paradigma di analisi linguistica. Il libro stato scritto per dimostrare che, se la linguistica vuole fare dei passi avanti sullutilizzo dei corpus, deve concentrarsi sul corpus- based.
11
parte
della
lingua
si
esprime
in
forma
scritta,
quindi
tutte
le
interazioni
non
scritte
in
una
lingua
andranno
perse.
Il
linguaggio,
o
il
discorso,
consiste
nella
totalit
delle
interazioni
verbali
con
cui
si
esprimono
tutti
gli
appartenenti
alla
sua
comunit
linguistica.
Per
interazioni
verbali
di
una
lingua,
si
intendono
anche
i
dialetti
e
tutte
le
altre
sue
varianti.
Secondo
John
Sinclair
un
corpus
una
collezione
di
testi
campionati
ricorrenti
naturalmente
in
un
linguaggio
scelti
per
caratterizzare
lo
stato
o
le
variet
presenti
in
esso.
Il
campionamento
del
discorso
pu
variare
a
seconda
del
focus.
Ad
esempio
se
fossimo
interessati
a
conoscere
la
frequenza
delle
parole
importante
innanzitutto
differenziare
le
parole
tra
quelle
molto
frequenti
e
quelle
poco
frequenti.
Un
importantissimo
studio
sulla
frequenza
delle
parole
nella
lingua
italiana
stato
realizzato
da
Tullio
De
Mauro,
il
quale
ha
proposto
una
divisione
del
vocabolario
in
base
alla
frequenza
di
utilizzo:
La frequenza delle parole potrebbe essere utilizzata come strumento di decisione se un corpus rappresentativo di una lingua. Avvalendoci di un corpus di riferimento della lingua in questione ed estraendo la distribuzione delle parole, possiamo confrontarla con quella del corpus da validare. Se le distribuzioni sono abbastanza simili, il corpus rappresentativo. Un corpus sarebbe del tutto rappresentativo di un discorso se, dopo averlo definito, potesse accedere a tutti i testi che sono stati generati in questo. Questa purtroppo un'utopia, se cosi fosse non servirebbe pi il corpus. Nella realt il linguista deve scendere ad un compromesso cercando di realizzare un campione il pi rappresentativo possibile del discorso della comunit linguistica che vuole analizzare. Lessico fondamentale: composto da 2000 parole ; Lessico di alto uso: composto da 2750 parole; Lessico di alta disponibilit: composto da 2300 parole.
12
Compaiono nuove unit di significato; Cambiano i profili dei contesti, cambia la frequenza delle parole
che ricorrono in un dato contesto. 2.2.2.3.Corpora paralleli Un corpus parallelo, qualche volta chiamato anche corpus tradotto, contiene testi prodotti in una lingua e la loro traduzione in unaltra (o pi). Con questi strumenti possiamo vedere, dove una traduzione dell'inglese differisce dall'inglese originale, non a caso i corpora paralleli sono unimportantissima fonte di conoscenza per i traduttori automatici. Per un utilizzo ottimale, i testi nelle diverse lingue di solito sono allineati a livello di frase. Per fare un esempio pensiamo ad un corpus parallelo di testi giuridici riguardanti le norme europee in materia di tutela del consumatore, questo corpus contiene le leggi in Inglese e la loro traduzione in Italiano. Unaltra variante di questo tipo di corpora la raccolta dei testi scritti ognuno per la propria lingua e non come traduzione di un altro testo, questi sono molto utili per comparare il lessico di due lingue. 2.2.2.4.Corpora da internet Internet sicuramente una risorsa molto vasta e possiede molte caratteristiche interessanti per la raccolta di testi. Non solo sul web si trovano tanti testi, ma anche da fonti e di generi molto differenti tra loro e sono costantemente aggiornati. Per questi motivi il web spesso usato per la costruzione di corpora in maniera molto veloce.
14
Prendendo per esempio la parola globalization. Questa una derivazione dellaggettivo global che fa parte della lingua inglese da secoli. Non tutti i dizionari Inglesi hanno riportato che allinizio degli anni 90 questa parola incominci a far parte dellinglese comune. Linizio della sua diffusione fu nel 1983 quando leconomista Ted Levitt intitol un suo articolo Harvard Business Review The globalization of markets nel quale utilizzo questa parola in solo nove frasi. Un corpus pu dirci molto sulle nuove parole, per esempio che molte citazioni nel Bank of English scrivono globalisation e non globalization, mentre negli Stati Uniti si preferisce la versione con la z. Questo gi ci fa capire che i termini potrebbero essere analizzati in maniera diversa poich possiamo a grandi linee analizzare le differenze tra le citazioni britanniche e quelle americane. Posso introdurre una nuova parola; Posso collegare un nuovo significato a una parola che gi
esiste.
15
compito linguistico essenziale quello di determinare limpiego di ununit lessicale, infatti se vogliamo che un computer sia in grado di disambiguare una espressione dobbiamo fornirgli dei profili duso con cui confrontarla. Il significato composto dalluso e dalla parafrasi, il computer in grado di darci il profilo duso di unespressione senza sapere cosa questa significa effettivamente. Al computer, quindi manca la capacit di comprendere cosa c al di la delle cose, si potrebbe dire che al computer manca la consapevolezza. Proprio la consapevolezza porta luomo a chiedersi cosa altro ci sia vicino a quello che sta guardando. Questabilit chiamata intenzionalit, una caratteristica fondamentale oltre che del linguaggio, di ogni sistema di comunicazione, ed anzi, ancora pi in generale, di ogni stato mentale. Un lavoro molto esaustivo Intentionality di John Searle. Il vocabolario di una lingua visto comunemente come un insieme di parole a cui i lessicografi hanno assegnato un senso. Tutte queste unit sono utilizzabili dal parlante. Da notare che i lessicografi molto probabilmente non hanno fatto altro che portare alla luce il significato latente che era gi stato assegnato alle parole dai parlanti della comunit. Le lingue si esprimono attraverso i segni e questi hanno due caratteristiche, significato e forma. Proprio per questo motivo sbagliato considerare il linguaggio come semplice processo di codifica e decodifica di un messaggio: senza la forma non c significato quindi non possiamo dire che un testo possiede un significato proprio perch il testo il significato. Ci sono molte teorie sul significato, molte di queste affermano che il significato di una unit linguistica qualcosa al di fuori del discorso. Alcuni sostengono che questo corrisponde con le rappresentazioni che abbiamo di esso nella nostra mente. Nella parte successiva del libro viene mostrato lapporto che un coprus pu portare nella comprensione del significato di una parola e nella sua analisi, questo capitolo non viene sviluppato in quanto verranno riproposte le tecniche nel mio esperimento finale.
16
3.Esperimento
Seguendo
lesempio
del
libro
(Cap
2.5)
ho
realizzato
alcuni
piccoli
esperimenti
per
estrarre
informazioni
sulla
storia
di
un
termine
e
sulle
sue
equivalenze
nella
lingua
Italiana.
La
parola
sotto
analisi
globalizzazione.
3.1.La
Repubblica
La
prima
cosa
da
analizzare
il
significato
della
parola.
Ho
utilizzato
il
corpus
di
Repubblica
come
punto
di
partenza,
per
prima
cosa
ho
iniziato
una
ricerca
semplice
e
molto
generale.
Ho
cercato
la
parola
globalizzazione
specificando
che
17
non ci dovevano essere differenze tra maiuscole e minuscole. Ho ottenuto 2445 risultati, nei primi venti di questi troviamo: Osservando questi risultati la globalizzazione sembra essere un processo non solo economico, ma anche sociale. Per estrarre il significato di questa espressione ho posto la seguente interrogazione globalizzazione . I risultati sono 56 e primi sono: Secondo i risultati estratti nelle due ricerche la globalizzazione: una parola che descrive un fenomeno, che colpisce principalmente i mercati e il suo effetto si ripercuote negli aspetti sociali. Il termine diventato molto frequente e oramai fa parte della nostra storia. globalizzazione il fenomeno; globalizzazione una parola che pu avere significati differenti; globalizzazione appena agli inizi; globalizzazione diventata una realt; globalizzazione evidente; Globalizzazione un termine che sta diventando frequente; globalizzazione unesigenza reale; globalizzazione parte integrante della nostra storia. Globalizzazione dell'economia; Globalizzazione dei mercati finanziari; Globalizzazione, internazionalizzazione; Globalizzazione degli scioperi; Globalizzazione dei conflitti sociali.
3.2.Google
Ngram
Per
individuare
lorigine
dei
neologismi
potremmo
utilizzare
un
sistema
di
monitoraggio
linguistico.
Nel
caso
la
frequenza
di
una
parola
cambi
18
repentinamente, il sistema ci restituisce il grafico della sua frequenza in un determinato lasso di tempo. Non avendo il sistema ipotizzato, verr utilizzato il sistema Ngram, per scoprire l'origine del termine tramite unanalisi temporale della sua distribuzione. Ngram di Google un tool per interrogare un corpus composto da oltre cinque milioni di libri, principalmente in lingua inglese, ovvero i testi digitalizzati nel sistema Google Books. Quindi si appoggia su di un corpus molto grande e in costante aggiornamento. Nel capitolo precedente abbiamo analizzato i vari tipi di corpora, si detto che i corpus che per definizione devono essere aggiornati sono quelli di monitoraggio. Linterfaccia di Ngram molto intuitiva. Si scelgono le parole da cercare (si possono aggiungere diverse parole a patto che siano separate della virgola), poi simposta la finestra temporale (es. dal 1930 al 2000) e si sceglie il corpus su cui fare la ricerca (per l'inglese si distingue il corpus della lingua americana e quelli della lingua britannica oppure c il corpus dell'inglese generale). Sarebbe interessante rivelare la nascita di nuovi termini oppure l'assegnamento di un nuovo significato ad un termine gi esistente tramite la frequenza delle parole nei differenti anni. Un esempio con Globalization
Come si pu notare la frequenza della parola inizia a crescere nel 1985. Sapendo che la parola nasce da un articolo scritto nel 1983 possiamo dire che la rilevazione corretta. Possiamo anche vedere che costantemente in aumento. Altre distribuzioni interessanti sono:
19
Globalization of markets
Globalization Theory
Mettiamole tutte e queste distribuzioni a confronto ci accorgiamo che le occorrenze delle ultime due sono solo una piccola parte della prima.
In confronto alla frequenza di globalization gli altri due termini spariscono, quindi quando si parla di globalizzazione non si parla necessariamente dei mercati o della teoria. Nel libro viene fatto presente il fatto che a volte nei testi troviamo globalization e altre volte globalisation, ma quale rapporto c' tra le due parole?
20
Dal grafico si nota che c' una stretta parentela tra le due parole ma la prima molto pi diffusa della seconda e dall'appiattimento della linea blu si pu dedurre che globalization continuer ad essere il termine pi usato. Nel libro si dice che il termine globalization nato in un articolo del 1983, dai grafici precedenti si nota che questo vero per il termine e la sua applicazione con i mercati ma la teoria della globalizzazione sembra pi tarda. La nascita, intesa come esplosione della frequenza della parola sembra avvenire intorno al 1994. Tramite Google Books possiamo vedere nel 1994 esce il libro Globalization: social theory and global culture il secondo capitolo del quale intitolato Globalization theory and civilization analisis. Purtroppo il libro non consultabile in quanto protetto dal diritto d'autore. Per possiamo vedere che il libro ha nella sua bibliografia un articolo del 1988 :
In questa mia piccola ricerca ho cercato di mostrare come un sistema di visualizzazione della distribuzione delle frequenze in un corpus, diviso per anni (non necessariamente si deve usare Ngram), possa essere utile per risalire all'origine di alcuni nuovi termini e come ci aiuti a monitorare il loro andamento nel tempo.
21
Bibliografia
Teubert
W.,
Cermakova
A.,
Corpus
Linguistics:
A
Short
Introduction,
Continuum,
London,
2007
Giulio
C.
Lepschy,
La
linguistica
del
Novecento,
il
Mulino,
Bologna,
2000
22