Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Berruto, Cerruti
Alla nozione di lingua standard si oppone quella di dialetto, sistema linguistico subordinato ad una lingua standard con la quale è
strettamente imparentato e in confronto alla quale ha una diffusione areale più limitata; un dialetto ha una propria storia e una propria
struttura diversa dallo standard (dialetti italo-romanzi sono subordinati all’italiano nel senso che il dialetto copre gli usi bassi , mentre
lo standard è per gli usi alti). I dialetti italo-romanzi sono dialetti primari, varietà sorelle dell’ita (hanno distanza strutturale e una
propria storia autonoma e parallela al dialetto che poi è diventato lingua standard → il fiorentino venne progressivamente ad
acquisire prestigio fino ad essere codificato come italiano standard nel Cinquecento. Gli atri volgari rimasero non standardizzati e
sono oggi continuati dai nostri dialetti).
Lingua per distanziazione (Abstand), riconosciuta come lingua a sé in virtù delle proprie caratteristiche strutturali che la
differenziano da altre lingue. La distanza linguistica è tuttavia difficile da quantificare e per fare una valutazione attendibile si deve
tener conto di criteri sociologici (grado di reciproca comprensibilità tra i parlanti di sistemi linguistici diversi) e criteri linguistici
(differenze tra il lessico fondamentale e tutti gli altri livelli di analisi). Il riconoscimento per lingue per distanziazione e lingue per
elaborazione danno luogo a 3 classi prototipiche in cui rientrano tutte le lingue naturali:
1. lingue sia per distanziazione che per elaborazione (si differenziano per la loro struttura e soddisfano tutti i bisogni di una società);
2. lingue per distanziazione (lingue indigene dell’Africa, Asia e Oceania);
3. lingue per elaborazione (slovacco, ceco, serbo, croato), non si distinguono per caratteristiche strutturali, ma hanno sviluppato un
grado di elaborazione e un proprio standard autonomamente.
Queste categorie non sono così categoriche ma sfumano l’una nell’altra in un continuum.
Come ogni lingua, anche un dialetto ha delle variazioni interne, è quindi articolato al suo interno in varietà. La variazione interna è
molto evidente in un dialetto, considerando che esso è impiegato quasi unicamente nel parlato che non è esposto all’azione di regole
normative codificate. Per definizione, un dialetto è poco o per nulla codificato e quindi non è standardizzato. Può anche accadere che
per ragioni culturali e letterarie o anche politiche, un dialetto acquisisca prestigio guadagnando cioè uno status in modo da poter
essere utilizzato negli usi alti e quindi viene codificato come standard; a questo punto un dialetto diventa esso stesso una lingua
standard (es: fiorentino e dialetti cinesi pag. 76). La differenza tra lingua e dialetto infatti è di natura sociale e sociolinguistica,
riguarda la posizione sociale occupata da un sistema linguistico in una comunità e non la struttura di quel sistema linguistico.
Concezione anglosassone dei dialetti: dialects sono quelle varietà che risultano dalla differenziazione geografica e sociale di una
certa lingua per effetto della diffusione di questa sul territorio e sono varietà definite in relazione ai parlanti. Registers sono invece
varietà definite in base agli usi.
Lo standard e i dialetti a volte si trovano a convivere con lingue minoritarie, parlate da comunità che prendono il nome di minoranze
linguistiche. Le lingue minoritarie sono parlate da comunità radicate storicamente in un territorio, mentre le lingue di immigrazione
sono dovute appunto a processi migratori più recenti. In Italia, le lingue minoritarie riconosciute e tutelate dalla costituzione sono:
tedesco, francese, croato, sloveno, ladino, sardo, friulano, francoprovenzale, occitano, catalano, grico, albanese (i dialetti sinti sono
lingue minoritarie, ma non sono riconosciute). Una lingua minoritaria non per forza non è imparentata alla lingua ufficiale dello
Stato. Le lingue minoritarie sono particolarmente inclini a diventare lingue minacciate o lingue in via d’estinzione: si tratta di lingue
che perdono progressivamente domini di impiego e parlanti perché esposte alla presenza di una lingua socialmente e culturalmente
dominante cioè la lingua ufficiale dello Stato; quello che fa la differenza è anche il senso di appartenenza e di identità culturale dei
parlanti (sardo e friulano sono considerate lingue autonome per un fatto di autonomia strutturale – hanno molti tratti specifici e
conservativi -, ma anche per questioni di autonomia culturale, connessi ad un forte sentimento autoidentitario).
Inoltre, alcune lingue minoritarie si definiscono in relazione a entità politicoamministrative di altra natura rispetto a quella di uno
Stato. È il caso ad esempio delle cosiddette eteroglossie interne in Italia ovvero quei dialetti italo-romanzi parlati in aree geografiche
nelle quali il dialetto di riferimento delle aree circostanti è storicamente un altro (Tabarchino, Carloforte, Calasetta).
Un aspetto rilevante nei rapporti tra lingue, dialetto e lingua minoritaria, è il concetto di copertura: una lingua, nel territorio in cui è
parlata, ha un’altra lingua strettamente imparentata con essa come lingua di cultura e modello normativo di riferimento, cioè una
lingua ha “sopra di sé” una lingua ad essa imparentata utilizzata sia nella scuola che nell’amministrazione; questa lingua
sovraordinata è chiamata lingua tetto, mentre la lingua subordinata è detta lingua con tetto o coperta (italiano lingua tetto dei dialetti
italo-romanzi; la stessa cosa non si può dire per tutte le lingue minoritarie perché in alcuni casi queste non sono strettamente
imparentate con la lingua tetto. Vi sono tuttavia estensioni del concetto che prescindono dal requisito di parentela stretta).
La pressione sociale di una lingua sovraordinata può minacciare la vitalità di una lingua subordinata. La lingua dominante può
comportare una riduzione della distanza linguistica con le lingue a lei subordinate.
3.3 Repertori linguistici e plurilinguismo
Il repertorio linguistico è l’insieme delle lingue e delle loro varietà usate da una certa comunità linguistica. Si possono avere sia
repertori monolingui sia repertori plurilingui (plurilinguismo è un termine comune per designare sia le situazioni bilingui che quelle
multilingui). Una distinzione preliminare è quella tra bilinguismo sociale (riferimento ad una comunità o un gruppo), e tra
bilinguismo individuale (riferimento ad un solo individuo). È multilingue il repertorio linguistico della comunità italiana (italiano,
dialetti italo-romanzi, minoritarie). Alcuni es. pag. 82-83
I repertori plurilingui presentano una certa configurazione di dominanza cioè una distribuzione funzionalmente indotta, che vede in
determinate situazioni una lingua dominare sull’altra o sulle altre in base a criteri come la frequenza d’uso, le funzioni a cui è adibita
e l’utilità nella comunicazione (repertorio ita: configurazione di dominanza molto netta in cui la lingua di gran lunga dominante è
sempre l’ita). Molti repertori presentano una stratificazione delle lingue per diversi livelli sociali e gradi di prestigio di cui la lingua
fruisce, che la collocano in usi bassi o alti; per rendere conto di questa stratificazione si utilizzano delle schematizzazioni a gradini.
Queste prevedono due gradini fondamentali (A e B), a cui nelle situazioni di repertori complessi viene aggiunto un gradino M. Si
possono trovare anche più lingue su uno stesso gradino, che verrà così definito sovraccarico.
Occorre anche distinguere tra repertorio linguistico comunitario dal repertorio linguistico individuale. Il repertorio linguistico
dell’individuo può essere anch’esso monolingue e plurilingue e si caratterizza per l’esistenza di rapporti gerarchici tra le lingue a
disposizione; un parlante non ha accesso a tutte le lingue del repertorio della comunità.
Introduciamo ora alcune distinzioni utili a definire tipi diversi di bilinguismo cioè di compresenza di due o più lingue:
1) - bilinguismo endogeno: indica la compresenza storicamente radicata di due o più lingue;
- bilinguismo esogeno: indica la compresenza di due o più lingue dovuta da un apporto esterno immigratorio in età contemporanea.
(es: in Italia c’è bilinguismo endogeno - italiano e dialetti italo-romanzi – e esogeno -lingue di immigrazione).
2) - bilinguismo monocomunitario: in uno Stato o in una regione sono parlate due o più lingue e quasi tutti i parlanti di quella
comunità sono bilingui (es: Lussemburgo: c’è francese, tedesco e lussemburghese).
- bilinguismo bicomunitario: in una certa regione esistono due o più sotto-comunità diverse nelle quali si parlano lingue diverse e
gli abitanti bilingui sono pochi (es: Cipro: greco e turco).
3) - bilinguismo di diritto: la compresenza di due lingue è riconosciuta ufficialmente nella legislazione e nelle istituzioni;
- bilinguismo di fatto: manca di riconoscimento giuridico (es: Grecia: il bilinguismo delle comunità di lingua turca, bulgara, albanese
e macedone è soltanto di fatto poiché il greco è l’unica lingua a godere di riconoscimento ufficiale).
In una comunità le lingue occupano posti sociali diversi a seconda dei loro usi (status e\o funzione); infatti esistono tipi funzionali di
repertorio linguistico e si può distinguere tra:
- Bilinguismo sociale: non prevede una distribuzione funzionale gerarchica delle lingue; vi è la compresenza di due lingue diverse
sia per distanziazione che per elaborazione e vengono utilizzate senza differenziazione funzionale tra usi alti e usi bassi nel parlato e
nello scritto (es: Valle d’Aosta: bilinguismo sociale italiano/francese anche se l’italiano è molto più utilizzato del francese); c’è una
sovrapposizione generale dei domini d’impiego.
- Un tipo di repertorio che si basa sulla compresenza di lingue differenziate. SI riconoscono tre tipi di repertori di questo genere:
- Diglossia: ci sono due lingue relativamente lontane sul piano strutturale, delle quali soltanto una lingua (A) è pienamente elaborata
e standardizzata, gode di una prestigiosa tradizione letteraria, è appresa attraverso la scolarizzazione (non nella socializzazione
primaria), ed è usata esclusivamente nello scritto e nel parlato formale, non nella conversazione ordinaria; l’altra lingua (B) è appresa
nella socializzazione primaria ed è usata dalla comunità solo nel parlato informale, senza sovrapporsi alla lingua più “alta” (es:
italiano (lingua A) e dialetti italo-romanzi (lingua B) fino all’800, oppure francese (lingua A) e creolo (lingua B) ad Haiti);
- Dilalia: si oppone alla diglossia e si ha quando all’interno di una stessa comunità sono compresenti due lingue strutturalmente
diverse. Soltanto A ha carattere sia di Ausbau sia di Abstand; vi è una chiara distinzione funzionale tra lingua per gli usi alti e lingua
per gli usi bassi. Tuttavia, pur essendo chiare questa differenziazione funzionale, la dilalia non è compartimentata in modo rigido
come la diglossia: esistono domini in cui l’uso di una delle due lingue è esclusivo, ma anche domini in cui sono usate e accettate
entrambe le lingue (sia A che B sono impiegate nella conversazione ordinaria, usate in modo alternato anche con commutazioni di
codice), dando vita ad un continuum di varietà intermedie (es: Germania: tedesco (lingua A) e i dialetti (lingua B) ad eccezione delle
grandi città che tendono al monolinguismo);
- Bidialettismo: quando nel repertorio coesistono non due lingue strutturalmente diverse, ma due varietà di una stessa lingua: una
varietà standard A e una o più varietà geografiche e sociali B, ed esistono domini in cui sono usate sia A che B (non si parla di
bilinguismo in questo caso perché non si tratta di due lingue diverse, ma di due varietà di una stessa lingua). Di solito solo B è
impiegata nella comunicazione ordinaria perché non è standardizzata, è socialmente marcata e non è soggetta a tentativi di
promozione come varietà alternativa ad A come succede per diglossia e dilalia (es: Inghilterra, centri urbani della Francia, Roma e
Toscana).
1.I fenomeni di contatto nel sistema possono prendere anche il nome di:
-Prestito (materiale superficiale, replicazione di materiale): il caso più tipico di prestito è il trasferimento di elementi lessicali; il
prestito di parole è tipico nel funzionamento di ogni lingua; quasi sempre i prestiti subiscono, anche parzialmente, un adattamento
alle regole della lingua ricevente, finendo così per essere integrati nel sistema. L’adattamento può avvenire a livello fonetico (pasol) o
morfologico (linkare)
-Interferenza (piano profondo, replicazione di schemi strutturali): il caso più tipico di interferenza lessicale è quello del calco, che
può essere strutturale (cambia la struttura interna della parola – skyscarper, la struttura si conforma all’ordine della LR, o bagno
schiuma, mantiene l’ordine della LF) o semantico (cambia il significato della parola – label, etichetta prende in ita anche il
significato en di ‘casa discografica’). L’interferenza può anche avvenire ad altri livelli di lingua, come quello sintattico: avremo
quindi delle strutture tipiche della LF replicate con materiale ita: doppia interrogativa, superlativo relativo ordinale, grazie di\per +
infinito con valore causale e temporale di posteriorità.
Questi fenomeni di contatto nel sistema non presuppongono necessariamente il bilinguismo dei parlanti.
2.Le manifestazioni del contatto nel discorso vengono trattate sotto il nome di code switching, che comprende diversi tipi di
fenomeni:
- Alternanza di codice: lingue diverse nello stesso discorso con interlocutori diversi, a ciascuno dei quali ci si rivolge in una lingua;
- Code switching: con uno stesso interlocutore si producono frasi in lingue diverse (commutazione al confine di frase);
- Code mixing: con uno stesso interlocutore si usano diverse lingue in una stessa frase (commutazione entro i confini di frase);
- Tagswitching (commutazione extrafrasale): la commutazione di codice coinvolge elementi non integrati nella struttura sintattica
frasale, come interiezioni e marcatori discorsivi (tag nel senso di ‘frase fatta’).
- Ibridismi: manifestazioni del contatto al di sotto del livello della parola: parole costruite con morfemi provenienti da due lingue
diverse (ad esempio dribblare che significa effettuare un dribbling).
Nel code mixing e negli ibridismi i passaggio da una lingua all’altra non hanno significato comunicativo o pragmatico, mentre negli
altri casi si; la commutazione diventa veicolo di informazioni simboliche, pragmatiche conversazionali ed è socio-funzionalmente
motivata. (es. pag. 95-96) Per dar conto dell’interazione e della compenetrabilità delle lingue in contatto sono stati elaborati alcuni
modelli, tra cui il MLF. (discorso su MLF)
Nella commutazione di codice, il passaggio da una lingua all’altra non è obbligatorio, ma è una scelta del parlante. Quando inizia a
diventare obbligatorio si parla di fused lect. Esso è ancora un fenomeno del contatto nel discorso, ma è un primo passo verso la
neutralizzazione della differenza tra fenomeni nel discorso e fenomeni nel sistema (stesso discorso vale per gli ibridismi quando da
sporadici iniziano a fissarsi nel sistema).
Il contatto, facendosi via via più pervasivo può dar luogo ad una fusione tra le lingue, con una ristrutturazione dei sistemi di partenza.
La nascita di lingue è infatti uno dei possibili esiti del contatto linguistico. Si parla in questi casi di lingue di contatto, cioè lingue
nate dal contatto con altre lingue, formate da elementi non riconducibili primariamente ad un’unica lingua. Si distinguono in:
- Lingua mista: nasce in situazioni di plurilinguismo per ragioni comunicative differenti ( esigenza di un gruppo di disporre di un
we-code, fedeltà verso una lingua in regressione) e si compone di forme e strutture provenienti da due lingue. In alcuni casi la
grammatica proviene da una lingua e il lessico dall’altra (language intertwining) e in altri casi le due lingue di partenza
contribuiscono entrambe sia alla grammatica sia al lessico (plain mixed languages).
- Pidgin: nasce per adempiere alla comunicazione tra gruppi di parlanti con lingue materne diverse, tipiche di situazioni migratorie o
coloniali, e funziona quindi da lingua franca. Nasce per soddisfare bisogni comunicativi essenziali relativi a rapporti di lavoro o di
commercio. Ha un sistema linguistico semplificato, presenta fenomeni di semplificazione che rendono la grammatica autonoma e ben
diversa da quella delle lingue di partenza (questo è il carattere principale che distingue un pidgin da una lingua mista). Il lessico
solitamente proviene dall’esolingua, che prende il nome di lingua lessicalizzatrice. Tra i pidgin i più importanti c’è il Tok Pisin
(Papua Nuova Guinea). Un pidgin per definizione non ha parlanti nativi, non è LM di un gruppo di parlanti. Col tempo tuttavia il
pidgin può essere trasmesso come lingua materna presso una comunità di parlanti: quando ciò accade, un pidgin si sviluppa in creolo.
- Creolo: lingua materna e strumento di comunicazione principale di una comunità; utilizzato non solo per i bisogni comunicativi
essenziali, ma ha domini di impiego diversificati e sviluppa un lessico e una grammatica più elaborati di quelli del pidgin. Creoli
principali: haitiano e giamaicano.
L’altro esito estremo del contatto linguistico è la morte di una lingua: una lingua minacciata che sotto la pressione di una lingua
socialmente e culturalmente dominante perde progressivamente domini di impiego, può finire per non avere più parlanti nativi e
quindi estinguersi. Questo processo di regressione o obsolescenza linguistica è provocato dal ridursi delle motivazioni effettive di
impiego di una lingua e quindi dal venir meno della volontà dei parlanti di trasmettere quella lingua alle generazioni successive. Il
termine che denota il realizzarsi del processo a livello di repertorio linguistico è sostituzione linguistica e può interessare una o più
comunità linguistiche. In Italia molte lingue minoritarie e vari dialetti sono interessati da processi di obsolescenza.
A volte gli stessi parlanti competenti iniziano ad averne una competenza sempre più parziale e ridotta; la lingua inizia quindi a subire
cambiamenti linguistici profondi e alcuni suoi settori si impoveriscono, le sue strutture linguistiche sono in decadimento. Si parla in
questi casi di decadenza linguistica (es: East Sutherland Gaelic). Quando questo processo interessa lingue in situazioni migratorie si
parla di logorio linguistico. Alla morte di una lingua causata dalla perdita di parlanti e di domini, può sovrapporsi la morte per
cattura: la lingua si avvicina progressivamente ad un altro sistema linguistico fino ad esserne assorbita, diventandone una varietà.
Il contatto linguistico può anche portare ad altre conseguenze non estreme. Può innescare fenomeni di convergenza verticale come tra
dialetti e lingua standard e di convergenza orizzontale, cioè tra varietà alla pari, con risultato una parziale ristrutturazione dei sistemi
coinvolti. Esempi di fenomeni di convergenza orizzontale sono i processi di koineizzazione (tipici di varietà diverse di una lingua di
immigrazione in centri abitati di rapida urbanizzazione e di nuova formazione come le new towns, o tra dialetti locali presenti
storicamente in un certo territorio). Sono processi divisi in 2 fasi: 1. mescolanza caotica di tratti linguistici provenienti da varietà
differenti (mixing); 2. livellamento delle differenze vernacolari più marcate (levelling).
Un processo di koineizzazione può anche sfociare nell’emergenza di una nuova varietà di lingua portando alla formazione di una
koinè (varietà di contatto costituita da tratti linguistici di più varietà). Un esempio di koineizzazione è in Ticino dove la
comunicazione tra parlanti di dialetti ticinesi diversi, in contatto quotidiano ad esempio per lavoro, si caratterizza per la rinuncia di
tratti vernacolari più marcati. Divero è il fenomeno della diffusione dei tratti, in cui il dialetto di un centro socialmente egemone
diffonde i propri tratti ai dialetti locali circostanti, i quali perdono i loro tratti vernacolari più marcati (es: torinese e veneziano, 18-19
sec. Si parla di koinè a base torinese – il termine koinè a volte si usa anche in questi casi).
Un altro esito del contatto linguistico è la formazione di interlingue. Ciò avviene tipicamente in situazioni migratorie in cui la lingua
degli apprendenti è la lingua di partenza e la lingua dominante è la lingua d’arrivo. In queste situazioni, tra la lingua di partenza e la
lingua di arrivo si crea un continuum di interlingue, regolate da una grammatica in continua evoluzione che gli apprendenti
“costruiscono” in parte in base alle caratteristiche della L1 e in parte in base a principi universali.
La provenienza geografica è il fattore extra-linguistico che più entra in correlazione con varianti di variabili. Ci sono poi anche altri
fattori extralinguistici di carattere sociale come la stratificazione sociale, l’età, il livello di istruzione del parlante.
Si è osservato che spesso le variabili sociolinguistiche sono sensibili contemporaneamente alla variazione sociale e alla variazione
situazionale: le varianti diffuse presso gli strati sociali bassi tendono ad occorrere in situazioni informali e viceversa.
Questo tipo di distribuzione delle varianti viene detta di prestigio o laboviana.
-una variabile come (th) sensibile sia alla variazione sociale sia alla variazione
situazionale, e può quindi intervenire nella differenziazione sia fra classi sociali che
tra stili di parlato, viene chiamata marker o contrassegno.
-una variabile come (a:) sensibile alla variazione sociale , ma non alla variazione
situazionale, viene chiamata indicatore.
-una variabile sensibile alla variazione situazionale, ma non alla variazione sociale,
viene chiamata stereotipo.
La presenza di variabili con una certa struttura sociolinguistica sarà più tipica di certe comunità linguistiche e meno di altre. Ad
esempio, variabili fonologiche con distribuzione di prestigio è tipica delle situazioni anglosassoni, ma di quelle italiane no perché in
italiano le pronunce sub-standard sono scarsamente soggette a pressione normativa.
1.Nel modello laboviano di variazione: a) la variazione occupa una posizione interna al sistema linguistico; b) la variazione opera in
superficie, cioè preserva l’invariabilità delle strutture interne; c) l’individuo nativo di una lingua ha competenza di una sola
grammatica, che quindi contiene al suo interno la variabilità; d) la grammatica dell’individuo corrisponde alla grammatica di una
comunità linguistica; e) i membri di una stessa comunità linguistica condividono uno stesso insieme di regole; f) le regole sono
realizzate variabilmente; g) i giudizi di grammaticalità dei parlanti non riflettono differenze strutturali.
2.Secondo l’approccio generativista tradizionale, la variazione è data dalla scelta tra regole diverse, ciascuna delle quali realizzata
categoricamente laddove la scelta tra regole diverse corrisponde alla scelta tra grammatiche diverse. Questi modelli collocano la
variazione in una posizione esterna al sistema linguistico, in quanto la variazione è data dalla scelta di un sistema linguistico
differente.
Da più di 50 anni si parla di programma minimalista: esso tende a ridurre l’apparato teorico per spiegare le frasi al minimo
indispensabile, in cui rimangono una serie ridotta di principi e parametri che operano sulla grammatica universale. I parametri danno
conto della variazione tra lingue, perché e come accade. Un parametro è un punto della gu che può assumere due valori (es: il
parametro pro-drop e non pro-drop). Approcci recenti applicano l’analisi per parametri all’indagine della variazione intralinguistica.
3. il modello di Henry spiega differenze parametriche postulando l’esistenza di più grammatiche, differenziate nella loro occorrenza
in base ai diversi contesti situazionali e a caratteristiche individuali. Una differenza parametrica è data da regole diverse, realizzate in
dipendenza da fattori linguistici ed extra-linguistici; regole variabili, non categoriche. Come Labov e differentemente dal modello
generativista, le regole sono variabili. Come il modello generativista e diversamente da Labov, un parlante ha più grammatiche e la
variazione è esterna al sistema linguistico.
4. Adger e Smith: la variazione non occorre all’interno del sistema linguistico, ritenuto autonomo, ma interagisce con esso come
meccanismo separato ed è dovuta alla sola scelta degli elementi lessicali. Alcuni tratti hanno funzione esclusivamente sintattica
(uninterpretable features), altri hanno valore semantico (interpretable features). Si ha variazione quando si scelgono elementi
lessicali (uninterpretable features) diversi che producono forme fonetiche diverse; tanto gli elementi lessicali quanto le forme
fonetiche sono associati alle interpretable feature, cioè alla stessa funzione grammaticale. La scelta può avvenire al di sotto del
livello di consapevolezza del parlante. Come Labov e differentemente dal modello generativista, un parlante ha una sola grammatica.
Come il modello generativista e diversamente da Labov, un parlante ha più grammatiche e la variazione è esterna al sistema
linguistico. Diversamente da entrambi, la variazione è data non da regole, ma dalla selezione di elementi che fanno parte del lessico.
4.6 Mutamento e variazione
Variazione: proprietà delle lingue di presentarsi in forme diverse nei comportamenti dei parlanti; fatto tipicamente sincronico.
Mutamento: carattere delle lingue di subire cambiamenti col passare del tempo; fatto diacronico.
Variazione e mutamento sono in stretto rapporto tra di loro e i fenomeni di mutamento linguistico sono generalmente alimentati da
fenomeni di variazione linguistica; i fenomeni di variazione sono spesso il risultato di cambiamenti avvenuti, possono rappresentare i
cambiamenti in corso e quindi prefigurare sviluppi futuri.
Le lingue sono in costante movimento, ma affinché si abbia un completo mutamento linguistico, occorre che una nuova forma si
diffonda e sia accettata da una comunità attraverso un itinerario:
1.introduzione di una forma nuova nella produzione linguistica di un parlante;
2.diffusione di questa forma nel comportamento linguistico del parlante;
3.diffusione di questa forma nel comportamento linguistico di altri parlanti;
4.adozione generalizzata di questa forma che sancisce il mutamento.
Quindi il fenomeno del mutamento consiste nella sostituzione di una variante con un’altra variante, attraverso una fase in cui le due
varianti coesistono. (es. forme del passato e del participio passato di verbi forti dell’inglese: “to know” le varianti standard “I knew”
e “I have known” con varianti substandard “I knowed” e “I have knowed”; questo appare come uno sviluppo futuro del paradigma
del verbo). I fenomeni di variazione non prefigurano necessariamente mutamento (per -ing sopravvivono da secoli le varianti iŋ e in).
I rocessi di mutamento sono indagabili osservandone lo sviluppo temporale o esplorando in sincronia l’esistenza di differenze
generazionali; i comportamenti delle generazioni più anziane sono rappresentativi di fasi anteriori di un processo in corso. (es.
Martha’s Vineyard, pag.141)
Le dimensioni di variazione sono in rapporto tra di loro: su un primo piano c’è la variazione primaria, la diatopia, che caratterizza per
prima qualsiasi messaggio linguistico collocandolo immediatamente nei termini della provenienza geografica di un certo parlante; su
un secondo piano c’è la diastratia in cui si riconosce un insieme di tratti linguistici marcati in diatopia e alcuni di questi sono propri di
parlanti con collocazione sociale alta e altri di parlanti di collocazione sociale bassa; infine su un terzo piano c’è la variazione
diafasica che avviene all’interno delle altre due.
Campo, tenore e modo sono i tre fattori principali che intervengono a determinare la variazione della lingua:
-al campo è connessa la variazione di sottocodice: variare della lingua in dipendenza dalla natura dell’attività svolta nella situazione e
dall’argomento di riferimento del discorso; i sottocodici, detti anche linguaggi settoriali o microlingue, sono caratterizzati da un
lessico speciale connesso a particolari settori di attività; i sottocodici sono caratterizzati sul piano del lessico.
-al tenore è connessa la variazione di registro: determinata dai ruoli sociali e comunicativi dei partecipanti ad un’interazione verbale
e si manifesta nel grado di distanza sociale e comunicativa tra questi. I registri si collocano su una scala che va dal massimamente
formale al massimamente informale e toccano tutti i livelli di analisi.
-al modo è connessa la variazione scritto\parlato: lo scritto tende a condividere le caratteristiche tipiche dei registri molto formali
mentre il parlato, per via della sua natura più spontanea, tende a condividere i tratti tipici dei registri molto informali. Per quanto
riguarda la dicotomia fra scritto e parlato, occorre introdurre una quadipartizione:
- Parlato grafico = la trascrizione dei testi orali;
- Scritto grafico = la comunicazione scritta tradizionale;
- Parlato fonico = il parlato conversazionale spontaneo;
- Scritto fonico = la lettura di testi scritti o la recitazione.
Se lo scritto è la lingua della distanza comunicativa, il parlato è la lingua della vicinanza comunicativa. In questa prospettiva, scritto e
parlato si oppongono fra di loro sulla base di parametri come: - Pubblicità: alta nello scritto e bassa nel parlato; - Confidenza o
familiarità fra i partecipanti all’interazione: bassa nello scritto e alta nel parlato; - Partecipazione emotiva: nulla nello scritto e forte
nel parlato; - Prossimità fisica tra i partecipanti: nulla nello scritto e alta nel parlato; - Spontaneità della comunicazione: minima nello
scritto e massima nel parlato; - Fissazione degli argomenti: alta nello scritto e nulla nel parlato.
Diversamente dalla linguistica europea continentale, la linguistica anglosassone tende a considerare unitamente la sfera di variazione
determinata dai fattori campo, tenore e modo. Distingue tra variazione linguistica according to users (le variazioni sono dette
dialects) e variazione linguistica according to uses (le variazioni sono dette registers).
Da un punto di vista sociolinguistico, una lingua è costituita da una somma di varietà ed è data dalla somma di tratti linguistici
comuni a tutte le sue varietà più i tratti linguistici specifici di singole varietà. Si parla di diasistema: sistema costituito da un sistema
comune e da sottosistemi parziali di singole varietà. Come le varianti di una variabile, le varietà di lingua si collocano su una o più
dimensioni di variazione. Si riconoscono 4 fondamentali classi di varietà:
1) varietà diacroniche, distinte in base alla loro collocazione nel tempo (italiano delle origini, seicentesco e contemporaneo);
2) varietà diatopiche, distinte in base alle aree geografiche; sono tipiche varietà diatopiche i cosiddetti italiani regionali;
3) varietà diastratiche, distinte in base alla collocazione e all’identità sociale dei parlanti (ad esempio la varietà dei parlanti colti e la
varietà dei parlanti non istruiti);
4) varietà diafasiche, distinte in base alle situazioni comunicative; sono divisibili in registri (formale, medio e informale) e
sottocodici (la lingua della medicina o dell’informatica o dell’astronomia).
Si possono avere anche varietà marcate contemporaneamente su più dimensione di variazione. Es: gerghi: varietà di lingua al tempo
stesso diafasiche, perché legate ad attività e ambiti di vita particolari, e diastratiche, perché riconosciute e usate esclusivamente da
certi gruppi o categorie di parlanti. Es: varietà paragergali, come quelle giovanili: diastratiche e diafasiche allo stesso tempo poiché
simultaneamente connesse ad una determinata classe generazionale e a situazioni comunicative specifiche.
Una varietà di lingua è quindi definita dalla co-occorrenza di tratti linguistici in dipendenza da fattori extra-linguistici. Tale co-
occorrenza è più stabile in alcune varietà (diatopiche e diastratiche) e meno in altre (varietà di registro). Questa differenza è da
ricondurre alla natura stessa delle varietà: quelle diatopiche e diastratiche sono intimamente connesse all’identità del parlante, sono
state apprese durante la socializzazione primaria e segnano l’appartenenza ad una comunità. Le varietà di registro sono più costruite,
apprese in contesto formale.
Un dominio d’uso in cui la co-occorrenza di tratti non è regolare è la comunicazione mediata dal computer. Registra un’alternanza tra
tratti tipici di registri differenti.
L’avvento fra gli anni Ottanta e Novanta della possibilità di avvalersi come dati empirici di grandi quantità di materiali conservati
elettronicamente ha dato luogo alla nascita e alla rapida espansione della linguistica dei corpora. Un corpus in questa accezione
(diversa e più tecnica di quella vista in 6.1) è una raccolta in formato elettronico di testi orali o scritti trattati informaticamente in
modo da poter essere consultati e interrogati a scopo di ricerca.
Ricerche su testi di vario genere: parlato colloquiale, comunicazione elettronica, stampa, scrittura accademica, ecc.
Per l’italiano i corpora esistenti coprono un ampio ventaglio di varietà: i corpora di testi scritti si differenziano prevalentemente in
diafasia; i corpora di testi parlati danno conto primariamente della variazione diatopica.
Tra i principali corpora dell’italiano contemporaneo si possono menzionare, per quanto riguarda lo scritto:
– CoLFIS (Corpus e Lessico di Frequenza dell’Italiano Scritto, circa 3.800.000 parole). Testi tratti dai quotidiani, da periodici e libri,
raccolti nel periodo 1992-1994;
– CORIS/CODIS (Corpus di Riferimento dell’Italiano Scritto, circa 130 milioni di parole/Corpus Dinamico dell’Italiano Scritto, in
costante aggiornamento). Testi di narrativa, prosa giornalistica, accademica e giuridico-amministrativa raccolti negli anni ‘80 e ‘90;
– Corpus La Repubblica (circa 380 milioni di parole). Articoli pubblicati su La Repubblica nel 1985-2000;
– itWaC (Italian Web-As-Corpus; circa 2 miliardi di parole). Testi estratti dal web;
– NUNC (Newsgroup UseNet Corpus, circa 75 milioni di parole). Conversazioni tratte da gruppi di discussione telematica su vari
temi: da argomenti di politica, religione, storia, medicina, giustizia a fatti della quotidianità e avvenimenti personali.
Vi sono poi:
-corpora di italiano scritto e parlato, come il PEC (Perugia Corpus);
-corpora allestiti per consentire confronti in diacronia come DiaCORIS (Corpus Diacronico dell’Italiano Scritto) e DIA-LIT (Lessico
dell’Italiano Televisivo in Diacronia);
-corpora focalizzati su testi di altro tipo o concepiti con finalità di ricerca più mirate, come il Corpus OVI dell’italiano antico (Istituto
Opera del Vocabolario Italiano), M.I.DIA (Morfologia dell’Italiano in Diacronia), BOLC (Bononia Legal Corpus; corpus di testi
giuridici), LIPSI (Lessico di Frequenza dell’Italiano Parlato nella Svizzera Italiana), VALICO (Varietà di Apprendimento della Lingua
Italiana Corpus Online, testi scritti di apprendenti di italiano; e il consimile VINCA, Varietà di Nativi Corpus Appaiato, testi prodotti
da parlanti nativi di italiano), PAISÀ (Piattaforma per l’Apprendimento dell’Italiano Su corpora Annotati, testi tratti dal web pensato
per l’insegnamento dell’italiano);
-corpora di discorso bilingue, Kontatto e Kontatti (parlato spontaneo e semispontaneo raccolti in Trentino Alto-Adige e nei territori di
lingua ladina); ParVa, costituito di interviste a ex-partigiani originari della Val Camonica, (discorso bilingue in italiano e dialetto
bresciano).
Esistono inoltre strumenti informatici, disponibili in rete, che consentono all’utente di creare un proprio corpus: Architect (permette
di allestire un corpus a partire da documenti in vari formati) per poi renderlo interrogabile con motori del tipo di Sketch Engine.
Per molte lingue del mondo si dispone di corpora elettronici interrogabili informaticamente.
Per l’inglese contemporane:
-BNC (British National Corpus) e COBUILD (Collins Birmingham University International Language Database) Bank of English,
due corpora di testi scritti e parlati in inglese britannico;
-COCA (Corpus of Contemporary American English), testi scritti e parlati in inglese americano raccolti nel 1990-2012;
-G-loWbE (Global Web-Based English), testi estratti dalle pagine web di 20 paesi di lingua inglese.
L’interrogazione di un corpus è il rinvenimento e l’estrazione dei dati pertinenti per la ricerca che si intende svolgere; avviene
attraverso una maschera predisposta per tale operazione. La maschera consente di formulare una richiesta di estrazione, detta query,
creando una stringa in un linguaggio di interrogazione, come CQL (Contextual Query Language) o SQL (Structured Query
Language). Si forniscono le indicazioni per la creazione delle stringhe, oltre ad alcuni esempi concreti.
Es: siamo interessati a verificare la distribuzione in italiano di due forme d’uso alternativo come adolescente e teenager. Le parole di
un corpus sono etichettate per parti del discorso e lemmatizzate; dovremmo quindi poter formulare una query che richieda di estrarre
le occorrenze dei due lemmi. Le query sono scritte in CQL: (&) ha il valore di congiunzione AND, il ! sta per “non”, pos vale per
Part Of Speech, ADJ “aggettivo”, e il ? indica come opzionale la presenza dell’elemento immediatamente precedente nella stringa
(nell’esempio, il trattino). In risposta alla query si ottiene l’elenco delle occorrenze dell’elemento cercato. Può accadere che non tutti
i risultati ottenuti corrispondano effettivamente ai criteri di ricerca (es: per l’enunciato (3) adolescente è un aggettivo): le parole sono
etichettate con procedure automatiche, che comportano inevitabilmente un certo margine d’errore; è bene fare uno spoglio manuale
dei dati.
L’uso dei corpora si presta particolarmente ad analisi quantitative. Si possono confrontare corpora diversi, assunti come
rappresentativi ciascuno di una varietà specifica. Spesso, poi, ai testi contenuti in un corpus sono associate informazioni di carattere
extra-linguistico (come nel VINCA) che consente di restringere l’interrogazione a un campione di testi selezionato in base a queste
informazioni. L’analisi incorre inevitabilmente in problemi metodologici di stima della significatività quando si confrontino insiemi
di dati di dimensioni molto diverse; indicatori importanti, come il rapporto fra types e tokens sono infatti fortemente condizionati
dalle dimensioni del corpus. Sempre più spesso, anche per questa ragione, le indagini quantitative sono elaborate con metodi statistici
di analisi dei dati, che permettono di analizzare e confrontare tra di loro insiemi di dati non bilanciati.
Oltre agli studi sulla variazione onomasiologica, poi, possono basarsi su corpora anche gli studi sulla variazione semasiologica;
l’approccio più praticato è qui quello della semantica distribuzionale, che prevede modelli di analisi diversi che si fondano su una
stessa ipotesi, l’ipotesi distribuzionale: due parole hanno significati tanto più simili quanto più tendono a comparire in contesti simili.
L’ipotesi vuole che se una parola tende a comparire in contesti diversi nel corpus x e nel corpus y, allora presenta significati diversi
nelle due relative varietà di lingua. L’analisi distribuzionale può applicarsi anche alla variazione onomasiologica: in questo caso, se
due parole tendono a comparire in contesti simili nel corpus x e nel corpus y, allora c’è da attendersi che siano parole dallo stesso
significato appartenenti a due varietà di lingua diverse. Problemi metodologici: difficoltà di stabilire quali contesti linguistici siano da
considerarsi ‘simili’.
L’interrogazione di un corpus non è limitata a fenomeni di livello lessicale. Ad esempio, per i fenomeni sintattici occorre pensare a
delle query che tengano conto della co-occorrenza di varie forme; occorre spesso, inoltre, combinare più query per tenere conto di
tutti i contesti in cui un certo fenomeno si realizza. Es: superlativo relativo ordinale, si potrebbero combinare sono le seguenti:
La (|) ha il valore di OR. La prima query richiede le occorrenze di una sequenza di tre elementi: i lemmi il e la (ossia, le forme il, lo,
i, gli; e la, le) in funzione di articolo, il lemma secondo (forme flesse), e la parola più; la seconda prevede inoltre la presenza di un
nome prima dell’avverbio più. Dalle due estrazioni si ottengono enunciati come: (6) Sono il secondo più votato d’Italia al Senato (7)
facendo di New York il secondo stato più popoloso d’America (8) l’Inter è la seconda squadra più “operaia”. Occorre tuttavia tenere
conto della presenza non solo di secondo ma di un qualunque ordinale all’interno del costrutto. Quindi una stringa come:
Le indagini quantitative si servono di programmi informatici basati sulla tecnica statistica dell’analisi della regressione, che consente
di analizzare e confrontare insiemi di dati anche non bilanciati. Questi programmi effettuano un’analisi multivariata: analizzano il
rapporto di co-variazione fra una variabile dipendente e più variabili indipendenti. La variabile dipendente è generalmente binaria
(due valori) e consiste nella realizzazione o non di un fenomeno linguistico; le variabili indipendenti sono invece rappresentate dai
fattori del contesto linguistico ed extra-linguistico che entrano in gioco.
Dato un certo fenomeno, l’analisi multivariata ha come obiettivi principali:
1) stabilire quali variabili indipendenti, ovvero quali gruppi di fattori, esercitino un’influenza statisticamente significativa sulla
realizzazione del fenomeno e quali no;
2) calcolare con quale probabilità i singoli fattori influenzino, positivamente o negativamente, la realizzazione del fenomeno.
Il programma di analisi multivariata più usato è VARBRUL (variable rules), nato negli anni ‘60 e rielaborato in versioni successive,
(l’ultima è GoldVarb X). Attualmente si preferiscono: Rbrul, R o SPSS, che consentono di ovviare ad alcuni problemi di GoldVarb X
riguardanti la stima della significatività statistica dei fattori.
Rbrul (scritto nel linguaggio di programmazione R), si differenzia da un programma come GoldVarb X per alcune caratteristiche.
GoldVarb X presuppone che i dati da analizzare siano indipendenti l’uno dall’altro, mentre nella realtà più dati sono in relazione
poiché prodotti da uno stesso informatore. GoldVarb X assume che ciascuna occorrenza del fenomeno analizzato sia riferita a un
informatore diverso, azzerando la rilevanza della fonte; però quando più occorrenze sono prodotte invece da uno stesso informatore,
la significatività statistica delle variabili indipendenti viene sovrastimata.
Per ovviare al problema, Rbrul si basa su un modello di analisi della regressione detto modello a effetti misti o modello misto: esso
distingue e considera due tipi diversi di ‘effetti’, effetti fissi (prodotti da variabili indipendenti quali, nel caso d’esempio, struttura del
SN, adiacenza fra verbo e sintagma nominale, variabilità diafasica, ecc, definite ciascuna da un determinato insieme di valori) ed
effetti casuali (es. gli effetti causati dalla variazione interindividuale). Un modello misto concepisce la variazione interindividuale
come un elemento in grado di condizionare gli esiti dell’analisi; la correlazione tra un fenomeno e le caratteristiche sociali dei
parlanti può talvolta essere riducibile a comportamenti di singoli individui, quindi non dipende dall’esistenza di fattori sociali di
variazione (quindi non statisticamente significativa, ma casuale).
A differenza di GoldVarb X, inoltre, Rbrul non richiede la creazione di un token file poiché può decifrare documenti in vari formati
(es. Excel) e può analizzare il comportamento non soltanto di variabili a due valori ma anche di variabili con un insieme continuo di
valori, variabili sia dipendenti (es. altezza relativa di pronuncia di una sillaba) sia indipendenti (es. età degli informatori).
Nel caso di variabili binarie, Rbrul, come GoldVarb X, usa la regressione logistica ed esegue un’analisi binomiale di tipo
step-up/step-down per stabilire quale sia la configurazione di variabili più adeguata.
In tabella i risultati di un’analisi multivariata effettuata con Rbrul, su una parte dei materiali raccolti in ParVa.
Realizzazione di costruzioni relative [+Caso], ossia che indicano esplicitamente la funzione sintattica dell’elemento relativizzato (ad
es. attraverso un pronome clitico, la ragazza che le ho spedito la lettera), nell’italiano popolare di un campione di parlanti del corpus.
La tabella riporta il valore di devianza, che fornisce una stima della qualità del
modello statistico; il valore di Input; e, per quanto riguarda gli ‘effetti fissi’, il
Range di ogni variabile indipendente significativa (in tabella non compaiono le
variabili non significative) e i ‘pesi’ associati a ciascun fattore.
I fattori che più esercitano un effetto positivo sulla realizzazione delle
costruzioni relative sub-standard sono: la funzione di locativo dell’elemento
relativizzato (peso 0,792), l’essere animato (peso 0,702) e il non essere
adiacente al subordinatore (peso 0,68). In tutti e tre i casi, esplicitare la
funzione sintattica dell’elemento relativizzato previene ambiguità date dalla
scarsa trasparenza del caso del nominale, quando questo presenta tratti propri
del sogg canonico (come l’animatezza), e dalla ‘distanza’ che intercorre tra il
nominale e la frase relativa (come quando testa e subordinatore non sono
adiacenti).
Un’analisi multivariata basata su un ‘modello a effetti misti’ consente di
valutare se i risultati siano condizionati da ‘effetti casuali’ dovuti ad es. alla
variazione interindividuale. L’incidenza di effetti casuali è stimata sulla
deviazione standard, indice di dispersione dei dati rispetto a un valore centrale.
Nel nostro caso, la correlazione tra costruzioni relative [+Caso] e le variabili
indipendenti non è riducibile a comportamenti di singoli individui (valore 0); il
comportamento è omogeneo tra i parlanti del campione.
Test di significatività statistica noto come test del chi-quadro: è utile quando si confrontano due o più insiemi di dati rispetto alla
presenza di un certo fenomeno per verificare che le differenze osservate non siano casuali. Il test è indipendente da programmi come
GoldVarb e Rbrul; può essere utilizzato anche con strumenti più semplici come Excel.
Vediamone un’applicazione. Supponiamo di voler indagare quantitativamente la diffusione del costrutto di tipo c’è tre libri, e la sua
distribuzione nel C-ORAL-ROM (corpus LIP).
Il test del chi-quadro consente di stabilire se le differenze riscontrate possano essere casuali (ipotesi zero) oppure no; se non sono
casuali, si possono ritenere statisticamente significative. Nell’esempio, ci può dire se la presenza maggiore del fenomeno nell’italiano
parlato a Firenze sia o non sia dovuta al caso, e quindi se non vada o vada interpretata sociolinguisticamente. Calcoliamo i dati che
otterremmo se la differenziazione geografica non avesse effetto sulla realizzazione del fenomeno; questi dati sono detti dati attesi: si
registrano 73 casi di non accordo su 539 contesti indagati (percentuale di realizzazione del 13,54%, indipendentemente dallo
specifico corpus indagato e da fatti di variazione diatopica). Per ottenere il numero di casi attesi di non accordo per ciascun corpus, si
può moltiplicare per questo valore percentuale il numero dei contesti indagati nei rispettivi corpora; il numero di casi attesi di
accordo, a questo punto, può essere ottenuto semplicemente per sottrazione dal totale.