Sei sulla pagina 1di 15

MANUALE DI SOCIOLINGUISTICA

Berruto, Cerruti

3. Sociologia delle lingue

3.1 Status e funzione di una lingua


Ci sono due concetti basilari per stabilire la posizione sociale occupata da una lingua:
-status: definito dagli usi a cui una lingua può adempiere in una certa comunità;
-funzione: definita dagli usi a cui questa effettivamente adempie.
In altre parole per status si intende ciò che si può fare con una lingua in una comunità e per funzione ciò che con la lingua davvero si
può fare su tutti i piani di una comunità. Tuttavia può accadere che la funzione corrispondente ad un determinato status di una lingua
non si realizzi (es: gaelico irlandese, lingua ufficiale dell’Irlanda insieme all’inglese, ma non viene utilizzata proprio per la
prevalenza dell’inglese), quindi lo status e la funzione di una lingua sono in relazione con il prestigio di cui gode tale lingua.
Per avere un certo status una lingua deve possedere gli attributi necessari per soddisfare gli usi a cui è destinata; questi sono fattori di
carattere geo-politico, socio-demografico e linguistico. Gli attributi servono ad individuare il tipo funzionale di lingua, identificato in
base al genere di usi a cui una lingua è destinata.
I fattori geo-politici sono: a) la diffusione geografica, b) le istituzioni di riferimento, c) lo statuto giuridico.
-In base alla diffusione geografica possiamo parlare di lingua pluricentrica, lingua nazionale in più Paesi, nei quali ha sviluppato
varietà standard in parte diverse le une dalle altre (es: tedesco lingua nazionale in Germania, Austria e Svizzera). I diversi centri
possono essere più o meno autonomi nell’elaborazione della norma (endonormatività ed esonormatività). Il motivo della formazione
delle lingue pluricentriche può essere: colonizzazione, immigrazione, la separazione politica.
-Altri tipi funzionali di lingua riguardano i sistemi sociali, ad esempio esistono le lingue di lavoro, usate in ambito ufficiale presso un
ente internazionale come l’ONU (ha come lingue di lavoro l’arabo, il cinese, l’inglese, il francese, il russo e lo spagnolo) e l’Unione
Europea (ha tutte le lingue nazionali ufficiali dei paesi membri che sono 24, ma quelle veramente usate sono l’inglese, il tedesco e il
francese).
-Si definisce invece lingua internazionale una lingua adibita alla comunicazione fra stati o istituzioni internazionali; la lingua
internazionale per eccellenza oggi è l’inglese.
-Per lingua nazionale s’intende una lingua che sia espressione del senso di appartenenza nazionale della comunità che la usa
(concezione della lingua come simbolo della Nazione nata nel Romanticismo, caratteristica dello Stato moderno).
-In base allo statuto giuridico e legale di una lingua, si può distinguere tra lingue riconosciute legislativamente e lingue non
riconosciute legislativamente. Fra le lingue riconosciute legislativamente ci sono le lingue ufficiali, lingue dell’amministrazione
statale, adibite agli usi governativi e alle comunicazioni internazionali; una nazione può avere più lingue ufficiali (Svizzera ne conta
4). Può succedere che se in uno Stato ci sono più lingue ufficiali, solo una è lingua nazionale (Lussemburgo le lingue ufficiali sono il
francese, il tedesco e il lussemburghese, ma solo il lussemburghese è lingua nazionale). Si parla anche di lingue ufficiali regionali,
ufficiali soltanto in alcune regioni di uno Stato (basco).
-Lo status di una lingua è definito anche da fattori di ordine demografico: rispetto al numero relativo di parlanti è importante il
concetto di lingua minoritaria, usata da una comunità di parlanti in una situazione di minoranza demografica all’interno di uno Stato
(84 lingue minoritarie in Europa - arabo in Spagna, italiano in Croazia e Slovenia). Riguardo al numero assoluto di parlanti esistono
lingue grandi parlate da centinaia di milioni di persone nel mondo (cinese e inglese), medie parlate da decine di milioni di persone
(tedesco italiano e francese), medio-piccole parlate da pochi milioni di persone (danese e armeno) e piccole parlate da migliaia o
centinaia di persone (romancio).
-Quanto al tipo di parlanti, si parla di lingua vernacolare, parlata in un Paese da gruppi di parlanti nativi e di lingua franca, usata per
la comunicazione tra parlanti con LM diverse (principali lingue franche affermatesi storicamente: lingue del culto religioso come il
sanscrito l’arabo e il latino, dal Novecento l’inglese).
-Per quanto riguarda i domini, ci sono lingue che possono essere usate in tutti i domini di una comunità e lingue che ricoprono solo
alcuni usi. Più un repertorio è plurilingue, più le sue lingue saranno distribuite in domini diversi.
-Un ultimo gruppo di attributi sono:
1) Il grado di elaborazione, rimanda al concetto di lingua per elaborazione (Ausbau), dotata di un sistema di scrittura consolidato e
che soddisfi tutte le esigenze di una società legate ad attività sociali, culturali e scientifiche. Raggiungono il grado massimo di
elaborazione le lingue che sono usate per pubblicare testi a tutti i livelli di sviluppo, per ogni argomento.
2) Il grado di standardizzazione è un parametro determinante per lo status di una lingua ed è inteso come un processo diviso in 4 fasi:
una prima (selezione) in cui si scelgono delle varietà di lingua alla base dello standard, una seconda (codificazione) in cui si fissa il
corpo di regole normative, una terza (implementazione) consiste nella diffusione e accettazione della norma in una comunità, e una
quarta (elaborazione) in cui si sviluppano le funzioni e i domini di impiego della nuova norma. La cosa importante è che il processo
di standardizzazione può ridefinire sempre ciò che è standard e ciò che non è standard.
3) La vitalità di una lingua va intesa in due sensi:
- la vitalità esterna (sociolinguistica) si fonda sugli usi di una lingua nella società e sulla continuità della sua trasmissione da una
generazione all’altra;
- la vitalità interna (linguistica) riguarda il mantenimento delle caratteristiche strutturali e semantiche di una lingua e la produttività
delle sue regole; se una lingua non è vitale allora è minacciata cioè perde progressivamente i domini di impiego e i parlanti correndo
il rischio di estinguersi.
Il grado di vitalità può essere misurato in base ad alcuni parametri (vedi pag.68).
3.2 Lingua standard, dialetto, lingua minoritaria
Una lingua standard è una lingua che ha una varietà standard, che dispone di una norma codificata, che vale come modello di
riferimento per l’uso corretto della lingua, che ha carattere simbolico di identificazione unitaria. La varietà standard unifica la
popolazione che si riconosce nell’uso di quella lingua: le diverse produzioni socio-geografiche di parlanti di una stessa lingua sono
neutralizzate davanti allo standard. Il concetto di standard può essere assunto in prospettiva prescrittiva (insieme delle norme di
riferimento che regolano l’uso corretto di una lingua) e descrittiva (insieme di tratti linguistici unitari condivisi da un’intera
comunità, privi di marcatezza sociolinguistica). Alcuni attributi consentono di definire la nozione di standard; lo standard è:
1) codificato, è definito cioè dall’esistenza di regole normative di riferimento e sono fissate nelle grammatiche e nei dizionari;
2) sovraregionale, le norme che costituiscono lo standard sono diffuse in maniera indifferenziata in tutto il territorio nazionale;
3) elaborato, adatto a tutti gli usi e a tutti i domini di impiego di una lingua;
4) di prestigio, l’uso della varietà standard è praticato principalmente dai ceti sociali alti e con un grado elevato di istruzione;
5) invariante, è uniforme, non prevede la scelta di regole diverse da quelle codificate e non conosce variazione interna;
6) stabile e flessibile, è fissato su stabilmente in sincronia, ma può essere soggetto a cambiamento in diacronia;
7) scritto poiché lo standard esiste principalmente in forma scritta.
Tra tutti questi attributi il più importante è la codificazione.
Il concetto di standard è quindi plurifattoriale e la sua formazione è un processo che si caratterizza per l’intervento di più agenti.
4 forze sociali dirette:
- I parlanti e gli scriventi professionisti (autori classici e contemporanei, giornalisti) che forniscono testi modello ossia testi esemplari
per la codificazione;
- I codici linguistici cioè grammatiche e dizionari, che fissano il corpo di regole normative;
- Le autorità normative, (insegnanti, hanno il compito di correggere gli usi linguistici devianti);
- Gli esperti di lingua (linguisti) che giudicano dell’appartenenza di tratti linguistici allo standard.
In modo indiretto partecipano anche i parlanti comuni e i loro comportamenti linguistici.
Il processo può essere diverso a seconda che lo standard si sviluppi spontaneamente (processo innescato dalla produzione di testi di
autori, parlanti e scriventi professionisti, che vengono presi come modello; seguirà poi l’elaborazione del codice e l’intervento degli
esperti è successivo) o sia creato artificialmente (processo avviato proprio dagli esperti che predispongono una norma standard e
azioni mirate di pianificazione linguistica; caso tipico delle lingue minoritarie e lingue etniche prive di tradizione scritta).

Alla nozione di lingua standard si oppone quella di dialetto, sistema linguistico subordinato ad una lingua standard con la quale è
strettamente imparentato e in confronto alla quale ha una diffusione areale più limitata; un dialetto ha una propria storia e una propria
struttura diversa dallo standard (dialetti italo-romanzi sono subordinati all’italiano nel senso che il dialetto copre gli usi bassi , mentre
lo standard è per gli usi alti). I dialetti italo-romanzi sono dialetti primari, varietà sorelle dell’ita (hanno distanza strutturale e una
propria storia autonoma e parallela al dialetto che poi è diventato lingua standard → il fiorentino venne progressivamente ad
acquisire prestigio fino ad essere codificato come italiano standard nel Cinquecento. Gli atri volgari rimasero non standardizzati e
sono oggi continuati dai nostri dialetti).

Lingua per distanziazione (Abstand), riconosciuta come lingua a sé in virtù delle proprie caratteristiche strutturali che la
differenziano da altre lingue. La distanza linguistica è tuttavia difficile da quantificare e per fare una valutazione attendibile si deve
tener conto di criteri sociologici (grado di reciproca comprensibilità tra i parlanti di sistemi linguistici diversi) e criteri linguistici
(differenze tra il lessico fondamentale e tutti gli altri livelli di analisi). Il riconoscimento per lingue per distanziazione e lingue per
elaborazione danno luogo a 3 classi prototipiche in cui rientrano tutte le lingue naturali:
1. lingue sia per distanziazione che per elaborazione (si differenziano per la loro struttura e soddisfano tutti i bisogni di una società);
2. lingue per distanziazione (lingue indigene dell’Africa, Asia e Oceania);
3. lingue per elaborazione (slovacco, ceco, serbo, croato), non si distinguono per caratteristiche strutturali, ma hanno sviluppato un
grado di elaborazione e un proprio standard autonomamente.
Queste categorie non sono così categoriche ma sfumano l’una nell’altra in un continuum.

Come ogni lingua, anche un dialetto ha delle variazioni interne, è quindi articolato al suo interno in varietà. La variazione interna è
molto evidente in un dialetto, considerando che esso è impiegato quasi unicamente nel parlato che non è esposto all’azione di regole
normative codificate. Per definizione, un dialetto è poco o per nulla codificato e quindi non è standardizzato. Può anche accadere che
per ragioni culturali e letterarie o anche politiche, un dialetto acquisisca prestigio guadagnando cioè uno status in modo da poter
essere utilizzato negli usi alti e quindi viene codificato come standard; a questo punto un dialetto diventa esso stesso una lingua
standard (es: fiorentino e dialetti cinesi pag. 76). La differenza tra lingua e dialetto infatti è di natura sociale e sociolinguistica,
riguarda la posizione sociale occupata da un sistema linguistico in una comunità e non la struttura di quel sistema linguistico.
Concezione anglosassone dei dialetti: dialects sono quelle varietà che risultano dalla differenziazione geografica e sociale di una
certa lingua per effetto della diffusione di questa sul territorio e sono varietà definite in relazione ai parlanti. Registers sono invece
varietà definite in base agli usi.

È importante stabilire la differenza tra dialetti primari, secondari o terziari (Coseriu):


- Dialetti primari: idiomi coevi del dialetto dal quale si è sviluppata la lingua standard e quindi già esistevano prima della
promozione di questo a standard (dialetti italo-romanzi);
- Dialetti secondari e terziari: sono varietà geografiche di una lingua. Più precisamente i dialetti secondari risultano dalla diffusione
di una lingua comune mentre i dialetti terziari dalla diffusione di una lingua standard; i dialetti terziari sono proprio le varietà
regionali di italiano cioè gli italiani regionali.
Auer propone 5 configurazioni di collocazione reciproca di lingua standard e dialetto, ciascuna caratterizzata da dinamiche
linguistiche e sociolinguistiche, e correlata a realtà nazionali o regionali e a tipi diversi di repertorio linguistico.
1- Diaglossia: propria di molte situazioni sociolinguistiche europee, contraddistingue due tipi di repertorio linguistico: dilalìa e
bidialettismo. La diaglossia è rappresentata come un cono al cui vertice c’è lo standard, che è unitario e destinato agli usi alti, alla
base (rappresentante lo spazio geografico) ci sono i dialetti, propri degli usi bassi; alla base del cono c’è anche una freccia rivolta
verso l’alto che illustra il processo di convergenza verticale, cioè come i dialetti tendano a svilupparsi linguisticamente in direzione
della lingua standard portando così alla riduzione delle differenze strutturali tra due sistemi. Questo processo forma un continuum di
varietà intermedie, i regioletti, varietà socio-grafiche della lingua standard, si contraddistinguono per la presenza di tratti derivati dai
dialetti. Prototipicamente nella convergenza, l’avvicinamento strutturale è reciproco, ma nel modello di Auer è unilaterale dai dialetti
verso la lingua standard; in casi come questi in cui uno dei due sistemi linguistici rappresenta il modello verso il quale l’altro sistema
si orienta si parla più propriamente di advergenza. Lo standard, come indica la freccia al vertice del cono, tende progressivamente a
guardare verso il basso mostrandosi ricettivo nei confronti di tratti linguistici delle diverse varietà regionali. La diaglossia prevede
infatti la formazione di standard regionali: all’interno di una certa area geografica, l’impiego di alcuni tratti regionali tende a
convenzionalizzarsi e ad essere accettato anche negli usi “alti”.

Lo standard e i dialetti a volte si trovano a convivere con lingue minoritarie, parlate da comunità che prendono il nome di minoranze
linguistiche. Le lingue minoritarie sono parlate da comunità radicate storicamente in un territorio, mentre le lingue di immigrazione
sono dovute appunto a processi migratori più recenti. In Italia, le lingue minoritarie riconosciute e tutelate dalla costituzione sono:
tedesco, francese, croato, sloveno, ladino, sardo, friulano, francoprovenzale, occitano, catalano, grico, albanese (i dialetti sinti sono
lingue minoritarie, ma non sono riconosciute). Una lingua minoritaria non per forza non è imparentata alla lingua ufficiale dello
Stato. Le lingue minoritarie sono particolarmente inclini a diventare lingue minacciate o lingue in via d’estinzione: si tratta di lingue
che perdono progressivamente domini di impiego e parlanti perché esposte alla presenza di una lingua socialmente e culturalmente
dominante cioè la lingua ufficiale dello Stato; quello che fa la differenza è anche il senso di appartenenza e di identità culturale dei
parlanti (sardo e friulano sono considerate lingue autonome per un fatto di autonomia strutturale – hanno molti tratti specifici e
conservativi -, ma anche per questioni di autonomia culturale, connessi ad un forte sentimento autoidentitario).
Inoltre, alcune lingue minoritarie si definiscono in relazione a entità politicoamministrative di altra natura rispetto a quella di uno
Stato. È il caso ad esempio delle cosiddette eteroglossie interne in Italia ovvero quei dialetti italo-romanzi parlati in aree geografiche
nelle quali il dialetto di riferimento delle aree circostanti è storicamente un altro (Tabarchino, Carloforte, Calasetta).
Un aspetto rilevante nei rapporti tra lingue, dialetto e lingua minoritaria, è il concetto di copertura: una lingua, nel territorio in cui è
parlata, ha un’altra lingua strettamente imparentata con essa come lingua di cultura e modello normativo di riferimento, cioè una
lingua ha “sopra di sé” una lingua ad essa imparentata utilizzata sia nella scuola che nell’amministrazione; questa lingua
sovraordinata è chiamata lingua tetto, mentre la lingua subordinata è detta lingua con tetto o coperta (italiano lingua tetto dei dialetti
italo-romanzi; la stessa cosa non si può dire per tutte le lingue minoritarie perché in alcuni casi queste non sono strettamente
imparentate con la lingua tetto. Vi sono tuttavia estensioni del concetto che prescindono dal requisito di parentela stretta).
La pressione sociale di una lingua sovraordinata può minacciare la vitalità di una lingua subordinata. La lingua dominante può
comportare una riduzione della distanza linguistica con le lingue a lei subordinate.
3.3 Repertori linguistici e plurilinguismo
Il repertorio linguistico è l’insieme delle lingue e delle loro varietà usate da una certa comunità linguistica. Si possono avere sia
repertori monolingui sia repertori plurilingui (plurilinguismo è un termine comune per designare sia le situazioni bilingui che quelle
multilingui). Una distinzione preliminare è quella tra bilinguismo sociale (riferimento ad una comunità o un gruppo), e tra
bilinguismo individuale (riferimento ad un solo individuo). È multilingue il repertorio linguistico della comunità italiana (italiano,
dialetti italo-romanzi, minoritarie). Alcuni es. pag. 82-83
I repertori plurilingui presentano una certa configurazione di dominanza cioè una distribuzione funzionalmente indotta, che vede in
determinate situazioni una lingua dominare sull’altra o sulle altre in base a criteri come la frequenza d’uso, le funzioni a cui è adibita
e l’utilità nella comunicazione (repertorio ita: configurazione di dominanza molto netta in cui la lingua di gran lunga dominante è
sempre l’ita). Molti repertori presentano una stratificazione delle lingue per diversi livelli sociali e gradi di prestigio di cui la lingua
fruisce, che la collocano in usi bassi o alti; per rendere conto di questa stratificazione si utilizzano delle schematizzazioni a gradini.
Queste prevedono due gradini fondamentali (A e B), a cui nelle situazioni di repertori complessi viene aggiunto un gradino M. Si
possono trovare anche più lingue su uno stesso gradino, che verrà così definito sovraccarico.

Occorre anche distinguere tra repertorio linguistico comunitario dal repertorio linguistico individuale. Il repertorio linguistico
dell’individuo può essere anch’esso monolingue e plurilingue e si caratterizza per l’esistenza di rapporti gerarchici tra le lingue a
disposizione; un parlante non ha accesso a tutte le lingue del repertorio della comunità.
Introduciamo ora alcune distinzioni utili a definire tipi diversi di bilinguismo cioè di compresenza di due o più lingue:
1) - bilinguismo endogeno: indica la compresenza storicamente radicata di due o più lingue;
- bilinguismo esogeno: indica la compresenza di due o più lingue dovuta da un apporto esterno immigratorio in età contemporanea.
(es: in Italia c’è bilinguismo endogeno - italiano e dialetti italo-romanzi – e esogeno -lingue di immigrazione).
2) - bilinguismo monocomunitario: in uno Stato o in una regione sono parlate due o più lingue e quasi tutti i parlanti di quella
comunità sono bilingui (es: Lussemburgo: c’è francese, tedesco e lussemburghese).
- bilinguismo bicomunitario: in una certa regione esistono due o più sotto-comunità diverse nelle quali si parlano lingue diverse e
gli abitanti bilingui sono pochi (es: Cipro: greco e turco).
3) - bilinguismo di diritto: la compresenza di due lingue è riconosciuta ufficialmente nella legislazione e nelle istituzioni;
- bilinguismo di fatto: manca di riconoscimento giuridico (es: Grecia: il bilinguismo delle comunità di lingua turca, bulgara, albanese
e macedone è soltanto di fatto poiché il greco è l’unica lingua a godere di riconoscimento ufficiale).
In una comunità le lingue occupano posti sociali diversi a seconda dei loro usi (status e\o funzione); infatti esistono tipi funzionali di
repertorio linguistico e si può distinguere tra:
- Bilinguismo sociale: non prevede una distribuzione funzionale gerarchica delle lingue; vi è la compresenza di due lingue diverse
sia per distanziazione che per elaborazione e vengono utilizzate senza differenziazione funzionale tra usi alti e usi bassi nel parlato e
nello scritto (es: Valle d’Aosta: bilinguismo sociale italiano/francese anche se l’italiano è molto più utilizzato del francese); c’è una
sovrapposizione generale dei domini d’impiego.
- Un tipo di repertorio che si basa sulla compresenza di lingue differenziate. SI riconoscono tre tipi di repertori di questo genere:
- Diglossia: ci sono due lingue relativamente lontane sul piano strutturale, delle quali soltanto una lingua (A) è pienamente elaborata
e standardizzata, gode di una prestigiosa tradizione letteraria, è appresa attraverso la scolarizzazione (non nella socializzazione
primaria), ed è usata esclusivamente nello scritto e nel parlato formale, non nella conversazione ordinaria; l’altra lingua (B) è appresa
nella socializzazione primaria ed è usata dalla comunità solo nel parlato informale, senza sovrapporsi alla lingua più “alta” (es:
italiano (lingua A) e dialetti italo-romanzi (lingua B) fino all’800, oppure francese (lingua A) e creolo (lingua B) ad Haiti);
- Dilalia: si oppone alla diglossia e si ha quando all’interno di una stessa comunità sono compresenti due lingue strutturalmente
diverse. Soltanto A ha carattere sia di Ausbau sia di Abstand; vi è una chiara distinzione funzionale tra lingua per gli usi alti e lingua
per gli usi bassi. Tuttavia, pur essendo chiare questa differenziazione funzionale, la dilalia non è compartimentata in modo rigido
come la diglossia: esistono domini in cui l’uso di una delle due lingue è esclusivo, ma anche domini in cui sono usate e accettate
entrambe le lingue (sia A che B sono impiegate nella conversazione ordinaria, usate in modo alternato anche con commutazioni di
codice), dando vita ad un continuum di varietà intermedie (es: Germania: tedesco (lingua A) e i dialetti (lingua B) ad eccezione delle
grandi città che tendono al monolinguismo);
- Bidialettismo: quando nel repertorio coesistono non due lingue strutturalmente diverse, ma due varietà di una stessa lingua: una
varietà standard A e una o più varietà geografiche e sociali B, ed esistono domini in cui sono usate sia A che B (non si parla di
bilinguismo in questo caso perché non si tratta di due lingue diverse, ma di due varietà di una stessa lingua). Di solito solo B è
impiegata nella comunicazione ordinaria perché non è standardizzata, è socialmente marcata e non è soggetta a tentativi di
promozione come varietà alternativa ad A come succede per diglossia e dilalia (es: Inghilterra, centri urbani della Francia, Roma e
Toscana).

Ulteriormente parliamo di:


Diacrolettia: simile alla dilalìa, ma nella diacrolettia c’è la compresenza di A e B non negli usi bassi, ma nello scritto e negli usi alti.
La diacrolettìa rappresenta in sociolinguistica un’invasione nei domini alti linguistici della varietà B, mentre la dilalìa rappresenta
un’invasione di A nei domini bassi di una varietà. La diacrolettia pare in espansione in Europa, specie nei territori in cui sono mutati i
rapporti di forza tra le lingue a causa di cambiamenti politici, ideologici e di pianificazione linguistica.

Accade spesso che un repertorio evolva in diacronia in direzione di un altro tipo:


Italiano: bidialettismo latino tardo\latino volgare (Alto Medioevo) → diglossia latino\volgari romanzi → diglossia italiano\dialetti
(1500) → dilalia italiano\dialetti (1900)
3.4 Contatto linguistico
La compresenza di due o più lingue nel repertorio linguistico di una comunità o di un individuo e l’esistenza di rapporti tra comunità
o individui di lingue diverse dà luogo a una situazione di contatto linguistico, che può essere considerata dalla prospettiva:
-dei parlanti: due lingue sono in contatto quando sono padroneggiate entrambe in qualche misura da uno o più parlanti;
-del sistema linguistico: due lingue sono in contatto quando le loro strutture sono esposte all’azione dell’una sull’altra, cioè quando
sono soggette al trasferimento dall’una all’altra di elementi linguistici.
Due o più lingue possono essere in contatto tra loro anche in assenza di parlanti bilingui; è sufficiente che sussistano dei rapporti tra
comunità o parlanti di lingue diverse tali per cui una lingua sia rappresentata in qualche ambito di usi presso una comunità di un’altra
lingua, affinché si parli di contatto linguistico. Si può dire che la gran parte delle lingue del mondo oggi è a contatto con l’inglese a
prescindere dall’esistenza di situazioni individuali di bilinguismo con l’inglese.
Si hanno situazioni di contatto differenti in dipendenza da fattori sociali e culturali:
-contatto orizzontale: le lingue coinvolte sono comparabili sul piano del prestigio e dell’importanza socioeconomica e culturale;
-contatto verticale: una delle due lingue ha un prestigio maggiore ed è socio-economicamente e culturalmente dominante.
-contatto duraturo o transeunte: stabile nei secoli o circoscritto ad un periodo momentaneo.
-contatto intensivo o occasionale: rapporti fra i parlanti fitti e continui o scarsi e superficiali.
-contatto unidirezionale: una sola delle due lingue in contatto ad accoglie elementi dall’altra;
-contatto bidirezionale: il trasferimento di elementi è reciproco e nel momento in cui un elemento viene trasferito da una lingua ad
un’altra, la lingua che dà l’elemento è detta lingua fonte, mentre la lingua che riceve è detta lingua ricevente.
Vedi es sui tipi di contatto dell’ita, pag. 92

Il contatto tra lingue dà luogo ad un’ampia gamma di fenomeni linguistici.


1.Contatto nel sistema: nelle strutture del sistema linguistico: -materiale di superficie (materiale linguistico realizzato
foneticamente - parole, morfemi, fonemi);
-piano profondo (pattern strutturali astratti – categorie
grammaticali, proprietà, regole, significati);
2.Contatto nel discorso: nell’uso effettivo, nelle situazioni comunicative.

1.I fenomeni di contatto nel sistema possono prendere anche il nome di:
-Prestito (materiale superficiale, replicazione di materiale): il caso più tipico di prestito è il trasferimento di elementi lessicali; il
prestito di parole è tipico nel funzionamento di ogni lingua; quasi sempre i prestiti subiscono, anche parzialmente, un adattamento
alle regole della lingua ricevente, finendo così per essere integrati nel sistema. L’adattamento può avvenire a livello fonetico (pasol) o
morfologico (linkare)
-Interferenza (piano profondo, replicazione di schemi strutturali): il caso più tipico di interferenza lessicale è quello del calco, che
può essere strutturale (cambia la struttura interna della parola – skyscarper, la struttura si conforma all’ordine della LR, o bagno
schiuma, mantiene l’ordine della LF) o semantico (cambia il significato della parola – label, etichetta prende in ita anche il
significato en di ‘casa discografica’). L’interferenza può anche avvenire ad altri livelli di lingua, come quello sintattico: avremo
quindi delle strutture tipiche della LF replicate con materiale ita: doppia interrogativa, superlativo relativo ordinale, grazie di\per +
infinito con valore causale e temporale di posteriorità.
Questi fenomeni di contatto nel sistema non presuppongono necessariamente il bilinguismo dei parlanti.

2.Le manifestazioni del contatto nel discorso vengono trattate sotto il nome di code switching, che comprende diversi tipi di
fenomeni:
- Alternanza di codice: lingue diverse nello stesso discorso con interlocutori diversi, a ciascuno dei quali ci si rivolge in una lingua;
- Code switching: con uno stesso interlocutore si producono frasi in lingue diverse (commutazione al confine di frase);
- Code mixing: con uno stesso interlocutore si usano diverse lingue in una stessa frase (commutazione entro i confini di frase);
- Tagswitching (commutazione extrafrasale): la commutazione di codice coinvolge elementi non integrati nella struttura sintattica
frasale, come interiezioni e marcatori discorsivi (tag nel senso di ‘frase fatta’).
- Ibridismi: manifestazioni del contatto al di sotto del livello della parola: parole costruite con morfemi provenienti da due lingue
diverse (ad esempio dribblare che significa effettuare un dribbling).

Nel code mixing e negli ibridismi i passaggio da una lingua all’altra non hanno significato comunicativo o pragmatico, mentre negli
altri casi si; la commutazione diventa veicolo di informazioni simboliche, pragmatiche conversazionali ed è socio-funzionalmente
motivata. (es. pag. 95-96) Per dar conto dell’interazione e della compenetrabilità delle lingue in contatto sono stati elaborati alcuni
modelli, tra cui il MLF. (discorso su MLF)
Nella commutazione di codice, il passaggio da una lingua all’altra non è obbligatorio, ma è una scelta del parlante. Quando inizia a
diventare obbligatorio si parla di fused lect. Esso è ancora un fenomeno del contatto nel discorso, ma è un primo passo verso la
neutralizzazione della differenza tra fenomeni nel discorso e fenomeni nel sistema (stesso discorso vale per gli ibridismi quando da
sporadici iniziano a fissarsi nel sistema).

Il contatto, facendosi via via più pervasivo può dar luogo ad una fusione tra le lingue, con una ristrutturazione dei sistemi di partenza.
La nascita di lingue è infatti uno dei possibili esiti del contatto linguistico. Si parla in questi casi di lingue di contatto, cioè lingue
nate dal contatto con altre lingue, formate da elementi non riconducibili primariamente ad un’unica lingua. Si distinguono in:
- Lingua mista: nasce in situazioni di plurilinguismo per ragioni comunicative differenti ( esigenza di un gruppo di disporre di un
we-code, fedeltà verso una lingua in regressione) e si compone di forme e strutture provenienti da due lingue. In alcuni casi la
grammatica proviene da una lingua e il lessico dall’altra (language intertwining) e in altri casi le due lingue di partenza
contribuiscono entrambe sia alla grammatica sia al lessico (plain mixed languages).
- Pidgin: nasce per adempiere alla comunicazione tra gruppi di parlanti con lingue materne diverse, tipiche di situazioni migratorie o
coloniali, e funziona quindi da lingua franca. Nasce per soddisfare bisogni comunicativi essenziali relativi a rapporti di lavoro o di
commercio. Ha un sistema linguistico semplificato, presenta fenomeni di semplificazione che rendono la grammatica autonoma e ben
diversa da quella delle lingue di partenza (questo è il carattere principale che distingue un pidgin da una lingua mista). Il lessico
solitamente proviene dall’esolingua, che prende il nome di lingua lessicalizzatrice. Tra i pidgin i più importanti c’è il Tok Pisin
(Papua Nuova Guinea). Un pidgin per definizione non ha parlanti nativi, non è LM di un gruppo di parlanti. Col tempo tuttavia il
pidgin può essere trasmesso come lingua materna presso una comunità di parlanti: quando ciò accade, un pidgin si sviluppa in creolo.
- Creolo: lingua materna e strumento di comunicazione principale di una comunità; utilizzato non solo per i bisogni comunicativi
essenziali, ma ha domini di impiego diversificati e sviluppa un lessico e una grammatica più elaborati di quelli del pidgin. Creoli
principali: haitiano e giamaicano.

L’altro esito estremo del contatto linguistico è la morte di una lingua: una lingua minacciata che sotto la pressione di una lingua
socialmente e culturalmente dominante perde progressivamente domini di impiego, può finire per non avere più parlanti nativi e
quindi estinguersi. Questo processo di regressione o obsolescenza linguistica è provocato dal ridursi delle motivazioni effettive di
impiego di una lingua e quindi dal venir meno della volontà dei parlanti di trasmettere quella lingua alle generazioni successive. Il
termine che denota il realizzarsi del processo a livello di repertorio linguistico è sostituzione linguistica e può interessare una o più
comunità linguistiche. In Italia molte lingue minoritarie e vari dialetti sono interessati da processi di obsolescenza.
A volte gli stessi parlanti competenti iniziano ad averne una competenza sempre più parziale e ridotta; la lingua inizia quindi a subire
cambiamenti linguistici profondi e alcuni suoi settori si impoveriscono, le sue strutture linguistiche sono in decadimento. Si parla in
questi casi di decadenza linguistica (es: East Sutherland Gaelic). Quando questo processo interessa lingue in situazioni migratorie si
parla di logorio linguistico. Alla morte di una lingua causata dalla perdita di parlanti e di domini, può sovrapporsi la morte per
cattura: la lingua si avvicina progressivamente ad un altro sistema linguistico fino ad esserne assorbita, diventandone una varietà.

Il contatto linguistico può anche portare ad altre conseguenze non estreme. Può innescare fenomeni di convergenza verticale come tra
dialetti e lingua standard e di convergenza orizzontale, cioè tra varietà alla pari, con risultato una parziale ristrutturazione dei sistemi
coinvolti. Esempi di fenomeni di convergenza orizzontale sono i processi di koineizzazione (tipici di varietà diverse di una lingua di
immigrazione in centri abitati di rapida urbanizzazione e di nuova formazione come le new towns, o tra dialetti locali presenti
storicamente in un certo territorio). Sono processi divisi in 2 fasi: 1. mescolanza caotica di tratti linguistici provenienti da varietà
differenti (mixing); 2. livellamento delle differenze vernacolari più marcate (levelling).
Un processo di koineizzazione può anche sfociare nell’emergenza di una nuova varietà di lingua portando alla formazione di una
koinè (varietà di contatto costituita da tratti linguistici di più varietà). Un esempio di koineizzazione è in Ticino dove la
comunicazione tra parlanti di dialetti ticinesi diversi, in contatto quotidiano ad esempio per lavoro, si caratterizza per la rinuncia di
tratti vernacolari più marcati. Divero è il fenomeno della diffusione dei tratti, in cui il dialetto di un centro socialmente egemone
diffonde i propri tratti ai dialetti locali circostanti, i quali perdono i loro tratti vernacolari più marcati (es: torinese e veneziano, 18-19
sec. Si parla di koinè a base torinese – il termine koinè a volte si usa anche in questi casi).

Un altro esito del contatto linguistico è la formazione di interlingue. Ciò avviene tipicamente in situazioni migratorie in cui la lingua
degli apprendenti è la lingua di partenza e la lingua dominante è la lingua d’arrivo. In queste situazioni, tra la lingua di partenza e la
lingua di arrivo si crea un continuum di interlingue, regolate da una grammatica in continua evoluzione che gli apprendenti
“costruiscono” in parte in base alle caratteristiche della L1 e in parte in base a principi universali.

3.5 Pianficazione linguistica


La posizione sociale di una lingua può essere soggetta ad interventi programmati a modificarla. L’insieme di questi provvedimenti
linguistici, politici e legislativi per conferire lo status alla lingua e per migliorare la posizione sociale delle lingue svantaggiate va
sotto il nome di pianificazione linguistica. Occorre distinguere tra pianificazione linguistica e politica linguistica: insieme di azioni,
specialmente pubbliche e ad opera delle istituzioni, volte a diffondere determinate concezioni ideologiche dei rapporti tra le lingue e
ad orientare i comportamenti linguistici dei membri una società nei confronti delle lingue del repertorio. Sono interventi di politica
linguistica le prese di posizione istituzionali a difesa dell’uso di determinate lingue o le sanzioni scolastiche relative all’uso corretto
di una lingua.
Oggigiorno in Europa si attua la pianificazione linguistica per tutelare e rivitalizzare le lingue minoritarie o minacciate a causa della
perdita progressiva di domini d’uso e di parlanti. Tutto ciò viene fatto attraverso l’utilizzo di queste lingue in una serie di funzioni per
aumentarne lo status. Le attività di rivitalizzazione sono:
-corpus planning: interviene sulla forma interna e sui tratti linguistici affinché possa adempiere ad una serie di funzioni individuando
le varietà da prendere a riferimento per la costruzione della norma;
-status planning: consiste da un lato nella regolamentazione normativa dei diritti linguistici di una popolazione, cioè nell’attuazione
a livello giuridico e legislativo dei diritti di singoli individui o di collettività, dall’altro lato consiste nella promozione sociale di
quella lingua, per rafforzarne i domini di impiego e aumentarne il numero di parlanti.
A questo proposito è fondamentale la trasmissione intergenerazionale cioè che la lingua sia tramandata di generazione in
generazione, altrimenti gli interventi di pianificazione possono solo potenziarne l’uso sociale favorendone gli atteggiamenti positivi,
ma non ne incrementeranno l’uso.
Infine, un campo di studio di recente sviluppo è dato dall’analisi del paesaggio linguistico, ossia la presenza visuale delle lingue
nella società e nel paesaggio di un dato territorio in scritte, insegne, nella pubblicità, su monumenti ecc., vale a dire in tutti i segni di
carattere pubblico e commerciale scritti in linguaggio verbale presenti in una determinata area.
4. Sociolinguistica e variazione

4.1 La variazione sociolinguistica


Una lingua di solito permette una certa quantità di realizzazioni diverse delle sue forme e dei suoi costrutti, ma soprattutto i parlanti
di una lingua la usano in maniera diversa a seconda della loro collocazione sociale, del loro grado di istruzione, degli ambenti e delle
situazioni a cui si trovano a partecipare. L’insieme di queste differenze di utilizzo è definito variazione. La variazione è una proprietà
universale del linguaggio umano di assumere forme diverse e di presentarsi sotto manifestazioni differenti; tutte le lingue storico-
naturali conoscono variazione al loro interno. La variazione sociolinguistica è la somma delle diverse realizzazioni delle varie forme
e costrutti di una lingua, che è possibile mettere in relazione a caratteri sociali della vita dei parlanti.

4.2 Variabili sociolinguistiche


La variabile sociolinguistica è un insieme di modi diversi di dire la stessa cosa, ognuno dei quali è correlato a qualche tratto
extralinguistico. Ciascuno di questi modi diversi è una variante. Una delle varianti di una variabile è sempre la variante standard. E’
essenziale per la definizione stessa di variabile linguistica specificare in quale contesto si verifichi l’alternanza fra le varianti di
quella variabile (es: maglia, contesto intervocalico). (es: rendere varianti di variabili pag. 116)

La provenienza geografica è il fattore extra-linguistico che più entra in correlazione con varianti di variabili. Ci sono poi anche altri
fattori extralinguistici di carattere sociale come la stratificazione sociale, l’età, il livello di istruzione del parlante.
Si è osservato che spesso le variabili sociolinguistiche sono sensibili contemporaneamente alla variazione sociale e alla variazione
situazionale: le varianti diffuse presso gli strati sociali bassi tendono ad occorrere in situazioni informali e viceversa.
Questo tipo di distribuzione delle varianti viene detta di prestigio o laboviana.

Questo diagramma di Labov rappresenta le strutture sociolinguistiche, che riflettono


un’ordinata eterogeneità del comportamento dei parlanti.

→ questo è l’esempio della variabile (th) a New York (pag. 118)

-una variabile come (th) sensibile sia alla variazione sociale sia alla variazione
situazionale, e può quindi intervenire nella differenziazione sia fra classi sociali che
tra stili di parlato, viene chiamata marker o contrassegno.
-una variabile come (a:) sensibile alla variazione sociale , ma non alla variazione
situazionale, viene chiamata indicatore.
-una variabile sensibile alla variazione situazionale, ma non alla variazione sociale,
viene chiamata stereotipo.

La presenza di variabili con una certa struttura sociolinguistica sarà più tipica di certe comunità linguistiche e meno di altre. Ad
esempio, variabili fonologiche con distribuzione di prestigio è tipica delle situazioni anglosassoni, ma di quelle italiane no perché in
italiano le pronunce sub-standard sono scarsamente soggette a pressione normativa.

4.2.1 Variabili e livelli di analisi


Una variabile sociolinguistica può anche essere definita come un punto del sistema linguistico che ammette realizzazioni diverse
equivalenti, ciascuna in covariazione con tratti extralinguistici. Questa definizione consente di discutere i due principi definitori
della nozione di variabile sociolinguistica, che esprimono le caratteristiche che devono possedere le varianti di una stessa variabile
per poter effettivamente parlare di variabile sociolinguistica:
-principio dell’equivalenza semantica: l’uso alternativo delle varianti di una variabile non deve causare cambiamenti di significato;
-principio dell’identità di struttura: l’uso alternativo delle varianti non deve comportare cambiamenti di struttura linguistica.
La nozione di variabile nasce in campo fonologico, però si può estendere agli altri livelli di analisi. Tuttavia, qui nascono alcuni
problemi: se la variazione interessa elementi portatori di significato autonomo diventa difficile stabilire se le varianti rappresentano la
stessa variabile o entità tra loro differenti. A livello morfologico non abbiamo molti problemi, si parla di allomorfi; a livello sintattico
bisogna attestare che le varianti siano equivalenti dal pdv del significato pragmatico e svolgano la stessa funzione grammaticale (es.
pag. 123); a livello lessicale (variazione onomasiologica) è ancora più difficile, specie per il principio di equivalenza semantica (es.
geo-sinonimi di ‘ragazzo’, coppie inglese\americano e in ita variabili sensibili all’opposizione formale\informale).
A tutti i livelli di analisi è importante che il significante sia variabile e il significato no. Non è possibile trovare nella variabile
sociolinguistica una qualche variazione semantica, in quanto essa presenta una natura diversa dalle altre variazioni.

4.2.2 Proprietà delle varianti sub-standard


Varianti sub-standard di variabili sociolinguistiche: in tutte le lingue ci sono alcuni tratti comuni percepiti come sub-standard e questo
avviene ad ogni livello di lingua. A livello fonologico, la semplificazione di nessi consonantici, a livello morfologico la
regolarizzazione di paradigmi, a livello sintattico e lessicale si preferiscono strutture analitiche invece che sintetiche. Sono tutti tratti
che richiedono al parlante un minore impegno cognitivo. E’ comunque in buona misura arbitraria l’assegnazione di un certo valore di
marcatezza sociolinguistica ad un certo tratto. Alcuni di questi tratti godono di prestigio coperto.

4.3 Regole variabili


La realizzazione di una variabile può essere espressa mediante la formazione di una regola variabile, una regola realizzata
variabilmente, cioè non in modo categorico e obbligatorio, ma con frequenze e probabilità diverse che dipendono da fattori linguistici
ed extra-linguistici. La regola quindi descrive un certo pattern di variazione, ossia una configurazione di co-variazione fra fattori
linguistici ed extra-linguistici, dato dai fattori che influiscono sulla realizzazione delle varianti di una variabile, e dai rapporti
gerarchici esistenti tra questi fattori. A ciascun fattore linguistico la regola assegna un indice di probabilità (segnato con lettere
greche); la probabilità di influenzare la realizzazione della regola è calcolata statisticamente a partire da dati empirici relativi alla
frequenza con cui il fenomeno in questione si verifica in un certo corpus, rispetto a ciascuno di quei fattori. L’analisi statistica
stabilisce quali gruppi di fattori esercitano un’influenza significativa sulla realizzazione della regola e quali no.
Le regole variabili presentano dei problemi:
1. sono intese come un’estensione del modello generativista della competenza di un parlante nativo; la frequenza con cui un
fenomeno si realizza è un fatto di esecuzione, mentre la probabilità della realizzazione di un certo fattore è fatto di competenza. Ciò è
discutibile perché le regole variabili hanno per oggetto realizzazioni concrete e non conoscenze mentali astratte. Descrivono che cosa
fa un parlante, non cosa sa.
2. le regole variabili non hanno valore predittivo, ma colgono regolarità nella distribuzione di dati empirici e formulano così
generalizzazioni di carattere probabilistico. Inoltre, se possono predire qualcosa, sono predizioni di carattere negativo (ciò che non
viene realizzato dai parlanti).

4.4 Scale di implicazione


Il metodo delle scale di implicazione ha per obiettivo l’analisi di relazioni di implicazione nell’uso di variabili linguistiche e nella
realizzazione delle varianti di quelle variabili; le relazioni di implicazione (se A allora B), consentono di individuare rapporti di co-
occorrenza fra varianti di variabili, fondamentali per la definizione di varietà di lingua.
Il modello delle SdI è un modello alternativo a quello laboviano sulle regole variabili (analisi di singole variabili sociolinguistiche e
dei fattori che ne influenzano la realizzazione). Nasce dagli studi di creolistica, modelli della competenza linguistica di cui la
variabilità è un elemento costitutivo.
es. Scala post-creolo giamaicano: raffigura uno spazio di variazione consistente in un continuum di varietà di lingua, legate fa di loro
da una serie di implicazioni fra tratti linguistici e identificate ciascuna da una particolare combinazione di tratti. Vi sono rapporti di
implicazione tra i tratti. Dall’alto al basso vediamo un continuum che va dalla realizzazione delle varianti inglesi (acroletto), alla
realizzazione di tutte le varianti creole corrispondenti (basiletto), passando attraverso varietà intermedie (mesoletti).
La realizzazione categorica di tratti linguistici in relazione implicativa trova scarso riscontro nella realtà. Un’evoluzione del modello
prevede quindi scale di implicazione che esprimono varianti di variabili, e che quindi non prevedono solo uscite categoriche (+\-), ma
anche un’uscita variabile (v). (es. creolo della Guyana, pag. 134-135)
Una scala è quindi costruita a partire da una certa distribuzione empirica di tratti linguistici e si presenta come una matrice a doppia
entrata, in cui presenti variabili o i tratti linguistici, cioè le varianti (sulle colonne) e le varietà, quindi i parlanti (sulle righe). Prevede
inoltre che un certo tratto implichi la co-occorrenza dei tratti alla sua sx, ma non necessariamente di quelli alla sua dx. Accade che il
valore di un certo numero di caselle non rispetti lo schema implicazione previsto: è sufficiente un indice di scalabilità, cioè una
percentuale di celle non devianti pari al 90%. In queste scale, le varietà di lingua sono identificate solamente da tratti linguistici; la
correlazione di questi con tratti extra-linguistici avviene in un secondo momento.
Costruire una scala di implicazione consente quindi di fare ordine nella variabilità e scoprire l’esistenza di restrizioni alla gamma di
variazione possibile, mostrando come il numero delle combinazioni effettive sia minore del numero di combinazioni possibili.

4.5 Modelli di variazione


Il concetto di variabile sociolinguistica poggia su una concezione di variazione come proprietà di punti del sistema linguistico di
essere realizzati con forme superficiali differenti e correlati a significati sociali diversi.

1.Nel modello laboviano di variazione: a) la variazione occupa una posizione interna al sistema linguistico; b) la variazione opera in
superficie, cioè preserva l’invariabilità delle strutture interne; c) l’individuo nativo di una lingua ha competenza di una sola
grammatica, che quindi contiene al suo interno la variabilità; d) la grammatica dell’individuo corrisponde alla grammatica di una
comunità linguistica; e) i membri di una stessa comunità linguistica condividono uno stesso insieme di regole; f) le regole sono
realizzate variabilmente; g) i giudizi di grammaticalità dei parlanti non riflettono differenze strutturali.

2.Secondo l’approccio generativista tradizionale, la variazione è data dalla scelta tra regole diverse, ciascuna delle quali realizzata
categoricamente laddove la scelta tra regole diverse corrisponde alla scelta tra grammatiche diverse. Questi modelli collocano la
variazione in una posizione esterna al sistema linguistico, in quanto la variazione è data dalla scelta di un sistema linguistico
differente.
Da più di 50 anni si parla di programma minimalista: esso tende a ridurre l’apparato teorico per spiegare le frasi al minimo
indispensabile, in cui rimangono una serie ridotta di principi e parametri che operano sulla grammatica universale. I parametri danno
conto della variazione tra lingue, perché e come accade. Un parametro è un punto della gu che può assumere due valori (es: il
parametro pro-drop e non pro-drop). Approcci recenti applicano l’analisi per parametri all’indagine della variazione intralinguistica.

3. il modello di Henry spiega differenze parametriche postulando l’esistenza di più grammatiche, differenziate nella loro occorrenza
in base ai diversi contesti situazionali e a caratteristiche individuali. Una differenza parametrica è data da regole diverse, realizzate in
dipendenza da fattori linguistici ed extra-linguistici; regole variabili, non categoriche. Come Labov e differentemente dal modello
generativista, le regole sono variabili. Come il modello generativista e diversamente da Labov, un parlante ha più grammatiche e la
variazione è esterna al sistema linguistico.

4. Adger e Smith: la variazione non occorre all’interno del sistema linguistico, ritenuto autonomo, ma interagisce con esso come
meccanismo separato ed è dovuta alla sola scelta degli elementi lessicali. Alcuni tratti hanno funzione esclusivamente sintattica
(uninterpretable features), altri hanno valore semantico (interpretable features). Si ha variazione quando si scelgono elementi
lessicali (uninterpretable features) diversi che producono forme fonetiche diverse; tanto gli elementi lessicali quanto le forme
fonetiche sono associati alle interpretable feature, cioè alla stessa funzione grammaticale. La scelta può avvenire al di sotto del
livello di consapevolezza del parlante. Come Labov e differentemente dal modello generativista, un parlante ha una sola grammatica.
Come il modello generativista e diversamente da Labov, un parlante ha più grammatiche e la variazione è esterna al sistema
linguistico. Diversamente da entrambi, la variazione è data non da regole, ma dalla selezione di elementi che fanno parte del lessico.
4.6 Mutamento e variazione
Variazione: proprietà delle lingue di presentarsi in forme diverse nei comportamenti dei parlanti; fatto tipicamente sincronico.
Mutamento: carattere delle lingue di subire cambiamenti col passare del tempo; fatto diacronico.
Variazione e mutamento sono in stretto rapporto tra di loro e i fenomeni di mutamento linguistico sono generalmente alimentati da
fenomeni di variazione linguistica; i fenomeni di variazione sono spesso il risultato di cambiamenti avvenuti, possono rappresentare i
cambiamenti in corso e quindi prefigurare sviluppi futuri.
Le lingue sono in costante movimento, ma affinché si abbia un completo mutamento linguistico, occorre che una nuova forma si
diffonda e sia accettata da una comunità attraverso un itinerario:
1.introduzione di una forma nuova nella produzione linguistica di un parlante;
2.diffusione di questa forma nel comportamento linguistico del parlante;
3.diffusione di questa forma nel comportamento linguistico di altri parlanti;
4.adozione generalizzata di questa forma che sancisce il mutamento.
Quindi il fenomeno del mutamento consiste nella sostituzione di una variante con un’altra variante, attraverso una fase in cui le due
varianti coesistono. (es. forme del passato e del participio passato di verbi forti dell’inglese: “to know” le varianti standard “I knew”
e “I have known” con varianti substandard “I knowed” e “I have knowed”; questo appare come uno sviluppo futuro del paradigma
del verbo). I fenomeni di variazione non prefigurano necessariamente mutamento (per -ing sopravvivono da secoli le varianti iŋ e in).
I rocessi di mutamento sono indagabili osservandone lo sviluppo temporale o esplorando in sincronia l’esistenza di differenze
generazionali; i comportamenti delle generazioni più anziane sono rappresentativi di fasi anteriori di un processo in corso. (es.
Martha’s Vineyard, pag.141)

Nell’impostazione di Labov, c’è chiara la distinzione tra:


- mutamenti linguistici dal basso: hanno origine nei gradini più bassi della scala sociale e riguardano fatti di variazione di cui non c’è
consapevolezza sociale (below social awarness). Un esempio è la sostituzione di una variante costosa dal pvd cognitivo con una
variante sub-standard più comprensibile e più naturale;
- mutamenti linguistici dall’alto: introdotti nelle classi sociali dominanti, toccano tratti linguistici che godono di un certo prestigio in
una comunità (above social awarness). Un esempio è la diffusione della variante di prestigio della variabile (r) nell’inglese di NY.

Il mutamento linguistico segue una curva ad S (vedi appunti).

4.7 Dimensioni di variazione


Nella sociolinguistica europea, si fa corrispondere allo spazio geografico, le classi sociali e le situazioni comunicative una
dimensione della variazione sincronica della lingua. In ogni lingua ci sono quindi diverse dimensioni di variazione sincronica:
1) Diatopia: la lingua varia attraverso lo spazio geografico; variazione connessa a provenienza e distribuzione geografica dei parlanti;
2) Diastratia: la lingua varia attraverso la stratificazione sociale; variazione connessa all’identità sociale dei parlanti, al gruppo
sociale di appartenenza, il sesso e l’età dei parlanti;
3) Diafasia: la lingua varia attraverso le situazioni comunicative; si riconoscono due sottodimensioni: sottocodice e registro;
4) Diamesia: la lingua varia a seconda del canale fisico di comunicazione dando luogo all’opposizione tra scritto e parlato;
5) Diacronia: la lingua varia nel corso del tempo e conosce quindi dei mutamenti nel corso della propria evoluzione storica.
Ciascuna variante di una variabile è in relazione con una o più classi di fattori extra-linguistici che possono collocare tale variante
come marcata su una o più dimensioni di variazione. Si ha marcatezza sociolinguistica quando una data variante non è standard.

Le dimensioni di variazione sono in rapporto tra di loro: su un primo piano c’è la variazione primaria, la diatopia, che caratterizza per
prima qualsiasi messaggio linguistico collocandolo immediatamente nei termini della provenienza geografica di un certo parlante; su
un secondo piano c’è la diastratia in cui si riconosce un insieme di tratti linguistici marcati in diatopia e alcuni di questi sono propri di
parlanti con collocazione sociale alta e altri di parlanti di collocazione sociale bassa; infine su un terzo piano c’è la variazione
diafasica che avviene all’interno delle altre due.
Campo, tenore e modo sono i tre fattori principali che intervengono a determinare la variazione della lingua:
-al campo è connessa la variazione di sottocodice: variare della lingua in dipendenza dalla natura dell’attività svolta nella situazione e
dall’argomento di riferimento del discorso; i sottocodici, detti anche linguaggi settoriali o microlingue, sono caratterizzati da un
lessico speciale connesso a particolari settori di attività; i sottocodici sono caratterizzati sul piano del lessico.
-al tenore è connessa la variazione di registro: determinata dai ruoli sociali e comunicativi dei partecipanti ad un’interazione verbale
e si manifesta nel grado di distanza sociale e comunicativa tra questi. I registri si collocano su una scala che va dal massimamente
formale al massimamente informale e toccano tutti i livelli di analisi.
-al modo è connessa la variazione scritto\parlato: lo scritto tende a condividere le caratteristiche tipiche dei registri molto formali
mentre il parlato, per via della sua natura più spontanea, tende a condividere i tratti tipici dei registri molto informali. Per quanto
riguarda la dicotomia fra scritto e parlato, occorre introdurre una quadipartizione:
- Parlato grafico = la trascrizione dei testi orali;
- Scritto grafico = la comunicazione scritta tradizionale;
- Parlato fonico = il parlato conversazionale spontaneo;
- Scritto fonico = la lettura di testi scritti o la recitazione.
Se lo scritto è la lingua della distanza comunicativa, il parlato è la lingua della vicinanza comunicativa. In questa prospettiva, scritto e
parlato si oppongono fra di loro sulla base di parametri come: - Pubblicità: alta nello scritto e bassa nel parlato; - Confidenza o
familiarità fra i partecipanti all’interazione: bassa nello scritto e alta nel parlato; - Partecipazione emotiva: nulla nello scritto e forte
nel parlato; - Prossimità fisica tra i partecipanti: nulla nello scritto e alta nel parlato; - Spontaneità della comunicazione: minima nello
scritto e massima nel parlato; - Fissazione degli argomenti: alta nello scritto e nulla nel parlato.

Diversamente dalla linguistica europea continentale, la linguistica anglosassone tende a considerare unitamente la sfera di variazione
determinata dai fattori campo, tenore e modo. Distingue tra variazione linguistica according to users (le variazioni sono dette
dialects) e variazione linguistica according to uses (le variazioni sono dette registers).

4.8 Varietà di lingua


Le dimensioni di variazione sono i punti di riferimento per l’individuazione e la classificazione delle varietà di lingua. Il concetto di
varietà di lingua è inteso in due sensi diversi:
-in senso largo: è una varietà di lingua ogni varietà del repertorio linguistico di una comunità, ed è distinta dalle altre varietà a tutti i
livelli di analisi;
-in senso stretto: identifica solo le entità riconoscibili entro i confini di un unico sistema linguistico. Una varietà di lingua, in questo
senso, è definita da un insieme di tratti linguistici (varianti di variabili) che possono co-occorrere in dipendenza a certi fattori extra-
linguistici.

Da un punto di vista sociolinguistico, una lingua è costituita da una somma di varietà ed è data dalla somma di tratti linguistici
comuni a tutte le sue varietà più i tratti linguistici specifici di singole varietà. Si parla di diasistema: sistema costituito da un sistema
comune e da sottosistemi parziali di singole varietà. Come le varianti di una variabile, le varietà di lingua si collocano su una o più
dimensioni di variazione. Si riconoscono 4 fondamentali classi di varietà:
1) varietà diacroniche, distinte in base alla loro collocazione nel tempo (italiano delle origini, seicentesco e contemporaneo);
2) varietà diatopiche, distinte in base alle aree geografiche; sono tipiche varietà diatopiche i cosiddetti italiani regionali;
3) varietà diastratiche, distinte in base alla collocazione e all’identità sociale dei parlanti (ad esempio la varietà dei parlanti colti e la
varietà dei parlanti non istruiti);
4) varietà diafasiche, distinte in base alle situazioni comunicative; sono divisibili in registri (formale, medio e informale) e
sottocodici (la lingua della medicina o dell’informatica o dell’astronomia).
Si possono avere anche varietà marcate contemporaneamente su più dimensione di variazione. Es: gerghi: varietà di lingua al tempo
stesso diafasiche, perché legate ad attività e ambiti di vita particolari, e diastratiche, perché riconosciute e usate esclusivamente da
certi gruppi o categorie di parlanti. Es: varietà paragergali, come quelle giovanili: diastratiche e diafasiche allo stesso tempo poiché
simultaneamente connesse ad una determinata classe generazionale e a situazioni comunicative specifiche.

Una varietà di lingua è quindi definita dalla co-occorrenza di tratti linguistici in dipendenza da fattori extra-linguistici. Tale co-
occorrenza è più stabile in alcune varietà (diatopiche e diastratiche) e meno in altre (varietà di registro). Questa differenza è da
ricondurre alla natura stessa delle varietà: quelle diatopiche e diastratiche sono intimamente connesse all’identità del parlante, sono
state apprese durante la socializzazione primaria e segnano l’appartenenza ad una comunità. Le varietà di registro sono più costruite,
apprese in contesto formale.
Un dominio d’uso in cui la co-occorrenza di tratti non è regolare è la comunicazione mediata dal computer. Registra un’alternanza tra
tratti tipici di registri differenti.

4.9 Grammatica di varietà


Negli anni ‘70 è stato proposto in Germania un modello di descrizione grammaticale delle varietà di una lingua chiamato
grammatica di varietà. Secondo questo modello una varietà di lingua viene descritta attraverso una serie di blocchi di regole e ogni
blocco è costituito da un certo numero di regole di riscrittura che hanno la stessa entrata e diverse uscite; ciascuna di queste regole ha,
in quella varietà, una data probabilità di realizzazione. Questi blocchi di regole valgono per un certo insieme di varietà di una lingua,
cioè per un certo spazio di varietà. Le varietà si differenziano quindi in base alle diverse probabilità di realizzazione di ogni regola.
4.10 Architettura della lingua
La combinazione delle tre principali dimensioni di variazione sincronica (diatopia, diastratia e diafasia) e la conseguente collocazione
reciproca delle tre fondamentali classi di varietà di una lingua riconoscibili in sincronia, costituiscono l’architettura della lingua.
Essa è una sintesi dei rapporti che ci sono tra le dimensioni di variazione e della gamma di varietà di lingua a cui questi danno
origine. Ogni dimensione di variazione è concepita come un continuum di varietà di lingua, cioè come uno spazio di variazione che
non presenta interruzioni di continuità al suo interno.
Il concetto di continuum nasce in dialettologia e un continuum dialettale indica un insieme di dialetti geograficamente contigui.
L’architettura di una lingua si può rappresentare come un continuum tridimensionale in cui ciascuna delle tre dimensioni di
variazione è identificata da un continuum; sono chiaramente identificabili le varietà ai poli del continuum, mentre le varietà
intermedie sfumano l’una nell’altra, ma comunque possono essere distinte grazie agli addensamenti di tratti (tratti che co-occorrono
in dipendenza agli stessi fattori extra-linguistici). Le varietà individuate lungo il continuum sono dei prototipi, definiti sia da
proprietà categoriche che da proprietà graduali.
Ogni dimensione di variazione è un asse (grafico di Berruto): l’asse della diatopia (orizzontale), della diastratia (verticale) e della
diafasia (obliqua). Le dimensioni sono separate l’una dall’altra e ciascuna corrisponde a una specifica classe di fattori extra-
linguistici e dà conto di un particolare modo di manifestazione della variazione sociolinguistica. Allo stesso tempo esse si
intersecano, in quanto tutte sono in rapporto tra di loro ed è frequente il caso di variabili sociolinguistiche che operano su più
dimensioni: più denso sarà lo spazio più ci sarà variazione di lingua. L’asse diastratico e l’asse diafasico sono orientati, cioè vanno
dal polo di usi alti che hanno una valutazione positiva da parte della comunità, al polo di usi bassi che hanno una valutazione
negativa da parte della comunità: al polo alto ci sono le varietà colte e formali sia orali che scritte, mentre al polo basso ci sono le
varietà incolte e le varietà parlate informali. L’asse diatopico invece non è orientato perché non c’è una scala valutativa rispetto alla
quale si distribuiscano le diverse varietà geografiche di una lingua.
6. Corpora linguistici

L’avvento fra gli anni Ottanta e Novanta della possibilità di avvalersi come dati empirici di grandi quantità di materiali conservati
elettronicamente ha dato luogo alla nascita e alla rapida espansione della linguistica dei corpora. Un corpus in questa accezione
(diversa e più tecnica di quella vista in 6.1) è una raccolta in formato elettronico di testi orali o scritti trattati informaticamente in
modo da poter essere consultati e interrogati a scopo di ricerca.
Ricerche su testi di vario genere: parlato colloquiale, comunicazione elettronica, stampa, scrittura accademica, ecc.
Per l’italiano i corpora esistenti coprono un ampio ventaglio di varietà: i corpora di testi scritti si differenziano prevalentemente in
diafasia; i corpora di testi parlati danno conto primariamente della variazione diatopica.
Tra i principali corpora dell’italiano contemporaneo si possono menzionare, per quanto riguarda lo scritto:
– CoLFIS (Corpus e Lessico di Frequenza dell’Italiano Scritto, circa 3.800.000 parole). Testi tratti dai quotidiani, da periodici e libri,
raccolti nel periodo 1992-1994;
– CORIS/CODIS (Corpus di Riferimento dell’Italiano Scritto, circa 130 milioni di parole/Corpus Dinamico dell’Italiano Scritto, in
costante aggiornamento). Testi di narrativa, prosa giornalistica, accademica e giuridico-amministrativa raccolti negli anni ‘80 e ‘90;
– Corpus La Repubblica (circa 380 milioni di parole). Articoli pubblicati su La Repubblica nel 1985-2000;
– itWaC (Italian Web-As-Corpus; circa 2 miliardi di parole). Testi estratti dal web;
– NUNC (Newsgroup UseNet Corpus, circa 75 milioni di parole). Conversazioni tratte da gruppi di discussione telematica su vari
temi: da argomenti di politica, religione, storia, medicina, giustizia a fatti della quotidianità e avvenimenti personali.

Per quanto riguarda il parlato (anche parlato trasmesso):


– LIP (Lessico di frequenza dell’Italiano Parlato, circa 490.000 parole). Dialoghi e monologhi, sia in presenza del destinatario sia a
distanza, raccolti in quattro città italiane nel 1990-1992; suddivisi in quattro tipi di testi, differenti tra di loro anche rispetto
all’opposizione tra formalità e informalità. È il corpus da cui è stato tratto il primo dizionario di frequenza dell’italiano parlato: De
Mauro/Mancini/Vedovelli/Voghera (1993);
– Corpus LABLITA (Laboratorio di Linguistica Italiana dell’Università di Firenze, in costante aggiornamento; un campione di circa
300.000 parole costituisce la sezione italiana del CORAL-ROM, un corpus di parlato di lingue romanze). Testi dialogici e monologici
di parlato spontaneo, prodotti da adulti e da bambini in situazioni comunicative diverse, e di parlato radiotelevisivo, raccolti a partire
dal 1965;
– CLIPS (Corpora e Lessici di Italiano Parlato e Scritto; circa 100 ore di parlato). Testi di parlato dialogico semi-spontaneo, parlato
radiotelevisivo e telefonico, e lettura di frasi, raccolti in 15 città italiane tra gli anni ‘90 e il 2000.
– LIR (Lessico di frequenza dell’Italiano Radiofonico, circa 650.000 parole). Testi di parlato radiofonico provenienti dalle principali
emittenti nazionali, raccolti nel 1997-2005;
– LIT 2006 (Lessico dell’Italiano Televisivo, 663.000 parole). Testi di parlato televisivo (RAI e Mediaset), raccolti nell’anno 2006.

Vi sono poi:
-corpora di italiano scritto e parlato, come il PEC (Perugia Corpus);
-corpora allestiti per consentire confronti in diacronia come DiaCORIS (Corpus Diacronico dell’Italiano Scritto) e DIA-LIT (Lessico
dell’Italiano Televisivo in Diacronia);
-corpora focalizzati su testi di altro tipo o concepiti con finalità di ricerca più mirate, come il Corpus OVI dell’italiano antico (Istituto
Opera del Vocabolario Italiano), M.I.DIA (Morfologia dell’Italiano in Diacronia), BOLC (Bononia Legal Corpus; corpus di testi
giuridici), LIPSI (Lessico di Frequenza dell’Italiano Parlato nella Svizzera Italiana), VALICO (Varietà di Apprendimento della Lingua
Italiana Corpus Online, testi scritti di apprendenti di italiano; e il consimile VINCA, Varietà di Nativi Corpus Appaiato, testi prodotti
da parlanti nativi di italiano), PAISÀ (Piattaforma per l’Apprendimento dell’Italiano Su corpora Annotati, testi tratti dal web pensato
per l’insegnamento dell’italiano);
-corpora di discorso bilingue, Kontatto e Kontatti (parlato spontaneo e semispontaneo raccolti in Trentino Alto-Adige e nei territori di
lingua ladina); ParVa, costituito di interviste a ex-partigiani originari della Val Camonica, (discorso bilingue in italiano e dialetto
bresciano).
Esistono inoltre strumenti informatici, disponibili in rete, che consentono all’utente di creare un proprio corpus: Architect (permette
di allestire un corpus a partire da documenti in vari formati) per poi renderlo interrogabile con motori del tipo di Sketch Engine.

Per molte lingue del mondo si dispone di corpora elettronici interrogabili informaticamente.
Per l’inglese contemporane:
-BNC (British National Corpus) e COBUILD (Collins Birmingham University International Language Database) Bank of English,
due corpora di testi scritti e parlati in inglese britannico;
-COCA (Corpus of Contemporary American English), testi scritti e parlati in inglese americano raccolti nel 1990-2012;
-G-loWbE (Global Web-Based English), testi estratti dalle pagine web di 20 paesi di lingua inglese.

L’interrogazione di un corpus è il rinvenimento e l’estrazione dei dati pertinenti per la ricerca che si intende svolgere; avviene
attraverso una maschera predisposta per tale operazione. La maschera consente di formulare una richiesta di estrazione, detta query,
creando una stringa in un linguaggio di interrogazione, come CQL (Contextual Query Language) o SQL (Structured Query
Language). Si forniscono le indicazioni per la creazione delle stringhe, oltre ad alcuni esempi concreti.

Es: siamo interessati a verificare la distribuzione in italiano di due forme d’uso alternativo come adolescente e teenager. Le parole di
un corpus sono etichettate per parti del discorso e lemmatizzate; dovremmo quindi poter formulare una query che richieda di estrarre
le occorrenze dei due lemmi. Le query sono scritte in CQL: (&) ha il valore di congiunzione AND, il ! sta per “non”, pos vale per
Part Of Speech, ADJ “aggettivo”, e il ? indica come opzionale la presenza dell’elemento immediatamente precedente nella stringa
(nell’esempio, il trattino). In risposta alla query si ottiene l’elenco delle occorrenze dell’elemento cercato. Può accadere che non tutti
i risultati ottenuti corrispondano effettivamente ai criteri di ricerca (es: per l’enunciato (3) adolescente è un aggettivo): le parole sono
etichettate con procedure automatiche, che comportano inevitabilmente un certo margine d’errore; è bene fare uno spoglio manuale
dei dati.
L’uso dei corpora si presta particolarmente ad analisi quantitative. Si possono confrontare corpora diversi, assunti come
rappresentativi ciascuno di una varietà specifica. Spesso, poi, ai testi contenuti in un corpus sono associate informazioni di carattere
extra-linguistico (come nel VINCA) che consente di restringere l’interrogazione a un campione di testi selezionato in base a queste
informazioni. L’analisi incorre inevitabilmente in problemi metodologici di stima della significatività quando si confrontino insiemi
di dati di dimensioni molto diverse; indicatori importanti, come il rapporto fra types e tokens sono infatti fortemente condizionati
dalle dimensioni del corpus. Sempre più spesso, anche per questa ragione, le indagini quantitative sono elaborate con metodi statistici
di analisi dei dati, che permettono di analizzare e confrontare tra di loro insiemi di dati non bilanciati.

Oltre agli studi sulla variazione onomasiologica, poi, possono basarsi su corpora anche gli studi sulla variazione semasiologica;
l’approccio più praticato è qui quello della semantica distribuzionale, che prevede modelli di analisi diversi che si fondano su una
stessa ipotesi, l’ipotesi distribuzionale: due parole hanno significati tanto più simili quanto più tendono a comparire in contesti simili.
L’ipotesi vuole che se una parola tende a comparire in contesti diversi nel corpus x e nel corpus y, allora presenta significati diversi
nelle due relative varietà di lingua. L’analisi distribuzionale può applicarsi anche alla variazione onomasiologica: in questo caso, se
due parole tendono a comparire in contesti simili nel corpus x e nel corpus y, allora c’è da attendersi che siano parole dallo stesso
significato appartenenti a due varietà di lingua diverse. Problemi metodologici: difficoltà di stabilire quali contesti linguistici siano da
considerarsi ‘simili’.

L’interrogazione di un corpus non è limitata a fenomeni di livello lessicale. Ad esempio, per i fenomeni sintattici occorre pensare a
delle query che tengano conto della co-occorrenza di varie forme; occorre spesso, inoltre, combinare più query per tenere conto di
tutti i contesti in cui un certo fenomeno si realizza. Es: superlativo relativo ordinale, si potrebbero combinare sono le seguenti:

[lemma=‘il|la’ & pos=‘ART’][lemma=‘secondo’][word=‘più’]


[lemma = ‘il|la’ & pos = ‘ART’][lemma = ‘secondo’][pos = ‘NOUN’][word=‘più’]

La (|) ha il valore di OR. La prima query richiede le occorrenze di una sequenza di tre elementi: i lemmi il e la (ossia, le forme il, lo,
i, gli; e la, le) in funzione di articolo, il lemma secondo (forme flesse), e la parola più; la seconda prevede inoltre la presenza di un
nome prima dell’avverbio più. Dalle due estrazioni si ottengono enunciati come: (6) Sono il secondo più votato d’Italia al Senato (7)
facendo di New York il secondo stato più popoloso d’America (8) l’Inter è la seconda squadra più “operaia”. Occorre tuttavia tenere
conto della presenza non solo di secondo ma di un qualunque ordinale all’interno del costrutto. Quindi una stringa come:

[lemma=‘il|la’ & pos=‘ART’][lemma=‘secondo|terzo|quarto| quinto|sesto|settimo|ottavo|nono|decimo’][pos = ‘NOUN’] [word=‘più’]

Le indagini quantitative si servono di programmi informatici basati sulla tecnica statistica dell’analisi della regressione, che consente
di analizzare e confrontare insiemi di dati anche non bilanciati. Questi programmi effettuano un’analisi multivariata: analizzano il
rapporto di co-variazione fra una variabile dipendente e più variabili indipendenti. La variabile dipendente è generalmente binaria
(due valori) e consiste nella realizzazione o non di un fenomeno linguistico; le variabili indipendenti sono invece rappresentate dai
fattori del contesto linguistico ed extra-linguistico che entrano in gioco.
Dato un certo fenomeno, l’analisi multivariata ha come obiettivi principali:
1) stabilire quali variabili indipendenti, ovvero quali gruppi di fattori, esercitino un’influenza statisticamente significativa sulla
realizzazione del fenomeno e quali no;
2) calcolare con quale probabilità i singoli fattori influenzino, positivamente o negativamente, la realizzazione del fenomeno.

Il programma di analisi multivariata più usato è VARBRUL (variable rules), nato negli anni ‘60 e rielaborato in versioni successive,
(l’ultima è GoldVarb X). Attualmente si preferiscono: Rbrul, R o SPSS, che consentono di ovviare ad alcuni problemi di GoldVarb X
riguardanti la stima della significatività statistica dei fattori.

Funzionamento di GoldVarb X e di Rbrul.


Es: indaghiamo il comportamento di una variabile sintattica dell’italiano: l’accordo verbale nel costrutto locativo-esistenziale-
presentativo. I casi con accordo del verbo al numero del soggetto (ci sono tre libri) rappresentano le realizzazioni standard; i casi
senza accordo (c’è tre libri) quelle sub-standard. La variabile dipendente ha due valori: accordo (variante standard) e non accordo
(variante sub-standard). Effettuiamo l’analisi su un corpus di italiano parlato raccolto a Firenze, il C-ORAL-ROM. Tenendo conto di
ricerche sullo stesso fenomeno in altre lingue, assumiamo come variabili indipendenti di natura linguistica la struttura del SN,
l’adiacenza fra V e SN, e l’adiacenza tra V e testa del SN; e come variabile indipendente di natura extra-linguistica la formalità della
situazione comunicativa. La prima variabile ha diversi valori: presenza del solo nome o pronome; presenza di modificatori
prenominali come articoli o quantificatori; combinazione di più modificatori prenominali. La seconda e la terza variabile hanno
ciascuna due valori, rispettivamente: adiacenza (es. c’è dei bottoni) e non adiacenza (es. c’è anche i compressori) tra V e SN, e
situazione formale e informale. Registriamo quindi sia tutti i casi senza accordo (realizzazioni sub-standard), sia tutti i casi con
accordo; i primi rappresentano le occorrenze effettive del fenomeno, i secondi le sue occorrenze possibili, ossia i contesti in cui il
fenomeno non occorre laddove sarebbe possibile. Usando GoldVarb X è necessario codificare ciascuna istanza della variabile
dipendente con una stringa a quattro cifre. Prima cifra: valore assunto dalla variabile dipendente in un dato contesto (assegniamo 1 ai
casi di accordo, 0 a quelli di mancato accordo). Le altre tre: valori che assumono le variabili indipendenti in quello stesso contesto
(assegniamo A ai casi registrati in testi formali, B in quelli informali; w ai casi di adiacenza fra V e SN, z a quelli di non adiacenza; d,
q, c, ecc. ai vari tipi di struttura del SN; x ai casi di adiacenza fra V e testa del SN; y a quelli di non adiacenza).
Creiamo così un token file e lo inseriamo in GoldVarb X, istruiamo il programma su quale sia da considerare la variabile dipendente
e quali quelle indipendenti, e quale sia il valore della variabile dipendente per il quale vogliamo che siano presentati i risultati: nel
nostro caso 0, ossia assenza di accordo. In GoldVarb X, le variabili indipendenti sono dette gruppi di fattori e i relativi valori sono
chiamati fattori; nel nostro caso, la variabilità diafasica rappresenta un gruppo di fattori e i valori formale o informale sono i fattori di
quel gruppo.
Per decidere quale sia la configurazione di variabili più adeguata il programma esegue un’analisi binomiale di tipo step-up/step-
down. Confronta cioè diverse configurazioni di variabili. Risulta essere il modello migliore quello che mostra il valore di log
likelihood più vicino allo zero. Nella tabella i principali risultati dell’analisi:

La realizzazione della variante sub-standard, il mancato accordo, dipende in


modo statisticamente significativo soltanto dalla struttura del SN e dalla
variabilità diafasica, non è invece influenzata significativamente né
dall’adiacenza fra V e SN né dall’adiacenza fra V e testa del SN.

Il valore di Input rappresenta la probabilità che il fenomeno ha di realizzarsi


indipendentemente dalle variabili considerate; in questo caso il fenomeno ha
una bassa probabilità generale di realizzazione: 0,143 (considerando che un
evento certo ha probabilità 1). Il valore di probabilità assegnato a ciascun fattore
è chiamato peso. Osservando i pesi dei diversi fattori è possibile stabilire quali
di questi influenzino positivamente e quali negativamente il mancato accordo.
Più il peso si avvicina a 1, più il fattore corrispondente ha un effetto positivo
sulla realizzazione del fenomeno; più si avvicina a 0, più ha un effetto negativo.
Nel nostro caso, l’elenco o coordinazione di nomi è il fattore che più ha effetto
positivo sulla realizzazione della variante substandard, ossia che più favorisce il
mancato accordo; mentre la presenza di un partitivo è il fattore che più esercita
un effetto negativo (del primo effetto può dar ragione la forma spesso al
singolare di ciascuno degli elementi nominali in elenco o coordinati; del
secondo, la funzione del partitivo come forma plurale dell’articolo
indeterminativo).
Quanto ai fattori extra-linguistici, l’informalità influenza positivamente il
presentarsi del fenomeno, mentre la formalità lo influenza negativamente. Il
mancato accordo nel costrutto locativo esistenziale-presentativo è poco
‘costoso’ in termini cognitivi, e quindi incline a comparire negli usi ‘bassi’.
Tra parentesi quadre, i fattori la cui influenza non è statisticamente significativa.
La tabella riporta anche valori di Range (non calcolati automaticamente dal programma) per le variabili indipendenti significative
(differenza fra il peso più alto e quello più basso per ogni variabile). La variabile con Range più elevato, la struttura del SN, ha la
rilevanza più marcata nella realizzazione del fenomeno.

Rbrul (scritto nel linguaggio di programmazione R), si differenzia da un programma come GoldVarb X per alcune caratteristiche.
GoldVarb X presuppone che i dati da analizzare siano indipendenti l’uno dall’altro, mentre nella realtà più dati sono in relazione
poiché prodotti da uno stesso informatore. GoldVarb X assume che ciascuna occorrenza del fenomeno analizzato sia riferita a un
informatore diverso, azzerando la rilevanza della fonte; però quando più occorrenze sono prodotte invece da uno stesso informatore,
la significatività statistica delle variabili indipendenti viene sovrastimata.
Per ovviare al problema, Rbrul si basa su un modello di analisi della regressione detto modello a effetti misti o modello misto: esso
distingue e considera due tipi diversi di ‘effetti’, effetti fissi (prodotti da variabili indipendenti quali, nel caso d’esempio, struttura del
SN, adiacenza fra verbo e sintagma nominale, variabilità diafasica, ecc, definite ciascuna da un determinato insieme di valori) ed
effetti casuali (es. gli effetti causati dalla variazione interindividuale). Un modello misto concepisce la variazione interindividuale
come un elemento in grado di condizionare gli esiti dell’analisi; la correlazione tra un fenomeno e le caratteristiche sociali dei
parlanti può talvolta essere riducibile a comportamenti di singoli individui, quindi non dipende dall’esistenza di fattori sociali di
variazione (quindi non statisticamente significativa, ma casuale).
A differenza di GoldVarb X, inoltre, Rbrul non richiede la creazione di un token file poiché può decifrare documenti in vari formati
(es. Excel) e può analizzare il comportamento non soltanto di variabili a due valori ma anche di variabili con un insieme continuo di
valori, variabili sia dipendenti (es. altezza relativa di pronuncia di una sillaba) sia indipendenti (es. età degli informatori).

Nel caso di variabili binarie, Rbrul, come GoldVarb X, usa la regressione logistica ed esegue un’analisi binomiale di tipo
step-up/step-down per stabilire quale sia la configurazione di variabili più adeguata.
In tabella i risultati di un’analisi multivariata effettuata con Rbrul, su una parte dei materiali raccolti in ParVa.
Realizzazione di costruzioni relative [+Caso], ossia che indicano esplicitamente la funzione sintattica dell’elemento relativizzato (ad
es. attraverso un pronome clitico, la ragazza che le ho spedito la lettera), nell’italiano popolare di un campione di parlanti del corpus.
La tabella riporta il valore di devianza, che fornisce una stima della qualità del
modello statistico; il valore di Input; e, per quanto riguarda gli ‘effetti fissi’, il
Range di ogni variabile indipendente significativa (in tabella non compaiono le
variabili non significative) e i ‘pesi’ associati a ciascun fattore.
I fattori che più esercitano un effetto positivo sulla realizzazione delle
costruzioni relative sub-standard sono: la funzione di locativo dell’elemento
relativizzato (peso 0,792), l’essere animato (peso 0,702) e il non essere
adiacente al subordinatore (peso 0,68). In tutti e tre i casi, esplicitare la
funzione sintattica dell’elemento relativizzato previene ambiguità date dalla
scarsa trasparenza del caso del nominale, quando questo presenta tratti propri
del sogg canonico (come l’animatezza), e dalla ‘distanza’ che intercorre tra il
nominale e la frase relativa (come quando testa e subordinatore non sono
adiacenti).
Un’analisi multivariata basata su un ‘modello a effetti misti’ consente di
valutare se i risultati siano condizionati da ‘effetti casuali’ dovuti ad es. alla
variazione interindividuale. L’incidenza di effetti casuali è stimata sulla
deviazione standard, indice di dispersione dei dati rispetto a un valore centrale.
Nel nostro caso, la correlazione tra costruzioni relative [+Caso] e le variabili
indipendenti non è riducibile a comportamenti di singoli individui (valore 0); il
comportamento è omogeneo tra i parlanti del campione.

Test di significatività statistica noto come test del chi-quadro: è utile quando si confrontano due o più insiemi di dati rispetto alla
presenza di un certo fenomeno per verificare che le differenze osservate non siano casuali. Il test è indipendente da programmi come
GoldVarb e Rbrul; può essere utilizzato anche con strumenti più semplici come Excel.
Vediamone un’applicazione. Supponiamo di voler indagare quantitativamente la diffusione del costrutto di tipo c’è tre libri, e la sua
distribuzione nel C-ORAL-ROM (corpus LIP).

Nel C-ORAL-ROM si registrano casi di mancato accordo in 51 contesti


su 260; nel LIP, invece, in 22 su 279. C’è tre libri occorre meno del 20%
dei contesti nel C-ORAL-ROM, e l’8% nel LIP; è dunque più diffuso nel
parlato di Firenze.

Il test del chi-quadro consente di stabilire se le differenze riscontrate possano essere casuali (ipotesi zero) oppure no; se non sono
casuali, si possono ritenere statisticamente significative. Nell’esempio, ci può dire se la presenza maggiore del fenomeno nell’italiano
parlato a Firenze sia o non sia dovuta al caso, e quindi se non vada o vada interpretata sociolinguisticamente. Calcoliamo i dati che
otterremmo se la differenziazione geografica non avesse effetto sulla realizzazione del fenomeno; questi dati sono detti dati attesi: si
registrano 73 casi di non accordo su 539 contesti indagati (percentuale di realizzazione del 13,54%, indipendentemente dallo
specifico corpus indagato e da fatti di variazione diatopica). Per ottenere il numero di casi attesi di non accordo per ciascun corpus, si
può moltiplicare per questo valore percentuale il numero dei contesti indagati nei rispettivi corpora; il numero di casi attesi di
accordo, a questo punto, può essere ottenuto semplicemente per sottrazione dal totale.

Possiamo a questo punto calcolare il valore del chi-quadro (differenza


fra dati osservati e dati attesi). Quanto più dati osservati e dati attesi
differiscono fra di loro, tanto più alto è il valore del chi-quadro. Se
tale valore supera una certa soglia, i dati osservati sono
statisticamente significativi, non casuali. In questo caso il valore è di
15,8. Per stabilire se questo valore sia tale da ritenere statisticamente
significativi i dati osservati, occorre fare riferimento alla distribuzione dei valori critici del chi quadro. Questa distribuzione è
facilmente reperibile sul web (riportato un frammento in tabella).

I valori percentuali sulla prima riga rappresentano la probabilità che la


distribuzione dei dati osservati sia casuale. La prima colonna dà invece i
gradi di libertà (gl); nel nostro caso, occorre considerare come grado di
libertà 1. A questo punto, confrontando i valori di chi-quadro riportati in
corrispondenza del grado di libertà 1 con il valore di chi-quadro ottenuto,
15,8, possiamo osservare come questo sia maggiore di 10,83 (p < 0,001).
Ciò significa che si ha meno dello 0,1% di probabilità che la differenza
osservata fra C-ORALROM e LIP sia casuale. Più in generale, nei test di significatività statistica si individuano convenzionalmente
tre livelli di soglia delle probabilità, e precisamente: Le tre soglie stabiliscono confini tra gradini diversi di significatività. Sotto la
soglia dello 0,1%, la probabilità che il risultato sia casuale è praticamente nulla

Potrebbero piacerti anche