Sei sulla pagina 1di 50

Esame scritto

Testi:
• G. Bernuto e M. Cerruti “Manuale di sociolinguistica” Utet (2014)
• L. Serianni e G. Antonelli “Manuale di linguistica italiana” Mondadori (2011), capitoli
1, 2, 3
• L. Lepschy “La lingua Italiana: storia, varietà d’uso, grammatica” Milano (1988), solo
da pagina 1 a 35
• M. Loporcaro “Profilo linguistico dei dialetti italiani” Laterza, solo capitoli 1 e 5
• C. Bettoni “Italiano fuori d’Italia” (1993), solo da pagina 411 a 460

Più informazioni: giuliano.bocci@unisi.it o su Moodle (password: 2019-2020)

30 Settembre
Con sociolinguistica si intende la disciplina che studia il rapporto tra fenomeni linguistici
e specifici fattori sociali. Esso però è soggetto a diverse variazioni: in primo luogo,
l’influenza che la società e i fatti sociali hanno sui fatti linguistici (es. le funzioni della lingua
e come essa è utilizzata dai suoi autori), in secondo luogo invece, in che modo la lingua
influenza la società (ovvero la funzione che svolge). Di conseguenza il rapporto tra lingua
e società si può affrontare da diverse prospettive che possono privilegiare la componente
sociale (la sociologia che tiene conto dei fatti linguistici) o la componente linguistica (la
linguistica che tiene conto dei fatti sociali).
F. de Saussure individua una differenza tra langue e parole, dove la prima è intesa come il
sistema linguistico sottostante mentre la seconda come la messa in uso concreto del
sistema linguistico astratto (la parole per esempio è il modo in cui i giocatori giocano ad un
gioco rispettandone le regole). La langue, secondo F. de Saussure, è infatti un insieme di
regole condiviso dall’insieme dei parlanti, a differenza della facoltà di linguaggio che è la
capacità cognitiva che permette agli uomini di apprendere una lingua e di usarla per
articolare il pensiero, per comunicare e per socializzare, quindi è propria del genere
umano.
Quando ci riferiamo alla linguistica esterna intendiamo lo studio del linguaggio in quanto
proprietà esterna dell’individuo, privilegiando la dimensione sociale, storica e culturale,
mentre quando ci riferiamo alla linguistica interna intendiamo la capacità cognitiva e
mentale dell’individuo, non i fattori storici che ne hanno influenzato il linguaggio.
Secondo la prospettiva internalista di Chomsky, lo studio della lingua è inteso come
sistema di conoscenza individuale, ma esistono una posizione debole e una forte: in base
alla posizione forte non è concepibile una linguistica che non sia sociolinguistica (Labov) e
quindi non può esistere nessuno studio linguistico puro se non si prendono in
considerazione i fattori sociali, mentre secondo la posizione debole la sociolinguistica è
intesa come una sottoparte della linguistica (Berruto). Di conseguenza, secondo la
seconda opzione si riconosce implicitamente che esiste una linguistica che non sia
sociolinguistica, e che quindi può essere legittimo studiare i fatti linguistici senza riferirsi ai
fenomeni sociali.
Tutti gli aspetti del linguaggio che pongono limiti alla variazione rifuggono una spiegazione
in termini di linguistica esterna e quindi devono esser indagati nell’ottica della linguistica
interna. Infatti, tutte le proprietà invarianti della facoltà di linguaggio, cioè gli universali, non
possono che essere studiati quali fenomeni della linguistica interna: poiché essi non
variano, non ha senso chiedersi se la loro variazione correli con caratteristiche sociali dato
che sono intrinseche al linguaggio, come per esempio la ricorsività (la proprietà che
hanno certe regole formali di potersi riapplicare indefinitivamente al loro stesso risultato) e
la dipendenza da struttura (qualunque processo sintattico che riguarda unità
sintagmatiche e non). Per Chomsky la conoscenza della lingua è quindi la conoscenza di
un sistema generativo, cioè un sistema di regole ricorsive che possono generare un
numero potenzialmente illimitato di frasi.
Esistono lingue a soggetto nullo, come l’italiano, e lingue non a soggetto nullo, come
l’inglese, nelle quali va espresso per forza. Per le prime è necessario immaginare che ci
sia un elemento pronominale nullo, ovvero non pronunciato, ma se il pronome è
pronunciato non può avere come antecedente un elemento quantificazionale o un
elemento interrogativo in quei contesti in cui un elemento pronominale nullo possa essere
utilizzato al suo posto (Overt Prounoun Constraint ovvero restrizione sui pronomi
pronunciati). Per esempio, la frase Giorgio crede che egli (Giorgio) potrà vincere la corsa è
possibile anche a soggetto nullo (ovvero senza egli), mentre nella frase Chi crede che egli
sarà escluso? non è possibile che egli si riferisca a Chi proprio perché Chi è un elemento
interrogativo che precede egli. La situazione cambia nella frase Chi ha detto che vincerà?
perché diventa possibile l’interpretazione collegata di Chi al soggetto nullo. Quindi se una
lingua ha il soggetto nullo, automaticamente si applica l’Overt Prounoun Constraint. Inoltre
l’opzione della presenza o meno del soggetto nullo nelle lingue, è legata ad altre regole a
cascata, come per esempio l’inversione del soggetto (es. Ha telefonato Gianni in inglese
non è possibile perché si deve dire per forza Gianni telephoned).

1 Ottobre
Oltre ai casi di variabilità universali, ce ne sono alcuni che non lo sono, come gli universali
implicazionali. Se, per esempio, una lingua nel suo inventario fonologico ha le vocali
anteriori arrotondate, necessariamente avrà anche le vocali anteriori non arrotondate ma
non è per forza vero il contrario, o ancora, se una lingua ha le vocali nasali allora avrà
anche le vocali orali, ma non è vero il contrario (in francese ci sono entrambe, mentre in
italiano ci sono solo le orali).
Nella microsociolinguistica (sociolinguistica in senso stretto) l’interesse è rivolto alla
relazione tra fatti linguistici e società, con l’obbiettivo di capire meglio come la lingua
funzioni nella comunicazione tra i locutori, mentre nella macrosociolinguistica
(sociologia delle lingue o del linguaggio) lo scopo è di comprendere meglio la struttura
sociale attraverso lo studio della lingua, ad esempio come certi aspetti linguistici servano
per caratterizzare certe configurazioni sociali. Nonostante questo, l’opposizione micro vs
macro può essere intesa anche nel senso di piccoli gruppi di parlanti per la
microsociolinguistica e di gruppi di parlanti più ampi per la macrosociolinguistica.
Procedendo in maniera analitica, è possibile distinguere differenti modi in cui società e
lingua si collegano:
1. La struttura sociale può influenzare o determinare i comportamenti linguistici, quindi
la direzionalità è dalla società alla lingua (determinismo linguistico)
2. I comportamenti linguistici influenzano o determinano le strutture sociali (nella
versione più estrema questa prospettiva è alla base dell’ipotesi del relativismo
linguistico)
3. L’influenza tra lingua e società è bidirezionale
4. Non c’è relazione tra strutture linguistiche e struttura sociale (una possibile variante
di questa posizione è che ci sia una relazione, ma che sia prematuro cercare di
darne una caratterizzazione)
La parole riguarda i comportamenti linguistici, invece la langue le strutture linguistiche, ma
entrambe influenzano o determinano le strutture sociali.
Secondo la sociolinguisitca correlazionale inoltre, gli aspetti sociali sono indipendenti
dai fatti linguistici sui quali agiscono, quindi la direzione è dalla società verso la lingua
(come nel primo caso). Diversamente nella sociolinguistica interpretativa, l’accento
cade sull’interpretazione di ciò che fanno, o intendono fare, i parlanti che costruiscono
significati di interazione usando i mezzi linguistici. Quindi in questo caso la lingua crea
essa stessa la società e la direzione è dalla lingua alla società.
La sociolinguistica percezionale invece si occupa di capire non tanto come i fatti
linguistici sono influenzati dai fattori sociali, ma piuttosto cosa ne pensano i parlanti a
riguardo, cioè per esempio qual’è la considerazione sociale che hanno i locutori di
determinati accenti italiani e non lo studio del dialetto in sé. Il punto di partenza infatti è la
percezione che i parlanti hanno dell’ambiente linguistico in cui vivono e le rappresentazioni
che se ne costruiscono.
Un ulteriore sottogruppo della sociolinguistica è la sociofonetica che si concentra sugli
aspetti fonetici, cioè come la variazione fonetica sia strutturata nella rappresentazione
degli individui, come venga processata e valutata soggettivamente. La sociofonetica però
si differenzia dalla sociolinguistica perché usa variabili fonetiche e metodi sperimentali.

2 Ottobre
Una lingua è un qualsiasi sistema linguistico esistente o esistito presso un gruppo di
parlanti come manifestazione della facoltà umana del linguaggio, di conseguenza i dialetti
sono lingue a tutti gli effetti.
In generale per dialetto s’intende un sistema linguistico che però gode di un prestigio
relativamente basso rispetto alla lingua standardizzata, ma dal punto di vista scientifico
non c’è nessuna differenza tra lingua e dialetto.
Nel caso della Francia si può differenziare ulteriormente il dialetto dal patois, che è la
varietà regionale tipicamente rurale e priva di tradizione letteraria (quindi è ancor più
basso a livello di prestigio culturale).
Per esempio, dal punto di vista della linguistica interna l’urdu e l’hindi sono
sostanzialmente le stesse lingue, ma i locutori si differenziano come parlanti di una o
dell’altra lingua perché la differenza cruciale è il sistema di scrittura:
• l’urdu è scritto da destra a sinistra con l’alfabeto arabo-persiano
• l’hindi è scritto da sinistra a destra con l’alfabeto devanagari e con prestiti dal
sanscrito
Esiste però anche il caso completamente opposto, infatti i parlanti del cantonese e del
mandarino non si capiscono minimamente ma dal punto di vista sociale i locutori di
entrambe le lingue tendono a considerarle due dialetti del cinese, nonostante non ci siano
somiglianze se non per il sistema di scrittura.
Per poter fare analisi sociolinguistica è necessario distinguere una determinata comunità
di parlanti che condividono alcuni aspetti relativi alla lingua e ci sono diversi approcci per
definire i parametri pertinenti nel definire una comunità linguistica. Un esempio è il criterio
di delimitazione geografica, ma una comunità può essere definita anche in termini di
atteggiamenti soggettivi rispetto alla lingua, o ancora in termini di interazione sociale.
Il repertorio linguistico invece è l’insieme delle risorse linguistiche a disposizione dei
membri di una comunità, cioè la somma delle varietà di una o più lingue impiegate presso
una comunità sociale. Nel caso dell’italiano per esempio, ne fanno parte tutte le lingue
usate dai cittadini italiani, come l’italiano con tutte le sue varietà, i dialetti italo-romanzi con
le loro varietà e le lingue minoritarie con le loro varietà.
Inoltre è presente una dicotomia tra varietà alte e basse: per varietà alta s’intende la
varietà dotata di prestigio sociale, utilizzata in contesti formali, colti e codificati, mentre con
varietà bassa s’intende varianti non dotate di prestigio, poco accurate, che tipicamente
occorrono in situazioni scarsamente valutate dal punto di vista sociale.
A differenza della classe sociale, che è concepita come una scala sociale, il gruppo
sociale designa piuttosto una separazione sociale, che può essere per esempio di tipo
geografico o di altra natura, ma per essere a tutti gli effetti un gruppo sociale è necessario
che abbia solitamente un comune stanziamento territoriale che permetta concrete
possibilità di interazione tra individui, condivisione di esperienze, valori e aspettative e
l’esistenza implicita o esplicita di norme condivise. I gruppi sociali inoltre possono essere
entità definite nelle quali i membri che vi appartengono si autodefiniscono dall’interno
come tali, oppure entità nelle quali sono gli esterni ad indicare i membri appartenenti al
gruppo, indipendentemente da quello in cui essi stessi si riconoscono. Il comportamento
linguistico di un parlante può cambiare marcatamente in funzione del contesto: se si
rivolge all’interno del gruppo abbiamo un fenomeno di in-group we-code, mentre se si
rivolge a coloro che non appartengono al gruppo abbiamo un fenomeno di out-group
they-code. La varietà di lingua tipicamente usata in-group è un simbolo e garanzia
d’identità del gruppo che si oppone alla lingua degli altri.
Quando il gruppo è definito su base etnica, per esempio, i locutori rivendicano la
differenza rispetto agli altri usufruendo di alcuni fatti linguistici specifici (etnoletto): a
Baghdad infatti, l’arabo della comunità cristiana e di quella ebraica si differenziano
dall’arabo della comunità araba che viene usato come lingua franca quando c’è
interazione tra membri di diverse comunità. Accade quindi che la comunità ebraica e
quella cristiana utilizzano un doppio sistema etnoletto, mentre la comunità araba utilizza
sempre lo stesso.

7 Ottobre
Con lingue speciali, o sottocodici, indichiamo quelle varietà della lingua usate in settori
molto specifici della comunicazione, non totalmente comprensibili da chi è esterno ad una
determinata comunità. I gerghi invece sono quelle varietà che presentano delle
deformazioni e che vengono usate dai membri del gruppo sia con funzione esplicita e
ricercata di non farsi capire da coloro che non fanno parte del gruppo, sia per capirsi più
facilmente all’interno del gruppo. Nei gerghi si osservano molto frequentemente fenomeni
come la risemantizzazione speciale (metaforica o metonimica), i neologismi, i prestiti, le
ristrutturazioni ed infine il verlain, ovvero quando le parole vengono pronunciate al
contrario. Tra i vari fattori secondo i quali è possibile che si verifichi l’uso di un determinato
gergo abbiamo l’età, che può essere sia una variabile continua, sia una variabile
discreta/categoriale (ovvero quando qualcosa può assumere un solo valore all’interno di
un insieme predefinito di valori). L’età infatti è estremamente importante anche per la
metodologia del tempo apparente che determina il gruppo dei pari, cioè un gruppo di
coetanei che condividono abitudini e atteggiamenti e partecipano a tipi di frequentazioni o
attività comuni più o meno nella stessa posizione sociale. Questo fa sì che l’input del
gruppo dei pari sia molto più potente di quello familiare (è stato studiato infatti che, per
esempio, tra gli studenti romani nati a Roma e quelli immigrati da altre regioni italiane in
giovane età, non si nota alcuna differenza nell’accento e nel modo di parlare).
Oltre all’età abbiamo anche una differenza di genere, per la quale nelle donne, a parità di
altre condizioni socio-culturali, si osserva una maggiore tendenza all’utilizzo di varietà di
un lessico orientato ad un prestigio sociale, rendendole più conservatrici delle forme
standard rispetto agli uomini. Il paradosso però è che quando l’innovazione è collegata ad
un valore di prestigio (come per esempio quando si hanno importazioni dall’inglese) le
donne si rivelano invece più innovative e meno conservative.
Ulteriori variazioni linguistiche sono legate al luogo (di nascita, di residenza, di
abitazione), al punto linguistico (l’unità minima socio-geograficamente rilevante dal punto
di vista della sociolinguistica) e allo spazio linguistico (il costrutto del parlante stesso
basato sulla percezione dello spazio piuttosto che sulla topologia fisica).

8 Ottobre
Le migrazioni (immigrazioni ed emigrazioni) portano ad un aumento della gamma di
variazione e della complessità del repertorio linguistico con fenomeni come il language
attrition (logorio linguistico), dove la lingua madre è in attrito con la lingua usata
quotidianamente e che può portare anche alla perdita di lingua e alla creazione
dell’heritage speakers, ovvero quando i figli ereditano una parte della lingua madre
sottoposta a logorio linguistico.
Della situazione comunicativa fanno parte anche l’occasione, l’ambiente e la scena che
variano a seconda dei contesti. L’accomodamento infatti è il processo mediante il quale i
partecipanti ad un’interazione verbale adattano vari aspetti della loro produzione linguistica
(come pronuncia, lessico, e strutture sintattiche) modificandola sotto l’influenza del modo
di parlare degli interlocutori.
Il prestigio invece è legato al comportamento linguistico che è considerato degno di
imitazione e dipende dalla valutazione che i membri di una comunità ritengono
desiderabile (lo stigma è la sanzione sociale negativa, quindi l’effetto opposto).
La rete sociale è costituita dalla densità e dalla molteplicità, dove la prima è l’insieme dei
legami effettivi che vi sono tra una persona di riferimento e tutte le persone con cui questa
si trova ad interagire (occasionalmente o ripetutamente), mentre la seconda comprende i
legami bidirezionali. Spesso si osserva che le reti a maglie strette (dense e molteplici)
sono in genere conservative e quindi viene esercitato un maggior controllo, inoltre, per gli
individui che vi si sono ben integrati, è possibile la conservazione di un comportamento
linguistico distante dallo standard a causa della pressione dell’in-group. Le reti a maglie
larghe invece, sebbene siano poco dense e poco molteplici, sono più innovative grazie al
controllo minore.
In concreto possiamo riferirci all’indagine di Dubois e Horvath del 1998 sulla comunità
bilingue inglese/francese di parlanti di Cajun in Louisiana, che mette in luce l’importanza di
condurre analisi multidimensionali che esplorino le interazioni tra variabili di genere, di età,
e di rete sociale. È stata notata infatti una sorta di rivendicazione dell’identità etnica a
Cajun ed un progressivo cambiamento linguistico: iniziano ad essere presenti delle
realizzazioni variabili delle fricative interdentali tipiche dell’inglese come [θ] (es. thin) e [ð]
(es. that), in occlusive dentali [t] e [d]. Inoltre risulta che complessivamente gli uomini
usano le varianti occlusive più delle donne, le quali però sono influenzate anche dal tipo di
rete sociale, al contrario degli uomini (le donne di rete aperta producono le occlusive molto
meno delle donne di rete chiusa). Anche l’età è una variabile fondamentale, infatti le
persone più anziane usano la variante sub-standard a differenza dei giovani che la usano
molto meno.
In italiano, con le domande che iniziano con dove o quando non è possibile posizionare il
soggetto tra l’elemento interrogativo e il verbo (es. Dove Gianni è andato?), invece nel
caso di perché questo ordine è possibile. Nelle interrogative indirette di nuovo si nota lo
stesso fenomeno per il quale Mi chiedo dove telefoni Gianni è possibile, mentre Mi chiedo
dove Gianni telefoni non lo è, a differenza della frase Mi chiedo perché Gianni telefoni che
risulta possibile. Su questi fenomeni sono stati effettuati diversi esperimenti, come per
esempio quello di scelta forzata tra due sole opzioni sottoposte a candidati italiani
monolingue, che hanno portato a convenire che la preferenza dell’inversione del soggetto
col verbo è data sia dal tipo di elemento interrogativo che lo precede (come, dove,
perché), sia dal contesto in cui si trova la frase.

9 Ottobre
Finora abbiamo discusso la posizione del soggetto in domande presentate all’interno di un
contesto neutro ed è risultato che sia nelle domande con perché che in quelle sì/no sono
possibili entrambi gli ordini SV e VS: nelle domande in cui il contesto suggeriva
un’interpretazione neutra i partecipanti mostravano una preferenza per l’ordine SV
(sebbene l’ordine VS non risultasse del tutto impossibile), mentre in casi di focalizzazione
del soggetto risulta preferibile l’ordine VS.
Ora invece compariamo soggetti di madrelingua italiana che vivono in Italia con locutori di
madrelingua italiana che però vivono in un ambiente anglofono da vari anni. È stato notato
che nelle frasi subordinate a contesto neutro, i soggetti che hanno la loro madrelingua in
attrito con l’inglese, mostrano esattamente un comportamento equivalente a quello dei
locutori monolingue. Invece, nel caso delle interrogative principali a contesto neutro, con la
domanda dove non abbiamo alcuna differenza dato che anche in italiano è presente
l’inversione soggetto-verbo, ma con la domanda perché o con le sì/no succede che i
locutori anglofoni sono più propensi all’ordine VS, a differenza dei locutori monolingue che
preferiscono l’ordine SV. Questo accade per l’effetto della pressione dell’inglese
sull’italiano, dato che nelle frasi principali inglesi è presente l’inversione soggetto-verbo e
nelle subordinate no. Però nel caso specifico delle frasi subordinate con dove, nonostante
in inglese non si effettuerebbe l’inversione soggetto-verbo ai locutori anglofoni risulta
possibile: questo perché in italiano l’inversione soggetto-verbo nelle domande con dove è
obbligatoria quindi l’inglese non riesce ad influenzare talmente tanto i parlanti di entrambe
le lingue. Negli altri casi infatti, l’inversione non sta rendendo totalmente sgrammaticata la
posizione del soggetto perché entrambe le posizioni sono possibili a seconda del contesto,
ma nel caso della domanda con dove la restrizione sulla posizione del soggetto in italiano
è molto più solida e quindi i locutori si adeguano.
Per definire la posizione sociale di una lingua abbiamo due parametri possibili:
• lo status, che è definito dall’insieme degli usi a cui una lingua può adempiere in
una data comunità
• la funzione, che è definita dagli usi a cui una lingua effettivamente adempie in una
data comunità. Per esempio il gaelico irlandese ha lo status di lingua nazionale con
un forte valore simbolico, quindi potrebbe essere usato in ogni ambito ma di fatto
non lo è (funzione)
Tra i fattori di definizione dello status abbiamo i fattori geopolitici, che sono caratterizzati
dalla diffusione geografica, dai sistemi sociali e dallo status giuridico. Essi comprendono:
• lingue pluricentriche, che sono riconosciute come lingue nazionali in più paesi e
che in genere hanno sviluppato varietà diverse. Per esempio il francese parlato in
Belgio, in Svizzera, in Canada ed in Africa, oppure l’inglese, il tedesco o anche lo
spagnolo
• lingue di lavoro, che sono usate in ambiti ufficiali presso un certo ente o
un’organizzazione nazionale (es. ONU)
• lingue internazionali, che sono usate per la comunicazione tra stati e per la
diplomazia internazionale
• lingue nazionali, che sono l’espressione del senso identitario nazionale e dell’idea
romantica di lingua come simbolo nazionale. Per esempio il Lussemburgo ha 3
lingue ufficiali, ovvero il francese, il tedesco e il lussemburghese ma solo
quest’ultimo è riconosciuto come lingua nazionale
• lingue non riconosciute, lingue riconosciute e lingue ufficiali dell’amministrazione
statale rispetto allo stato giuridico. Per esempio il gaelico irlandese è riconosciuto
sia come lingua ufficiale, che come lingua nazionale
Oltre ai fattori geopolitici abbiamo anche i fattori sociodemografici, che vengono
caratterizzati dal numero relativo e dal numero assoluto di parlanti, ma anche dall’impiego
nei differenti domini. Essi comprendono:
• lingue minoritarie, usate da una comunità di parlanti che costituisce una
minoranza demografica all’interno di un entità amministrativa
• lingue per numero assoluto di parlanti, che possono essere grandi (centinaia di
milioni di parlanti), medie (decine di milioni), medio-piccole (pochi milioni) e piccole
(migliaia di parlanti o anche meno)
• lingue franche o veicolari, usate per la comunicazione tra parlanti con lingue
materne differenti
• lingue usate in tutti i domini oppure in relazione a situazioni differenti (la
distribuzione delle lingue nei vari domini è un indicatore importante dello status di
una lingua)
• lingue diverse per domini diversi in società plurilingue (es. italiano in contesti formali
vs dialetto in contesti familiari)
La posizione sociale delle lingue è influenzata anche dalle caratteristiche dei suoi parlanti
come l’appartenenza etnica, la religione, la classe generazionale e la classe sociale.

14 Ottobre
Infine abbiamo i fattori linguistici che comprendono:
• lingue per elaborazione, cioè il fattore che riguarda quelle lingue che hanno un
sistema di scrittura e quelle scritte ma non quelle orali, che permettono di
soddisfare tutte le esigenze di una società (culturali, sociali, scientifiche e
tecnologiche)
• lingue con grado di standardizzazione, che può essere inteso come un processo
che ha inizio con la selezione di una o di una serie di varietà utilizzate come base
per lo standard (dunque la selezione può essere monocentrica o policentrica). Dopo
aver selezionato la base si codificano le norme (vocabolari e grammatiche), in
seguito abbiamo l’implementazione, ovvero la diffusione e l’accettazione della
norma presso la comunità. Infine avviene l’elaborazione in cui si sviluppano i domini
di impiego della norma. La definizione di standard viene quindi continuamente
sottoposta ad aggiornamento anche se non si può totalmente destrutturare la
norma (es. non possono essere stravolti luogo di impiego e regole fondamentali)
• vitalità delle lingue, che si suddivide in esterna ed interna, dove la prima si fonda
sugli usi della lingua nella società, mentre la seconda riguarda il mantenimento
delle caratteristiche strutturali e semantico-lessicali anche in riferimento alla stabilità
rispetto al contatto linguistico
Esiste anche un indice UNESCO per determinare la vitalità di una lingua

La varietà standard dispone di una norma esplicitamente codificata e che vale come
modello di riferimento riconosciuto per l’uso giudicato corretto per la lingua, di
conseguenza, copre la gamma più vasta di domini (es. ufficialità, ambito tecnico
scientifico, cultura, ecc) e gode di un importante valore simbolico di identificazione unitaria
per la comunità linguistica. In generale infatti unifica la comunità di parlanti che si
riconosce nello standard e si suddivide in varietà standard in senso prescrittivo, ovvero
l’insieme di norme di riferimento, ed in varietà standard in senso descrittivo, ovvero
l’insieme di tratti linguistici condivisi da un’intera comunità che tendenzialmente sono
diffusi senza variazione geografica e di identità sociale. Lo standard è:
• codificato (proprietà necessaria), quindi definito dall’esistenza di un corpo
riconosciuto di regole normative di riferimento che sono basate su testi esemplari e
fissate da grammatiche e dizionari
• sovra-regionale, quindi le norme sono unitarie e diffuse su tutto il territorio
(generalmente nazionale)
• elaborato, quindi adatto a tutti i domini di impiego ed in particolare per gli usi alti
• di prestigio, quindi il suo uso è sostenuto e praticato dai ceti sociali alti e con un
elevato grado di istruzione
• invariante, quindi ha un minimo grado di variazione interna in sincronia ma è
soggetto a variazione in diacronia
• scritto
Il termine vernacolare (vernacular languages) può esser variamente utilizzato, ma nella
maggior parte dei casi ci si riferisce a una lingua che non è standardizzata e che non ha
uno status ufficiale. I vernacular languages infatti non sono codificati, sono acquisiti nella
prima infanzia a casa e sono usati per un numero relativamente circoscritto di funzioni (es.
lo spagnolo parlato in USA).
I termini World Englishes sono stati utilizzati per enfatizzare l’ampiezza della gamma delle
varietà con cui l’inglese è stato utilizzato a partire dall’Ottocento. Gli inner cicles
(Inghilterra, Australia, Canada) comprendono i paesi in cui la popolazione è in
maggioranza monolingue, gli outer circles (Malesia, Tanzania e India) comprendono
paesi spiccatamente multilingue in cui l’inglese, con varietà relativamente standardizzate,
coesiste accanto a varietà di inglese più influenzate da lingue locali, infine gli expanding
circles (Cina, Giappone e Russia) comprendono i paesi in cui l’inglese è una lingua
aggiuntiva che è usata per una serie di ragioni ma che non riveste alcuna significativa
funzione di comunicazione all’interno del paese. Questa classificazione è problematica
però se pensiamo a paesi come l’India e Singapore in cui una parte rilevante della
comunità linguistica parla la lingua come prima lingua.
Con dialetto si può voler indicare una varietà linguistica non standardizzata,
tendenzialmente ristretta all’uso orale, parlata dentro ad una comunità circoscritta dal
punto di vista geografico ed esclusa dai contesti formali e istituzionali, quindi subordinati
allo standard. La differenza tra dialetto e lingua standard non è una differenza interna alla
lingua come sistema, ma una differenza puramente sociale, infatti i dialetti non derivano
necessariamente dalla lingua standard. I dialetti primari sono varietà sorelle delle varietà
standard infatti hanno un antenato in comune da cui si sono differenziati in parallelo (es.
dialetti italo-romanzi). I dialetti secondari invece derivano dalla diffusione di una lingua
comune a partire dalla quale divergono, si frammentano e quindi si allontanano (es.
italiano regionale). Infine nella letteratura inglese con dialect si intende ogni varietà definita
in relazione ai parlanti, quindi si possono definire sia per variazione geografica e sia per
variazione sociale. Il termine si oppone a register in quanto quest’ultimo è definito rispetto
all’uso.
15 Ottobre
Le lingue minoritarie hanno tipicamente un valore simbolico di identità etnica o culturale
per le comunità che le usano. Per distinguere meglio tra varietà standard, dialetti e lingue
minoritarie è utile far riferimento alla nozione di copertura, cioè al fatto che una lingua, nel
territorio in cui è parlata, è strettamente imparentata con una lingua di cultura/prestigio
sopra di sé, ovvero la lingua tetto o di copertura. Per esempio, i dialetti di greco parlati
nel sud d’Italia (il grico a Lecce e il gricanico a Reggio Calabria) sono imparentati con la
lingua di prestigio, sebbene il greco sia parlato in un’altra area geografica.
Una varietà linguistica si dice autonoma quando i parlanti riconoscono in essa stessa la
sua propria norma. Quindi, rispetto ad un’altra varietà A, si dice eteronoma quella varietà
linguistica B i cui parlanti riconoscono in A la norma a cui B dovrebbe adeguarsi (la varietà
A è la lingua tetto). La dicotomia eteronomia/autonomia è una nozione prettamente
sociale ma ha anche un valore nella linguistica interna dato che comporta un
avvicinamento del dialetto alla lingua tetto (per la quale è cruciale tenere presenti i fattori
storico-culturali). Per esempio, storicamente la Sardegna era posseduta dalla Catalogna,
successivamente dalla Spagna, poi dalla Francia e dall’Austria ed, infine, dai Savoia. Se si
analizza il termine scarpa, che in sardo è sabbota ed in spagnolo è bota, si può notare
come la lingua sarda si sia arricchita grazie alla lingua sovraordinata, cioè lo spagnolo.
Solo quando la Sardegna è passata sotto i Savoia è subentrato l’italiano nell’isola.
Per capire come avviene la classificazione dei dialetti, si può fare un esempio con il
torinese e l’italiano: in italiano il termine occhio viene pronunciato con la o posteriore
arrotondata, mentre in torinese viene pronunciato con la ø anteriore arrotondata.
Nonostante il torinese sia un dialetto italiano, però, si può notare come esso sia assai più
prossimo al francese, rispetto anche al siciliano perché la ŏ breve latina dà origine alla ø
anteriore arrotondata [-ATR]. Il torinese però è classificato come un dialetto italiano e non
come un dialetto francese, perché la lingua tetto del torinese è l’italiano a partire dal ‘500,
mentre precedentemente era il francese. Inoltre la presenza di questo mutamento delle
vocali tra torinese e francese sta a significare che entrambi appartengono alla stessa
isoglossa, ovvero i tratti linguistici condivisi tra più varietà. Il concetto di isoglossa però,
può indicare due concetti distinti:
• l’area nella quale si osservano proprietà comuni
• la linea di frontiera che divide due aree diverse per un certo tratto
Tra i dialetti primari dell’italiano la presenza di una linea di demarcazione geografica è
generalmente il risultato di un mutamento linguistico, che è stato studiato nella scuola dei
neogrammatici a Lipsia nella seconda metà del 1800 e che si basa sull’assunto che il
mutamento è regolare, quindi si applica a tutte le forme che soddisfano i requisiti della
trasformazione. Per esempio, nel dialetto bolognese la a latina accentata in sillaba aperta
è divenuta [ɛː] (cioè è), infatti palam diventa [pɛːla], di conseguenza ci si aspetta che tutte
le a latine accentate in sillaba aperta diventino [ɛː], invece ci sono delle eccezioni. Clamat
diventa [tʃ aːma], e non [tʃ ɛːma], e per spiegarne il motivo prima di tutto si cerca di
verificare se un altro mutamento abbia interferito. Vediamo come in tutta l’Italia del Nord la
m intervocalica è stata geminata in fase alto-medievale, quindi le sillabe seguite da m
erano trattate come sillabe chiuse: clamat → [tʃ aːma], flammam → [fjama], factam →
[faːta]. Questo quindi è un fattore indipendente che fa diventare la sillaba da aperta a
chiusa e che elimina l’aspettativa di [ɛː] dato che essa era presente solo in sillabe aperte.
Di conseguenza, se l’eccezione non può essere spiegata con un processo indipendente,
bisogna verificare se possa avere cause di origine morfologica. Per esempio, il termine
italiano vedo non è la continuazione regolare di video in latino, che è veggio, quindi vedo è
sorto per analogia da altre forme del paradigma come vedi e vede, le quali sono in realtà
continuazioni regolari di vides e videt. Quindi ancora una volta, se l’eccezione non si può
spiegare né con un processo indipendente né per effetto di analogia, allora si potrebbe
ricorrere in ultima analisi all’ipotesi di un prestito, cioè che la parola non mostra il
mutamento atteso perché potrebbe esser entrata nel lessico da un’altra lingua. Ma questa
spiegazione nei termini di prestito ha bisogno di un’ulteriore assunzione, tale per cui il
prestito deve essere avvenuto quando il mutamento si era già concluso. Per esempio in
logudorese tl e cl sviluppano [ʒ] (fricativa sonora post-alveolare), quindi oc(u)lum → oʒu e
genuc(u)lum → benuʒu. Tuttavia c’è un’eccezione, infatti vet(u)lum → bettsu che è un
prestito dal toscano antico vecchio che ha avuto luogo nell’epoca della dominazione
pisana. In questo approccio quindi, una spiegazione basata sul prestito da un’altra lingua è
possibile, ma è l’ultima ipotesi da prendere in considerazione quando le altre ipotesi sono
già state scartate.
Infine, per classificare il torinese come un dialetto italo-romanzo, assieme al siciliano,
piuttosto che come dialetto gallo-romanzo, oltre al criterio esterno (sociolinguistico), ce n’è
anche uno interno (linguistico-strutturale), cioè che tra il torinese e il siciliano c’è un
continuum dialettale. Esso rappresenta un territorio sul quale i dialetti si sono legati fra di
loro attraverso una catena di intercomprensibilità. La presenza di un continuum dialettale
però è una condizione necessaria ma non sufficiente per catalogare il torinese come una
lingua italo-romanza perché il continuum supera il confine italiano, pertanto esiste anche
tra francese e piemontese. Proprio per questo motivo si deve prendere in considerazione
anche il concetto di romània continua, ovvero quando c’è continuum dialettale tra tutte le
varietà romanze parlate nelle sedi storiche (escludendo quindi le varietà importate con la
colonizzazione). L’unica eccezione territoriale è il rumeno, per cui non vale questo
concetto di romània continua dato che essa è circondata da luoghi dove non si parlano le
lingue romanze, quindi non c’è continuum.

16 Ottobre
Le linee delle isoglosse non sono mai perfettamente coincidenti e oltre che nel tempo, la
mutazione linguistica procede anche nello spazio attraverso la diffusione lessicale.
Il repertorio linguistico è l’insieme delle lingue e delle varietà usate da una comunità
linguistica, ma questo non può prescindere dalla distribuzione nelle lingue dei diversi
domini e dai rapporti gerarchici che esistono tra varie lingue compresenti nel repertorio.
Molti repertori plurilingue infatti sono stratificati per diversi livelli sociali determinati del
prestigio. Distribuzione a gradini:
• varietà alta (A)
• varietà bassa (B)
• varietà media (M)
Nel bilinguismo sociale non prendiamo come riferimento la competenza del singolo
individuo ma l’intera società. Esso può essere:
• endogeno/endocomunitario, nel caso in cui ci sia la compresenza radicata
storicamente di 2 o più lingue
• esogeno/esocomunitario, nel caso in cui ci sia la compresenza di 2 o più lingue
dovuta a un apporto immigratorio esterno in epoca recente
• monocomunitario, quando in una certa entità territoriale i parlanti sono quasi tutti
bilingui e c’è quindi un’unica comunità linguistica (es. Valle d’Aosta, Lussemburgo,
Malta)
• bicomunitario, quando all’interno di una comunità territoriale abbiamo due sotto-
comunità caratterizzate dall’impiego pressoché esclusivo di una delle due lingue
(es. Cipro, Belgio)
Il bilinguismo standard, ovvero il dialetto in Italia, è monocomunitario, endogeno, a
contatto molto intensivo e socio-funzionalmente stratificato.
Nella diglossia abbiamo due varietà linguistiche, in cui A è altamente standardizzata
(quindi esiste una norma), è dotata di prestigio letterario, è appresa con la scolarizzazione
(e non con la socializzazione primaria) e fondamentalmente è una lingua usata nello
scritto o in circostanze molto formali. Invece B è acquisita nella socializzazione primaria ed
è usata in tutti i contesti parlati, tranne in quelli molto formali. Tra A e B quindi non c’è
sovrapposizione di domini di impiego ed esse sono altamente differenziate. La nozione di
diglossia si può utilizzare per comunità di parlanti ma non per singoli individui, ed inoltre
può essere stabile o evolversi con il tempo. Per esempio, in Svizzera la situazione di
diglossia è sostanzialmente stabile, per cui la varietà A è il tedesco standard mentre quella
B è lo svizzero tedesco. Essendo la Svizzera multilingue, il tedesco standard permette di
utilizzare la lingua fuori dalla svizzera e di accedere a tutto ciò che è scritto in tedesco
standard. Lo svizzero tedesco invece permette un’orgogliosa rivendicazione di autonomia.
La continuazione della situazione di diglossia dipende dall’efficacia con cui il sistema
d’istruzione continuerà a favorirla utilizzando per l’educazione il tedesco standard. C’è
tuttavia un dibattito tra chi è preoccupato che l’insegnamento in tedesco standard possa
non portare ai risultati sperati e chi invece teme che qualsiasi ricerca dell’identità
attraverso l’incremento dello svizzero tedesco possa portare ad una crescente situazione
di isolamento culturale rispetto alle altre comunità di locutori tedeschi. I locutori di diglossia
possono mostrare atteggiamenti variegati verso le lingue dato che, talvolta, la lingua A può
esser giudicata come la sola capace di esprimere adeguatamente sottigliezze e sfumature
(lingua della poesia), mentre la lingua B è quella imparata nell’infanzia quindi può essere
l’unica capace di esprimere emotività e sentimenti domestici (lingua degli affetti).

21 Ottobre
Nella dilalìa invece, troviamo nuovamente due varietà A (alta) e B (bassa), ma in questo
caso la divisione tra le due non è così rigida come nei casi di diglossia. Nella dilalìa infatti
esistono domini in cui entrambe le varietà possono esser usate e alternate, dato che sia A
che B vengono acquisite durante la socializzazione primaria (es. italiano e dialetti, eccetto
il toscano ed il romano). Per esempio O Lin Tan è un cinese di Singapore di 20 anni e usa
regolarmente diverse lingue: a casa con sua mamma e sua nonna utilizza il Cantonese,
con le sue sorelle e con gli amici utilizza il Singapore English informale, capisce e parla
anche l’Hokkien per le spese nei piccoli negozi, mentre nei grandi supermercati utilizza il
Singapore English formale come negli altri contesti burocratici, infine ascolta la TV in
Mandarino. Vediamo come la scelta del codice è influenzata non solo dal dominio, ma
anche dall’interlocutore, quindi è un caso di poliglossia/polilalia, dove le varietà A sono il
Mandarino e il Singapore English formale, mentre quelle B sono il Cantonese, l’Hokkien ed
il Singapore English informale.
Nel caso del bidialettismo (es. toscano e romano) siamo nella configurazione tale per cui
nel repertorio coesistono due varietà che sono molto vicine dal punto di vista strutturale.
Infatti, dal punto di vista dei locutori, non esiste la percezione di due lingue distinte perché
si cambia semplicemente registro in base all’uso che se ne fa:
• la varietà A è parlata in un’area geografica più grande della varietà B
• ci sono domini in cui sia A sia B sono usate anche se solitamente B è preferita nelle
conversazioni ordinarie
• B non è standardizzata e non ha traduzione letteraria perché è una versione più
bassa di A
• B non è soggetta a tentativi di promozione come alternativa ad A e di introduzione
nella scolarizzazione perché è vista come una semplice variante
• B è socialmente marcata
• ci sono varietà intermedie tra A e B
Alcuni casi di bidialettismo, diglossia e dilalìa nella storia italiana:
• nel tardo antico (dal basso impero all’altissimo medioevo) era presente sia il latino
classico che il latino volgare (non i volgari del medioevo), e questo è un caso di
bidialettismo dato che i parlanti hanno la percezione di cambiare registro a seconda
del contesto perché la diversità tra le due varianti è minima
• nell’alto medioevo la lingua della scolarità era il latino, mentre i volgari romanzi
venivano usati solo sporadicamente, e per questo abbiamo un caso di diglossia
dato che il latino doveva essere acquisito con lo studio perché non era la lingua di
socializzazione primaria
• nel ‘500 si verificò l’opposizione tra l’italiano, che era una lingua letteraria che in
pochi parlavano, e i dialetti, quindi abbiamo un’altra situazione di diglossia
• nel corso del ‘900 invece si usavano sia i dialetti che l’italiano quindi si arriva ad una
situazione di dilalìa
Il contatto tra le lingue può essere orizzontale, quando le lingue coinvolte sono
comparabili sul piano del prestigio e dell’importanza socioeconomica/culturale, o verticale,
quando il rapporto tra le due lingue è asimmetrico e quindi una delle due è dominante
rispetto all’altra in termini di prestigio e posizione socioeconomica/culturale. Abbiamo
passaggio tra lingue di proprietà strutturali e materiale lessicale, mentre la direzione dello
scambio nel contatto può essere unidirezionale o bidirezionale. Per esempio l’italiano è
socialmente e culturalmente dominante sui dialetti, quindi il contatto è verticale e la
direzione dello scambio è sostanzialmente bidirezionale.
Il contatto tra le lingue può anche verificarsi con dei prestiti e dei calchi a livello lessicale, a
livello strutturale o a livello semantico. Il calco strutturale/morfologico consiste nel
trasferimento da una lingua all’altra di una struttura interna di una parola, come per
esempio grattacielo (skyscraper), colletti bianchi (white collars), fuori legge (out law). A
livello semantico invece abbiamo salvare il documento (save file), navigare in internet (to
surf), realizzare per rendersi conto.
Questi contatti possono dare nascita a nuove lingue in vari modi:
1. Le lingue miste, che nascono in comunità in cui tutti i membri sono bilingui e in cui
quindi si può avere la grammatica di una lingua e il lessico di un’altra
2. I pidgin, che sono sostanzialmente lingue franche (utilizzate da locutori di lingue
distinte che non si capiscono tra loro) nate per soddisfare i bisogni linguistici in
contesti di lavoro. A differenza delle lingue franche però, i pidgin non hanno locutori
nativi e sono caratterizzati da una struttura semplificata e da un lessico molto
ridotto. Non hanno la morfologia flessiva, la subordinazione e la morfologia di
tempo, spesso il plurale è fatto con la reduplicazione, il sistema e l’inventario
fonologico sono molto semplici e la struttura sillabica è minima. Solitamente i pidgin
hanno una vita effimera dato che dipendono dal perdurare della funzione
comunicativa per le quali sono nate, infatti anche se l’interazione tra le due
comunità continua e si protrae nel tempo, il pidgin scompare lo stesso perché alla
fine uno dei due popoli impara la lingua dell’altro o perché si evolve in un creolo
grazie alla nascita di bambini che lo parlano come lingua madre
3. I creoli, che sono le trasformazioni dei pidgin trasmessi come lingua materna a una
comunità di parlanti. Sono vere e proprie lingue naturali, complesse ed espressive
come le altre

22 Ottobre
Per lingua lessificatrice s’intende una lingua che fornisce la maggior parte del lessico di
un pidgin o di una lingua creola. Solitamente la lingua lessificatrice è quella con più potere,
tanto che i parlanti delle lingue subordinate sono più inclini a sforzarsi per venire incontro
ai parlanti delle lingue di prestigio. Inoltre è presente una differenza tra:
• lingue di superstrato, ovvero lingue non indigene che partecipano alla formazione
del creolo o del pidgin
• lingue di substrato, ovvero lingue indigene che partecipano all’evolvere del pidgin
Generalmente la lingua lessificatrice è la lingua di superstrato, infatti è quella che fornisce
la maggior parte degli elementi lessicali (N.B. le nozioni di superstrato e substrato saranno
definite in modo differente nel quadro della linguistica diacronica). Un esempio per quanto
riguarda la trasformazione dal pidgin al creolo, interessa la situazione delle Hawaii: dal
1870 ci fu un’imponente immigrazione di lavoratori con differenti L1, tanto che ci fu la
necessità di trovare una lingua di comunicazione. Nel 1900 il pidgin usato alle Hawaii
aveva un lessico basato in gran parte sull’inglese e presentava una serie di caratteristiche
come la sintassi impoverita, la mancanza di parole funzionali (articoli usati in maniera non
sistematica, mancanza di elementi flessivi, ecc), la mancanza di frasi subordinate,
l’omissione dei verbi, l’ordine delle parole estremamente variabile ed infine la dipendenza
dalla L1 di ciascun locutore. Dal 1900 al 1920 però è emersa una nuova lingua, ovvero il
creolo delle Hawai, le cui radici sono nel pidgin, ma che i bambini hanno ricreato a partire
dall’input instabile e impoverito. Per questo motivo il creolo delle Hawaii mostra delle
caratteristiche originali come l’ordine SVO, la presenza di subordinazione, un sistema
complesso di parole funzionali (alcune delle quali hanno proprietà che non possono esser
rintracciate in nessuna delle lingue che hanno contributo al pidgin) ed infine proprietà
come gli articoli e i complementatori. Infatti, se si esaminano attentamente gli articoli
dell’inglese e del creolo hawaiano si può notare che l’articolo indefinito non specifico
dell’inglese è a, mentre quello indefinito specifico e non del creolo hawaiano è wan oppure
ø. Di conseguenza si capisce come dal pidgin si sia evoluta nella lingua creola una
proprietà grammaticale totalmente nuova. Inoltre la distribuzione di wan opposta alla forma
zero ø non è affatto casuale:
• wan è usato quando il parlante si riferisce a un referente specifico non noto
all’ascoltatore
• la forma zero ø è usata quando non c’è un referente specifico
Tra gli aspetti strutturali che derivano dall’evoluzione di un pidgin ad una lingua creola si
possono quindi notare:
• processi fonologici, come l’assimilazione, la riduzione, le alternanze allofoniche
(quando generalmente un segmento è realizzato in un certo modo ma varia in casi
in cui è seguito da altri segmenti)
• aumento del lessico
• aumento del lessico funzionale e delle proprietà flessive, tipicamente la
flessione verbale
Alla fine del processo di creolizzazione, una lingua creola non è
distinguibile dalle altre lingue poiché è solo la sua storia che permette di
etichettarla come lingua creola e non la sua struttura interna.
A riguardo, il Tok Pisin è un altro esempio del passaggio da pidgin a
lingua creola. Si può osservare infatti come il futuro sia ottenuto con un
elemento avverbiale baimbai derivato da by and by e che bay cambia di
posizione entrando nello spazio della flessione verbale, per poi divenire un prefisso in (e).
Dalla seconda immagine invece si nota come la prima persona plurale in Tok Pisin abbia
ben tre forme:
1. yumi go sempre inclusiva (comprende tutti)
2. mipela esclusiva rispetto agli ascoltatori
3. yupela inclusiva rispetto agli ascoltatori

23 Ottobre
Nei casi in cui la lingua creola sussiste assieme a quella lessificatrice, si osserva che la
struttura sociale sembra avere un impatto sull’esito della lingua creola (continuum creolo),
per cui si sviluppano contesti di diglossia tali che la lingua lessificatrice attrae la lingua
creola. Infatti se la struttura sociale è rigidamente compartimentata, la lingua creola rimane
stabilmente la varietà bassa (B), me se invece la struttura sociale è più fluida, la lingua
creola tende a essere attratta dalla lingua di superstrato (A). Questo può portare ad una
stratificazione e ad una differenziazione della lingua creola:
• acroletto (livello più alto)
• mesoletto (livello intermedio)
• basiletto (livello più basso)
Le divisioni tra questi livelli sono fatte sulla base di gerarchie implicazionali e di frontiere
più o meno ben definite quindi solo determinate forme linguistiche possono co-occorrere
(non è possibile mescolare le forme del mesoletto con quelle dell’acroletto). Per esempio
in toscano si può dire la mi’ mamma/il mi’ babbo ma non si può dire mi’ mamma/mi’ babbo
senza l’articolo, così come non si può dire mi’ padre, perché essendo padre una forma
dotata di più prestigio, non si può abbreviare l’aggettivo possessivo.
Le lingue dei segni sono lingue naturali a tutti gli effetti, non sono pantomime e i gesti non
cercano di imitare il lessico delle proprie corrispondenti parlate (es. l’American Sign
language non assomiglia all’inglese e la lingua dei segni italiana è SOV, mentre l’italiano è
SVO). L’unico caso attestato della creazione di una lingua dal nulla è quello che accadde
con la lingua dei segni in Nicaragua dove, prima degli anni ‘80, i bambini sordi erano per lo
più isolati gli uni dagli altri. Il governo post-rivoluzionario cerca di riformare il sistema
scolastico creando le prime scuole per sordi, con l’intento di far apprendere ai bambini la
lettura delle labbra dello spelling spagnolo. I risultati furono deludenti ma i bambini iniziano
a socializzare in un modo tutto nuovo, che in seguito darà vita al Idioma de Señas de
Nicaragua (ISN). Difatti si forma un pidgin usato dai bambini che si convalida come forma
condivisa, e non più frammentata ed isolata a seconda del metodo che ogni famiglia usava
per comunicare con i propri figli sordi. Dato che i bambini non facevano nessun tipo di
progresso con lo spagnolo letto dalle labbra, le autorità educative contattano Judy Kelg
per documentare il processo in corso. Ogni volta che arrivava una nuova generazione
infatti, questa aveva a disposizione molti più stimoli ed un sistema più stabile rispetto al
pidgin che i primi bambini avevano creato. Tutto ciò porterà alla creolizzazione del pidgin
iniziale e alla formazione di una lingua dei segni a tutti gli effetti.
La modulazione spaziale è una proprietà grammaticale propria delle lingue dei segni
(non ci sono dispositivi analoghi nelle lingue parlate) e consiste nella produzione di essi in
condizioni neutre in uno spazio/campo tridimensionale posto davanti al petto del segnante,
in posizione centrale. Un’alterazione (modulazione) della direzione di un segno o una
deviazione della posizione spaziale rispetto al campo neutro, costituisce una modulazione
spaziale, che viene utilizzata per compiere varie operazioni come indicare la persona o il
numero, esprimere deittici, locativi o informazioni temporali, indicare relazioni grammaticali
come il soggetto o l’oggetto, ecc.
A parte il caso dell’ISN, non ci sono altri contesti per studiare la nascita di una lingua
partendo da tabula rasa perché in tutti gli altri casi, i bambini hanno praticamente sempre
a disposizione una lingua naturale ed un input ricco, quindi il caso della ISN ci mostra
come una comunità che non ha un’altra prima lingua riesca comunque a costruirne una
nuova.

28 Ottobre
Vediamo come per il gruppo early e middle, c’è un contrasto tra le due generazioni, mentre
per il gruppo late, le due generazioni utilizzano la modulazione spaziale con la stessa
frequenza. Quindi se partissimo dall’ipotesi che la lingua della prima generazione
rappresenti il target linguistico che la seconda deve acquisire, potremmo immaginare che
la seconda generazione produca troppe modulazioni spaziali rispetto al target. Infatti in
media, i membri della seconda coorte sono stati esposti per meno tempo alla lingua (8
anni vs 14) quindi probabilmente devono ancora terminare l’acquisizione, e il punto
d’arrivo è proprio il comportamento della prima generazione. Questo ragionamento però è
paradossale e viene smentito dall’analisi della velocità d’eloquio: i ragazzi della seconda
generazione, ed in particolare quelli del gruppo early, segnano più fluentemente e senza
esitazioni, tanto da superare gli adulti della prima generazione. Di conseguenza l’analisi
della velocità porta ad escludere che la differenza nell’uso della modulazione spaziale tra
generazioni rappresenti un caso di acquisizione incompleta da parte della seconda
generazione. Infatti è la prima a mostrare un’acquisizione incompleta dato che la lingua
non si era ancora stabilizzata nei primi anni ‘80. Quindi la seconda generazione non
riproduce la lingua che era prodotta dalla generazione precedente, ma piuttosto sorpassa
l’input e parzialmente sviluppa una nuova lingua, nonostante sia stata esposta per minor
tempo.
Quello che si osserva in questi risultati non deve essere confuso con la traiettoria di
acquisizione che si osserva nei contesti ordinari. Per esempio i bambini producono forme
altamente regolarizzate (es. childes anziché children) ma che poi sostituiscono con forme
della grammatica adulta. Il caso della ISN ci mostra come il tempo per formare una lingua
naturale sembra superare la durata del periodo critico dei bambini: questo rende conto del
fatto che siano necessarie almeno due generazioni per sviluppare una lingua nuova.
Abbiamo visto che logicamente il basiletto ha la massima variazione diatopica (molta più
variabilità geografica rispetto a mesoletto e ad acroletto), mentre tendenzialmente la
varietà standard non ha varietà diatopiche. In Inghilterra però esistono varianti diatopiche
e diastratiche, ovvero collegate ad un certo livello sociale, e fino a pochi anni fa la varietà
con il più alto prestigio sociale era costituita dalla Received Pronunciation (RP), cioè la
varietà di inglese parlata dall’upper class (2%-5%) e da coloro che hanno frequentato le
scuole più prestigiose. Per esempio la BBC utilizzava invece il BBC English che include
anche i nomi, il lessico, le perifrasi e non solo la pronuncia. Inoltre la Received
Pronunciation è comunque un cambiamento diacronico infatti Elisabetta II ne utilizza una
versione démodé, ma è un modello che gode di un prestigio sconsiderato tanto che è
riconosciuta anche nelle colonie, indipendentemente dall’uso. Tuttavia oggi sta iniziando
ad essere percepita negativamente perché è talmente elitaria che le persone la rifiutano.
Nello specifico, la RP si basa sulla desonorizzazione di /b/, /d/, /ɡ/, /dʒ/ ma il contrasto con
le sorde soggiacenti è preservato, quindi è presente:
• l’aspirazione delle sorde in contesto sillabico
• la glottalizzazione delle sorde in coda
• l’allungamento della V prima di stop sonoro
Inoltre le vocali lunghe tendono ad esser dittonghizzate e come molte altre varietà di
inglese la /r/ è non-rotica, cioè è pronunciata solo se è seguita da una vocale.
In italiano invece sono molte di più le varietà di prestigio che vengono accettate: sebbene
verso la sommità della piramide, la variabilità diatopica tenda generalmente a diventare
nulla ci possono essere eccezioni o casi particolari, come il caso di Udine fino agli anni
‘50, dove si assisteva al fatto che l’élite urbana usava un dialetto a base veneta che si
opponeva sia all’italiano sia al friulano. Il dialetto veneto ha quindi saltato il territorio
intermedio ed è arrivato ad Udine grazie all’élite che l’ha continuato ad usare per
distinguersi dalle campagne che parlavano friulano.
La differenziazione sociale delle varietà di lingua sono particolarmente evidenti in quei
paesi come l’Indonesia e l’India dove la strutturazione sociale è molto rigida, infatti il
sistema di caste è determinato dalla nascita.

29 Ottobre
Nel caso della lingua giavanese si possono individuare tre gruppi sociali che fanno ricorso
a differenti stili in base al contesto e al livello gerarchico dell’interlocutore:
• contadini e popolazione urbana non scolarizzata 1, 1a e 2
• locutori di città con scolarizzazione 1, 1a, 2 e 3a
• locutori dell’élite con educazione superiore 1, 1a, 1b, 3 e 3a
Le differenze tra varietà non riguardano solamente scelte lessicali, ma anche aspetti
grammaticali e morfologici. La scelta del lessico infatti si basa sul cambio di registro tra
caste e sulla distanza sociale tra parlante e ascoltatore, quindi su proprietà strettamente
grammaticali (es. suffissi che cambiano in base al livello, particelle pronominali, ecc).

Nella RP inglese le fricative glottaliche sono sempre conservate, però in molte varietà
contemporanee la fricativa glottalica [h] tende al dileguo. Infatti, storicamente già
nell’inglese medio (1150-1500) e in quello moderno la fricativa glottalica [h] andava
incontro a caduta in posizione di coda (h-dropping).
In generale quindi, purché una comunità linguistica sia consapevole di una certa variante
linguistica, è importante che essa persista in qualche modo e che un certo numero di
persone la usi nello stesso periodo di tempo. I locutori infatti quando sono consci della
presenza di una determinata variante hanno sempre una valutazione a riguardo, sia
positiva che negativa. Generalmente la percezione di una variante come migliore correla il
suo uso al gruppo sociale con maggior prestigio e tenderà ad essere imitata fino a
diventare la varietà standard. Questo però non comporta un nesso logico di spiegazione
causale, per cui le ipotesi si basano su:
• la variante è percepita come migliore perché di fatto è usata dall’élite
• i locutori d’élite adottano la variante più frequentemente perché vogliono riaffermare
la loro posizione prestigio
Nel caso dello studio di Labov del 1972 sulla realizzazione della [ɾ] a New York City si nota
come, sebbene tradizionalmente non sia una variante rotica, non viene pronunciata
quando si trova in posizione finale o prima di V (es. car, card, four, fourth, ecc). Inoltre,
tramite la sua indagine preliminare in tre grandi magazzini del Lower East Side, ovvero
Saks, Macy’s e S. Klein, riuscì a scoprire che:
• i commessi tendono a considerare varianti di prestigio quelle usate dai clienti,
quindi il prestigio sociale è ottenuto per riflesso dal luogo dove lavorano
• i commessi apparterrebbero alle stesse classi di stratificazione sociale per quanto
riguarda gli indici puri, ma il prestigio negozio porta ad una differente valutazione
sociale dell’impiego
L’esperimento consisteva nell’effettuare sempre la stessa domanda ai lavoratori sui diversi
piani dei magazzini cioè “excuse me, where are the women’s shoes?” alla quale riceveva
in un primo momento la risposta “forth floor”, ma ad una seconda domanda al fine di
ottenere una risposta più articolata e sorvegliata, il commesso ripeteva la risposta in
maniera più enfatica ed accurata. Su un campione di 264 intervistati (68 da Saks, 125 da
Macy’s e 71 da S.Klein), si notò come tra i diversi magazzini ci fosse un’effettiva
stratificazione linguistica e che più gli impiegati lavoravano in un magazzino basato sulle
élite più usavano la variante rotica. Per esempio, nella varietà più bassa di S.Klein i
commessi non producevano quasi mai la variante rotica, nemmeno nella seconda risposta
più enfatizzata. Di conseguenza, per NYC era prestigioso produrre la variante rotica, ma
questo non vale per tutti i locutori. Infatti, comparando i risultati Reading (UK) e NYC si
nota come NYC non possegga nessuna attestazione di [ɾ] pronunciate in posizione di coda
nel gruppo sociale più basso, mentre a Reading il 50% delle [ɾ] in posizione di coda
vengono pronunciate (man mano che si aumenta di classe sociale si tende ad eliminarle).
Tutto ciò porta ad affermare che non c’è nulla di intrinsecamente linguistico nel valore della
produzione rotica o non rotica e a livello sociale essa appare sia desiderabile che non.
In numerosi casi si osserva che le classi più alte tendono a reiterare le forme più
conservative, mentre le classi subalterne tendono a guidare lo spostamento della norma.
Un fenomeno che si osserva è quello di Mugglestone (2003), dove [ɑː] prima delle fricative
/f,s,θ/ (es. staff, pass, bath) era una variante utilizzata dai parlanti delle classi subalterne.
In due secoli però la valutazione di questa variante si è completamente rovesciata dato
che inizialmente era un tratto popolaresco mentre adesso fa parte della variante di
prestigio.
Il cross-over effect per esempio, evidenzia come la classe medio-alta tende
maggiormente ad usare una variante di prestigio riconosciuto molto più spesso della
classe sociale più alta (generalmente il fenomeno del cross-over è guidato dalla classe
media, mediobassa e/o medio alta). Infatti nella realizzazione della [ɾ] a NYC si nota come,
sebbene nel parlato informale solo la classe alta pronuncia la variante di prestigio, in un
contesto sorvegliato anche la classe media la pronuncia. Questo perché i parlanti di NYC
sono consci dell’alternanza tra [ɾ] e [Ø] e valutano la variante rotica come superiore. Inoltre
è stato chiesto ad un gruppo di parlanti di indicare le loro opinioni riguardo frasi con
realizzazioni rotiche e non, scoprendo così una forte preferenza per le varianti rotiche.
A NYC si osserva anche una tendenza innovativa a innalzare le vocali brevi come in /bæd/
che diventa [bɛːɘd] o addirittura [bɪːɘd]. Quindi abbiamo un ulteriore caso di cross-over ma
stavolta al contrario e non solo l’innalzamento suscita reazioni negative, ma i parlanti che
effettivamente usano la variante con innalzamento, negano di utilizzarla o sottostimano la
loro percentuale di produzione.
Secondo la tipologia introdotta da Labov si può distinguere quindi:
• cambiamenti dall’alto/from above (es. realizzazioni rotiche), che sono al di sopra
della soglia di coscienza della comunità quindi i locutori ne sono consci e la variante
in questione è riconosciuta come di esplicito prestigio (non vuol dire che il
cambiamento è guidato dalle classi sociali superiori)
• cambiamenti dal basso/from below (es. innalzamento vocalico), che sono al di
sotto della soglia di coscienza della comunità quindi i locutori non ne sono al
corrente
In Inghilterra infatti la differenza che si tramanda tra upper class e non-upper class non si
basa sul denaro, sull’influenza politica o sull’educazione, ma bensì sul livello linguistico,
dato che la classe media per dimostrare il proprio prestigio usa maggiormente il lessico
ricercato rispetto alla classe alta.
Nella diffusione di innovazioni linguistiche la mobilità sociale gioca un ruolo molto più
importante. Per esempio, gli scalatori sociali in particolare (social aspirers) dimostrano di
essere estremamente sensibili al prestigio e al biasimo (stigma). Essi sono coloro che
dalle classi di mercanti e di professionisti sono riusciti ad arrivare almeno a due livelli
sociali più alti. Le loro scelte linguistiche infatti differiscono tipicamente da quelle dei
locutori con cui sono cresciuti, ma sono contraddistinti anche da un uso esteso di forme
che riconoscono come prestigiose.

30 Ottobre
Il fenomeno riguarda le forme innovative
degli aggettivi possessivi inglesi mine e
thine che vengono realizzati come my e
thy: dal grafico infatti si nota come gli
scalatori sociali abbiano un
comportamento più conservativo rispetto
all’uso delle suddette forme dato che non
sapevano bene come valutarle.
Un altro caso è la -s della terza persona
singolare inglese, che era ritenuta
strettamente legata ai lavoratori e ai
mercanti e non ai gentleman. Sebbene
possa sembrare un cambiamento guidato dalla classe sociale più bassa, in realtà in epoca
più antica era un fenomeno della middle-class. Infatti inizia ad essere visto come tratto
desiderabile, tanto che porterà ad un caso di cross-over in cui anche la classe superiore
adotterà la -s.
Per negative concord s’intende il fenomeno per il quale un’espressione negativa
(nominale o avverbiale) deve essere legittimata dalla presenza di una negazione frasale o
di un’altra espressione negativa. Per espressioni negative si intendono gli elementi
nominali o avverbiali che possono essere usati come risposta negativa a frammento (es.
sì/no). L’italiano è una lingua a non-strict negative concord in cui si può dire:
1. Nessuno ha comprato niente
2. Mario non ha comprato niente
3. Nessuno ha comprato il giornale
Di conseguenza, gli elementi in posizione soggetto non devono essere licenziati dalla
negazione frasale (2 e 3) e la presenza di un elemento negativo può licenziare la presenza
di altro (1). Ma se l’espressione negativa è post-verbale è necessario che ci sia la
negazione. Nelle lingue di tipo strict negative concord (es. greco, serbo-croato, romeno,
catalano, ungherese, giapponese) la negazione frasale è sempre necessaria in presenza
di espressioni negative. Mentre in italiano si può dire nessuno ha detto niente, in una
lingua strict negative concord la negazione (non) è necessaria anche quando c’è già un
elemento negativo in posizione di soggetto (nessuno). L’inglese standard invece non è una
lingua a negative concord quindi non è assolutamente possibile la doppia negazione come
I didn’t have nothing to do with that che è sbagliata perché nothing è già un’espressione
negativa e non vuole quindi un’ulteriore negazione (è necessario usare anything). Se per
esempio non è presente la negazione come in What did you buy? allora si dovrà
rispondere con nothing al posto di anything. Esistono però molte varietà d’inglese a
negative concord come l’African-American Vernacular English e l’Alabama English, questo
perché in passato anche i livelli linguistici standard presentavano la forma negative
concord. Infatti inizialmente tutte le classi sociali la usavano ma attraverso un fenomeno di
cross-over gli scalatori sociali iniziano ad usare la negazione singola, in quanto la vedono
come la variante prestigiosa, e la diffondono nella società (cambiamento di tipo from
above). Il punto cruciale, infatti, non è solo se la classe sociale usa o meno una certa
variante, perché dipende anche da che tipo di classe sociale mostra maggiore o minore
sensibilità nei confronti di una variante di prestigio o biasimata. Coloro che sono
sensibilissimi al valore sociale delle varianti sono proprio i membri delle classi sociali in
ascesa, che cercano le varianti di prestigio più alte e rifuggono quelle più basse.
Riguardo all’interazione tra gerarchia sociale
e stile si può formulare con cautela una
generalizzazione: la variante di prestigio nel
parlato delle classi superiori è anche la
variante incrementata in un parlato
sorvegliato dei parlanti in generale. Vediamo
come il grafico raffiguri 3 variabili, ovvero
l’asse delle y (variabile dipendente), il tipo di
eloquio (variabile indipendente) e la classe
sociale (variabile indipendente). In generale
più l’eloquio è sorvegliato, più la variante sub-
standard è ridotta. Tutto ciò interagisce con
l’altro fattore indipendente, infatti c’è una
distinzione tra le classi sociali. Di
conseguenza, l’effetto di tipo di speech si
somma all’effetto della classe sociale.
Invece, se i parlanti modificano i loro comportamenti linguistici in funzione del compito e
del contesto, ci si trova davanti al paradosso dell’osservatore, secondo il quale in base
al tipo di metodologia impiegata dall’intervistatore, si ottengono valori diversi da parte degli
intervistati. Infatti nel suo studio condotto nei grandi magazzini, Labov ha cercato di creare
un contesto ecologicamente neutrale per cercare di aggirare il paradosso dell’osservatore.
La comunità dei sociolinguisti ha a lungo valutato come studiare i comportamenti linguistici
in condizioni ecologicamente valide, sebbene Labov avesse già suggerito una ricerca
triangolata attraverso la quale si combinavano vari metodi di indagine e se ne
comparavano i risultati. Sulla base dei differenti studi condotti sul repertorio di NYC per
esempio, egli riteneva che l’attenzione del locutore verso la propria produzione fosse un
fattore estremamente importante nell’esito della produzione di [ɾ]. Questa prospettiva
potrebbe però esser ribaltata dato che il commesso avrebbe potuto far maggiormente
attenzione all’ascoltatore e non alla propria produzione.
Horvard Giles ha difatti contestato la prospettiva di Labov, in quanto troppo limitata perché
non è solo l’attenzione del parlante verso la sua stessa produzione a causare la
variazione, dato che essa è causata dal parlante che accomoda la sua produzione in base
ai differenti destinatari. Di conseguenza secondo Giles:
• la differenza tra stili è data dall’attenzione verso l’ascoltatore
• leggendo le frasi da una lista il parlante cooperativo sintonizzerebbe il proprio
comportamento con le norme sociali associate al leggere ad alta voce
• questa prospettiva indica anche che un ruolo preponderante deve esser attribuito
alla relazione tra parlante e ascoltatore e alla loro attitudine reciproca
Bell (sociolinguista) fu in favore di Gilles, basandosi sul fatto che in Nuova Zelanda /t/ può
essere pronunciata come [t] o [ɾ] in posizione intervocalica (V_V) (es. better → [bɛtə] o
[bɛɾə], city → [sɪti] o [sɪɾi]). Infatti, lo stesso giornalista di Radio 1 e Radio 2 (due canali
radiofonici neozelandesi) tendeva a produrre più occlusive alveolari [t] in Radio 1 che
trasmetteva musica classica, e più [ɾ] (variante sub-standard) in Radio 2 che trasmetteva
musica pop. Ciò che cambia è il tipo di pubblico ideale a cui il giornalista si rivolge, quindi il
tipo di audience può influenzare l’uso delle varianti sociolinguistiche, tanto che ci possono
essere delle influenze in cui diversi tipi di audience giocano diversi tipi di ruoli (es. l’uditore
non è il destinatario immediato ma il parlante sa che l’uditore è presente nello stesso
momento in cui parla con il vero destinatario, cioè l’interlocutore).

5 Novembre
Come abbiamo visto, il prestigio è la valutazione sociale positiva riconosciuta ad un
comportamento linguistico ritenuto dalla collettività come degno di imitazione, in quanto
desiderabile. Esso è chiamato prestigio overt, cioè manifesto, mentre lo stigma/biasimo è
il suo opposto. Da questo quadro, si dovrebbe concludere che:
• il mutamento avverrebbe sempre dall’alto della scala sociale verso il basso, poiché
solo le varianti di prestigio dovrebbero essere imitate
• le varianti stigmatizzate e le varianti delle classi subalterne non dovrebbero potersi
mantenere stabilmente nel tempo, poiché dovrebbero essere sopraffatte da quelle
di prestigio
Ma queste due conclusioni sono false perché di fatto si osserva che ci sono delle varianti
diastraticamente basse che si propagano verso l’alto e delle varianti sub-standard (anche
stigmatizzate) che si mantengono nel tempo. Per smentire queste conclusioni quindi è
necessaria almeno un’altra forza capace di bloccare e controbilanciare la forza del
prestigio overt, cioè il prestigio covert. Quest’ultimo infatti è nascosto e non è
riconosciuto esplicitamente dai locutori che non sono coscienti del valore positivo che gli
attribuiscono. Il covert prestige può essere inteso e utilizzato in due modi distinti:
• una varietà/tratto sub-standard che è associata a connotazioni di naturalezza,
schiettezza ed intimità
• una variante che caratterizza il gruppo per coesione sociale, condivisione di valori,
vicinanza, ecc
Trudgill conduce nel 1972 un’indagine a Norwich, una città divisa in quattro aree che
rappresentano diverse classi socioeconomiche. Le interviste sono semi-strutturate per
minimizzare l’influenza dello sperimentatore e sono composte da 4 parti:
1. Lettura di un brano
2. Lettura di una lista di parole
3. Intervista formale
4. Intervista meno formale (episodio divertente)
Noi abbiamo studiato 19 varianti fonologiche, tra cui -ing con due possibili esiti: [ŋ] in RP e
[n] in varietà sub-standard, ed in questo caso si osserva che la produzione di velari nasali
è maggiore nelle classi sociali più alte ma diminuisce via via che ci si sposta verso il basso
della scala sociale. Quindi la produzione della variante standard diminuisce quando si
passa ad un caso formale più basso. Un altro fattore dipendente fondamentale è il genere,
per cui si osserva che le donne continuano a produrre la variante standard (anche nella
classe sociale più alta), mentre gli uomini iniziano ad usare quella sub-standard. In
generale infatti, si nota che gli uomini hanno una tendenza maggiore ad usare la variante
sub-standard rispetto alle donne, ma perché? Le donne sono più coscienti dei rapporti
sociali in generale e quindi anche del valore sociale dei comportamenti linguistici. Avendo
una posizione subordinata e meno sicura, devono segnalare il loro stato sociale attraverso
come si presentano, mentre gli uomini sono valutati socialmente per quello che fanno
(occupazione). La parlata della working class per esempio, è connotata da mascolinità,
associata a vigore, rozzezza e ad altri attributi desiderabili di mascolinità, che però non
corrispondono a caratteristiche femminili desiderabili. Labov infatti aveva già registrato a
NYC che tutti i parlanti quando interrogati direttamente esprimevano ampio accordo su
quale fossero le varianti di prestigio e dichiaravano di usarle anche quando in realtà
producevano quelle sub-standard. Inoltre, tramite il test di autovalutazione effettuato a
Norwich, si osserva che gli uomini usano la variante standard più di quanto ammettano
(covert prestige), mentre le donne la sovrastimano. Di conseguenza, possono essere fatte
alcune generalizzazioni:
• 1 → varianti stabili
• 1a → mutamento dall’alto
• 2 → mutamento dal basso
Secondo la generalizzazione 1 le donne tendono ad usare la forma standard più di quando
non facciano gli uomini, in special modo per le forme costanti nel tempo e che non sono
soggette a variazioni. Quindi, nel caso della negazione modale di can a NewCastle
formata come can’t o cannit, si vede che le donne usano molto più la forma can’t degli
uomini.
Secondo la generalizzazione 1a invece, le donne usano le varianti standard più degli
uomini se il mutamento è dall’alto. Infatti Milroy nota che a NewCastle l’occlusiva alveolare
[t] può essere prodotta come [tʔ] (occlusiva orale glottizzata) o come [ʔ] (occlusiva
glottale), quindi better può essere sia [bɛtɘ] che [bɛʔɘ]. In generale, in Inghilterra, si
osserva un mutamento di [ʔ] al posto di [t] ma i parlanti ne sono coscienti (gli adolescenti
infatti ammettono che «My parents don’t like me missing letters out, like if I say wa’er»). In
questo caso si ha una marca sociolinguistica, che indica che l’utilizzo di una certa
variante è conscia proprio per potersi identificare in un certo gruppo che utilizza una certa
varietà linguistica. Ma anche qui vediamo che in posizione intervocalica, le ragazze usano
la variante glottale molto più dei ragazzi (indipendentemente dall’età), quindi sembra un
mutamento from above perché i ragazzi sono coscienti di questa variante sebbene le
ragazze siano avanti nel mutamento.
Secondo la generalizzazione 2 infine, abbiamo un mutamento from below in cui le donne
usano più frequentemente la variante innovativa (e non standard) rispetto agli uomini. In
Texas per esempio, si osserva che le donne guidano il cambiamento di [i,u] → [ɪ,ʊ] / _ [l]
(lunghezza), comportando la perdita di contrasto tra still e steel o tra pull e pool.
Il caso dell’Arabia (contesto palese di diglossia) però è una chiara contraddizione per la
generalizzazione 1, perché l’occlusiva velare è sì pronunciata in due modi (cioè [k] e [tʃ]),
ma le donne usano la variante sub-standard irachena mentre gli uomini quella standard.
Tutto ciò è in contrasto con la generalizzazione 1, dato che in questo caso sono gli uomini
ad usare la variante standard più delle donne e non il contrario, ma la spiegazione sta nel
fatto che, a causa a livello sociale, l’accesso all’educazione nel contesto iracheno negli
anni ‘80 non era uguale sia per gli uomini che per le donne. Di conseguenza gli uomini,
essendo più istruiti, hanno un accesso allo standard maggiore di quello che hanno le
donne ed infatti i contesti lavorativi in cui l’arabo classico è richiesto sono largamente
ristretti agli uomini.

6 Novembre
Queste generalizzazioni costituiscono il paradosso del genere con riferimento al
mutamento linguistico. Secondo Labov le donne si conformano maggiormente degli uomini
alle norme sociolinguistiche che sono esplicitamente prescritte, ma si conformano meno
degli uomini a quelle norme che non sono esplicitamente prescritte. Sebbene questo non
precluda che gli uomini possano avere un ruolo attivo nel cambiamento linguistico, le
generalizzazioni assegnano un ruolo prominente alle donne. L’interpretazione più comune
è quindi che le donne siano maggiormente orientate al valore sociale delle varianti e che
rifuggano le forme stigmatizzate, orientandosi verso le forme di prestigio.
Sebbene ci sia sostanziale evidenza empirica in favore delle generalizzazioni
(specialmente per la 1 e per la 1a), l’interpretazione del fenomeno resta abbastanza
controversa. Secondo Eckert infatti l’esistenza stessa del paradosso potrebbe essere un
epifenomeno, quindi il paradosso stesso potrebbe emergere solo per il fatto che si
analizzano i dati in modo aggregato. Ci troveremmo davanti ad un vero paradosso se
fossero le stesse donne a mostrare al tempo stesso sia tratti conservativi che tratti più
innovativi. Il genere è trattato come un semplice dato, derivato da quello biologico, mentre
dovrebbe essere trattato come un fattore di identità sociale (spesso si è confuso il
concetto sociale con quello demografico). Difatti, se il genere è trattato come una
categoria sociale, esso è inerentemente complesso e, ad esempio, diventa cruciale capire
come interagisce con altre costruzioni sociali. Questo apre la strada a possibili spiegazioni
alternative del fenomeno perché:
• l’intervistatore in molti casi è un uomo
• le donne sono generalmente più informative e cooperative
• per Eckert il valore simbolico del linguaggio è spesso più importante per le ragazze
che per i ragazzi
Le interviste di Norwich e NYC indicano che le donne ritengono di usare le forme standard
più di quanto facciano. Questo perché, avendo uno status sociale più debole, usano il
linguaggio per rivendicare la loro posizione nella società, tuttavia, c’è evidenza empirica
che questa spiegazione potrebbe esser da rivedere. Infatti, a parità di classe sociale,
rispetto alle donne che non lavorano, quelle che lavorano (e che quindi non hanno
altrettanto bisogno delle prime di affidarsi ai comportamenti linguistici per rivendicare il loro
status) usano comunque forme più standard. Vediamo come i gruppi sociali subordinati
subiscono più pressione nella società affinché siano educati (es. i bambini devono essere
educati dagli adulti), quindi l’assunzione di base (non scontata) è che la forma educata
corrisponda a quella standard. In Nuova Zelanda per esempio, le donne che usano tratti
sub-standard sono giudicate promiscue perché questi sono strettamente visti come
maschili. Di conseguenza però, non è tanto il comportamento delle donne che deve
essere spiegato, quanto quello degli uomini. Secondo Milroy infatti la prospettiva è
rovesciata perché è erroneo sostenere che le donne usano in maggior misura forme di
prestigio quando in realtà le forme che usano tendono ad essere riconosciute
esplicitamente come prestigiose nella comunità. Per esempio, in Inghilterra /t/ come glottal
stop è stata lungamente stigmatizzta (degna di biasimo), quindi era un tratto associato alle
donne della middle class. Nonostante questo, la suddetta forma è entrata a far parte della
norma standard dotata di prestigio in posizione V_#V (es. not engouh). Tutto ciò è in
palese contraddizione con la generalizzazione 2 perché questo cambiamento è from
above, dato che loro erano consapevoli che la forma fosse stigmatizzata ma l’hanno
adottata comunque.
Già Labov aveva osservato che i fenomeni di cambiamento guidati dalle donne (più
attestati) e quelli guidati dagli uomini (meno attestati) si distinguono per un’altra
caratteristica ovvero che quelli degli uomini sono sia linguisticamente che geograficamente
isolati, mentre quelli delle donne tendono a guadagnare un valore sopra-locale. Per Milroy
inoltre, il carattere sopra-locale del cambiamento guidato dalle donne è messo in relazione
non con il prestigio di per sé o con la mobilità, ma piuttosto con la socializzazione di
genere. Egli quindi ipotizza che gli uomini siano più suscettibili alla pressione dei pari e
che questo li spinga ad un conformismo maggiore, portandoli ad un’adesione più stretta
alle forme non standard.
In Inghilterra si può notare un cambiamento linguistico in diacronia sempre prendendo in
considerazione il genere. Si sviluppa infatti una forma innovativa di you, cioè ye, che è
rapidissimo per le donne ma non lo è per gli uomini. La diffusione inoltre è dall’alto e dalla
parte centrale della scala sociale verso il basso. Invece, nel caso dell’uso del negative
concord gli uomini sono in testa al cambiamento e superano le donne.

In varie lingue si può osservare che le forme usate dagli uomini e dalle donne differiscono
sia a livello del lessico, ma anche per aspetti morfologici e grammaticali. Talvolta la forma
più breve è quella degli uomini, talvolta è quella delle donne. Per esempio, il giapponese
tradizionale presentava delle differenze nel lessico che, nel giapponese moderno, sono
ricondotte ad una questione di formalità e di educazione, piuttosto che di genere. Le forme
tradizionalmente assegnate agli uomini sono appropriate in contesti informali e sono
considerate piuttosto sconvenienti, mentre inizialmente le donne che usavano le forme
degli uomini erano considerate mascoline o moderne.
Per metafonia (o metafonesi) si intende un processo di assimilazione/armonizzazione
(parziale o totale) della vocale tonica per effetto della vocale atona finale (in certi dialetti o
in casi di una vocale post-tonica in parole sdrucciole, ovvero dove c’è una sillaba atona
che non è finale). Questo fenomeno trasforma un elemento in un altro, il quale è più vicino
all’elemento del contesto che ha determinato il cambiamento. I processi metafonetici sono
processi di assimilazione a distanza perché le vocali non sono quasi mai adiacenti. Inoltre,
la metafonia è un fenomeno molto pervasivo nei dialetti italiani anche se non si trova nel
toscano e nell’italiano standard: è attestata nei dialetti settentrionali ed in casi residuali
nelle varietà piemontesi, emiliane e venete, mentre compare più chiaramente nelle varietà
alto-piemontesi, alto-lombarde e romagnole e specialmente nei dialetti meridionali e sardi.
È un fenomeno molto complesso che interagisce con altri processi e per il quale
osserviamo variazione sia per le vocali che sono soggette a metafonia (medie, alte e più
raramente [a]), sia per i contesti che danno luogo a metafonia (tipicamente [i], mentre [u]
generalmente solo per i dialetti meridionali).

11 Novembre
Nella metafonia prototipica di Mascioni al L’Aquila vediamo
che nell’aggettivo vecchio (veccu) la vocale e aperta (ɛ)
diventa [+ATR] (quindi e chiusa) quando è seguita da una
vocale più alta, cioè la u.
Anche a Tonara, in Sardegna, la forma [+ATR] è presente
quando la vocale finale è alta, quindi si può postulare che la
forma del verbo dormire memorizzata nella memoria a lungo
termine è quella con la vocale [-ATR] (quindi ɔ aperta). In
ormizi (tu dormi) scatta la metafonia perché la i è una vocale
alta, ma non scatta in ormo (io dormo) perché la ɔ è medio-
bassa. Di conseguenza, una vocale accentata che è [-alta] e
[-bassa] (quindi non la a) diventa [+ATR] quando si trova
prima di una consonante seguita da vocali alte.
A San Severino Marche lepre al singolare si
pronuncia con la ɛ ma al plurale si pronuncia
con la e, o ancora al femminile è tesa (nel
senso di irrigidita) ma al maschile è tisu.
Questo perché quando scatta la metafonia ɛ
diventa e ed e diventa i. Nel caso di grossa
abbiamo la ɔ aperta, ma al maschile la o è chiusa sebbene non ci sia una vocale alta
perché in origine c’era una u, quindi la metafonia scatta lo stesso anche se la forma si è
trasformata.
Ci sono casi in cui la metafonia fa scattare la dittongazione e, per
esempio, mɛrku diventa miɛrku perché abbiamo un caso di opacità
in cui nella prima persona singolare non c’è veramente la u ma
piuttosto la o (che non darebbe luogo a metafonia), ma una regola
indipendente modifica la o in u e quindi si applica il processo.
Nei dialetti settentrionali parlati
attorno al Lago Maggiore troviamo
che pelo si dice pel ma al plurale è
pil, come cerchio è serc ma al
plurale è sirc. Questo perché
anche se le vocali atone finali sono
cadute, si è mantenuta la
metafonia che permette di
distinguere il singolare dal plurale.
Ma qual’è il ruolo della metafonia nella flessione verbale? In italiano ci sono dialetti di
classe A, B e C. Nella classe A dove non c’è metafonia il suffisso esprime la flessione e la
vocale tonica non cambia, quindi [ˈkorːo] (io corro), [ˈkorːi] (tu corri), [ˈkorːe] (egli corre).
Nei dialetti con metafonia invece, si possono identificare altre due classi. Nella classe B la
flessione è visibile sia sul suffisso, sia nell’alternanza metafonica (analisi fonologica della
metafonia), quindi [ˈkorːo] (io corro), [ˈkurːi] (tu corri), [ˈkorːe] (egli corre). Nella classe C
invece la flessione è visibile solo nell’alternanza metafonica perché le differenze delle
vocali dei suffissi sono neutralizzate in schwa, cioè la [ə] (analisi morfologica della
metafonia e analisi fonologica astratta), quindi [ˈkorːə] (io corro), [ˈkurːə] (tu corri), [ˈkorːə]
(egli corre). Di conseguenza, sebbene la vocale finale non esprime più persona e numero,
le informazioni continuano ad essere accessibili grazie alla vocale tonica (un tipico
esempio di classe C è il dialetto napoletano).
Dal punto di vista storico, la metafonia è effettivamente un processo fonologico di
armonizzazione della vocale tonica per effetto della vocale finale, tuttavia, da un punto di
vista puramente sincronico (quindi nella competenza dei parlanti) le alternanze
metafoniche sono puramente alternanze morfologiche che sono state reinterpretate a
causa della perdita di un processo fonologico produttivo precedente.
Se torniamo al caso di San Severino Marche vediamo che ad un certo punto è entrata nel
dialetto la parola caussicù, proveniente dalla versione italiana di caucciù, usata per
indicare il tubo di gomma utilizzato per travasare il vino. Dato che nel loro dialetto la ù
tonica esprime il plurale (come in fifò → fifone e fifù → fifoni o come in mattò → mattone e
mattù → mattoni), hanno interpretato caussicù come plurale e hanno derivato il singolare
caussicò.
Dato che l’italiano non conosce la metafonia, essa sembra essere in regresso anche nei
dialetti, probabilmente proprio per la pressione dell’italiano stesso. Nei dialetti salentini per
esempio, sebbene ci sia un’immensa variabilità, vediamo come la parola biswegnu indichi
un bisogno o una necessità, mentre bisognu indichi un bisogno corporale. La seconda non
ha dittongazione metafonetica, a differenza della prima in cui è presente. Questo dimostra
come la forma che è entrata più recentemente nel dialetto è sicuramente la seconda dato
che proviene dall’italiano.

12 Novembre
Prendendo ancora in considerazione il napoletano vediamo che la metafonia era
perfettamente produttiva fino al 1800 e che invece nel dialetto contemporaneo non si
applica più. Questo perché l’alternanza metafonica della vocale tonica si è persa, tanto
che la stessa vocale non innalzata viene usata per indicare sia il singolare che il plurale.
Tuttavia, secondo lo studio fonetico di Del Puente (1995), si osserva che i giovani nei
quartieri popolari non mostrano più una distinzione tra singolare o plurale in base alla
natura della vocale tonica perché usano effettivamente una sola forma ambigua, cioè la
vocale alta con metafonia estesa a tutte le forme flessive piuttosto che la voce originale
soggiacente al napoletano classico. Questo fenomeno sarebbe giustificato da un effetto di
covert prestige, secondo cui i locutori preferiscono una variante che si discosti da quella
dell’overt prestige e gli si opponga (cioè quella che ha la vocale elevata). Tutto ciò è inoltre
un cambiamento from below dato che i locutori non ne erano coscienti.
Nel dialetto di Campi Salentina invece c’è una sola vocale bassa [a], la vocale della radice
di una parola può cambiare in funzione della posizione dell’accento e generalmente
l’accento lessicale è assegnato alla
penultima sillaba. Dai quattro verbi
dell’immagine si notano i suffissi [u]
per la prima persona singolare, [i]
per la terza persona singolare e [mu]
per la prima persona plurale. Inoltre
abbiamo un’alternanza tra le radici
sɛnt e sint, krét e krit, trɔ e tru. Infine l’accento si sposta a seconda dei suffissi quindi
collima con il cambiamento delle alternanze delle vocali delle radici. Dati tutti questi fattori
osserviamo un processo per il quale le vocali s’innalzano (elevazione/innalzamento)
quando sono atone.

L’elevazione si può trattare anche come un processo di neutralizzazione perché nella


prima persona singolare e nella terza persona singolare abbiamo due forme distinte, cioè
[ɛ] e [e], mentre nella prima persona plurale questa differenza non esiste. Inoltre [i], [a] e
[u] possono presentarsi come atone, mentre le restanti quattro vocali soggiacenti non
possono mai comparire in posizione atona perché sono neutralizzate.
Dalle forme soggiacenti dei verbi (kret-, sɛnt-, kanosk-, trɔ-) si ha quindi una derivazione
per la quale:
• si concatenano i suffissi alle forme soggiacenti di base (es. /sɛnt/ -/i/ -/mu/)
• si assegna l’accento alla penultima sillaba (es. sɛn’timu)
• si applica la regola di elevazione alle vocali atone (es. sintimu)
• si ricava la forma di superficie (es. [sintimu])
Certi suffissi però non danno luogo a metafonia, infatti vediamo che dalle forme
soggiacenti delle basi karos-, ross-, fresk-, fredd- e viv-, nel femminile plurale [i] non fa
scattare metafonia. Da questo si può
quindi presumere un’analisi
morfologica astratta secondo la quale
il suffisso -i del femminile plurale deve
essere memorizzato nel lessico
mentale con un diacritico speciale che
indica che la vocale tonica non deve
innalzarsi. In altre parole, il morfema del femminile plurale non costituisce un suffisso
memorizzato, bensì si è dotato di un’eccezione in più tale per cui non avviene il processo
di metafonia.

13 Novembre
Ma per derivare le forme di superficie dalle forme soggiacenti che abbiamo postulato è
necessaria un’analisi morfologica. Se, per esempio, si prende in considerazione la radice
karos- e si applica l’assegnazione dell’accento (che viene sempre prima della metafonia,
la quale viene prima dell’elevazione) sia per il maschile che per il femminile, abbiamo
ka’rosi (M) e ka’rose (F). Con l’applicazione della metafonia avremo ka’rusi per il maschile,
dato che è presente una vocale alta in posizione finale e una media in posizione tonica,
ma per il femminile avremo di nuovo ka’rose, dato che non c’è una vocale alta in posizione
finale che permette alla metafonia di scattare. Infine vediamo che la vocale a non è mai
soggetta ad elevazione e per il maschile la u è accentata (quindi non può essere soggetta
ad elevazione) mentre la i è già alta quindi rimane ka’rusi. Al femminile invece la o è una
vocale media ma è accentata, mentre la e è una vocale media atona quindi è soggetta a
elevazione e di conseguenza diventa ka’rosi. Da questa ipotesi si determina una forma di
superficie in cui nel femminile si trova il contesto metafonico ma non lo si vede applicato,
infatti si ha un’interazione tra processi/regole tale per cui si trova un contesto valido ma
non l’applicazione della regola.
Inoltre, quando abbiamo più di una regola è sempre necessario valutare che l’ordine delle
regole non influisca sul risultato della derivazione, dato che in alcuni casi ordini differenti
danno risultati differenti. L’analisi è astratta per due motivi:
1. Il locutore o il bambino che impara il dialetto di Campi Salentina non ascolta mai un
femminile plurale con il suffisso [e] (ovvero la forma stipulata per soggiacente),
quindi è necessario ricostruire il processo a posteriori per poter bloccare la
metafonia che non è mai pronunciata
2. Se postuliamo che il femminile plurale ha la forma ɛ piuttosto che e arriviamo in
ogni caso alla forma di superficie i. Questo dimostra che l’analisi è astratta non solo
perché bisogna ricostruire la forma del femminile plurale a partire da qualcosa che
non si ha, ma anche perché non è possibile determinare da che vocale si parte
realmente dato che si arriva alla medesima conclusione. Specifichiamo però che
questo non accade con tutte le vocali perché, per esempio, se al posto di e ci fosse
a, rimarrebbe karosa dato che la regola di elevazione neutralizza le differenze tra
vocali medie e alte ma non quelle basse come la a
Se si cambia l’ordine delle regole vediamo però che il risultato cambia (prima di tutto si
applica sempre l’assegnazione dell’accento): per il maschile ka’rosi con l’applicazione
dell’elevazione non succede nulla perché la o è accentata e la i è già alta, mentre al
femminile ka’rose diventa ka’rosi dato che la e si eleva in i. Con l’applicazione della
metafonia inoltre, il maschile ka’rosi diventa ka’rusi ma anche il femminile ka’rosi diventa
ka’rusi. Di conseguenza queste forme sono palesemente sbagliate dato che non c’è
differenza tra maschile e femminile, ma proprio per questo è fondamentale che l’ordine
delle regole sia fisso e che non vari liberamente. L’applicazione della regola sbagliata ha
permesso un processo di feeding, cioè la metafonia è stata “nutrita” dal processo di
elevazione precedente. L’applicazione corretta, invece, dà luogo ad un processo di
counter-feeding, secondo il quale la regola di elevazione avrebbe effettivamente creato il
contesto opportuno per far scattare la metafonia ma quando questa aveva già completato
il suo turno di applicazione, quindi troppo tardi. Questo rappresenta il principio di
anticiclicità (impedisce il ciclo) per cui una regola che si è già applicata non può più
riapplicarsi, anche se ci sarebbero i requisiti, perché il suo turno è finito.
La fonetica è lo studio delle proprietà fisiche, concrete e continue del linguaggio. Le
proprietà continue, nello specifico, sono tutti i valori non compresi in un insieme pre-
definito che una variabile può prendere, e si oppone alla nozione di proprietà discrete. La
fonetica si distingue in:
• articolatoria (come sono articolati i suoni)
• acustica (quali sono le proprietà acustiche dei suoni)
• uditiva (quali sono i meccanismi che permettono la percezione dei suoni linguistici)
La fonologia invece, si oppone alla fonetica perché studia i suoni del linguaggio come
entità mentali simboliche, astratte e discrete e dei principi e dei meccanismi cognitivi che
governano queste rappresentazioni. L’interfaccia tra fonetica e fonologia si occupa di
convertire le rappresentazioni fonologiche, simboliche, astratte e discrete, in oggetti fisici,
reali e continui. Il passaggio da un rappresentazione astratta mentale (fonologica) a un
evento fisico e viceversa è possibile e necessario perché non tutte le proprietà fisiche dei
suoni linguistici sono cognitivamente rappresentate (c’è bisogno di un processo di
conversione tra la fonetica e la fonologia). Le realizzazioni fonetiche (concrete e fisiche)
variano all’infinito su un continuum perché sono causate da tanti fattori influenti, come le
caratteristiche anatomiche individuali, il contesto fonetico, la velocità di articolazione e la
situazione comunicativa. Mentre le rappresentazioni mentali fonologiche dei suoni
linguistici sono discrete quindi il sistema dei suoni è organizzato mentalmente sulla base di
unità elementari, ovvero i fonemi. Per esempio, in [p] vs [b] dal punto di vista fisico c’è un
continuum ma nello spazio mentale la rappresentazione è discreta (+/-sonoro). Nelle
lingue naturali la sonorità è una proprietà/tratto che può essere utilizzata per operare una
distinzione fonologica mentale grazie al suo formato categoriale e binario.
Nella fase di acquisizione del linguaggio, ogni parola viene imparata tramite i fonemi
(rappresentazioni simboliche discrete), quindi è necessario apprendere l’inventario
fonologico di una lingua e l’ordine fonematico per ogni parola.
Normalmente, un bambino di 4 anni padroneggia un vocabolario di 8000 entrate lessicali e
per costruirlo in così poco tempo, il sistema di acquisizione deve esser capace di
percepire facilmente le proprietà del significante nell’ambiente linguistico, memorizzarle,
recuperarle e articolarle in suoni. La complessità del processo è enormemente ridotta
grazie al fatto che il sistema dei suoni linguistici è organizzato proprio a partire da
rappresentazioni simboliche discrete. Per esempio, con un inventario di 3 cifre che vanno
da 0 a 9 si possono esprimere 1000 combinazioni. Analogamente, con un inventario di
fonemi un bambino non deve memorizzare 8000 parole indipendenti. Questo processo lo
vediamo nella creazione del plurale regolare in
inglese, in cui /k, t, s/ sono dei fonemi sordi (le corde
vocali non vibrano), invece /g, d, z/ sono dei fonemi
sonori (le corde vocali vibrano), che danno luogo
alla forma del plurale con [s] dopo un fonema sordo
[-sonoro] e alla forma con [z] dopo un segmento
sonoro [+sonoro] (escludendo i casi in C). Infatti i
bambini inglesi in età prescolare (4-5 anni) hanno
già interiorizzato la regola del plurale sulla base della loro esperienza linguistica, senza
alcuna istruzione diretta, e sono capaci di applicare correttamente la regola per nomi che
non hanno mai incontrato prima.

18 Novembre
Secondo F. de Saussure, un segno linguistico è un’unità linguistica dotata di un
significante e di un significato. Un morfema è l’unità più minima dotata allo stesso tempo
di significante e significato e non si può scomporre ulteriormente in altri elementi.
Attraverso una secondo livello di articolazione si può ancora decomporre la parola in
termini di struttura e non più di significato. Le parole non sono rappresentate nella
memoria a lungo termine come dei gesti articolatori globali e indivisibili, ma come
sequenze di elementi discreti. Questi ultimi sono i fonemi, cioè elementi più piccoli che
permettono di esprimere dei contrasti a livello lessicale. Uno degli scopi dell’analisi
fonologica è determinare quale sia la composizione dell’inventario dei fonemi di una lingua
e di rendere esplicite le regole e i principi che sovraintendono alla loro distribuzione.
In generale, la funzione distintiva di un segmento può essere rilevata dalla presenza di
coppie minime, in cui tutto è identico ad eccezione di un segmento (es. pane vs pale). Il
test delle coppie minime si applica su delle forme superficiali, ma ciò che si cerca di
reperire è un contrasto che valga nelle rappresentazioni soggiacenti memorizzate dai
locutori. Per esempio, non si riesce a reperire una coppia minima se c’è un buco nel
paradigma, cioè se una sequenza di segmenti è stata utilizzata accidentalmente dalla
lingua per una parola. Inoltre, ci possono essere delle regole fonologiche che trasformano
un segmento in un altro, quindi in alcuni casi potrebbe non esser possibile riuscire a
trovare una coppia minima.
Un fonema può avere sistematicamente delle realizzazioni alternative (allofoni), infatti in
fiorentino si può notare la gorgia toscana, cioè una variante allofonica che identifica un
contrasto tra [k] e [h] (c aspirata). Vediamo che [h] è un allofono condizionato del fonema
[k], il quale però non può significare qualcosa di diverso da a [h] (es. canta → [kanta] ma
Carla canta → [karla hanta]). Specifichiamo però che in termini tecnici il fenomeno non è
chiamato aspirazione ma bensì di fricativizzazione o spirantizzazione.
Le rappresentazioni dei suoni, ovvero come essi vengono memorizzati, sono soggette a
delle regole di economia per cui vengono memorizzati solo gli elementi relativi alla
pronuncia, con funzione distintiva e non derivabili e/o prevedibili dal contesto fonologico
(es. un locutore fiorentino non memorizza se una parola contiene [k] piuttosto che [h]
perché la rappresentazione soggiacente memorizzata è sempre [k], la quale però si
trasforma in [h] nei contesti pertinenti). Bisogna così stabilire l’inventario dei fonemi, ma
anche le varianti allofoniche e i principi che regolano le alternanze degli allofoni, di
conseguenza:
• i segmenti che hanno una funzione distintiva (contrastiva) nella memoria a lungo
termine sono definiti come fonemi
• la forma soggiacente è il fonema, mentre gli allofoni condizionati sono derivati per
effetto di regole
• un obiettivo dell’analisi fonologica è determinare quali segmenti sono fonemi e quali
sono allofoni, così come determinare quali siano le regole che determinano la loro
distribuzione
È sbagliato però pensare che i suoni molto vicini siano in relazione allofonica e che i
segmenti più distanti siano fonemi indipendenti. Infatti lo statuto di fonema o di allofono è
definito in termini cognitivi piuttosto che fonetici ed è determinato dalla rappresentazione
astratta del segmento nel sistema fonologico della lingua.
In italiano si possono distinguere tre diversi fonemi nasali /m, n, ɲ/ ma a livello fonetico si
possono anche osservare [ɱ] e [ŋ] che sono allofoni di /n/ (es. a[ɱ]fora davanti [f] e [v] e
a[ŋ]cora davanti [k] e [g]). Inoltre [ŋ] è più vicino a /ɲ/ che a /n/, i quali sono due fonemi in
opposizione anche se sono più vicini tra loro di quanto lo siano /n/ e [ŋ].
L’inventario dei fonemi infatti deve essere definito in riferimento a ciascuna lingua, perché
un segmento può essere una variante allofonica di un certo fonema in una lingua ma può
non esserlo in un altra. Per esempio l’inglese possiede i segmenti /p, t, k/ (es. spit →
[spɪt], stick → [stɪk], skid → [skɪd]) con corrispettive varianti aspirate [pʰ, tʰ, kʰ] (es. pit →
[pʰɪt], tin → [tʰɪn], kit → [kʰɪt]). Da un punto di vista fonetico la differenza tra [t] e [tʰ] è reale
come la differenza tra [d] in bed e [t] in bet, quindi [p, t, k] sono sistematicamente realizzati
come aspirati quando si trovano in posizione d’attacco di sillaba accentata. Se
inventassimo una nuova parola inglese, si potrebbe predire la presenza o l’assenza di
aspirazione sulla base della posizione dell’accento. Nel lessico dell’inglese quindi, non
sarà possibile reperire due parole che formino una coppia minima in cui il contrasto sia
portato esclusivamente dall’aspirazione di [p] e [pʰ] che sono due realizzazioni allofoniche
di /p/.
In Thai invece, l’aspirazione predispone una differenza distintiva tra i fonemi e non una
semplice variante allofonica, per esempio [bâ:] (pazzo) vs [pʰâ:] (vestito) vs [pâ:] (zia) e
[dà:] (maledizione) vs [tʰâ:] (luogo di atterraggio) vs [tâ:] (occhio). In questo caso [p, t, k] e
[pʰ, tʰ, kʰ] sono dei fonemi con valore contrastivo tra le quali è possibile reperire delle
coppie minime. Il confronto tra l’inglese e il tailandese mostra che l’aspirazione può esser
una proprietà con valore contrastivo o meno e che questo dipende dal sistema fonologico
della lingua in questione.
In conclusione, le forme allofoniche possono essere:
• varianti condizionate, nelle quali il contesto determina la forma del fonema
soggiacente che sarà presente in superficie
• varianti libere, le quali possono alternarsi liberamente nello stesso contesto
Nei dialetti meridionali (in particolare in calabrese meridionale e in salentino) si possono
osservare delle c aspirate molto diverse da quelle del toscano. Per esempio, a Lamezia
Terme si vede come in genere:
• i ragazzi producano maggiormente le varianti aspirate rispetto alle ragazze (le
donne rifuggono questa variante, poiché legata a mascolinità e basso prestigio
sociale). Questo probabilmente è un cambiamento from below, poiché i locutori non
ne sono consci
• chi ha un atteggiamento positivo nei confronti della scuola presenta meno varianti
aspirate, invece chi è critico verso la scuola e vuole mostrare l’appartenenza ad un
gruppo aumenta le c aspirate rispetto al modello dello standard
Un caso più specifico
riguarda il friulano, nel quale
è presente una differenza di
lunghezza vocalica che
potrebbe rilevare un valore
contrastivo nella coppia
minima. Attuando per prima
un’analisi morfologica si
nota come nel maschile il
suffisso è la forma 0, mentre
nel femminile il suffisso è
[e]. Questa alternanza non
riguarda solo le occlusive,
perché è presente anche
con le fricative [v] e [z],
quindi si può dire che
riguarda le ostruenti
sebbene il tratto fonologico ±ostruente non esiste. Tutte le volte che si vede una vocale
lunga, il segmento che segue è una ostruente sorda e ogni volta che si nota un’alternanza
tra vocale lunga e breve, la consonante che segue alterna anch’essa nel tratto sonoro,
quindi i due fenomeni di alternanza della lunghezza e alternanza della ostruenza (sorda e
sonora) sono altamente correlati. Per questo la regola di sonorizzazione si può scrivere
come -sonorante → +sonoro / V_V ma se il processo non è di sonorizzazione, si può
rendere conto dell’alternanza tra sorde e sonore con un processo di desonorizzazione
che implica che la forma soggiacente sia sonora, mentre quella superficiale (in output) sia
sorda: -sonorante → -sonoro /_# (contesti con variante sorda in posizione finale di parola).
Per esempio in andato/andata la forma soggiacente è lad- ma grazie ad un processo di
desonorizzazione si trova la forma superficiale lat-. Inoltre il valore del tratto sonoro per le
consonanti ostruenti è una proprietà con valore contrastivo perché l’opposizione tra sorda
e sonora deve essere memorizzata nel lessico mentale dato che questi sono dei fonemi
distinti e non dei semplici allofoni. Infatti, se si trova un’alternanza tra breve e lunga
significa che c’è un’alternanza tra sordo e sonoro. Si può così parlare di processo di
allungamento: +sillabico → +lungo /_[+sonoro, -sonorante]# (una vocale si allunga
quando seguita da una sonorante sonora che si trova a fine parola). Di conseguenza
vediamo la:d+ø → lad+e (allungamento), brut+ø e brut+e, la:t → lade (desonorizzazione).
La lunghezza vocalica però è una proprietà derivata dalla parola non contrastiva quindi
può essere predetta sulla base di altre regole fonologiche, ma l’interazione tra esse rende
opaca la relazione tra le forme soggiacenti e quelle di superficie, dato che il contesto della
regola di allungamento è stato distrutto ma si continua a trovare il suo effetto per una
relazione di counter-feeding (il contesto che ha permesso la regola precedente di
applicarsi è stato cancellato). Tutto ciò porta alla conclusione che il test delle coppie
minime fallisce, dato che si applica alle forme di superficie, e quindi è necessario postulare
la forma soggiacente corretta.
I sistemi di scrittura rappresentano un modo per trasmettere le informazioni attraverso il
tempo e lo spazio e aiutare la memoria. Ce ne sono di diversi, come:
• i sistemi logografici, nei quali i segni grafici rappresentano morfemi o parole
• i sistemi sillabici, nei quali i segni grafici rappresentano le sillabe
• i sistemi alfabetici, nei quali i segni rappresentano più o meno fedelmente i
segmenti della lingua parlata (es. alfabeto fenicio e alfabeto greco)
I primi servono a rappresentare il significato, mentre gli ultimi due rappresentano il suono.
Tutti i sistemi di trascrizione fonetica si basano sul principio fondamentale che ad un certo
segmento fonico deve sempre corrispondere un solo simbolo specifico e viceversa. Quindi
ogni simbolo deve avere sempre lo stesso valore fonico indipendentemente dagli altri
simboli che lo precedono o lo seguono. Questo però non accade nella maggior parte dei
sistemi ortografici, come per esempio, il caso della lettera g in italiano: gl(+i) → /ʎ/,
gli(+a,o,u) → /ʎ/, gn → /ɲ/, gh → /g/, gi(+a,o,u) → /ʤ/.
L’AFI (alfabeto fonetico internazionale) vuole rappresentare solo le proprietà dei suoni
linguistici che possono avere un valore distintivo nell’insieme delle lingue naturali, ovvero i
fonemi, le proprietà prosodiche (proprietà tonali, intonative, metriche, ritmiche, ecc) e i
confini sillabici e di morfema. In totale l’AFI comprende:
• 107 simboli-lettere per rappresentare segmenti come vocali e consonanti
• 31 simboli-diacritici per modificare simboli-lettere o caratterizzare i suoni
• 19 simboli per specificare proprietà soprasegmentali (es. lunghezza, tono,
prominenza metrica, intonazione, ecc)
Esistono inoltre due tipi di trascrizione, sebbene non ci sia una frontiera netta e definita ma
bensì una sorta di continuum:
• trascrizione larga, che serve per rappresentare solo le proprietà fonetiche principali
non dettagliate. Il caso più estremo è la trascrizione fonologica (o fonematica), tale
per cui vengono trascritti solo i fonemi, o meglio, le proprietà che il trascrittore
ritiene aventi valore distintivo/contrastivo nel sistema fonologico della lingua (quindi
le differenti varianti allofoniche non sono trascritte)
• trascrizione stretta, che serve per annotare anche i dettagli fonetici e le differenze
allomorfiche
Inoltre la trascrizione fonetica è indicata da parentesi quadrate [], mentre quella fonologica
è indicata da barre //. Ogni trascrizione dei suoni linguistici è sempre e intrinsecamente
un’idealizzazione, dato che non si può avere una rappresentazione di un suono in cui sono
annotate tutte le proprietà reali, acustiche e articolatorie. La rappresentazione è utile nella
misura in cui l’informazione pertinente per i propri scopi è salvaguardata e resa
disponibile, mentre le proprietà non rilevanti sono trascurate.
Tra i segmenti dell’italiano troviamo le vocali e le consonanti, e tra queste ultime abbiamo
per esempio l’opposizione intervocalica in
toscano tra s e z come nel caso di fu[s]o
(strumento per filare) vs fu[z]o (fondere), o anche
l’opposizione tra ts e dz come nel caso di ratːsa
(razza di animali) vs radːza (pesce), in cui le
coppie minime sono estremamente rare e quindi
la distribuzione rimane non prevedibile.

Specifichiamo però che ad un grafema possono corrispondere più fonemi:


20 Novembre
Da un punto di vista fisico il suono è un’onda prodotta dalla vibrazione meccanica di un
supporto e propagata sotto forma di onde grazie all’elasticità di un mezzo (es. aria, liquidi,
solidi). Per estensione il suono indica la sensazione uditiva prodotta da tale vibrazione
meccanica. Quando parliamo, percepiamo i nostri stessi suoni che giungono
contemporaneamente per vie differenti:
• via diretta dalla bocca all’orecchio dopo le modifiche prodotte dall’acustica
dell’ambiente esterno (onde propagate dall’aria)
• conduzione ossea
Quando c’è silenzio le particelle d’aria sono a riposo e si muovo in maniera aleatoria in
tutte le direzioni quindi sono equidistanti. Quando però uno shock mette in movimento la
particelle, si creano delle zone alternate di compressione e di rarefazione. Queste
variazioni di pressione sono trasformate in vibrazioni meccaniche a livello del timpano
nell’orecchio medio. Le vibrazioni acustiche, e di conseguenza i suoni, possono essere
descritte con due parametri:
• l’ampiezza o energia di un suono debole/forte, da cui dipende l’intensità percepita
(misurata in decibel). Infatti più l’ampiezza è grande, più la sensazione di intensità è
forte, quindi un suono debole ha un’ampiezza minore, mentre un suono forte ha
un’ampiezza maggiore
• la frequenza (suoni acuti e suoni gravi), che è il numero di vibrazioni nell’unità di
tempo (il secondo) e può esser vista come la velocità con cui le fasi di
compressione e rarefazione si alternano nell’unità di tempo. Quindi più un suono ha
una frequenza bassa, più è grave. La frequenza si esprime in Hz quindi 1 Hz
equivale ad un ciclo di compressione e uno di rarefazione in 1 secondo (1
kHz=1000 Hz)
La forma d’onda (o oscillogramma o waveform) è una rappresentazione grafica delle
onde acustiche, dove l’asse delle x rappresenta il tempo e l’asse delle y rappresenta
l’ampiezza. Quest’ultima è la distanza tra il picco positivo e il picco negativo, quindi a-c,
mentre il periodo è la durata di una vibrazione, quindi a-b (oppure a’-b’). Infine la
frequenza è l’inverso del periodo (periodo=1/ frequenza).

Un suono puro a 200 Hz vuol dire che ci sono 200 cicli per secondo, quindi il periodo è 1
secondo/200=0.005 secondi (5 millisecondi). Invece in un suono puro a 400 Hz ci sono
400 cicli per secondo, quindi il periodo è 1 secondo/400=0.0025 secondi (2.5 millisecondi).
Infine in due suoni puri a 400 Hz la frequenza è la stessa ma l’intensità (e dunque
l’ampiezza) è differente.
Per i suoni periodici o quasi-periodici è possibile identificare la frequenza perché i cicli si
ripetono esattamente (o quasi) come per i suoni puri. Per i suoni quasi-periodici la
frequenza può cambiare nel tempo e i cicli possono avere forme un po’ diverse, ma anche
anche se le ripetizioni non sono identiche è comunque possibile identificare la frequenza. I
suoni linguistici infatti non sono mai perfettamente periodici perché anche i suoni più
regolari come quelli delle vocali sono suoni quasi-periodici. Invece per i suoni aperiodici
(aleatori o rumore) non è possibile identificare la frequenza.
Inoltre, i suoni linguistici sono sempre dei suoni complessi caratterizzati da una
compresenza di più frequenze, cioè quella fondamentale e le armoniche. La frequenza
fondamentale (f0) è la frequenza più grave di un suono complesso e definisce la
percezione dell’altezza melodica di un suono, mentre le armoniche sono i multipli interi
della frequenza fondamentale e sono le frequenze più acute. Dal punto di vista percettivo
f0 definisce l’altezza melodica percepita, invece le caratteristiche delle armoniche
definiscono il timbro di un suono (es. un violino e un pianoforte possono suonare la
stessa identica nota perché la frequenza fondamentale è sempre la stessa ma cambiano i
timbri). Per identificare le componenti in una finestra temporale di un suono, è possibile
ricostruire inoltre lo spettro di un suono.
La produzione dei suoni linguistici implica tre processi principali, cioè la respirazione, la
fonazione e l’articolazione. I muscoli respiratori creano un flusso d’aria egressivo, gli
organi fonatori creano il suono-sorgente e gli organi articolatori filtrano e modificano il
suono-sorgente. I polmoni quindi giocano il ruolo di un mantice perché quando il locutore
si appresta a parlare, inspira un volume d’aria maggiore rispetto a quello coinvolto nella
normale respirazione, dopodiché il movimento muscolare della cassa toracica e del
diaframma comprime l’aria dei polmoni come un pistone tendendo a mantenere una
pressione di flusso relativamente costante. Successivamente l’aria spinta dai polmoni
attraversa la trachea verso la laringe, dove si trovano le corde vocali (la struttura
cartilaginea permette di modificare la posizione, la tensione ed il grado di apertura delle
corde vocali). Lo spazio tra le corde vocali prende il nome di glottide, in cui quando è
aperta, il flusso d’aria passa liberamente (es. suoni sordi, quindi -sonori), mentre se le
corde vocali sono accostate la pressione dell’aria le mette in vibrazione:
1. Per effetto del flusso che preme sotto la glottide chiusa la pressione dell’aria
aumenta
2. La pressione arriva a separare le corde vocali quindi l’aria passa e la pressione
subglottalica scende
3. La pressione subglottalica è scesa e le corde tornano nella loro posizione d’origine
(la glottide si richiude)
4. La pressione d’aria sotto la glottide torna ad aumentare ed il ciclo ricomincia
Tutti i suoni +sonori sono prodotti con la vibrazione delle corde vocali, la quale è
responsabile della frequenza fondamentale dei suoni, e dunque dell’altezza melodica dei
suoni articolati. La velocità effettiva della vibrazione dipende da molti fattori articolatori ed
anatomici (per esempio la lunghezza delle corde vocali). Crucialmente, la velocità di
vibrazione può essere controllata durante la fonazione e può avere una funzione
linguistica (lingue tonali, lingue intonazionali). Nella fonazione, le corde vocali vibrano
tipicamente all’interno di una fascia di:
• 50Hz-350Hz per l’uomo adulto
• 90 Hz-450 Hz per la donna adulta
• una frequenza ancora più acuta per i bambini
Secondo il modello sorgente-filtro di Fant del 1969, la produzione dei suoni può essere
modellata in due parti distinte:
1. La sorgente che crea il suono a partire dalla colonna d’aria
2. Il filtro che trasforma il suono proveniente dalla sorgente

Per i suoni +sonori il meccanismo glottale produce un segnale sonoro caratterizzato da


una frequenza fondamentale e dalle sue armoniche, cioè la sorgente dell’energia sonora.
Gli articolatori sopraglottalici agiscono come un filtro per modificare le proprietà acustiche
del suono prodotto dalla sorgente. In generale per i suoni sordi (-sonoro) come per i suoni
sonori (+sonoro), la lunghezza e la conformazione del tratto dopo la sorgente sonora
determinano il timbro di un suono. Per esempio, differenti vocali possono avere la stesa f0
ma sono comunque caratterizzate da differenti proprietà acustiche che ci permettono di
differenziarle. Le cavità del condotto vocale funzionano come casse di risonanza che
modificano il suono-sorgente:
• possono rinforzare l’energia corrispondente a certe frequenze del suono-sorgente
• possono attenuare/ridurre l’energia corrispondente a certe frequenze del suono-
sorgente
Le armoniche che si trovano nelle regioni di risonanza create dalla configurazione del filtro
sono rinforzate (formanti), quindi la loro intensità aumenta. Inoltre queste regioni di
risonanza cambiano da un locutore all’altro dato che sia la lunghezza, sia la forma del
condotto vocale differiscono, ma le differenze sono piuttosto marginali. Al contrario, gli
articolatori mobili (lingua, labbra, ecc) possono cambiare significativamente la forma del
tratto vocale dato che possono creare delle cavità e che possono modificare la lunghezza
dei suoni. A differenti forme del condotto corrispondono differenti caratteristiche di
risonanza, dunque le formanti cambiano in funzione della posizione degli articolatori.

25 Novembre
Le vocali non ostruiscono il flusso d’aria e non pongono nessun ostacolo nel tratto vocale.
Esse sono per definizione +sonore perché sono prodotte con la vibrazione delle corde
vocali (anche se possono prodursi dei fenomeni di desonorizzazione), la glottide svolge la
funzione di sorgente ed il suono è quasi periodico. La configurazione del tratto vocale
dopo la glottide-sorgente definisce i differenti timbri vocalici (indipendentemente da F0),
quindi gli articolatori del tratto vocale cambiano la loro configurazione modificando le
proprietà di risonanza e, come risultato, le formanti variano di altezza. In posizione tonica,
cioè nella sillaba dotata di accento lessicale, si possono trovare 7 vocali, mentre in
posizione atona, cioè in sillabe prive di accento lessicale, si possono trovare solo 5 vocali
(in italiano si trova una sola vocale bassa /a/ ).
Tra le cavità sopraglottaliche (risuonatori) troviamo quella faringale, quella boccale,
quella labiale e quella nasale, mentre tra gli elementi mobili abbiamo il velo palatino, le
labbra e la lingua (suddivisa a sua volta in radice/base, corpo e apice/punta).
Quest’ultima in particolare, si può muovere sull’asse antero-posteriore o sull’asse
verticale, inoltre il corpo della lingua e la radice della lingua possono essere dislocati in
maniera quasi indipendente. I movimenti sull’asse antero-posteriore sono:
• anteriore, quando la lingua si sposta verso la parte anteriore della cavità orale
• centrale, quando la lingua rimane nella posizione di risposo (né anteriore, né
posteriore)
• posteriore, quando la lingua si sposta verso la regione posteriore della cavità orale
Invece, i movimenti sull’asse verticale sono:
• posizione alta, quando la lingua è dislocata verso l’alto (movimento
tendenzialmente accompagnato da un movimento secondario della mandibola che
chiude la bocca)
• posizione mediana, quando la lingua si trova in posizione di riposo (né alta, né
bassa)
• posizione bassa, quando la lingua si sposta verso il basso (movimento
tendenzialmente accompagnato da un abbassamento della mandibola che apre la
bocca)
Lo schwa è la vocale indistinta da concettualizzarsi come la vocale articolata con tutti gli
articolatori in posizione di riposo. Generalmente si trova in contesti atoni ed in diversi
dialetti italo-romanzi come esito delle vocali finali (dialetti centro-meridionali e Piemonte).
Le vocali pronunciate con la radice della lingua avanzata (+RLA), ossia +ATR (Advanced
Tongue Root), sono caratterizzate da un movimento della radice della lingua che allarga la
cavità faringale. Questo movimento ha come conseguenza anche uno spostamento
secondario verso l’alto del corpo della lingua e, in generale, una tensione muscolare
supplementare. Questo meccanismo muscolare dà luogo a un timbro chiuso (indipendente
dalla posizione sull’asse antero-posteriore). Un terminologia più tradizionale esprime
l’opposizione tra vocali rilassate (-RLA) contro vocali tese (+RLA), come per esempio, /ɛ/
vs /e/ oppure /ɔ/ vs /o/.
Le vocali però, possono essere anche arrotondate perché quando le labbra sono protruse
in avanti e si arrotondano, danno luogo ad un aumento del volume della cavità labiale (in
italiano tutte le vocali posteriori sono arrotondate tranne la [a]).
Le vocali nasali sono rese possibili dalla mobilità del velo palatino che si abbassa e che
permette quindi all’aria di passare nelle cavità nasali. Quando il velo palatino è sollevato
invece i suoni prodotti sono orali quindi le vocali non risultano nasali.
Considerando le vocali cardinali ([i] alta anteriore, [a] bassa, [u] alta posteriore), si ha
sempre un ciclo glottalico che si ripete 132 volte al secondo (f0=132 Hz), ma la
configurazione del tratto vocalico è differente nei tre casi. Di conseguenza, la funzione di
filtro sarà diversa per le tre vocali, dato che alle differenti configurazioni del tratto vocale
corrispondono differenti funzioni di filtro e che a differenti funzioni di filtro corrisponderanno
regioni di energia per le frequenze ad altezze differenti. La frequenza fondamentale è
indipendente dal timbro vocalico. Il processo si configura come la glottide che produce il
suono sorgente (f0+armoniche), la configurazione del tratto sopraglottalico che determina
le proprietà della funzione filtro e la funzione filtro applicata al suono sorgente che produce
un suono in cui le zone di frequenze rinforzate saranno ad altezze diverse, secondo le
proprietà del filtro. Per il suono risultante quindi, la distribuzione dell’energia alle differenti
frequenze determinerà il timbro della vocale.

Se f0 cambia le armoniche cambieranno, ma se la configurazione sopraglottalica resta la


stessa la funzione filtro non cambierà e, di conseguenza, il timbro sarà sempre lo stesso
nonostante l’altezza melodica di f0 sarà differente.
Almeno per i casi delle vocali italiane, per descrivere il
timbro di una vocale occorre avere l’altezza di
fermante F1 (altezza vocalica) e la posizione di
fermante F2 (antero-posteriorità). In questo modo si
può ricavare la disposizione del trapezio vocalico
(anche di quello rovesciato). Si nota come:
• più aumenta la frequenza di F1, l’altezza del
corpo della lingua viene modificata, passando
da [i] ad [u], mentre nel mezzo si ha [a]
• [u] e [i] sono le vocali più alte, caratterizzate dal
picco di F1 più basso
• l’aumento della prima fermante (F1) rende la
lingua più bassa
• con l’aumento della seconda fermante (F2) si
passa dall’asse posteriore a quello anteriore
È più comodo però avere il grafico rovesciato, dove F1 (altezza vocalica) è sull’asse delle
y (ordinate) e F2 (antero-posteriorità) è sull’asse delle x (ascisse).
Calamai nel 2004 condusse uno studio sul vocalismo tonico dell’area pisana e livornese,
dato che tra i giovani livornesi le [a] e le [ɛ] sono sempre più basse sull’asse di F1 cioè più
F1 si alza, più la lingua si abbassa), mentre nel pisano si notava uno spostamento enorme
tra le due vocali. Questo perché i giovani pisani stavano prendendo le vocali livornesi
senza rendersene conto (fenomeno sorprendente data la rivalità fra Pisa e Livorno). I
locutori pisani mai pronuncerebbero la [ɛ], ma questo tipo di pronuncia è in realtà
associata a valori positivi, in quanto schietta, verace e mascolina, quindi l’adottano
(mutamento from below e caso perfetto di covert prestige). Calamai però voleva anche
scoprire se il mutamento era recente o no, quindi utilizzò la tecnica del tempo apparente
basandosi sull’idea che l’innovazione fosse portata dai giovani.
26 Novembre
Le consonanti, a differenza delle vocali, ostruiscono il flusso d’aria parzialmente o
totalmente, ponendo un ostacolo nel tratto orale (le semivocali/semiconsonanti invece
sono articolate come le vocali, ma con uno status fonologico speciale). Le consonanti si
distinguono in base a:
• il luogo d’articolazione, che designa il punto in cui l’ostruzione al flusso d’aria ha
luogo. Inoltre indica qual’è l’articolatore attivo e/o qual’è il punto del condotto
sopraglottalico dove avviene l’ostruzione al flusso d’aria. In certi casi, è possibile
avere delle consonanti prodotte con un luogo d’articolazione principale ed uno
secondario (plurimi punti d’ostruzione). Si distinguono le consonanti bilabiali,
prodotte con le labbra (es. [b, p, ɸ]), le labiodentali, prodotte con le labbra inferiori
e gli incisivi superiori (es. [f, v, ɱ]), le dentali (coronale), prodotte con la punta o la
lama della lingua contro gli incisivi, le alveolari (coronale), prodotte dalla punta o
dalla lama della lingua e gli alveoli, ovvero le gengive (es. [s] di sacco, [z] di asola),
le post-alveolari (coronale), prodotte con la lama della lingua e la regione
immediatamente dietro agli alveoli (es. [ʃ] di sciacallo, [ʒ] di garage), le palatali
(dorsale), prodotte con la parte anteriore del dorso della lingua e il palato duro (es.
[ʎ] di aglio) ed infine le velari (dorsale), prodotte con il dorso della lingua e il palato
molle (es. [k] di Canada, [g] di gambero)
• il modo d’articolazione, cioè con quali meccanismi sono prodotte le consonanti
dato che gli articolatori possono completamente bloccare il tratto orale o solamente
ridurlo. Se non c’è interruzione del flusso d’aria a livello della cavità orale
(+continue) abbiamo le approssimanti, le approssimanti laterali, le polivibranti,
le monovibranti e le fricative, se invece c’è un’interruzione completa del flusso
d’aria a livello della cavità orale (-continue) abbiamo le occlusive nasali, le
occlusive orali e le affricate
• la sonorità (voicing), dato che le consonanti possono esser prodotte con o senza
vibrazione delle corde vocali
Nelle fricative l’articolatore mobile si avvicina fortemente all’articolatore fisso (senza però
creare un’occlusione) e questa costrizione crea una forte turbolenza del flusso d’aria
inducendo un rumore di frizione. Per le fricative sorde c’è quindi una turbolenza caotica
aperiodica, dato che molta aria deve passare in una piccola sezione, verificando un suono
di frizione a livello della sorgente post-alveolare. Di conseguenza, il tratto che imprime la
funzione filtro è la zona post-alveolare fino alle labbra e non c’è f0 (regione bassa). Per le
fricative sonore invece, è presente la vibrazione delle corde vocali (meccanismo
glottalico), quindi si ha una combinazione di due suoni sorgente (meccanismo
glottalico+costrizione), perché il suono sorgente è a livello della glottide ma c’è f0
(energia). Le fricative sonore hanno gli stessi correlati acustici delle loro corrispondenti
sorde se non per una barra di energia nella parte bassa dello spettrogramma, che
corrisponde all’energia della f0. Nell’immagine, la banda nera bassa identifica la sonorità,
cioè la funzione di filtro tra /z/ e /ʒ/ che cambia proprio perché il luogo di articolazione
varia, mutando le energie.

Sono però più facili da trovare le fricative sorde piuttosto che le sonore (rare a livello
tipologico, cioè nelle lingue del mondo) perché dal punto di vista articolatorio le sonore
sono difficili da articolare dato che richiedono uno sforzo articolatorio e una coordinazione
molto precisa. Infatti, per articolare le fricative e creare la turbolenza, è necessario che il
flusso d’aria abbia una certa velocità. Questo è dovuto al fatto che il meccanismo
glottalico, responsabile della sonorità, crea un rallentamento al flusso d’aria proveniente
dai polmoni e, di conseguenza, rende difficile l’articolazione della seconda sorgente.
Inoltre, la coordinazione tra glottide e frizione è abbastanza difficile da mantenere.
Nelle approssimanti invece, l’articolatore mobile si avvicina a quello fisso ma non
abbastanza da creare una turbolenza. Dal punto di vista articolatorio, le semi-vocali e le
semi-consonanti corrispondono sostanzialmente alle vocali, tuttavia si comportano
fonologicamente come delle consonanti. A differenza delle vocali infatti, le semi-vocali e le
semi-consonanti non possono mai proiettare un nucleo sillabico. Abbiamo per esempio la j
anteriore o palatale non arrotondata corrispondente alla [i] di f[j]ore, la ɥ anteriore o
palatale arrotondata corrispondente a [y] e la w posteriore o velare arrotondata
corrispondente alla [u] di g[w]ida.
Nelle approssimanti laterali invece, il flusso d’aria trova un’occlusione al centro del tratto
vocale ma può comunque passare lateralmente. Abbiamo per esempio la l alveolare di
[fɔl:a] e la ʎ palatale di [fɔʎ:a], in cui la parte anteriore del dorso della lingua è a contatto
con il palato duro, quindi la lingua assume una forma bombata in modo che l’aria possa
passare lateralmente.
Le consonanti vibranti sono prodotte da un “battito” o da plurimi “battiti” (vibrazioni)
dell’articolatore mobile contro l’articolatore fisso e si suddividono a loro volta in:
• monovibranti (tap o flap in inglese), dove il movimento
della lingua è di natura muscolare e ad un solo battito di
chiusura corrisponde un solo valore fonologico. Un
esempio è la r di [ˈpɛro] (cane) in spagnolo
• polivibranti (trills in inglese), dove il movimento creato
dalla pressione della colonna d’aria avviene in un modo
analogo a quello della glottide (meccanismo
aerodinamico). L’articolatore mobile infatti è avvicinato
con una certa tensione a quello fisso, e l’aria produce dei battiti plurimi tra i due
articolartori (istanti con piccolissime fasi di occlusione e di apertura). Un esempio è
la ɾ di [ˈpɛro] (cane) in spagnolo
Tra le vibranti abbiamo anche la r alveolare, la ʀ uvulare (dove il dorso della lingua è
contro il velo palatino/ugola) e la ʁ fricativa uvulare (dove la parte posteriore della lingua si
ritrae fortemente verso il velo palatino creando una turbolenza).
Nelle vocali nasali il flusso d’aria passa sia per la cavità orale sia per le cavità nasali,
mentre nelle consonanti nasali (occlusive nasali) gli articolatori creano un’occlusione a
livello della cavità orale quindi l’aria può passare esclusivamente per le cavità nasali. Le
occlusive nasali sono le bilabiali come la m ( in cui le labbra sono in perenne contatto l’una
con l’altra), le alveolari/dentali coronali come la n (in cui la punta o la lama della lingua è
contro gli alveoli o gli incisivi superiori), le palatali come la ɲ (in cui la parte anteriore del
dorso della lingua tocca il palato duro) ed infine le velari come la ŋ (in cui il dorso della
lingua è contro il palato molle).
Le occlusive orali sono caratterizzate da un’occlusione completa al flusso d’aria e si
suddividono in bilabiali (come b, p, ph), in alveolari/dentali coronali (come d, t, th) ed in
velari (come g, k, kh). Le occlusive orali sono intrinsecamente dinamiche, tanto che si
possono identificare 3 fasi distinte, rispettivamente se si trovano davanti a vocale o dopo
vocale:
1. Occlusione (fase di tenuta della consonante), quando la pressione dell’aria
aumenta
2. Rilascio, quando gli articolatori si separano e l’aria fuoriesce rapidamente
producendo un rumore d’esplosione (tanta energia a molte frequenze), ovvero un
suono sorgente che viene filtrato dal tratto vocale dopo l’articolazione (es. k vs t)
3. Gli articolatori si muovono per articolare la vocale o il segmento seguente (fase di
transizione)

1. Gli articolatori si avvicinano per creare l’occlusione (transizione)


2. Occlusione (fase di tenuta della consonante)
3. Rilascio (fase talvolta non realizzata), quando gli articolatori si separano e l’aria
fuoriesce rapidamente producendo un rumore d’esplosione
Durante la fase di occlusione l’unico suono sorgente può essere la sonorità, infatti per le
consonanti occlusive sorde, l’occlusione rappresenta il silenzio.

Si ricostruisce la percezione del luogo delle consonanti occlusive dalla traiettoria


formantica, data dalla transizione formatica (le frequenze delle formanti cambiano per
assumere i valori che caratterizzano la vocale) che si ha nella fasi di transizione verso la
vocale (la traiettoria cambia perché il luogo da cui si parte cambia). Di conseguenza, la
fase di transizione formatica tra consonante e vocale è fondamentale perché è la natura
della consonante che imprime un certo valore all’attacco della vocale. Le transizioni
formantiche sono talmente informative da essere utilizzate per dare la percezione della
presenza delle consonanti. Le transizioni di F1, F2 e F3 sono state utilizzate per
sintetizzare le consonanti occlusive. Anche se il rumore di esplosione non è presente negli
stimoli artificiali prodotti con il metodo del “Sine-wave speech”, il timbro della consonante
può essere inferito sulla base delle transizioni formantiche. Gli studi sugli stimoli
sintetizzati hanno mostrato come la percezione delle consonanti occlusive (e del loro
punto di articolazione in particolare) sia ricostruita percettivamente sulla base delle
transizioni formantiche.

Le consonanti affricate sono segmenti composti da una fase occlusiva, seguita da una
fase fricativa. Le due fasi sono necessariamente omorganiche, ovvero condividono lo
stesso luogo di articolazione (es. [tʃ] di church, [dʒ] di judge). Non è possibile però ridurre
le affricate ad una sequenza di consonante occlusiva+consonante fricativa perché, in
polacco per esempio, si trovano coppie minime che contrastano quindi si deduce che le
affricate sono caratterizzate da proprietà speciali.
Gli articolatori possono imporre anche dei luoghi d’articolazione secondari. La costrizione
prodotta dall’articolatore principale è infatti accompagnata da una seconda costrizione
(secondo punto di articolazione). Inoltre, tipicamente le vocali possono imporre delle
specificazioni supplementari che si aggiungono ai luoghi d’articolazione delle consonanti.
Abbiamo quindi:
• la labializzazione (es. pw), cioè una costrizione secondaria prodotta
dall’arrotondamento delle labbra
• la palatalizzazione (es. pj), cioè una costrizione secondaria prodotta dal dorso
della lingua a livello del palato duro
• la velarizzazione (es. pɣ), cioè il dorso della lingua contro il velo palatino
• la faringalizzazione (es. pʕ), cioè il dorso della lingua che si abbassa e la radice
della lingua che avanza verso la cavità faringale
Generalmente, il luogo d’articolazione secondario dà luogo ad una variante allofonica, ma
talvolta l’articolazione secondaria può avere un valore fonologico e portare ad un contrasto
fonemico (es. in russo [sok] è succo mentre [sj ok] è ha colpito).
Il Voice Onset Time (VOT) o tempo di attacco della sonorità fa riferimento all’intervallo di
tempo tra l’inizio della pulsazione periodica della glottide e l’istante di rilascio
dell’occlusione sopraglottalica. Esso può assumere tre valori:
• valore negativo (sonoro), dove la vibrazione delle corde vocali avviene prima del
rilascio
• valore nullo (sordo), dove si ha l’inizio delle vibrazioni delle corde vocali ed il
rilascio (corrisponde all’esplosione)
• valore positivo (suono aspirato), dove la vibrazione delle corde vocali si instaura
dopo il rilascio
L’italiano infatti contrasta tra suoni sordi (-sonoro) e sonori (+sonoro) e per esempio, in [b]
(+sonoro) la sonorità precede la fase di rilascio quindi il VOT è negativo, invece in [p] (-
sonoro) l’attività glottalica comincia al momento del rilascio quindi il VOT è nullo. Le lingue
variano in riferimento ai valori di VOT associati ai differenti tipi di consonanti (sonore,
sorde, aspirate). Si può far variare artificialmente il valore di VOT lungo un continuum,
attraverso un processo di risentitizzazione per il quale il valore negativo del VOT viene
fatto diventare positivo. Qui subentra un effetto categoriale dato che lo stimolo varia in
maniera progressiva ma, dal punto di vista percettivo alla variazione di gradiente, non si
percepisce immediatamente una variazione percettiva. Ciò significa che la percezione non
è proporzionale alla percezione del VOT perché lo stimolo varia in maniera continua,
mentre la percezione varia in maniera categoriale.

27 Novembre
La struttura della sillaba non è piatta ma
bensì ha dei costituenti, cioè il nucleo e la
coda che formano la rima (legame più
stretto), e l’attacco. Solitamente il nucleo è
rappresentato dalla vocale o dall’elemento
che costituisce il picco di sonorità della
sillaba, ed è la componente obbligatoria.
L’attacco (o incipit) comprende gli elementi
che precedono il nucleo, mentre la coda
comprende gli elementi che lo seguono.
La distribuzione degli elementi all’interno
della sillaba è regolata dalla scala di
sonorità che correla con l’apertura del tratto
vocale. Il minimo grado di ostruzione lo
troviamo con le vocali che sono sono sempre
gli elementi più sonori. Ai livelli bassi della
scala ci sono le occlusive, poi le fricative e
così via.
La lenzione è un processo fonologico che trasforma le consonanti in qualcosa di più alto
della scala di sonorità, l’indurimento invece è un movimento nella direzione opposta.
Nella definizione di lenzione però c’è un caso particolare dato che l’apice della scala di
sonorità non è rappresentato dalle vocali, ma bensì da un elemento nullo che fa
scomparire completamente la consonante.
Il principio di dispersione della sonorità dice che a partire dall’attacco, la sonorità deve
aumentare (il secondo elemento deve essere più sonoro del primo e così via), il nucleo
costituisce il picco di sonorità dal quale poi la sonorità deve diminuire. In realtà le lingue
tollerano (con variabilità) degli elementi che sono sillabati in posizione di annesso, facendo
parte della sillaba con un grado di coesione esterno (appendici), tale per cui il principio di
sonorità non si applica. Ci sono lingue che accettano nuclei formati da una consonante
come l’inglese in botton → [bʌtn̩]. Inoltre alcune lingue tollerano elementi in posizione di
annessi violando il principio di dispersione di sonorità, come la parola strikes in inglese o
la parola strano in italiano.

La sillaba base, cioè la sillaba non marcata, è la sillaba universale che troviamo in tutte le
lingue naturali (consonante-vocale). Ci sono delle lingue che non accettano delle code in
CVC ma non c’è alcuna lingua che non accetti un elemento in attacco.
Le consonanti in posizione di coda sono sottoposte a delle restrizioni molto più stringenti
rispetto agli elementi in attacco.
Ma la struttura sillabica fa parte della rappresentazione soggiacente memorizzata nel
lessico mentale? Nella stragrande maggioranza dei casi la sillabazione è predicibile,
pertanto non è necessario postulare che la struttura sillabica sia memorizzata nel
lessico. Però il processo di sillabazione non è completamente universale dato che
possiamo osservare delle proprietà idiosincratiche che valgono solo per alcune lingue.
La procedura di sillabazione si
compone di tre fasi:
1. Assegnare il nucleo (σ) ad ogni
segmento indicato come
[+sillabico]
2. Assegnare tutti gli elementi in
posizione di attacco (senza
trasgredire il principio di
dispersione della sonorità)
3. Assegnare le consonanti
restanti in coda
Questa procedura è valida in generale perché una lingua può porre dei vincoli
supplementari alla struttura sillabica. Per esempio, la sequenza [tf] rispetta il principio di
dispersione della sonorità e pertanto questo dovrebbe esser un attacco possibile, ma
l’italiano applica delle restrizioni linguo-specifiche per le quali [tf] non costituisce un attacco
valido nonostante sia ben formato. Per semplificare la procedura di sillabazione e per
verificare in maniera grossolana la presenza di possibili restrizioni linguo-specifiche
supplementari, è possibile utilizzare l’euristica dell’attacco massimale quando siamo
davanti a un cluster, cioè una sequenza di consonanti tra due vocali. Se quindi nel lessico
della lingua troviamo delle entrate lessicali che mostrano la sequenza in questione, allora
siamo ragionevolmente sicuri che la sequenza sia un attacco accettato. Per esempio, in
[partire] nessuna parola dell’italiano comincia per [rt] quindi la divisione in sillabe sarà
sicuramente [par.ti.re], invece nel caso di [patria] ci sono varie parole che iniziano per [tr]
(es. triade, tribunale, tracciare) quindi è possibile che la divisione in sillabe sia [pa.tria].
L’euristica dell’attacco massimale non è una regola infallibile, ma semplicemente una
strategia pratica.
In certe lingue, il processo di sillabazione è confinato dalle frontiere di parola (es. tedesco),
ma in altre la sillabazione può valicare i confini di parola (es. italiano, spagnolo, francese).
La posizione di coda sillabica è spesso soggetta a processi di neutralizzazione, per
esempio, nella varietà cibeano dello spagnolo (Repubblica Domenicana) /l/, /ɾ/ e /j/ sono
tre fonemi, ma in certe posizioni i primi due possono facoltativamente trasformarsi
nell’ultimo. La regola di trasformazione in [j] è però bloccata davanti alle vocali, quindi
[paɾe] non si può trasformare in [paje] e [limite] non si può trasformare in [jimite]. Di
conseguenza, il processo di trasformazione si applica in posizione finale di parola e
davanti a consonante.
Le sillabe possono essere:
• aperte (senza coda), che possono essere sillabe pesanti se contengono vocali
lunghe
• chiuse (con coda), che sono sempre sillabe pesanti
• pesanti (la rima domina almeno due posizioni scheletriche, cioè due segmenti,
come CV o CVC)
• leggere (la rima domina una sola posizione scheletrica come CV, CCV o V)
In latino la lunghezza vocale è constativa e l’accento può essere breve (˘) o lungo (¯).
Inoltre la posizione dell’accento è predicibile perché la sillaba finale non è mai accentata,
l’accento può essere assegnato sulla penultima o sulla terzultima sillaba, se la penultima
sillaba è pesante allora prende l’accento, altrimenti l’accento si ritrae sulla terzultima. Per
esempio, in 5) e 6) le consonanti [b] e [g] formano un cluster in attacco della σ finale,
pertanto la penultima σ, che contiene un vocale breve, è leggera e l’accento deve quindi
ritrarsi sulla terzultima.

2 Dicembre
I dialetti italiani (italo-romanzi) sono il frutto di una continuazione ininterrotta del latino. Il
processo di differenziazione regionale del latino verso le varietà romanze è stato da
sempre oggetto di ricerca e dibatto. Ci sono infatti due approcci (speculari) noti nella
letteratura, un tempo più diffusi di oggi, ovvero il concetto di sostrato e quello di
superstrato. Per la teoria del sostrato, i fenomeni linguistici osservati in varietà moderne
hanno origine da fenomeni linguistici specifici nelle varietà prelatine. La differenziazione
del latino, che porterà alle varietà romanze, ha le radici nella fase di romanizzazione
stessa della penisola con la diffusione del latino da parte delle popolazioni prelatine che
avrebbero trasferito caratteristiche delle lingue originarie nel latino acquisito. Il sostrato è
quindi il sub-strato rispetto allo strato latino e si riferisce all’effetto che c’era in origine
nell’entroterra linguistico. Invece, per la teoria del superstrato (simmetrica rispetto al
sostrato) l’impulso decisivo alla differenziazione dialettale romanza è da attribuire agli
influssi esercitati dalle lingue che si sono sovrapposte al latino senza riuscire però a
soppiantarlo. Il superstrato è quindi sopra allo strato latino. Graziadio Isaia Ascoli (1829-
1907) elabora una teoria e classificazione compiuta dei dialetti italiani basata sulla teoria
del sostrato:
• prova corografica, cioè la coincidenza della diffusione geografica delle due lingue
nelle quali si osserva il fenomeno (lingua antica di sostrato e lingua moderna)
• prova intrinseca, cioè l’identità strutturale del fenomeno nelle due lingue
• prova estrinseca, cioè la ricorrenza dello stesso fenomeno in lingue di aree
diverse (non contigue) ma con identico sostrato
Nel lessico, un lascito delle lingue di sostrato è indubitabile ma al di fuori di esso il ruolo
del sostrato è stato ridimensionato. Infatti nella visione sostratista di Ascoli la Ū (y) di [lyna]
viene utilizzata in Italia settentrionale (parte del Trentino, Lombardia, Piemonte, Liguria,
Emilia occidentale) con esclusione del Veneto, quindi secondo la prova corografica
avrebbe un sostrato celtico. Tuttavia, anche il francese ha un sostrato celtico ma la [y] si
sviluppa solo a partire dal VII d.C. e anche il bretone ha un sostrato celtico secondo la
prova estrinseca ma esso è stato reintrodotto solo dopo la fine dell’impero romano (infatti
nelle iscrizioni galliche non c’è [y]). Per esempio, Clemente Merlo (1879-1960) insieme ad
Ascoli si concentrano sull’anteriorizzazione di [á] latina che passa ad [e] in sillaba tonica
aperta (che si osserva nei dialetti emiliani e romagnoli). Questo processo è collegato al
sostrato celtico ma Merlo osserva che l’anteriorizzazione non c’è nei dialetti lombardi (es.
ela → ala, eguel → uguale, fe → fa) quindi si ha un fallimento della prova corografica, però
secondo Merlo il passaggio di [á] in sillaba aperta a [e] non è uniforme in tutta l’area gallica
perché i Galli si erano insediati in maniera più stabile proprio in Emilia-Romagna. Ottavio
Lurati in realtà dimostra che in area lombarda si osservavano fino al ‘600 forme come prae
(prati) e aera (ala), di conseguenza l’anteriorizzazione era effettivamente presente
nell’aerea lombarda ma è scomparsa in epoca recente. Vediamo quindi che le analisi
basate sul sostrato sono estremamente speculative.
Merlo studia anche la gorgia toscana e il sostrato etrusco, dove trova la prova corografica
secondo cui i dialetti toscani si parlano in quella che era un tempo l’Etruria, e la prova
intrinseca secondo la quale le iscrizioni etrusche sono scritte in alfabeto di derivazione
greca perché mantengono i segni delle consonanti occlusive aspirate greche (φ, θ, χ). Di
conseguenza, se i segni delle aspirate si sono mantenuti in etrusco è perché avevano
un valore distintivo, mentre in latino non si sono mantenuti perché non c’erano le
consonanti aspirate. Inoltre, Rohlfs nel 1963 evidenzia una distanza cronologica che porta
ad una differenza strutturale per la quale le aspirate etrusche ricorrono in contesti che non
ammettono la gorgia toscana (es. Tarχnas cioè Tarquinio e Cluθamsθa cioè Clitemnestra),
quindi la prova corografica non è convincente. Merlo parla però di una roccaforte etrusca
nell’alto corso dell’Arno quindi il mancato riscontro della prova corografica diventa un
argomento di ricostruzione storica. In sostanza, rileggendo le stesse parole di Merlo la
fricativizzazione di [k] è il processo che ha maggiore estensione geografica, mentre è più
ristretto per [t] e ancora meno per [p]. Le aree della gorgia per i tre segmenti sono
concentriche e l’epicentro è Firenze, ma il fenomeno è in continua espansione.
Un ulteriore esempio è il sostrato osco, dove vediamo un’assimilazione di nasale diffuso
dal Lazio fino alla Sicilia (es. [nd] → [nn] in quando → kwanno/-e/-u, oppure [mb] → [mm]
in piombo → pjommo/cummɘ). In osco effettivamente si osservano forme come il
gerundivo [opzannam] che corrisponde etimologicamente al latino operandam, ma
l’assimilazione di nasale è un processo estremamente comune tipologicamente che si è
espanso a partire da Roma e dall’Italia mediana (in testi del ‘200 e del ‘300 era presente a
Roma ma in via di diffusione in Campania e dal ‘500 sono state toccate anche Lucania,
Calabria e Sicilia).
Quindi il superstrato comprende gli effetti prodotti dal contatto con una lingua egemone
sovrappostasi solo temporaneamente a quella preesistente che non viene soppiantata,
mentre l’adstrato comprende gli effetti prodotti da una lingua in contatto. Gli effetti di
superstrato e di adstrato sono temporaneamente più vicini cronologicamente e più facili da
indagare.
Nel dialetto di Pantelleria la /h/ (fricativa glottale sorda) è imputata all’arabo a causa della
presenza nei dialetti di fricative postvelari come χ (fricativa uvulare), ħ (fricativa faringale)
e h (fricativa glottale). In italiano infatti /h/ non esiste ma a Pantelleria abbiamo [hasira] o
[kasira] (zerbino) e [hurhola] o [kurkola] (pantaloni rimboccati), perché i prestiti dall’arabo
possono esser pronunciati con [k] o [h], mentre gli esiti latini hanno solo [k]. Nel dialetto di
Pantelleria vediamo anche che il trapassato prossimo come avevo chiamato è un calco
dall’arabo che si compone della forma invariabile dell’imperfetto di essere più il passato
remoto coniugato (es. ɛra ʃamasti → avevi chiamato, ɛra ʃamau → aveva chiamato, ɛra fu
mmalau → ero stato malato).
In quale misura i dialetti secondari del latino sono connessi con lo sviluppo delle lingue
romanze e della futura frammentazione linguistica della Romània? La questione è
dibattuta: una posizione molto radicale e documentata è che non ci sia una diretta
relazione tra varietà locali di latino e sviluppi romanzi successivi. Secondo Löefstedt infatti
una diversificazione in dialetti locali si avverte solo a partire dal VII-VIII secolo, che è
proprio il periodo in cui il latino cessa di essere una lingua acquisita nativamente anche dai
ceti illetterati. Una posizione opposta (anche questa empiricamente documentata) è quella
di Herman, secondo il quale già in epoca imperiale esistevano differenze sistematiche nel
parlato in base alle diverse regioni. Per esempio:
• in Liguria, Lombardia e Piemonte è molto alta la percentuale di errori dovuta alla
confusione tra i/e, mentre è bassissima la presenza di errori tra b/v
• nella provincia di Sardinia osserviamo una situazione speculare ma opposta, per
cui gli errori di sostituzione tra b/v sono molto frequenti ma lo sono molto meno
quelli per le vocali e/i
• nel caso dell’Etruria la situazione è intermedia
Possiamo osservare quindi una continuità con le condizioni dei dialetti moderni per cui i
dialetti della Sardegna e dell’Italia meridionale hanno perso l’opposizione [b/v] ed il
vocalismo del logudorese e del campidanese sono molto conservativi rispetto al vocalismo
prevalente nelle varietà romanze.

3 Dicembre
Nel passaggio dal latino alle lingue romanze c’è stato un collasso della quantità breve e
lunga, per il quale l’opposizione contrastiva fonologica della lunghezza si è persa anche
nelle varietà romanze che oggi mostrano un’opposizione di tipo quantitativo. Questa infatti
è stata sviluppata ex novo in epoca più recente e non ha un rapporto diretto con la
quantità vocalica latina. Quindi quali fattori possono aver contribuito alla perdita del valore
distintivo della quantità vocalica? Cosa ha scaturito il collasso della quantità? Perché si
hanno così tanti vocalismi romanzi diversi? Vediamo la prima ricognizione dei sistemi
vocalici romanzi:
• per quanto riguarda il sistema vocalico sardo, esso caratterizza le varietà della
Sardegna ma è presente anche nei dialetti lucani meridionali estremi e calabresi
settentrionali estremi
• per quanto riguarda il sistema vocalico rumeno, oltre alle varietà rumene sembra
trovarsi solo nella zona lucana che dal margine nord sale verso Potenza (senza
raggiungerla)
• per quanto riguarda il sistema vocalico pan-romanzo, è quello che troviamo alla
base della maggior parte delle attuali varietà romanze (dall’ibero- al gallo- all’italo-
romanzo)
• per quanto riguarda il sistema vocalico siciliano, esso caratterizza i dialetti siciliani e
la maggior parte dei dialetti calabresi, una buona parte di quelli salentini e una parte
dei dialetti del cilento

Già in epoca classica, alla quantità si accompagnava un fenomeno di natura qualitativa


timbrica: per le vocali non basse la lunghezza correlava con il tratto ATR (fenomeno
abbastanza comune tipologicamente), per il quale le vocali lunghe erano sempre +ATR,
mentre le brevi erano anche -ATR. Di conseguenza non si opponevano solo per la durata,
ma anche per il livello articolatorio con un riflesso del tratto ATR.

Un elemento di disturbo che ha contribuito a causare la crisi del sistema vocalico latino è
rappresentato dai dittonghi: [ae] e [au] si sono monottongati, chiudendosi in semplici vocali
(ovvero ɛː e ɔː) che risultavano anomale per lo schema precedente, in quanto -ATR ma
lunghe. Per riportarle alla norma le soluzioni erano due:
• salvaguardare la lunghezza ma cambiare ATR (cambiare la qualità)
• salvaguardare ATR ma alterare la lunghezza (cambiare la quantità)
Poiché la lunghezza era la proprietà fonologica distintiva, ci si aspetterebbe che fosse
stata privilegiata, ma il processo è effettivamente attestato solo in alcuni casi e non in tutti.
In un certo numero di casi abbiamo cauda (latino) → coːda → c[o]da (italiano), ma in molti
altri casi si è salvaguardato il timbro e si è alterata la lunghezza ae → ɛː → ɛ e au → ɔː →
ɔ (es. caelu(m) → c[jɛ]lo o pede(m) → p[jɛ]de).
Oltre alla dittongazione, anche altri fenomeni hanno influito come la pressione delle lingue
italiche sul latino. Per esempio, Osco e Umbro antico sono quelle meglio conosciute, nelle
quali vediamo che rispetto all’indoeuropeo (da cui sia il latino che l’osco derivano) *ĭ e *ŭ
(indoeuropeo) si trasformano in [e] ed [o], mentre *ī e *ū (indoeuropeo) si trasformano in [i]
ed [u]. Supponendo che ci fosse una popolazione di osco che parlasse latino applicando il
sistema fonologico dell’osco, si vede che quest’ultimo risultava deviante perché qualità
(ATR) e quantità (vocali lunghe e brevi) non andavano più di pari passo.
Oltre a ciò, si trova anche il fenomeno della pressione del greco che non si conforma al
sistema vocalico a dieci vocali del latino. Per esempio, la epsilon <ε> era pronunciata
breve ma +ATR, come la omicron <ο> che era pronunciata breve ma sempre +ATR,
mentre in latino le vocali brevi erano -ATR. Il greco aveva anche delle vocali lunghe medie
che si opponevano per ATR come <ει> pronunciato [eː] e <η> pronunciato [ɛː], o come
<ου> pronunciato [oː] e <ω> pronunciato [ɔː]. In greco σκηnή (cioè [skɛːˈnɛː]) passa in
latino come scēna, dove viene rispettata la lunghezza a scapito del timbro, o come
scaena, dove invece l’esito della monottongazione mantiene il timbro a scapito della
lunghezza. Di conseguenza, è difficile identificare esattamente le cause e il singolo
contributo dei differenti fattori, ma il punto cruciale è che l’opposizione veicolata dalla
lunghezza vocalica si perde in favore dell’opposizione espressa dal timbro.
Un approccio tradizionale identifica un ordine filogenetico tra i sistemi vocalici, per cui
sembra che il sardo, data la natura insulare, sia rimasto isolato e quindi tagliato fuori dalle
innovazioni. Ma dato che la lunghezza vocalica collassa prima che il ruolo della tensione
muscolare di ATR giochi un ruolo, può essere uno stadio precedente del sistema
panromanzo? No, ed infatti non ha senso pensare che il sardo sia una fase preliminare
perché quando le opposizioni di vocali si sono neutralizzate, non si può più trovare un
modo di riorganizzarle.
Anche il sistema siciliano viene considerato un vocalismo arcaico, infatti per Rohls lo
sviluppo del tipo siciliano è indipendente, mentre per Fanciullo, lo sviluppo del tipo siciliano
può essersi evoluto a partire dal tipo pan-romanzo.
Si possono considerare una serie di fenomeni anche nel vocalismo toscano. In fiorentino
per esempio, si osserva il fenomeno dell’anaforesi per cui [e] e [o] si innalzano in [i] e [u]:
• di tipo 1 davanti a consonanti palatali [ʎ, ɲ] (es. matrĭnia → matrigna, tĭnea → tigna)
• di tipo 2 davanti a -ng ed in misura ridotta a -nk (es. venco → vinco, mongo →
mungo, fongo → fungo, sogna → sugna)
Ma questo processo non riguarda in modo sistematico tutto il lessico (es. sveglia e rogna).
Infatti si può avere anaforesi di tipo 1 solo quando la palatale è il risultato della
palatalizzazione di una sequenza [lj] e [nj] latina e non da palatalizzazione di [gn] latina
(ligno proveniente dal latino lĭgnum è sbagliato), perché [lj] e [nj] si palatalizzano in [ɲ] tra il
I e il II secolo, mentre [gn] si palatalizza intorno al IV secolo e l’anaforesi deve essere
circoscritta tra il III e il IV secolo. In Toscano si osserva anche la dittongazione per cui [ɛ] e
[ɔ] in sillaba aperta diventano [jɛ] e [wɔ] (molto irregolare, oggi non più produttiva), inoltre
si trovano forme dittongate estese anche in contesti non tonici come [suonavo], ma anche
forme monottongate della posizione atona estesa alla posizione tonica.
In toscano si osservano vari processi riguardanti le consonanti che interagiscono con una
serie di altri processi. Per esempio, nella frase d) abbiamo
il raddoppiamento fonosintattico o geminazione
(regola: Ci → CiCi / V#_V), mentre nella frase c) abbiamo
la spirantizzazione o gorgia (regola: {p, t, k} → {ɸ, θ, h} /
V(#)_V). In d) però, l’applicazione del raddoppiamento
fonosintattico distrugge il contesto di applicazione della gorgia dato che si è creata una
geminata. Infatti né il primo [k1] né il secondo [k2] in [verserá k1k2ohahóla] si trovano in
posizione intervocalica (V_V), quindi l’ordine deve necessariamente essere RF>>Spir.
Con troncamento invece, si identifica il processo di caduta di vocali davanti a consonante
e dopo consonante sonorante, la quale può a sua volta può cadere. Per esempio
/kompráre patáte/ → [komprár paθáθe] o anche [komprá p:aθáθe], oppure /sono stato/ →
[son staθo] o anche [so staθo]. Riguardo al sottocaso del troncamento delle forme
all’infinito (es. versáre → versá) la regola in questione è: [re]inf. → /∅. Dunque, inserendo
nella lista dei processi anche il troncamento, l’ordine corretto sarà:
1. Troncamento
2. Raddoppiamento fonosintattico
3. Spirantizzazione

4 Dicembre
Per la derivazione della frase f) il troncamento ed il
raddoppiamento fonosintattico sono in una relazione di feeding,
per la quale il secondo processo si può applicare proprio grazie
al fatto che il primo si sia applicato in precedenza. Invece il
raddoppiamento fonosintattico e la spirantizzazione sono in una
relazione di bleeding, per la quale il primo processo ha distrutto
il contesto che avrebbe permesso al secondo di applicarsi.
Con apocope invece, si identifica un processo di caduta vocalica, per il quale i vocoidi
(vocali e semivocali) in fine di parola sono cancellati se sono preceduti da vocale
accentata e seguiti da una parola che inizia per consonante (regola: V → ∅ / V́ _#C).
L’apocope quindi si applica quando la parola che segue inizia per consonante ma non può
applicarsi in fine di frase (es. Conto fino a [dúe] e non [dú], ma Ho visto [dú] cani e non
[dúe]) e nell’ordine di applicazione si va ad inserire tra il raddoppiamento fonosintattico e la
spirantizzazione.
Nella derivazione i) l’apocope cancella la vocale finale e lascia
una vocale accentata in posizione finale che avrebbe potuto far
scattare il raddoppiamento fonosintattico, ma nella forma di
superficie non si trova la geminata, anzi abbiamo [h] cioè il risultato della spirantizzazione.
Questo perché l’apocope si applica troppo tardi nella derivazione per permettere al
raddoppiamento di applicarsi, quindi in questo caso le due regole sono in una relazione di
counterfeeding. Infatti, si possono individuare quattro tipi di interazione:
• bleeding, ovvero quando in una certa derivazione l’applicazione della regola A
distrugge il contesto per l’applicazione della regola B (che altrimenti avrebbe potuto
applicarsi). Un esempio di bleeding è l’interazione tra il raddoppiamento
fonosintattico e la spirantizzazione nella frase d)
• counterbleeding, ovvero quando in una certa derivazione l’applicazione della
regola B distrugge il contesto della regola A che però si è già applicata
• feeding, ovvero quando in una certa derivazione l’applicazione della regola A crea il
contesto per l’applicazione della regola B, che sennò non si sarebbe potuta
applicare. Un esempio di feeding è l’interazione tra il troncamento e il
raddoppiamento fonosintattico nella frase d)
• counterfeeding, ovvero quando in una certa derivazione l’applicazione della regola
B crea il contesto della regola A ma il turno di applicazione di A è già passato e,
pertanto, non può sfruttare questo contesto altrimenti favorevole alla sua
applicazione. Quindi A ha perso la possibilità di applicarsi perché il contesto
necessario per la sua applicazione si è formato troppo tardi nella derivazione e se
l’ordine fosse stato invertito avrebbe avuto luogo una relazione di feeding tra le due
regole. Un esempio di counterfeeding è l’interazione tra il raddoppiamento
fonosintattico e l’apocope nella frase i)
Per una serie di parole si può osservare la possibilità di una i iniziale, chiamata i
prostetica. Questo fenomeno trova spiegazione nel fatto che in italiano la sillabazione può
oltrepassare i confini di parola, infatti, per esempio in la sposa la s iniziale si attacca alla
coda della sillaba la. Nel caso però di è andata in sposa la s non può riattaccarsi alla coda
di in, quindi in antichità era stata trovata la soluzione di aggiungere una i prostetica alla
parola sposa o ad altre parole che iniziano con s (es. ischerzo, istrada, iscritto, ispiaggia,
isvizzera, ecc). Questa i epentetica ed eufonica è inserita per evitare cluster consonantici
rari e per permettere di risillabare la s da posizione di annesso a posizione di coda, infatti
non si ha mai la i prostetica in inizio di frase (specifichiamo che per iscritto è ormai
un’espressione cristallizzata nel lessico, quindi è data per corretta anche in italiano
standard).

Potrebbero piacerti anche