Sei sulla pagina 1di 3

Progetto:Linguistica/Interpretare i dati di

Ethnologue
< Progetto:Linguistica

Ethnologue è tra le fonti primarie di dati sulle lingue in Wikipedia. Ci sono diversi evidenti vantaggi
nell'usare Ethnologue, oltre alla sua accessibilità universale: per molte lingue, è tutto quello che abbiamo;
per altre, fornisce un controllo sulle inflazioni del numero di parlanti ai quali assistiamo in certi casi di
vandalismo. Tuttavia, i dati di Ethnologue devono essere attentamente valutati e, se possibile, le loro fonti
vanno verificate e citate direttamente; oppure fonti migliori possono essere usate al posto di Ethnologue, nel
caso in cui queste siano note.

Ci sono, tuttavia, alcuni seri problemi comuni:

Gli alberi genealogici sono generati automaticamente, e non ci si deve affidare troppo
ad essi. L'auto-generazione è distorta dalle singole voci negli articoli delle lingue. Nella 16^
edizione, per esempio, la famiglia maban è stata indicata come un ramo delle lingue luo,
perché una delle lingue luo si chiamava maban. Allo stesso tempo, c'erano due rami
separati di luo nel nilotico a causa della mancata corrispondenza dell'ortografia di "luo" tra
gli articoli. Ai problemi più evidenti di questo tipo è stato posto rimedio nella 17^ edizione,
ma gli alberi non sono ancora da considerarsi una fonte affidabile per la classificazione e la
struttura dei nodi stessa potrebbe non essere affidabile. Molti dei nostri articoli dicono che ci
sono tot lingue nel ramo X, sulla base di Ethnologue, ma tutto ciò che può essere fatto valere
è la classificazione citata negli articoli individuali di Ethnologue e non quella delle pagine
che mostra la famiglia.
I dati dei parlanti sono incoerenti. Per esempio, nella 14^ edizione, per il gawwada sono
stati citati 32.698 madrelingua, tra cui 27.477 monolingui, in base al censimento del 1998.
Nella 17^ edizione, i parlanti sono saliti a 68.600 in base al censimento del 2007, ma i
monolingui sono rimasti 27.500. Non c'è motivo di pensare che la percentuale di monolingui
sia cambiata drasticamente in dieci anni, quindi aggiungere il numero citato di monolingui in
un articolo di Wikipedia sarebbe irresponsabile. Allo stesso modo, la dimensione citata del
gruppo etnico potrebbe essere solo la metà del numero citato di parlanti, essendo di diversi
decenni più vecchio. Se il numero di monolingui o membri del gruppo etnico non è citato da
Ethnologue con una data, è inutile e non dovrebbe essere ripetuto qui. Il numero di parlanti e
quello delle varietà della lingua potrebbero derivare da fonti diverse, con il risultato che il
numero dei parlanti potrebbe non essere il totale di tutti i dialetti. Molto spesso, quando una
lingua prende il nome da una delle sue varietà, il numero di parlanti è quella della varietà,
non della lingua nel suo complesso. Inoltre, una lingua può essere suddivisa in codici ISO
separati con il risultato che un articolo copre una delle varietà ma eredita il numero di
parlanti di tutte le varietà del vecchio articolo. Ethnologue ha cercato di rimediare a questo
negli ultimi anni, ma non è stata in grado di tornare indietro e correggere tali errori ereditati
da vecchie edizioni.
L'aritmetica di Ethnologue è consistentemente inappropriata. Ad esempio, Ethnologue
riporta per cinque lingue iraniane centrali 7.030 parlanti segnalati nel 2000. Sembra che la
loro fonte elencava 35.000 altoparlanti totali e quindi Ethnologue divise la cifra in 5 per i
singoli articoli, senza indicazione che il risultato era una congettura. Questo tipo di problema
non è raro. Ancora più comunemente, Ethnologue aggiunge in uno stesso articolo dati
incompatibili da varie fonti, senza prestare attenzione alle significatività delle cifre riportate.
Per esempio, se una fonte ha riferito da 2 a 5 milioni di parlanti in un paese A nel 1975 e un
altro 5-10.000 nel paese B nel 2006, Ethnologue segnala il totale come 3.507.500 parlanti
(3.5 milioni, cioè la mediana di 2 e 5 milioni sommata a 7.500, la mediana di 5-10.000).
Vecchie edizioni come la 14^ sono in realtà più affidabili in questo senso, in quanto tendono
a notare che la stima per il paese A è di 2-5 milioni, mentre le edizioni successive
semplicemente riportano 3.5 milioni come se fosse la cifra nella fonte. Se la fonte originale
non può essere verificata, dovremmo almeno esaminare ciascuna delle cifre che
compongono il totale e ripetere il calcolo, in modo da evitare imprecisioni per quanto
possibile.
Le date non sono indicatori affidabili di quando i dati sono stati presi. A meno che i dati
non siano quelli del censimento, il quale ha il problema di tutti i censimenti che i parlanti
intenzionalmente riportano informazioni inesatte sulla loro lingua, le date indicate da
Ethnologue sono in genere la data di pubblicazione della fonte consultata. Ovviamente
possono essere passati diversi decenni da quando i dati sono stati raccolti. Il risultato è che
una data più vecchia potrebbe segnalare gli stessi dati o dati più recenti di una data più
recente. Per esempio, diverse lingue australiane sono citate come "SIL 2011" nella 17^
edizione. Tuttavia, nella 16^ tutte avevano lo stesso numero di parlanti citati da "Wurm e
Hattori 1983." In altri casi, Ethnologue usa come fonte una vecchia edizione di Ethnologue o
la fonte che utilizzato in una vecchia edizione. Inoltre, le fonti stesse possono avere problemi
che non sono menzionati in Ethnologue. Ad esempio, una fonte del 1990 afferma che i suoi
numeri sono copiati da una pubblicazione dal 1980 che si basava sul lavoro sul campo del
1950. Nella voce, tuttavia, è riportata solo la data del 1990. Facendo un altro esempio, i dati
delle lingue hindi sono stati aggiornati tra la sedicesima e la diciassettesima edizione, sulla
base del nuovo censimento indiano. Tuttavia, il censimento chiarisce che molti parlanti
awadhi, per esempio, hanno riportato di parlare hindi piuttosto che awadhi. Il risultato è che
la cifra nella 17^ edizione per la lingua hindi è inflazionata da forse 100 milioni di persone
che sarebbero dovuti essere elencati in altre lingue, ma Ethnologue non da avviso di tutto
ciò. Molte voci sono del tutto senza data. Alcuni di queste sono recenti sviste che saranno
risolte nella prossima edizione, ma molti sono ereditati da vecchie edizioni di Ethnologue. In
tali casi, citando l'edizione di Ethnologue che per prima ha riferito la cifra potrebbe dare al
lettore qualche indicazione che non sono dati recenti.
Le cifre possono essere numeri etnici e di un ordine di grandezza maggiore del
numero effettivo di parlanti. La sistemazione di questo problema è stata iniziata nella 17^
edizione, benché non sia chiaro quanto questa sistemazione sia completa.

Tutti questi problemi sono pienamente comprensibili: Ethnologue è un enorme progetto con una piccola
redazione e un budget limitato. Per anni, data probabilmente la reputazione che Ethnologue aveva di non
essere sempre ragionevole, molti linguisti non si sono preoccupati di correggere gli errori che trovavano.
Fortunatamente, da circa il 2000 i membri di Ethnologue si sono mostrati riconoscenti del feedback.

LinguistList/Multitree comprende un gran numero di lingue non si trovano in Ethnologue, ma la loro


identificazione è altamente inaffidabile e spesso si può notare la loro natura spuria anche solo con una
rapida occhiata alla letteratura. Glottolog spesso fa un lavoro migliore rispetto alle altre due fonti, per
esempio, nella verifica e nell'aggiornamento delle classificazioni, nella segnalazione delle lingue come
spurie quando non è possibile verificarne l'esistenza e nella specificazione delle loro fonti. Tuttavia non può
essere tenuta in considerazione per le varietà, casi nei quali hanno essenzialmente copiato Multitree.

Estratto da "https://it.wikipedia.org/w/index.php?
title=Progetto:Linguistica/Interpretare_i_dati_di_Ethnologue&oldid=74958086"

Questa pagina è stata modificata per l'ultima volta il 3 set 2015 alle 12:57.

Il testo è disponibile secondo la licenza Creative Commons Attribuzione-Condividi allo stesso modo; possono
applicarsi condizioni ulteriori. Vedi le condizioni d'uso per i dettagli.

Potrebbero piacerti anche