Sei sulla pagina 1di 22

Campionamento

Rappresentatività

• Produzione di un corpus
• Obiettivo di un corpus
• Corpus quale campione rappresentativo di una lingua o di una varietà
di lingua
• Elementi di scienza statistica > acquisizione dei dati

Costruire un corpus finito a partire da possibili produzioni


potenzialmente infinite
Statistica
• Quantificazione e analisi di fenomeni collettivi
• Offrire, attraverso l’osservazione e la comparazione, chiavi di lettura
dei risultati ed eventuali proposte di miglioramento
• Statistica descrittiva > analizzare i dati raccolti per offrire una
fotografia della popolazione o di un campione
• Statistica inferenziale > analisi dei dati raccolti per stimare il livello di
alcune variabili nella popolazione di riferimento, per verificare la
significatività di alcune associazioni
• Nell’ottica inferenziale la statistica propone
metodi di raccolta per accumulare informazioni su un insieme ridotto
(campione) di osservazioni (unità statistiche)
Metodi di sintesi per descrivere il campione o inferire caratteristiche
degli insiemi più vasti e generali ai quali l’insieme ridotto appartiene
(popolazione o universo statistico)

Esempi di popolazione Esempi di singole unità statistiche


Elettori italiani in un sondaggio Un italiano
Famiglie italiane in un censimento Una famiglia
I motori prodotti da un’industria Un motore
La lingua > langue Una unità testuale (una parola, un
fonema etc.)
Costruire un campione significa selezionare una parte (campione) di
un tutto (popolazione) con metodologie e procedimenti che
consentano al campione di rappresentare significativamente gli
aspetti essenziali della popolazione
• Campione rappresentativo
Indagini statistiche
• Stretta connessione con le caratteristiche della popolazione di
riferimento
• Popolazione di numerosità finita vs popolazione di numerosità infinita
• Tecniche di acquisizione dei dati

Indagini censuarie: dati rilevati per ogni unità statistica della


popolazione > popolazioni finite
Indagini campionarie: dati rilevati da un campione estratto dalla
popolazione e ipotesi dei risultati sulla popolazione > popolazioni
infinite
Selezione di un campione < ambito statistico-matematico

• Campionamento > piano di campionamento


• Campioni casuali o probabilistici
• La scelta degli elementi del campione è fatta a caso in modo che di
ogni elemento sia nota la probabilità con cui entra a far parte del
campione

 Assicurare la migliore proporzionalità tra campione e popolazione


 Assicurare un buon livello di rappresentatività
• La teoria dei campioni

• fondata sul campionamento casuale,


• studia le proprietà dell'insieme costituito da tutti i campioni che possono
essere estratti da una popolazione data, ma del tutto arbitraria, con un dato
piano di estrazione casuale,
• obiettivo di rendere il campionamento il più efficiente possibile, ottenendo la
massima precisione essendo dato il costo o, viceversa, riducendo al minimo il
costo compatibilmente con un fissato livello di precisione.
• Campionamento casuale semplice > ogni unità statistica della
popolazione di riferimento ha la stessa probabilità di far parte del
campione

• Campionamento casuale stratificato > identificazione di sottogruppi


all’interno della popolazione di riferimento sulla base di
caratteristiche salienti e ad ogni sottogruppo viene applicato un
campionamento casuale semplice
Criteri di stratificazione scelti a priori
• Caratteristiche salienti rilevate attraverso variabili

• Variabili qualitative > numero finito di modalità diverse


• Variabili qualitative dicotomiche, per esempio, la variabile «genere» > 2 modalità:
uomo/donna; la variabile «sonorità» > 2 modalità: foni sordi/foni sonori
• Variabili qualitative politomiche, per esempio, la variabile «colore dell’iride» > 7
modalità: rosso, arancio, giallo, verde, azzurro, indaco, violetto; la variabile «modo
delle consonanti» > 7 modalità: occlusive, fricative, affricate, nasali, vibranti,
laterali, approssimanti

• Variabili ordinabili > numero finito di modalità diverse sulle quali è stato
stabilito un criterio di ordinamento
• La variabile «titolo di studio» > 5 modalità: elementare, media, diploma, laurea,
post-laurea
• Variabili quantitative > possono avere sia un numero finito che un
numero potenzialmente infinito di valori diversi e possono essere
dotate di un’unità di misura
• La variabile «peso in kg» degli atleti di una società sportiva
Campionamenti linguistici > criteri di costruzione dei
corpora rappresentativi

• Lingua (langue) > popolazione infinita e irraggiungibile


• Censimento generale dei parlanti/scriventi vs continuum di una lingua
parlata/scritta inarrestabile nel tempo
• Necessità di campioni linguistici
• Campioni linguistici
• dell’intera lingua di una comunità > campione di langue
• della lingua di un singolo utente > campione di parole (idioletto)
1. Definire l’unità statistica in base alla popolazione

• parola?
• Eventi comunicativi > testi scritti e parlati (anche dialogici)

• Popolazione = insieme degli eventi comunicativi di una lingua


• Numerosità infinita
• Eccezione delle lingue estinte
• Imponderabilità
Impossibilità di un campionamento su base probabilistica < mancanza
di informazioni sulla popolazione
• Biber (1993): rappresentatività > alta variabilità linguistica

• Variabilità linguistica
• Criteri esterni > comunicazione che cambia a seconda della funzione o del
contesto
• Criteri interni > comportamento di tratti linguistici tra diversi eventi
comunicativi
• Criteri esterni di costruzione di un corpus determinabili a priori

Bilanciamento del campione > un corpus rappresentativo deve


contenere un ampio repertorio di tipi diversi di eventi comunicativi
2. Definire le categorie significative per la variabilità e stabilire una
soglia di materiale linguistico da raccogliere

• Campionamento bilanciato ≠ campionamento casuale stratificato


• Punto di vista di chi compila il campione
• «campionamento per quote» > sì stratificato, ma non probabilistico
• Critiche al criterio di rappresentatività:

• La scelta dei diversi eventi comunicativi da rappresentare è arbitraria (=


campionamento casuale stratificato)
• Quantità di dati decisa a priori < proporzionalità del corpus rispetto alla
popolazione di partenza

 Prospettiva demografica < parlanti quali sorgente di dati linguistici


• Popolazione campionabile in modo probabilistico
• Corpus come campione statistico
• Campionamento demografico proporzionale alla stratigrafia dei parlanti di
una data lingua
• Soluzione ideale?

• Prospettiva demografica?
• Bilanciamento dei diversi tipi di eventi comunicativi?

Punto di vista e scopo di chi raccoglie il corpus


Rappresentatività
Prospettiva demografica applicata alla città di Lecce
• https://demo.istat.it/popres/index.php?anno=2021&lingua=ita

• Popolazione residente al 1°
Gennaio 2021 per sesso - dati
provvisori
• Citta: Lecce
• Totale residenti: 93673
• Caratteristica saliente: genere
• Variabile qualitativa: 2
modalità: uomini/donne
• Popolazione residente al 1°
Gennaio 2021 per età e sesso
- dati provvisori
• Citta: Lecce
• Totale residenti: 93673
• Caratteristiche salienti:
genere, età
• Variabile qualitativa del
genere: 2 modalità:
uomini/donne
• Variabile quantitativa
dell’età espressa in gruppi di
4 anni (unità di misura)
Divisione dei residenti della città di Lecce in fasce d’età

Età Categoria

0-15 Giovanissimi
• ParlaTO (https://kiparla.it/parlato/)
• 16-29: giovani / 30-59: adulti / 60 e oltre: anziani
16-34 Giovani
• Cerrocchi (Educare “nella e alla età” senile, 2014: 32)
• 65-74: young-old / 75-84: old-old / 85-100: oldest- 35-64 Adulti
old /oltre 100: over-century
65-84 Anziani

85-99 Anzianissimi

100 e più Centenari


Percentuali a confronto: residenti città di Lecce per fasce d’età e
genere

Potrebbero piacerti anche