Sei sulla pagina 1di 15

Il campionamento stratificato

Statistica Aziendale

Flavio Santi <flavio.santi@univr.it>

Lezione 3 – 10 ottobre 2022

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 1 / 15


Prima di cominciare. . .

Nozioni propedeutiche
La trattazione degli argomenti in questa lezione richiede che siano noti i
seguenti argomenti:
nozione di stimatore e di stima puntuale
varianza di uno stimatore

Riferimenti ai contenuti del programma d’esame


Completano la preparazione degli argomenti trattati in questa lezione le sezz.
2.6-2.7, eccetto la sez. 2.6.3 del testo di riferimento (Biggeri et al. 2012).

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 2 / 15


Stratificazione e strati

Nel campionamento stratificato sulla popolazione U viene definita una


partizione, ossia un’insieme U di sottoinsiemi U :

U = {U1 , U2 , . . . , UH }

(quindi Ui ⊂ U , per ogni i ∈ {1, 2, . . . , H}) tali per cui:


Ui ∩ Uj = ∅, per qualsiasi i, j ∈ {1, 2, . . . , H}
SH
i=1 Ui = U

La partizione U è detta stratificazione e ciascun sottoinsieme Ui che la


compone è detto strato.

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 3 / 15


Campionamento stratificato

Una volta che è stata definita la stratificazione, si definisce il disegno


campionario stratificato, il quale prevede che:
si definisca un disegno campionario per ciascuno strato
i disegni campionari di ciascuno strato siano mutuamente indipendenti

Da questa impostazione derivano due conseguenze rilevanti sotto il profilo


operativo:
su ciascuno strato viene svolto un campionamento in modo
indipendente da quanto accade negli altri strati, come se si trattasse di
popolazioni distinte
nulla esclude che il tipo di disegno campionario applicato (SRSWR,
SRSWOR, campionamento bernoulliano, . . . ) sia differente da strato a
strato

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 4 / 15


Implementazione

Dalle definizioni date consegue che, nel progettare un’indagine campionaria


stratificata è necessario definire:
la stratificazione
i tipi di disegno campionario da applicare su ogni strato
le caratteristiche specifiche dei disegni su ogni strato tra cui, in primis,
le numerosità campionarie associate ad ogni strato

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 5 / 15


Stratificazione (1)

La stratificazione viene solitamente definita sulla base di una o più


caratteristiche della popolazione oggetto di studio:
nel caso in cui le unità statistiche siano delle persone fisiche, le variabili
di stratificazione che spesso vengono utilizzate sono il genere, l’età, la
provenienza geografica, il livello d’istruzione, il reddito
nel caso in cui le unità statistiche siano delle aziende, le variabili di
stratificazione che spesso vengono utilizzate sono il settore di attività
economica, il numero di dipendenti, il fatturato, la forma giuridica
Affinché la stratificazione sia in grado di dare dei benefici in termini di
efficienza del processo di stima, è importante che i criteri di
stratificazione siano associati alla variabile d’interesse. Non avrebbe
senso, per esempio, stratificare una popolazione di persone in base al
carattere finale (codice di controllo) del codice fiscale qualora l’obiettivo
dell’indagine fosse quello di avere informazioni sulle abitudini di consumo.

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 6 / 15


Stratificazione (2)

Generalmente, migliore è l’associazione tra le variabili di stratificazione e


la/le variabile/i oggetto d’interesse, tanto maggiori saranno i benefici in
termini di efficienza statistica ottenuti dal campionamento stratificato.
A questo proposito va però evidenziato un aspetto operativo importante.
Aumentando il numero di strati è spesso possibile ottenere dei benefici in
termini di efficienza delle stime, tuttavia questa esigenza deve confrontarsi
con altre che invece porterebbero a limitare il numero di strati:
dal punto di vista statistico, se gli strati diventano molto numerosi la
loro dimensione media diminuisce e questo potrebbe portare a casi in
cui da uno strato vengono campionate pochissime (magari una sola)
unità. Questo porta ad alcune complicazioni tecniche e tende ad
esacerbare le conseguenze di problemi come le mancate risposte
dal punto di vista economico, la gestione di un’indagine con un elevato
numero di strati può rivelarsi molto costosa

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 7 / 15


Tipi di disegno campionario

La scelta del disegno campionario è di natura prettametne tecnica ed è il


risultato di un bilanciamento tra esigenze relative a:
efficienza statistica del processo di stima
trattabilità matematica e computazionale del processo di stima
semplicità di implementazione e gestione operativa e quindi anche (ma
non solo) economicità
Quest’ultimo punto fa spesso propendere per l’applicazione su tutti gli strati
del medesimo tipo di disegno campionario.

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 8 / 15


Numerosità campionaria e criteri di allocazione (1)

La numerosità campionaria è fissata bilanciando le esigenze di natura


statistica (secondo le quali a campioni più ampi corrispondono solitamente
stime più precise ed accurate) con i vincoli di carattere economico (che
invece portano a preferire campioni di dimensione più contenuta al fine di
ridurre i costi dell’indagine).
L’allocazione del campione negli strati è il risultato del processo con il
quale si ripartisce la numerosità campionaria n tra i vari strati h della
popolazione e si determina quindi il numero di unità statistiche nh che
devono essere campionate da ogni strato della popolazione.
I criteri di allocazione del campione sono numerosi (v. Särndal, Swensson, e
Wretman 1992, p. 104 e ss. per una rassegna) e rispondono ad obiettivi ed
esigenze differenti.

Di seguito se ne elencano alcuni a titolo di esempio.

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 9 / 15


Allocazione proporzionale
Questo tipo di allocazione prevede che per ogni strato h la quota di unità
incluse nel campione (nh /n) sia proporzionale alla dimensione dello strato
(Nh ) in rapporto alla dimensione della popolazione (N ), ossia:
nh Nh
=
n N
ne consegue che per ogni strato le unità che dovranno essere campionate
sono:
Nh
nh = ·n
N
Applicando questo criterio di allocazione, si ottiene un campione che nella
propria composizione rispetto ai criteri di stratificazione riflette la
composizione dell’intera popolazione.
L’allocazione proporzionale ha l’indubbio vantaggio di essere facilmente
applicabile, tuttavia non è detto che dal punto di vista statistico o
economico sia l’allocazione ottimale.
Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 10 / 15
Allocazione di Neyman (1)

Proposta da (Neyman 1934), questa allocazione è quella che, sotto


l’ipotesi che venga applicato il campionamento casuale semplice
senza reimmissione (SRSWOR) su ogni strato, minimizza la varianza
dello stimatore di Horvitz e Thompson (Horvitz e Thompson 1952).
L’allocazione di Neyman prevede che le numerosità nh vengano fissate
secondo questa regola:

Nh Sy,Uh
nh = PH ·n
j=1 Nj Sy,Uj

dove Sy,Uh è la deviazione standard della variabile d’interesse y nello strato


Uh .

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 11 / 15


Allocazione di Neyman (2)

Il vantaggio dell’allocazione di Neyman è che è ottimale dal punto di vista


dell’efficienza statistica (l’errore quadratico medio, che coincide con la
varianza, dal momento che lo stimatore di Horvitz e Thompson è corretto, è
minimizzato).
I principali svantaggi sono tre:
l’applicabilità è limitata al caso in cui si applichi SRSWOR su tutti gli
strati
non è detto che sia un’allocazione ottimale anche dal punto di vista
economico
per essere applicata richiede di conoscere le deviazioni standard della
variabile d’interesse per ogni strato della popolazione (Sy,Uh )

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 12 / 15


Allocazione ottimale (1)
Nei casi in cui la varianza dello stimatore che si intende utilizzare può essere
formulata in questo modo:
H
X Ah
V =B+
h=1
nh

con A1 , A2 , . . . , AH e B coefficienti indipendenti da nh , e la funzione di


costo dell’indagine campionaria sia esprimibile come:
H
X
C = c0 + ch nh
h=1

dove c0 è il costo fisso dell’indagine e ch è il costo medio relativo ad una


singola rilevazione nello strato h, allora l’allocazione ottimale del campione
si ottiene se è rispettata la seguente relazione di proporzionalità:
s
Ah
nh ∝
ch
Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 13 / 15
Allocazione ottimale (2)
Più precisamente, se l’obiettivo è quello di minimizzare la varianza dello
stimatore sotto un vincolo di costo C, allora l’allocazione ottimale è
data da:
C − c0 q
nh = P H p · Ah /ch
j=1 Aj cj
mentre, se l’obiettivo è quello di minimizzare i costi sotto un vincolo
sulla varianza dello stimatore V , allora l’allocazione ottimale sarà:
PH p
j=1 Aj cj q
nh = · Ah /ch
(V − B)

Come per l’allocazione di Neyman, anche questo criterio di allocazione ha lo


svantaggio di richiedere che siano note delle informazioni sulla popolazione
oggetto d’indagine come, ad esempio, la deviazione standard della variabile
d’interesse all’interno di ciascuno strato.

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 14 / 15


Riferimenti bibliografici

Biggeri, L., M. Bini, A. Coli, L. Grassini, e M. Maltagliati. 2012. Statistica


per le decisioni aziendali. Pearson.
Horvitz, D. G., e D. J. Thompson. 1952. «A generalization of sampling
without replacement from a finite universe». Journal of the American
statistical Association 47 (260): 663–85.
Neyman, J. 1934. «On the two different aspects of the representative
method: The method of stratified sampling and the method of purposive
selection». Journal of the Royal Statistical Society 97: 558–625.
Särndal, C.-E., B. Swensson, e J. Wretman. 1992. Model Assisted Survey
Sampling. Springer-Verlag, New York (NY, USA).

Flavio Santi <flavio.santi@univr.it> Il campionamento stratificato Lezione 3 – 10 ottobre 2022 15 / 15

Potrebbero piacerti anche