Il Campionamento Statistico

Statistica per le decisioni di impresa.
II LEZIONE 22 FEBBRAIO 2017: IL CAMPIONAMENTO STATISTICO
La prima informazione che vi devo dare che, in realt, sul sito web docente, vi invito ad iscrivervi al corso,
cos da poter avere accesso al materiale didattico. Ho anche gi inserito il planning delle lezioni, quindi voi
sapete esattamente le cose di cui parleremo. Grossomodo noi seguiremo i contenuti di questo libro, ripeto se
ci sono cose che faremo in pi, voi leggerete le cose in pi, per cui poi alla fine del corso, quelli che
sosterranno lesame da corsista, logicamente porteranno il programma svolto in aula, dove diremo alcune
cose in pi e alcune cose in meno rispetto al libro di testo; quelli che, invece, faranno lesame da non
corsista, le cose in pi che non ci sono sul libro non le possono portare, per porteranno i capitoli che
tratteremo del libro. Ok? Mi sembra un giusto compromesso. Il tema della lezione di oggi il
CAMPIONAMENTO STATISTICO, precisamente SCHEMI DI CAMPIONAMENTO STATISTICO. Cos,
che questa lezione vi servir soprattutto per richiamare alcuni concetti di INFERENZA STATISTICA,
diciamo che in questa lezione noi dobbiamo apprendere 3 cose: la prima cosa che dobbiamo apprendere,
allora tenete presente una cosa fondamentale, poich la lezione si svolge con gesso e cassino, quindi un po
pi lenta rispetto alle proiezioni power point, questo significa che noi dobbiamo aggiungere un po di
sostanza, cio quello che voi capirete a lezione lo dovete veramente capire a lezione, cio significa che voi
acquisirete un metodo per poi eventualmente approfondire anche altre cose che ci sono contenute nel libro.
Quindi, se voi vedete adesso il libro, come se stessimo a scuola, chiaramente c il primo capitolo molto
semplice che si pu leggere, poi un secondo capitolo che tratta dellindagine campionaria. Ora la lezione di
oggi, va a focalizzare lattenzione sugli schemi di campionamento, chiaro che ci sono tutte le fasi
dellindagine statistica, sono molte chiacchiere che si possono studiare in maniera autonoma, inutile che vi
st qui a dire per mezzora le fasi (bisogna definire gli obiettivi ecc.), tutte queste cose qua si possono
apprendere, voi siete tutti ragazzi intelligenti. Quindi, questo significa che lo sforzo va fatto: libro e appunti,
non che voi pensate di poter risolvere tutto semplicemente prendendo gli appunti. Ora, nella lezione di
oggi, abbiamo detto che ci sono 3 aspetti che dobbiamo considerare: la prima cosa, quando si fa unindagine
statistica, noi sappiamo che i dati statistici noi li possiamo acquisire da banche dati, da fonti statistiche
ufficiali, dagli istituti di ricerca, dalla Banca DItalia, Eurostat, diciamo che le fonti statistiche ufficiali, non
sono solo lIstat, non solo lEurostat a livello governativo, cio gli organi preposti alla raccolta delle
statistiche ufficiali, che ci dicono quanti ne siamo in Italia, quanta la forza lavoro, il numero degli occupati
e cos via, ma ci sono tutta una serie di altri organismi, che raccolgono dati in maniera sempre ufficiale, la
Banca DItalia, CNR, gli istituti di ricerca, ma anche per esempio gli uffici studi delle banche comunque
raccolgono dei dati, per esempio la camera di commercio raccoglie dei dati, per esempio c una banca dati
molto interessante per chi si occupa di economia aziendale, che la banca dati che si chiama AIDA, ed
inoltre questa banca dati stata acquistata dal dipartimento di economia aziendale, nel senso che loro hanno
labbonamento, spendono un sacco di soldi per avere questi dati e naturalmente possibile anche utilizzare
questi dati per fare delle applicazioni interessanti. Quando parliamo di banca dati AIDA, prendiamo in
considerazione per esempio tutte le aziende italiane e attraverso una serie di interrogazioni noi possiamo
accedere a delle informazioni che riguardano quelli che sono gli indicatori economico aziendali delle aziende
che sono presenti in questa banca dati. Quindi, chiaro che dalla collocazione dellazienda , da quelli che
sono gli indicatori di bilancio, passatemi questo termine, voi siete pi bravi di me a definirli nelle varie
categorie, cio io so solo le sigle, perch ogni tanto arrivano dei tesisti che fanno EBBDTA, ROA, indici di
indebitamento, della liquidit, ecc. chiaramente questi dati sono disponibili, quindi ognuno pu fare un
accesso a questa banca dati e attraverso delle interrogazioni intelligenti filtra le informazioni che sono l
riportate e va a raccogliere i dati che riguardano linteresse specifico di colui che vuole fare lanalisi. Cio, se
io per esempio, voglio guardare il comparto delle aziende degli istituti, delle cliniche private nella regione
Campania, faccio uninterrogazione alla banca dati, stabilisco come filtro la serie regione Campania, guardo
solo il comparto aziende sanitarie, posso fare anche un ulteriore filtro, filtro vuol dire che vado a selezionare
le informazioni, per cui poi, vado a selezionare, soltanto quelle che abbiano per esempio almeno 50 posti
letto e quindi le ho raccolte queste aziende, le ho confezionate in una matrice dati e poi vedremo, la prossima
lezione sar proprio incentrata sullorganizzazione dei dati, ma questo ci fa capire che noi possiamo accedere
ai dati statistici che sono residenti in diverse banche dati. Anche la stessa azienda raccoglie i dati in maniera
continuativa, se prendiamo in considerazione gli ordini, le fatture, cio la parte amministrativa, poi la parte
commerciale, la parte produttiva, cio lazienda pu, teoricamente, avere accesso a molte, diciamo, a diverse
basi di dati e a seconda dellinteresse specifico: se vogliamo guardare la produzione, se vogliamo guardare
gli aspetti commerciali, se vogliamo guardare gli aspetti amministrativi. Invece, in alcuni altri casi
necessario costruire dati statistici, praticamente andando a pescare, a rilevare e questo lo si fa attraverso
lesempio delle indagini statistiche, delle indagini campionarie. Badate bene che c una sottile, ma
importante differenza tra quello che viene etichettato come SONDAGGIO STATISTICO e quella che viene
etichettata come INDAGINE STATISTICA. Allora, diciamo che escludiamo tutta la casistica che riguarda il
mondo internet, cio tutte quei risultati che a volte vengono dati da statistiche che riguardano praticamente i
cosiddetti sondaggi via internet. Un esempio sono i vari mi piace che voi mettete, se noi andassimo a
confezionare percentuali di mi piace, oppure le valutazioni di trip advisor, oppure tutte queste rilevazioni
che vengono effettuate tramite internet non sono indagine campionarie, cio chiaro che anche il televoto,
anche i sondaggi via internet vanno ovviamente ad interessare una serie di persone che probabilmente
accedono a quel sondaggio solo perch vogliono, per esempio, protestare su una cosa, su un prodotto, su un
disservizio. Quindi, diciamo, che non c una base probabilistica che ci consente di parlare di indagine
statistica nel vero senso della parola. Quando noi parliamo di indagine statistica, immaginiamo che, quando
andiamo ad estrarre dalla popolazione, questa parola magica che in statistica I la si leggeva come collettivo
oggetto di studio. Pensiamo che dobbiamo fare una campagna marketing per lanciare un nuovo prodotto sul
mercato e vogliamo capire quelli che sono i desideri dei consumatori oppure se un nuovo servizio che
vogliamo offrire, chiaro che noi ci preoccupiamo di definire il collettivo oggetto di studio. Questultimo
formato dalle singole unit statistiche che dobbiamo identificare, che possono essere famiglie, singoli
consumatori, quindi unit statistica individuo o unit statistica famiglia, e vogliamo fare unindagine che
significa predisporre un questionario che va somministrato a un campione statistico, cio una parte del
collettivo e, normalmente, questo campione statistico che si chiama cos perch noi immaginiamo che questo
campione sia unimmagine fedele rappresentativa di tutta la popolazione. La prima differenza che bisogna
fare che ci sono alcuni casi in cui la popolazione finita, cio c un numero definito di unit statistiche
che ne fanno parte e in alcuni altri casi, la popolazione illimitata, infinita, cio nel senso che noi non
possiamo andare a definire un elenco di tutte le unit statistiche che ne fanno parte. Per esempio, se io
dovessi fare unindagine campionaria per capire la soddisfazione della mia clientela, immaginiamo
soddisfazione a seguito di una visita ad un museo, chiaro che io non posso definire la popolazione perch
non so quanti sono i possibili, teoricamente tutti siamo turisti, turisti o non turisti anche cittadini, che
possono accedere al museo e quindi poi alla fine della visita compilano un questionario e danno informazioni
sulla soddisfazione. Quindi l siamo di fronte ad un campionamento, cio ad una popolazione illimitata.
Quindi questo significa che la prima distinzione da fare quando siamo di fronte alla possibilit di avere una
base, diciamo virtuale perch poi noi non accediamo alle singole unit statistiche, quindi diciamo che se per
esempio lanciamo un prodotto sul mercato italiano, per esempio un nuovo smartphone, possiamo
immaginare che virtualmente possono acquistarlo tutti in Italia a partire da una certa et, anche se ormai
anche i bambini utilizzano il cellulare, e quindi chiaramente dovremo virtualmente immaginare in linea di
principio un elenco di persone che possono rispondere al nostro questionario. Naturalmente in questo caso
abbiamo la possibilit di definire questo fantomatico numero N, cio la numerosit della popolazione, quindi
stiamo parlando di un collettivo finito di ununit statistiche che ne fanno parte. Ora ogni processo statistico
e quindi per statistico qua evidenziamo proprio linferenza statistica, dobbiamo praticamente immaginare che
abbiamo questa popolazione oggetto di studio, noi estraiamo un campione statistico, di questo campione noi
possiamo desumere tutta una serie di informazioni. Facciamo un esempio, immaginiamo di considerare un
campione di persone che utilizzano il cellulare, quindi noi possiamo chiedere una serie di cose a queste
persone, let, lo studio, se svolgono un lavoro, luso del cellulare che fanno, se entrano nel mondo dei social
network, quanti sono gli amici virtuali che hanno; il problema inferenziale che si pone quando io faccio
lindagine statistica chiaramente che io cerco di scoprire qualcosa a partire dalla parte del collettivo, cio
dal mio campione statistico. Quando io dico campione statistico, immagino che lestrazione dovrebbe essere
fatta in modo tale che questo campione sia unimmagine fedele della popolazione, per poterlo fare devo
utilizzare una base probabilistica, cio devo poter controllare in qualche modo la probabilit che ciascun
individuo pu far parte del campione. Quando questa cosa non possibile controllarla, quando non
possibile definire la probabilit di far parte di un campione non siamo pi di fronte a un campionamento
statistico, ma siamo di fronte ad un ragionamento ragionato, ad un sondaggio, a un qualche altra cosa, ma
non di fronte ad unindagine campionaria su base statistica. Chiaramente, il passo successivo che nel
momento in cui noi ci fissiamo sul fatto che andiamo ad analizzare nel campione, tipo per esempio, quanto
sei disposto a spendere per il nuovo cellulare, immaginiamo che questo sia lobiettivo perch io devo definire
il prezzo di questo nuovo cellulare, allora chiaro che lobiettivo dellazienda quello di dire bh voglio
capire mediamente quanto sei disposto a spendere, lo faccio su base del campione, cio prendo il campione
calcolo questo numero, perch a ognuno ho fatto una domanda, tipo per esempio quanto sei disposto a
spendere almeno come base minima di spesa per il nuovo cellulare che abbia tutta una serie di funzioni,
faccio la somma di tutti questi numeri per quante sono le numerosit del campione e ottengo la media. Con
questa media cerco di fare linduzione statistica, linferenza e dico che quella media ottenuta con il mio
campione vale per tutta la popolazione, cio in pratica faccio uninferenza statistica e quindi devo anche
quantificare probabilmente non tanto stabilire un numero, ma devo stabilire un intervallo di possibili valori
di quanto possa essere la spesa e, naturalmente, anche questa mia inferenza necessariamente su base
probabilistica, certamente non so quanto realmente la popolazione intenderebbe spendere mediamente per
quel nuovo cellulare, ma posso definire un intervallo di valori che con una certa confidenza e dico qui
unaltra brutta parola che mi riporta nel passato (1-)%, parliamo del 95, 99% questi sono i livelli di
confidenza, cio io al 95%, al 99% sono in grado di poter dire che il vero valore sta in quellintervallo
definito, cio che quellintervallo copre il vero valore reale cio se intervistassi tutti uscirebbe un valore
medio che sta esattamente in quellintervallo. E questo vale per tanti indagini, anche per esempio per quelle
sul voto elettorale, i famosi intervalli, chiaramente anche l dobbiamo stare attenti, perch una cosa il
sondaggio e una cosa lindagine statistica, quindi molto spesso tutte le stupidaggini che dicono prima del
voto vengono smentite poi dal voto, perch probabilmente quello che hanno fatto un sondaggio, non
unindagine. Ora chiaramente, lobiettivo della lezione di oggi far capire che nel corso di statistica I voi
avevate imparato che il processo inferenziale avveniva attraverso un campionamento casuale semplice, al pi
facevate la differenza tra con ripetizione e senza ripetizione. Quindi il primo obiettivo della lezione di oggi
di andare a richiamare alcuni concetti fondamentali dellinferenza, diciamo formalizzando questi aspetti,
cercando di quantificare cosa significa ln ottimale del campionamento casuale semplice, con ripetizione o
senza ripetizione. Io in qualche modo per assicurare questa confidenza posso definire la N, numerosit
campionaria, cio quante unit devo andare a estrarre dalla mia popolazione affinch con un certo livello di
confidenza questo mio intervallo di stima comprende il parametro incognito. Quindi campionamento casuale
semplice con ripetizione e senza ripetizione. Nella pratica non conviene usare questo tipo di campionamento,
cio se voi per esempio avete mai seguito un programma in televisione dove ad un certo punto danno dei
risultati dellindagine statistica e velocemente passano una serie di informazioni, errore campionario,
stratificazione, cio come stato selezionato il campione. Ci sono altri schemi di campionamento sempre
statistici, cio dove possibile stabilire la probabilit di far parte del campione, ma che non fanno diciamo il
campionamento soltanto a caso, ma io faccio unoperazione pi intelligente. Allora, uno degli schemi di
campionamento di gran lunga il pi diffuso il CAMPIONAMENTO STRATIFICATO. Quindi quando voi
dovrete fare delle tesi di laurea dite ai vostri professori relatori in ambito aziendale che fanno marketing,
fanno economia aziendale e fanno a volte delle indagini statistiche, che voi siete competenti perch sapete
anche pensare a come debba essere selezionato il campione. Quindi diciamo che se noi vogliamo richiamare
gli elementi di inferenza, il secondo passaggio fondamentale capire che cos il CAMPIONAMENTO
STRATIFICATO e come avviene. Ci sono anche altri schemi di campionamento che il vostro libro riporta,
vi faccio subito degli esempi, campionamento a due stadi, campionamento a grappolo, un esempio efficace
del campionamento a grappolo qualcosa che si applica quando uno vuole ottimizzare gli aspetti logistici
delle interviste, perch stiamo dando per scontato che spesso e volentieri venissero fatte di persona oppure
anche su base telefonica, allora con questo campionamento stiamo immaginando che invece di andare a
selezionare, cio per ottimizzare gli aspetti logistici, io devo fare unindagine di questi singoli individui
appartenenti a una famiglia, a uno stabile, a un quartiere, pensate alla gerarchia che potete fare, il singolo
individuo lo potete vedere come unentit che fa parte di una famiglia, come una famiglia che fa parte di un
palazzo, un condominio che fa parte di un quartiere, un quartiere della municipalit, citt, provincia, regione
e cos via. Allora io vorrei immaginare di prendere in considerazione uno stabile di un condominio e
intervistarli tutti, senza che vado a pescarli uno l, uno in unaltra parte, ecc., questo dal punto di vista
quando fai interviste personali. Quindi primo aspetto linferenza, secondo aspetto stratificazione, terzo
aspetto della lezione di oggi un aspetto molto importante, cio quello che riguarda che cosa devo valutare
per scegliere quale schema di campionamento debbo adottare? Qual il mio obiettivo finale della mia
indagine statistica? E allora su questo punto dobbiamo metterci subito daccordo, cio noi immaginiamo che
fissiamo la numerosit campionaria N, cio come se io dicessi prendo in considerazione che da un punto di
vista del budget, cio se io devo fare questa indagine statistica, il mio ufficio marketing mi ha messo a
disposizione un certo budget, cosa che normalmente succede. Ora io quello che cerco di fare attraverso
questo processo di selezione, devo praticamente dire con questo budget a disposizione posso fare tot.
interviste, quindi N come se ce lavessi dato, come se fosse un dato del problema. Quello che voglio fare io
adesso che con questa N unit statistiche che debbo estrarre dalla mia popolazione voglio che io possa
raggiungere la migliore affidabilit possibile nel mio processo inferenziale. Chiaramente laffidabilit
significa o intervalli di stima pi ristretti o termini tecnici e qui si mette in gioco la variabilit delle mie
stime. Questo significa che i richiami di inferenza, schema di campionamento stratificato, poi questa
variabilit delle stime, cio laffidabilit della mia procedura inferenziale, come se io ti dicessi se dovessi per
esempio selezionare massimo 300 unit statistiche, cio posso fare solo 300 interviste, fai in modo che le
interviste che io vado a fare siano fatte seguendo lo schema di campionamento che mi rende quanto pi
diciamo migliore possibile il mio processo inferenziale. Potrebbe essere in termini di livello di confidenza,
potrebbe essere in termini di errori di stima, potrebbe essere in termini di variabilit. E allora qui alla fine
siamo ritornati al primo punto, vedete come questi 3 punti sono tutti e 3 collegati: richiami di inferenza, di
campionamento stratificato e processo inferenziale migliore possibile. Allora sui richiami di inferenza io vi
invito a riflettere fondamentalmente su 2 concetti: 1) cos uno stimatore? Quali sono le propriet? Su
questo, mi piace il vostro libro perch tocca una serie di aspetti molto pratici, anche se qualche correzione va
fatta tipo quando definisce la stima un procedimento. Allora il primo punto RICHIAMI DI
INFERENZA. Che dobbiamo dire dellinferenza statistica?? Qui stiamo entrando in gioco con un capitolo
fondamentale dellinferenza statistica che riassume un parametro, cio lobiettivo dellindagine statistica
che voglio stimare qualcosa. Facciamo subito due esempi classici, in modo da non fare definizioni troppo
teoriche. Allora, prima cosa immaginiamo che io voglia sicuramente sapere dalla mia indagine statistica se
uno comprerebbe o meno il cellulare e un secondo problema quello di dire quanto sono disposto a
spendere, questi sono due aspetti di ricerca di mercato classici: la propensione allacquisto, la propensione
allutilizzo di un servizio, al consumo, alla soddisfazione e cos via. Da un punto di vista del problema reale,
questo problema lo vado a trasformare in problema statistico dicendo che il parametro oggetto di studio, cio
di questa popolazione che immagino formata di individui che o acquistano o non acquistano il prodotto, o
sono soddisfatti o non lo sono, o accedono o non accedono al servizio. Quindi da un punto di vista
inferenziale, noi questo problema come lo dovremmo etichettare dal punto di vista teorico? Per esempio, la
popolazione potrebbe essere descritta dalla variabile casuale bernoulliana, che caratterizzata da un
parametro probabilit che lindividuo, si parla di probabilit di successo, vi ricordate che la bernoulliana
una variabile che assume valori 0 e 1 con probabilit 1- e , questa la probabilit che X sia uguale a x
piccolo e la somma di queste probabilit fa 1. Ogniqualvolta si istaura unalternativa dicotomica allinterno
di un esperimento casuale si utilizza la variabile casuale Bernoulliana. Linsieme ambiente costituito da
soli due eventi X e x tra loro complementari; allevento X(evento successo), che si realizza con probabilit ,
assegnato il valore 1, mentre allevento x(evento insuccesso), che si realizza con probabilit (1 ),
assegnato il valore 0. In sintesi:
POP . . ~ (1, )
X P(X=x)
INSUCCESSO 0 1-
SUCCESSO 1
var(x)=(1-)
Della variabile bernoulliana ci dobbiamo ricordare che una variabile discreta, che assume solo due valori 0
e 1, in corrispondenza degli eventi si dice insuccesso e successo, a volte si dice presenza o assenza di un
attributo. Immaginiamo chela probabilit che x sia 0 e 1, sia pari a 1- per linsuccesso, per il successo e
la somma di queste due probabilit fa 1. La variabile casuale bernoulliana ha anche una distribuzione di
probabilit che possiamo scrivere in forma compatta, cos:
( = ) = (1 )
dove X=0,1
Cio sto dicendo che se X=0 e parliamo dellinsuccesso, quindi p elevato a 0 1 che moltiplica (1-p), se x =1
p elevato a 1 p che moltiplica 1, quindi avremo p. Caratteristica di questa variabile casuale che il valore
atteso proprio pari a p
E(x)=
e che la varianza di questa variabile casuale pari a p che moltiplica (1-)
var(x)=(1-)
Chiaramente voglio dire che una digressione, cio stiamo dicendo che la popolazione descritta da un
modello di probabilit, per esempio la bernoulliana, nel caso ovviamente di esempi dove levento successo
un evento cosiddetto raro, potremo utilizzare il modello della Poisson, per nella gran parte dei casi quando
dobbiamo stimare la probabilit di acquisto ecc. ragionando in termini di proporzione, cio ci affidiamo ad
un campione di cui andiamo ad appuntare quanti sono quelli che comprerebbero il prodotto e quindi andiamo
a utilizzare la proporzione campionaria come possibile stima di questa probabilit di successo. Quindi la
popolazione viene descritta da un modello di probabilit, quello che noi facciamo con la stima quello di
andare ad estrarre dalla popolazione un campione casuale. Dallesame di statistica I sappiamo che il
CAMPIONE CASUALE Cn una ennupla di variabili casuali che sono tutte immagine e somiglianza
della popolazione.
=( ), iid
Quindi in statistica I immaginavamo che questo variabili casuali fossero delle variabili indipendenti e
identicamente distribuite tutte come la variabile definita nella popolazione. Nella teoria della probabilit, una
sequenza di variabili casuali detta indipendente e identicamente distribuita (iid), se: le variabili hanno tutte
la stessa distribuzione di probabilit; le variabili sono tutte statisticamente indipendenti. Nel campionamento
casuale, estraggo lindividuo dalla popolazione e gli chiedo tu acquisti o non acquisti il cellulare? Quindi
la prima estrazione significa che una variabile casuale perch non so la risposta, perch non so il primo
individuo cosa risponder, cos il secondo, cos fino ad n unit statistiche. Lesempio che facevamo a
statistica I quello di dire se io dovessi ad esempio stimare quanti sono quelli che sono di sesso maschile in
questa aula, per aver in maniera certa questa informazione dovrei contare tutte le persone, conto quanti sono i
maschi e dico che il numero dei maschi rispetto al numero totale la popolazione di maschi nel collettivo. Se
lo faccio in base inferenziale, estraggo un campione di 10 persone, quindi pensate che queste variabili casuali
che compongono il campione, cio sono delle variabili casuali perch come se fossero praticamente dei
buchi da coprire, insomma sono 10 posizioni, 10 numeri o 0 o 1, se prendo il campione, per esempio prendo i
primi 10 che stanno nella prima fila, la prima estrazione maschio, maschio, maschio, femmina, femmina e
cos via; per se prendessi un altro campione otterrei unaltra ennupla di 0 e di 1. Questo ci fa capire che
ogni variabile casuale che compone il campione praticamente immagine e somiglianza della popolazione,
cio come se la slot machine bernoulliana mi sputasse fuori risultati di 1 e 0 per 10 numeri. Quello che
dicevamo a statistica I, c un prima e c un dopo, cio prima di estrarre dal campione questa ennupla di
variabili casuali, dopo che io ho estratto il campione ho praticamente unennupla di numeri, cio ho una
sequenza di 0 e 1. Per poter stimare il parametro incognito noi ci servivamo del concetto di STIMATORE.
Stimatore una variabile casuale sintesi delle variabili casuali che compongono il campione e nel caso della
stima della probabilit di successo lo stimatore era quella che si chiamava PROPORZIONE
CAMPIONARIA. Cio io che cosa vado a fare?? La somma per i che va da 1 a n di queste variabili casuali
che compongono il campione che possono assumere valori tra 1 e 0, diviso n mi da come informazione la
proporzione campionaria, che lo stimatore della probabilit di successo.
1
. . =
Chiaramente c anche qui un prima e un dopo. Prima parlo di variabile casuale , nel momento in cui dopo
estratto il campione ho unennupla di numeri, per esempio ho 11111 poi tutti 0, andr ad attribuire un
particolare numero, ci significher fare la somma degli 1 e dei 0 divisi n , mi dice la proporzione che ho nel
mio campione di maschi o di quello di acquisto del prodotto e questa rappresenter la STIMA del
parametro incognito. A cosa dobbiamo stare attenti adesso?? che naturalmente noi abbiamo imparato una
serie di propriet degli stimatori, questo lo stimatore migliore perch per problemi che abbiamo detto,
uno stimatore che viene etichettato come stimatore blue, cio best linear unbiased estimator, cio uno
stimatore che non distorto, efficiente, che ha la varianza pi piccola possibile, lineare perch fa la somma
delle variabili casuali. Propriet di questo stimatore che il valore atteso proprio uguale al parametro che
devo stimare,
( )=
quindi stimatore non distorto, e nello scema di campionamento casuale semplice questo stimatore ha come
varianza, la varianza pi piccola possibile, che uguale a P per (1-) diviso n
(1 )
( )=
Tenete presente che questa la varianza nel caso in cui noi facciamo un campionamento casuale semplice
con ripetizione, cio con ripetizione significa che un individuo potrebbe far parte teoricamente anche n volte
del campione stesso. Nel caso in cui dovessimo adottare uno schema di campionamento senza ripetizione,
per popolazioni finite, questa varianza andava corretta per questo fattore che equivale al rapporto tra la
differenza tra la numerosit della popolazione e la numerosit campionaria, quindi N-n, diviso N-1, questo fa
si che a parit di tutto diciamo che nello schema di estrazione senza ripetizione, la varianza delle stime pi
piccola.
(1 )
( )=
1
Allora, adesso nel capitolo della stima dei parametri cos che a noi serve sapere?? Se noi dovessimo definire
lintervallo di stima a partire da un solo campione, cio quello che si diceva nellinferenza allesame di
statistica I, io facevo questo esempio in cui dicevo immaginiamo di avere qui sul tavolo tutti i possibili
campioni che io posso estrarre dalla popolazione, in questo caso immaginiamo di selezionare 10 unit da un
collettivo di 100, immaginiamo di avere qui a disposizione tutte le cartelline, ogni cartellina contiene un
campione. Immaginiamo di mettere fuori da ogni cartellina unetichetta in cui scriviamo la proporzione di
maschi nel campione estratto, immaginiamo di mettere in ordine le cartelline dal campione, dove per
esempio abbiamo 0 maschi fino al campione in cui abbiamo tutti maschi, quindi da 0 proporzioni fino a 1 ci
sono tutti una serie di campioni messi in ordine, quindi io ho fuori dalle cartelline tutte le proporzioni
campionarie. Il processo inferenziale che noi facciamo, chiaramente noi non abbiamo tutti questi possibili
campioni, magari come se avessimo tutta la popolazione, ma noi peschiamo un solo campione, ora esiste
un valore unico attribuibile al parametro p, cio il parametro p un parametro che si chiama parametro
perch chiaramente se io contassi tutte le persone maschi in questa aula diviso il totale, questo numero
certo, cio un dato unico, quindi immaginiamo che per esempio tutte queste cartelline con vari valori ci sia
la linea sottile, dove esiste il parametro incognito, cio . Facciamo un esempio pratico: i maschi sono il 40%
del collettivo, quindi questa linea sottile tarata su 0,4. Allora se io sono sfortunato pesco un campione
molto sotto o molto sopra a questa linea sottile, se proprio ho fortuna e pesco l80% di maschi quanto
sbaglio? 0,80-0,40. Questo si chiama ERRORE DI STIMA. Quando parlavamo delle propriet degli
stimatori calcolavamo lERRORE QUADRATICO MEDIO, in questo caso lo stimatore corretto, quindi
lerrore quadratico medio proprio la varianza. Allora che cosa imparavamo noi dalla statistica I?? Che
prima di tutto questa varianza delle stime significa la fortuna, cio misurare quanto sei sfortunato, perch se
per esempio il corso fosse ad ingegneria, dove l80% sono maschi, voi che cosa vi aspettate da questa
situazione?? Vi aspettate una situazione in cui diciamo che tutti i valori della proporzione campionaria sono
tutti valori pi o meno vicini al valore reale perch la popolazione era tutta sbilanciata sul valore di 0,80, ma
se ho proprio sfortuna quando devo andare a fare un processo inferenziale in cui nella popolazione 0,5,
perch guardate un po questespressione qui della varianza, cio la varianza di queste stime pesco sopra o
pesco sotto, dipende chiaramente da N, maggiore la numerosit campionaria, cio se invece di 10,
avessimo confezionato pile di cartellina di campioni di numerosit 20, 30, cio lelettrocardiogramma
diventa piatto; la variabilit delle stime di fronte alla linea sottile tende sempre di pi a ridursi al limite, on
questo caso si dice che lo stimatore coerente, cio quello in cui questa varianza tende a 0. Noi abbiamo
detto che N fisso, cio stiamo immaginando un processo di estrazione di un campione dove ho fissato il
budget, quindi lunica cosa che io voglio cercare di limitare i danni. Con quel budget io che cosa voglio
fare?? Voglio far si che lerrore di stima sia contenuto. Quindi, guardiamo la formula, prescindendo dal
fattore di correzione del campionamento senza ripetizione, che sicuramente abbassa la varianza e quindi va
sempre meglio, cio tra campionamento semplice con ripetizione o senza ripetizione, se la popolazione
finita meglio non ripetere, inutile interrogare due volte la stessa persona. In un processo inferenziale in
cui debbo stimare nella popolazione una situazione in cui mi aspetto nella popolazione massima incertezza,
perch questo rapporto massimo quando uguale a . Da un punto di vista matematico, significa che
questa varianza massima quando 0,5; il processo inferenziale pi difficile, a maggior ragione,
perci, importante ottimizzare gli schemi di campionamento. Da un punto di vista pratico, io piuttosto che
stimare in maniera puntuale il parametro, costruisco il cosiddetto INTERVALLO DI STIMA O DI
CONFIDENZA. Questo, si costruisce semplicemente andando ad aggiungere e sottrarre a questa mia stima
un , noi facevamo delle approssimazioni molto importanti, dicevamo prendiamo un campione almeno di 30
unit, perch per costruire lintervallo di confidenza sul problema della probabilit di successo, ragionavamo
che un modello binomiale per la somma di bernoulliane per il teorema di Laplace si approssima a una
distribuzione normale che tende allinfinito. Nel nostro caso specifico, quando prendiamo solo 10 unit, non
possiamo utilizzare Laplace, allora viene in soccorso la famosa diseguaglianza di Cebysev. Qual
lintervallo di stima della probabilit di successo??
(1 )

Questo intervallo di stima che con (1-)% di livello di confidenza comprende il parametro incognito.
Chiaramente non scriviamo la probabilit che sia compreso tra due numeri uguali a un numero , perch
una scemit, cio si parla di intervallo di confidenza e non intervallo di probabilit perch si fa questo
ragionamento molto pragmatico, cio c la linea sottile, prendo un campione, c una proporzione del
campione, io aggiungo e sottraggo questa quantit, ora questo intervallo tanto pu comprendere il parametro
reale, tanto potrebbe non comprenderlo. Quindi come se io spostassi lattenzione non prendendo in
considerazione chi ho estratto, ma il mio problema inferenziale come se io immaginassi la situazione in cui
c questa famosa linea sottile, se prendo il campione per cui costruito lintervallo questo comprende p
questo un campione buono. Quindi questo (1-)%, ci dice qual la percentuale di campioni buoni, cio
quelli che costruito lintervallo cos come lo costruiamo comprender il parametro incognito. La cosa
importante di questi intervalli di confidenza che, vedete questa quantit ecc.la chiamiamo , ed una
quantit fissa per ogni intervallo, hanno tutti la stessa ampiezza, cio come se io dicessi aggiungo e
sottraggo una quantit a questo mio p campionario. Noi lintervallo di confidenza lo possiamo leggere in due
modi diversi, cio possiamo dire c la linea sottile p, aggiungo e sottraggo , e poi vado a vedere quanti
campioni hanno la proporzione campionaria che centrano questo intervallo, ed sempre (1-)%. Io una
volta usavo una metafora, secondo me molto efficace per capire questo problema. Il problema della stima di
un parametro come colpire un bersaglio, per esempio il pap che va al luna park con il figlio e dice ti
colpisco quel bel pupazzone che sta sulla terza mensola se lo colpisco tuo, mentre il bambino dice no io
voglio la macchinina piccolina che sta l. Chiaramente se prendo un pupazzo grande cos, la probabilit di
colpire il bersaglio pi facile, pi grande e pi ci saranno campioni che avranno la porzione
campionaria che cade in questo intervallo fisso. Per colpire il bersaglio quali sono gli elementi che noi
mettiamo in gioco?? Chiaramente la distanza dal bersaglio, e questa distanza n, quindi gli elementi chiave
quali sono?? La numerosit campionaria n, nel caso specifico la distanza dal bersaglio, ora questo noi
labbiamo dato per scontato perch fisso; cio quanto grande il bersaglio, la variabilit del fenomeno
che nel caso della probabilit di successo mette in gioco questa quantit, cio la quantit del fenomeno
sarebbe la varianza in questo caso della bernoulliana, cio il discorso quello di prima , se la popolazione
caratterizzata al 50% da maschi chiaramente pi difficile indovinare piuttosto quando dell80%, quindi la
variabilit qualcosa che noi non possiamo controllare, qualcosa che ci viene dato, cio difficilmente
possiamo agire sul , poi il quarto elemento il famoso livello di confidenza (1-)%, cio con quale
probabilit, con quale confidenza noi vogliamo colpire il bersaglio. Sapete il fallimento dellinferenza
statistica dello scorso secolo, qual stato?? il fatto che oggi paradossalmente, questo n non scarso, una
situazione in cui costa prendere informazioni, per l dove n un numero esageratamene alto, noi qui non
staremmo a dire proprio pi niente. In tutti i test statistici che voi facevate allesame di statistica , quelln
compariva al denominatore del denominatore, cio al numeratore, cio diventava tutto significativo, quindi
significa che i modelli statistici noi non li andiamo a prendere pi in considerazione se n cos grande. Qui
invece stiamo facendo il discorso che noi non possiamo accedere a tutte le informazioni. Allora se abbiamo
detto che n fisso, ci dato dal fenomeno che stiamo analizzando, le uniche cose sulle quali possiamo
agire sono , cio quanto grande lerrore e quanto il livello di confidenza (1-)%. Maggiore lerrore pi
alta a confidenza di colpire il bersaglio.
NB: la prof. a fine lezione, ha detto che per questi richiami alla statistica I possiamo fare riferimento anche
alla dispensa, usata negli anni passati, presente sulla sua home page.

Il Campionamento Statistico

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Il Campionamento Statistico

Caricato da

Copyright:

Formati disponibili

Statistica per le decisioni di impresa.

II LEZIONE 22 FEBBRAIO 2017: IL CAMPIONAMENTO STATISTICO

e che la varianza di questa variabile casuale pari a p che moltiplica (1-)

Potrebbero piacerti anche