Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
• LE RICERCHE DI MERCATO →
- FASI DI UNA RICERCA DI MERCATO
- DEFINIZIONE (DI AMERICAN MKTING ASS.) ED ESEMPI DI RICERCHE DI MERCATO A
- STORIA DELLE RICERCHE DI MERCATO E LIMITI DELLE RICERCHE DI MERCATO
• DEFINIZIONI
- UNITA’ STATISTICA
- VARIABILE STATISTICA; MODALITA’; VARIABILI QUANTITATIVE E QUALITATIVE
(NOMINALI E ORD.)
• FONTI PRIMARIE (DIRETTE)
- RILEVAZIONI
- RICERCA SPERIMENTALE
• FONTI SECONDARIE (INDIRETTE)
- INTERNE
- ESTERNE
COMMERCIALI: banche dati , dati d’agenzia – Sondaggi e sondaggi omnibus, Panel ), previsioni
e proiezioni
UFFICIALI (SISTAN, CENSIS, UNIONCAMERE, CONFINDUSTRIA, BANCA D’ITALIA E
MEDIOBANCA)
STATISTICA AZIENDALE
Le abbreviazioni utilizzate nel testo indicano:
vc= variabile casuale; ic (IC)= intervallo di confidenza; vqt= variabile quantitativa; pac = parità di altre condizioni; vo= variabile obiettivo; TCL= Teorema Centrale del
Limite; CST = campionamento stratificato; CG (o CGRA) = campionamento a grappoli; CPS (o CSTA) = campionamento a più stadi; cov = covarianza; v.a.=
variabile/i aleatoria/e; v.e= variabile esplicativa; gdl= gradi di libertà
Parleremo di:
• LE FONTI INFORMATIVE: si dividono in primarie (dirette), che a loro volta possono concretizzarsi in
rilevazioni e ricerca sperimentale e secondarie, ovvero dati che già esistono (esempio di analytics). Luoghi virtuali
dove possiamo scovare dati e informazione. Un tempo si parlava di pubblicazione statistica, veri e propri tomi
fisici. Esempio dell’annuario statistico. Ora si possono trovare delle pubblicazioni digitali per aiutare le nostre
ricerche di mercato. Le aziende oggi sono affamate di dati. Tra le fonti secondarie dobbiamo stare attenti, perché
la qualità è variabile. Bisogna distinguere tra fonti ufficiali, e non. Istat ed Eurostat producono dati di elevata
qualità e utilità perché seguono vari protocolli. I dati di agenzia invece sono dati raccolti da altre società allo scopo
delle ricerche di mercato, sono più specifici dei dati raccolti dalle fonti ufficiali ma spesso di qualità inferiore e più
variabili. INDAGINI CONTINUATIVE → Danno luogo a dati denominati panel. Se vengono fatte in maniera
ottimale possono consentire di studiare le variazioni del mercato in quanto sono ripetute nel tempo.
La prima fase riguarda l’impostazione preliminare del problema. Questo vuol dire che, nel momento in cui ho una
società incaricata di effettuare una ricerca di mercato o l’impresa stessa effettua la ricerca di mercato, si deve avere un’idea
chiara degli elementi da analizzare. In questa fase di solito vengono coinvolte persone interne ed esterne all’azienda con
diverse competenze, le quali si scambiano idee in base all’esigenza informativa dell’azienda.
Stabilire l’oggetto della ricerca è di importanza fondamentale. Si parte da un problema come quello della perdita di
clienti, ad esempio. Si devono, appunto, demarcare i confini dell’analisi.
Dopo aver definito l’oggetto ed i limiti è necessario individuare la popolazione che deve essere studiata. La popolazione
è il modo per definire il collettivo, l’insieme di unità statistiche (tutte) di interesse in questa particolare rilevazione. Dopo
aver circoscritto l’oggetto e individuato la popolazione bisogna cercare più in profondità si devono individuare i soggetti
della nostra indagine.
Nella seconda fase si devono definire gli obiettivi. Dobbiamo scegliere le domande di ricerca che ci si deve porre,
dopodiché dobbiamo definire le variabili da rilevare per rispondere a tali domande. Si devono individuare le metodologie
di ricerca (es. focus group).
Nella terza fase bisogna pianificare la raccolta delle informazioni, quindi come inserire, in corrispondenza di ciascuna
variabile, determinati valori. Occorre vedere se ci sono informazioni già disponibili e in questo caso vengono in aiuto le
fonti di dati a cui faremo riferimento prossimamente. A questo punto possiamo passare ad un’operazione della
predisposizione del piano di campionamento (stabilire la popolazione che effettivamente verrà indagata). Le
informazioni vengono raccolte principalmente tramite il questionario, quindi si deve anche costruire il questionario.
Partire dall’elenco delle variabili e poi decidere come le modalità delle variabili saranno ottenute, questo ci darà
un’indicazione delle domande da inserire nel questionario.
Nella quarta fase passiamo alla raccolta dei dati. Il campionamento probabilistico prevede, ad esempio, l’estrazione
casuale del campione. Una volta estratto il campione potremmo passare alla raccolta vera e propria dell’informazione che
avverrà attraverso la somministrazione del questionario (metodo dell’intervista, auto-compilazione online…). Una volta
somministrati i questionari si dovranno ordinare e si potrà creare una prima bozza della matrice finale dei dati, una
struttura dei dati in cui ogni riga corrisponde ad un’unità statistica e ogni colonna è una variabile. Fatto ciò, prima di
effettuare le elaborazioni statistiche di sintesi, è necessario effettuare un primo controllo sulla qualità dei dati per
minimizzare errori eventuali.
Nella quinta fase si procede all’analisi dei dati, organizzando le informazioni raccolte prima dell’analisi effettiva dei dati
statistici e si deve anche cercare di dare una risposta alla domanda di ricerca. Si potrebbero anche fare delle analisi sul
collegamento tra le varie variabili.
Nella sesta e ultima fase si preparano e si presentano i dati. A questo punto siamo dunque pronti per redigere un report
finale.
Per fonti dei dati si intendono tutti i documenti dove si possono individuare le informazioni che interessano le nostre
ricerche. Le fonti si distinguono in primarie (o dirette) e secondarie (indirette). Le fonti primarie sono quei dati che
vengono rilevati direttamente da coloro che hanno l’esigenza informativa, oppure effettuate da terzi ma su mandato del
soggetto al quale interessa l’indagine, seguendo ovviamente le fasi di cui abbiamo parlato. All’interno delle fonti primarie ci
sono anche gli esperimenti. Le fonti secondarie sono un insieme di dati raccolti da terzi soggetti indipendentemente dal
fabbisogno informativo attuale di un’impresa X.
Queste a loro volta si distinguono in fonti interne ed esterne. Le prime sono quei dati rilevati all’interno
dell’organizzazione nell’ambito dell’attività aziendale ma indipendentemente dal fabbisogno informativo dell’azienda
(fatture, database clienti…). Le fonti secondarie esterne sono generate appunto all’esterno dell’azienda da aziende private,
ad esempio. Le fonti secondarie esterne si distinguono a loro volta in ufficiali e commerciali. Prima di vendere un prodotto
sul mercato l’azienda deve effettuare delle indagini sul mercato potenziale e le unità statistiche. Nel caso della produzione e
vendita dell’elettrodomestico l’unità statistica è la famiglia.
Relazione tra variabili quantitative e qualitative: si può sempre pensare di trasformare una variabile quantitativa in
qualitativa ma non può accadere l’opposto. Ad esempio, azienda con meno di 10 dipendenti (variabile quantitativa) =
piccola azienda (variabile qualitativa).
Quando facciamo una rilevazione, l’informazione quantitativa è sempre più utile della qualitativa. Quando parliamo di var.
qualitative spesso siamo interessati ad effettuare operazioni di CODIFICAZIONE, che consiste nell’attribuire in maniera
del tutto convenzionale e arbitraria la sostituzione alle parole dei numeri (codici) (es. maschi: 0; femmine:1). L’importante è
che i numeri siano diversi e che venga mantenuta la corrispondenza biunivoca. Quando facciamo la codificazione non
stiamo trasformando la v. qualitativa in quantitativa, la variabile resta sempre qualitativa.
Siamo il manager delle vendite dell’azienda xyz, vuole conoscere meglio il mercato e la prima cosa che deve fare è
verificare la disponibilità delle informazioni che gli servono tra le diverse fonti che ci sono già. Un’informazione sul
possesso di elettrodomestici, ad esempio, esiste perché viene rilevata dall’ISTAT, perché fa un’indagine sul consumo degli
italiani. Quindi essere consapevoli dell’informazione già disponibile, già rilevata da altri. Bisogna vedere anche il grado di
dettaglio e disaggregazione territoriale che ci interessa, ma anche individuare il grado di aggiornamento delle informazioni
che ci interessano. L’indagine Istat viene fatta annualmente. Quando si fa un’indagine questo richiede tempo, questo si
traduce nel fatto che le informazioni che provengono da fonti ufficiali non sono esattamente recenti (troveremo quelle
dell’anno scorso ma non quelle di un mese fa). Le rilevazioni fatte dall’Istat sono, inoltre, nazionali e possono avere un
certo livello disaggregazione (difficilmente vanno al di sotto del livello provinciale, anzi spesso ci dobbiamo accontentare
di informazioni a livello nazionale, macroaree, regionale). Se il manager, dunque, ha bisogno di un’informazione relativa al
mese scorso disaggregata a livello di quartiere, non può contare sulle indagini effettuate dall’Istat.
La ricerca delle informazioni disponibili va sempre fatta prima, poi si deve vedere il grado di dettaglio al quale si vuole
arrivare, anche per stabilire quando vogliamo fare una rilevazione ad hoc come strutturare le indagini che vogliamo fare.
Spesso, in questi casi, è la stessa azienda, o chi per lei, a dover effettuare la ricerca di mercato. Nel marketing, il ruolo
principale è del mercato e del cliente finale. Quindi dobbiamo individuare cosa si aspetta il cliente, quale prezzo è
ottimale… se dobbiamo mettere al centro il cliente dobbiamo dunque cercare di raccogliere informazioni in modo diretto
o indiretto. Dobbiamo decidere anche i canali di distribuzione, come far arrivare il prodotto al cliente.
Le ricerche e le fonti informative disponibili aiutano i manager a prendere decisioni mettendo a disposizione informazioni
nuove per la soluzione di specifici problemi. Si tratta di ricerche sistematiche ed oggettive su:
Quando decidiamo di effettuare una ricerca di mercato è perché abbiamo individuato un problema (vendiamo meno,
nuovi concorrenti, i clienti cambiano le loro tendenze). Prima di occuparci di come raccogliere le informazioni, dunque,
dobbiamo prima capire quali sono le cause del problema riscontrato. Prendiamo il caso in cui il problema è la perdita di
clienti. Una causa del problema potrebbe sicuramente essere il prezzo troppo alto, ma dobbiamo anche capire quanto la
clientela sia sensibile al prezzo, e dunque capire cosa ci serve sapere per risolvere il problema e implementare dei parametri
che diano un’idea precisa della sensibilità dei consumi della clientela ai prezzi. Per risolvere il problema si devono abbassare
i prezzi o questi si possono mantenere uguali offrendo altri servizi? Se l’elasticità è alta, ho elevati margini di manovra e
viceversa.
Altro caso ancora, scopriamo che la causa della perdita dei clienti è l’insoddisfazione dei miei clienti riguardo al mio bene.
Ovviamente dovremo individuare le aspettative del cliente in termini di qualità del bene/servizio, raccogliere dei dati sui
consumatori e fare un’indagine sulla c.d. customer satisfaction, dunque in questo caso il prezzo non è così fondamentale.
Magari devo cambiare il canale di distribuzione, impostare una comunicazione diversa e una volta individuati gli aspetti
critici trovare il modo per limitare la perdita di clienti e, dunque, risolvere il problema.
Ancora un’altra causa potrebbe essere la presenza di nuovi competitor che hanno cominciato ad erodere QdM (quote di
mercato). A questo punto dovremo cercare di migliorare la conoscenza sui concorrenti quindi dovrò effettuare un’indagine
sulla concorrenza e sul mercato (promozioni dei concorrenti, qualità dei loro beni, canali di distribuzione utilizzati…). Una
volta capito il problema dobbiamo migliorare noi stessi rispetto ai clienti.
Altra causa ancora potrebbe essere l’obsolescenza della mia offerta. Il mio prodotto non risponde più alle esigenze di
innovazione che pretendono i clienti. Si deve capire fino a che punto ci si vuole spingere in investimenti in innovazione e
in che misura, al fine di risolvere il problema iniziale. In questo caso, si deve capire come orientare gli investimenti e
allocare le risorse, al fine di avere un effetto positivo sulle vendite.
Un filone di mercato importante è quello che riguarda la valutazione ex ante ed ex post di campagne promozionali e
pubblicitarie. Ci aspettiamo, quando impostiamo una campagna promozionale o pubblicitaria, che questa sia efficace e
porti un beneficio in termini economici, attraverso un miglioramento del posizionamento sul mercato. Alla fine, dunque,
deve portare dei miglioramenti, ad esempio in termini di aumento della clientela o dei suoi consumi. Quando decidiamo di
intraprendere una campagna dobbiamo stabilire degli obiettivi.
Per comprendere l’efficacia di una campagna dobbiamo confrontare la situazione prima e dopo la campagna e dunque
misurare tutte le dimensioni che abbiamo ritenuto utile analizzare per la nostra ricerca (ADVERTISING RESEARCH).
Questo possiamo farlo tramite un’indagine continuativa con due istanti temporali diversi.
Un’altra tipologia di rilevazione è quella che riguarda il prodotto (PRODUCT RESEARCH), solitamente fatta da aziende
che offrono prodotti alimentari. Si possono fare ricerche sulla percezione del prodotto per il consumatore finale e valutare
quali sono le caratteristiche che vengono rilevate e manifestate dal cliente una volta che effettua l’assaggio. Solitamente si fa
in termini comparativi tra due brand togliendo il nome del brand (prodotto in versione blind per evitare le distorsioni
dovute alla conoscenza della marca) dal prodotto in questione prima dell’assaggio.
Ci sono anche altre indagini per misurare il grado di sensibilità dei consumatori rispetto al prezzo (PRICING
RESEARCH) mirate all’impostazione dei modelli di sensitività al prezzo o ancora indagini che riguardano i canali
distributivi (DISTRIBUTION RESEARCH).
Cosa si intende per ricerche di mercato? la definizione che viene data dall’American Marketing Association è questa:
“Marketing Research is the function that links the consumer, customer, and public to the marketer through information - information used
to identify and define marketing opportunities and problems; generate, refine, and evaluate marketing actions; monitor marketing performance;
and improve understanding of marketing as a process. Marketing research specifies the information required to address these issues, designs the
method for collecting information, manages and implements the data collection process, analyzes the results, and
communicates the findings and their implications .”
La ricerca di mercato è la funzione che collega e crea un ponte tra l’azienda e i consumatori (interpretazione del
prof), è sempre un mezzo attraverso il quale si cerca di raggiungere e di capire meglio quali sono le informazioni e
caratteristiche più importanti per i consumatori, al fine di monitorare le performance di marketing e comprendere le
dimensioni del mercato. Le ricerche di mercato si programmano in metodi per la raccolta delle informazioni, quindi
attraverso la ricerca si cerca di definire i metodi per raccogliere i dati. Una volta definiti i metodi dobbiamo passare alla
raccolta vera e propria delle informazioni e dunque capire come gestire la parte della procedura che riguarda la raccolta dei
dati (prima decidiamo come raccoglierli e poi li raccogliamo). Una volta raccolti i dati dobbiamo validarli (controllarne la
qualità) e poi sintetizzare i risultati ottenuti attraverso le tecniche statistiche di sintesi dei dati per evidenziare le
caratteristiche fondamentali delle singole variabili e trovare eventuali relazioni tra queste. I risultati ottenuti devono essere
comunicati nel modo più efficace possibile attraverso la redazione di un report destinato ai soggetti interessati alla ricerca
di mercato (responsabili vendite, comunicazione, all’esterno, ai media…).
I leader per le ricerche di mercato sono gli inglesi e le ricerche sono nate all’inizio del secolo scorso, prima del primo
conflitto mondiale. Tra le due guerre hanno avuto un buon impulso. Nel 1928 Gallup conduce il primo sondaggio di
mercato, semplice e rudimentale, ma è il primo a capire che le imprese non possono prescindere dalle informazioni
riguardante il mercato e i clienti finali. Nel 1936 viene effettuato il primo sondaggio elettorale per come lo intendiamo oggi,
in quell’anno si confrontavano Landon e Roosevelt.
Prima del 1905: nascono negli USA le prime rudimentali applicazioni della ricerca ai problemi di marketing. 1905-1919: le
ricerche di mercato si avviano ad assumere un ruolo più significativo nelle attività commerciali (principalmente in USA e
GB). Bureau of Business Research ad Harvard (1911)
1919-1930: la ricerca di mercato comincia ad essere strutturata come disciplina propria con pubblicazioni specializzate.
Negli USA (1926) viene fondato l’American Market Research Council.
Gallup (1928) conduce il primo sondaggio.
1930-1945: le ricerche di mercato si diffondono e le loro basi metodologiche si consolidano.
1936: primo sondaggio elettorale (Landon-Roosvelt).
1945-1973: nascono le ricerche di mercato moderne con forte connotazione interdisciplinare. Si utilizzano:
Nascono il Journal of the Market Research Society (1959) e il Journal of Marketing Research dell’AMA (1964).
▪ Tempi
▪ Costi
▪ Errori di misura
Per un’azienda una proposta ottimale è ottenere risultati subito a fronte di un budget congruo e sostenibile.
I focus group sono dei brainstorming in cui delle persone si riuniscono in una stanza e attraverso il coordinamento della
discussione fatto da uno o due esperti moderatori si confrontano su un argomento di interesse. Un’impresa che produce
pasta decide di effettuare investimenti per rinnovare gli impianti al fine di migliorare la qualità del prodotto. Prima di
effettuare gli investimenti, vuole vedere quali siano le esigenze in termini di qualità del prodotto da parte dei consumatori
finali e, dunque, si effettuano dei test di assaggio in forma blind e si propone di assaggiare lo stesso piatto di pasta fatto con
due tipi di pasta diversi senza dire la marca. Da un test di assaggio potrebbe rilevarsi che la qualità della pasta dell’impresa è
buona, ma ha un problema di immagine e dunque dovrebbe indirizzare i suoi investimenti verso le campagne pubblicitarie.
Abbiamo detto che una fonte statistica è, appunto, una fonte di informazione che si può utilizzare per colmare il gap
informativo dell’azienda. La prima classificazione è tra fonti primarie (dirette) e secondarie (indirette). All’interno delle
fonti primarie possiamo distinguere tra: rilevazioni e ricerca sperimentale (solitamente eseguita nell’ambito di materie
scientifiche). Le fonti secondarie o indirette sono caratterizzate dal fatto che rappresentano informazioni rilevate
indipendentemente dal bisogno conoscitivo attuale dell’azienda. Le fonti secondarie possono essere interne o esterne. Le
fonti (secondarie) interne sono tutte le informazioni che l’impresa produce nell’ambito e nel merito della sua attività (ad
esempio le fatture di vendita). Quelle esterne sono dati rilevati sempre indipendentemente dall’obiettivo aziendale ma che
sono state prodotte all’esterno. Si distingue tra fonti secondarie esterne ufficiali (svolte all’interno del SISTAN [sistema
statistico nazionale, programma definito con legge dello stato e coordinato dall’Istat e nel quale vengono previste tutte le
indagini per fare fronte al fabbisogno informativo di enti pubblici e non che hanno sede nello Stato Italiano]) e fonti
secondarie esterne commerciali (dati che derivano da indagini svolte da società private che hanno come attività
principale la raccolta dei dati e l’attività di indagine) che hanno la caratteristica di essere disponibili dietro pagamento.
Alcuni esempi di alcune tipologie di fonti.
Informazioni che si trovano negli archivi di azienda (database clienti, database fornitori, database dipendenti, fatture, note
di carico, bilanci e scritture contabili). Per caratterizzare questo tipo di fonti ci dobbiamo interrogare sugli obiettivi
informativi da individuare. I vantaggi delle fonti secondarie interne sono quelli di essere disponibili immediatamente
all’interno dell’azienda a costi limitati. Il problema che si riscontra quando vogliamo usare questa tipologia di dati è che
sempre più frequentemente le aziende hanno tantissime informazioni, sono proprio bombardate e spesso non hanno
risorse interne all’azienda per sfruttarle.
Statistiche e rapporti pubblicati da enti pubblici, associazioni commerciali di categoria, istituti di ricerca, agenzie di
pubblicità. Come abbiamo detto possono essere ufficiali o commerciali e si tratta di dati già elaborati, utili per supportare
le decisioni aziendali che necessariamente hanno a che fare col futuro prossimo. Nonostante si tratti di dati di elevata
qualità e controllo per via dei protocolli, mancano spesso di accuratezza e forma. Questo perché un dato che potrebbe
essere rilevante per la nostra indagine oggi potrebbe già essere troppo vecchio, perché riferito ad anni prima, e dunque non
servirci più o servirci marginalmente. In generale, quando reperiamo dei dati secondari esterni, siano essi ufficiali o
commerciali, dobbiamo sempre interrogarci su qual è il loro potenziale informativo, al di là del grado di sovrapposizione ai
nostri obiettivi. Dobbiamo interrogarci sugli obiettivi che hanno spinto lo stesso soggetto a raccogliere i dati, perché ciò ci
consente di avere un’idea su qual è il grado di commitment, di sforzo che il soggetto ha messo nella raccolta di questi dati.
Nel caso delle fonti ufficiali, sappiamo che lo scopo è rivolto all’utilizzatore finale e questo ci fornisce una garanzia di
qualità del dato.
Un’indagine svolta da un’azienda che si occupa di indagini di mercato su mandato di un’altra società, invece, riguarda un
mercato molto specifico solitamente, e lo scopo è molto diverso da quello delle fonti ufficiali e la qualità potrebbe non
essere molto elevata. Un’altra domanda fondamentale da porsi è relativa all’identità di colui che ha raccolto i dati. Una cosa
è l’Istat, un’altra è una società privata, anche se quest’ultima lavora benissimo. Anche come sono state raccolte le
informazioni è importante (entreremo in merito delle rilevazioni campionarie, dei questionari etc.). A seconda di come
vengano implementati alcuni strumenti, la qualità del dato può variare e ne dipende fortemente. Nel caso delle indagini
svolte dall’Istat, possiamo sempre trovare un documento di supporto che fa parte dei cd metadati, in cui vengono illustrate
tutte le procedure di raccolta dei dati. La presenza di un documento che attesta la procedura di raccolta dei dati ci dice
molto sulla procedura in sé e sulla qualità dei dati raccolti. Se abbiamo poi l’opportunità di raccogliere dati che derivano da
fonti diverse, il confronto tra i risultati ci consente ancora una volta di comprendere l’utilità dei dati.
DATI DA INTERNET
Anche internet ormai è sempre più utilizzato per la raccolta e la ricerca dei dati. Basti pensare ai questionari online, il cui
link viene distribuito, ad esempio, attraverso i social media. È necessario presentare lo scopo del questionario e garantire il
mantenimento della privacy, soprattutto quando si tratta di auto-compilazione. La prima reazione di chi compila il
questionario è di fastidio. Quindi bisogna valutare il tempo necessario a compilarlo e occorre che venga garantita la
segretezza e che i dati verranno mostrati in forma aggregata e anonima. Solitamente il questionario viene strutturato in
sessione, nella prima solitamente ci sono dati della persona (sesso, regione di provenienza etc.).
16/10/2020
Quando si parla di fonti ufficiali si devono analizzare tutti i dati che emergono dalle rilevazioni dell’Istat. Il grafico che
prende il nome di piramide della popolazione in Italia ha più la forma di un albero. La base (0-4 anni) è ristretta, va per
ampliarsi fino ai 50-54 anni per poi restringersi. L’Italia è il Paese più vecchio al mondo insieme al Giappone.
Consideriamo altre statistiche ufficiali di altri enti a parte l’Istat che fanno sempre parte del SISTAN. Il CENSIS è un
ente pubblico che svolge un’indagine molto interessante in cui si mettono in evidenza dei risultati sociali per quanto
riguarda la popolazione italiana (“Rapporto sulla situazione sociale”). Un altro esempio è UNIONCAMERE, l’unione di
tutte le Camere di Commercio. Se ci soffermiamo sul settore secondario, la principale associazione di categoria è
CONFINDUSTRIA. Il suo scopo principale non è produrre o raccogliere dati ma nel suo lavoro ha a che fare con dei
dati, li raccoglie e pubblica dei volumi rendendo disponibili dei database. Una pubblicazione curata dal centro studi
all’interno di Confindustria è, ad esempio, la “pubblicazione scenari”. Gli scenari sono studi e analisi del passato dei
diversi settori industriali, utili poi per costruire delle proiezioni (scenari) a breve e medio termine sugli sviluppi, per offrire
un supporto alle decisioni che devono prendere le aziende. Per analisi congiunturale si intende un’analisi previsiva a
breve termine che solitamente dura dai tre al massimo sei mesi. Molti studi raccolgono i c.d. sentiments delle imprese su
quelli che sono i sentimenti, le sensazioni delle imprese per un determinato sviluppo degli eventi economici.
Un altro settore all’interno del quale si trovano delle fonti di dati ufficiali sono i dati finanziari, che riguardano la capacità
del sistema di sostenere le imprese e il credito e gli andamenti riguardanti gli investimenti e i mercati finanziari (quotazioni
società, azioni). La maggior parte di queste informazioni viene raccolta dalla Banca d’Italia, la nostra Banca Centrale, che
prima dell’adesione al sistema euro stabiliva la politica monetaria (emissione di carta moneta e il controllo e la fissazione
del livello dei tassi di interesse stabilendo il tasso di sconto ufficiale; seconda funzione di vigilanza sul sistema finanziario
per garantire il buon funzionamento della cessione del credito alle famiglie e ai cittadini). Oggi la Banca d’Italia svolge
solamente una funzione di vigilanza, ma fa anche delle pubblicazioni importanti come “Bilanci sulle famiglie italiane”,
“Indagine su imprese”. La Banca d’Italia rende direttamente disponibili i micro-dati, al contrario dell’Istat. Vedi
MEDIOBANCA.
Queste società hanno come scopo principale la raccolta di dati per poi rivenderli o la raccolta di dati su commissione. Per
quanto riguarda i dati di bilancio, una società molto importante che svolge questa attività di raccolta di dati di bilancio in
collaborazione con le camere di commercio è CERVED. Questa raccoglie i bilanci, li classifica e li rende disponibili
attraverso la banca data AIDA, dove è possibile dunque reperire tutte le informazioni riguardanti le poste di bilancio di
tutte le società di capitali italiane.
SEAT gestisce attraverso CONSODATA (http://www.consodata.it/) una base informativa di geo-marketing, che
contiene dati comunali tratti dai censimenti della popolazione e dell’industria, indicatori comunali di provenienze diverse
(Banca d’Italia, Ministeri) ed elaborazioni delle informazioni desumibili dagli elenchi telefonici.
NIELSEN registra le componenti essenziali degli annunci pubblicitari, apparsi su quotidiani, periodici, affissioni stradali,
radio e televisione. (http://it.nielsen.com/site).
DATI DI AGENZIA
Sempre nell’ambito di fonti secondarie commerciali abbiamo i dati di agenzia, che vengono rilevati da società che
hanno come scopo principale la raccolta di dati per le ricerche di mercato una volta individuato il fabbisogno informativo
di più imprese, avendo individuato le variabili e gli obiettivi più importanti. Se i clienti vogliono informazioni sul settore dei
cosmetici in Italia, ad esempio, io sono la NIELSEN e raccolgo tutte le informazioni, contatto i consumatori e
somministro un questionario per rilevare le variabili che possano rispondere agli obiettivi delle imprese. Poi si crea una
matrice finale dei risultati, che possono essere distribuiti in modo tale da distribuirli a tutte le imprese. Per le imprese che si
sono rivolte alla società in questione per effettuare la rilevazione, questi dati rappresentano DATI PRIMARI perché sono
stati rilevati per far fronte direttamente al fabbisogno informativo delle stesse imprese (che si configurano come imprese
committenti). Questi dati, pagati dietro corrispettivo, vengono a far parte di un database generale di Nielsen. Se l’anno
dopo un’impresa contatta la Nielsen per la stessa indagine di mercato, ma non ha i soldi per pagare l’indagine, a quel punto
la Nielsen fornisce la matrice dell’anno prima, ma senza fare un’indagine ad hoc. I dati a questo punto sono secondari,
proprio perché sono parzialmente correlati all’esigenza informativa dell’ultima impresa, non sono dati raccolti ad hoc per
questa impresa omega. Dunque, per i committenti i dati rilevati sono primari, per quelle imprese che usufruiscono di dati
esistenti e derivanti da indagini ad hoc passate sono dati secondari. Sono dunque informazioni vendute da società di ricerca
specializzate a clienti diversi che condividono bisogni informativi comuni (i dati secondari d’agenzia sono anche detti
syndacate data).
I dati di agenzia possono essere effettuati avendo popolazioni target di diverso tipo. Le unità statistiche sulle quali vengono
rilevate le informazioni possono essere famiglie o imprese. Se i questionari vengono svolti una tantum prendono il nome di
sondaggi (presso un campione di famiglie/imprese). Si parla di sondaggi omnibus, ovvero sondaggi commissionati da
più utilizzatori/imprese a ciascuno dei quali è data la possibilità di riservarsi una porzione modulare del questionario.
Ci sono casi in cui, però, la società che svolge la richiesta, estrae un campione dalla popolazione di famiglie e, anziché
somministrare il questionario in un unico momento, ripete l’indagine sullo stesso campione in vari momenti, a quel punto
si parla di indagini continuative svolte presso un campione di famiglie, e i dati che vengono rilevati si configurano come
dati panel, perché sono riferiti allo stesso campione e il questionario viene somministrato in diversi istanti temporali.
Altra metodologia di raccolta dei dati è quella dei dati sui consumi e sui prezzi pagati per i beni di largo consumo che
possono essere rilevati presso i punti vendita o dalle scannerizzazioni degli acquisti delle famiglie. I dati raccolti nei punti
vendita sono dati che vengono rilevati in continuo. La differenza rispetto ai panel è che, nei diversi istanti, il campione
cambia. Gli acquisti di una settimana sono effettuati da consumatori diversi rispetto alla settimana dopo, resta fisso il
punto vendita. I dati possono anche essere rilevati direttamente dalle famiglie. Viene selezionato un campione fisso di
persone e si chiede alle famiglie di farne parte per ricevere informazioni ad intervalli regolari. Per incentivarle a farne parte,
ovviamente, è necessario promettere loro qualcosa, come buoni acquisti o omaggi. Una volta si chiedeva alle famiglie di
compilare una sorta di diario dei consumi, oggi solitamente il campione oggetto d’indagine viene dotato di un palmare, uno
scanner che legge il QR code dei prodotti che immagazzina le informazioni e manda i dati ad un server online che
raccoglie tutte le informazioni. L’altra parte di rilevazioni commerciali considera la popolazione delle imprese. Esistono
varie rilevazioni come, ad esempio, i c.d. audit sui dettaglianti (informazioni simili a quelle del campione delle famiglie,
ma la prospettiva è diversa) per individuare informazioni in merito a brand, prezzi, promozioni. Questi audit possono
essere fatti ad imprese che vendono al dettaglio o fornitori che poi vendono ad imprese al dettaglio.
Vantaggi:
• bassi costi e velocità (rispetto ad una rilevazione condotta in proprio)
• accuratezza
Svantaggi:
• i dati non sono specifici per le esigenze della singola azienda
Ambiti analizzati:
• comportamenti dei consumatori
• segmentazione del mercato
• evoluzione del mercato
• monitoraggio di campagne promozionali
• Doxa www.doxa.it
• ASSIRM http://www.assirm.it/ Database «Statista» (https://www.statista.com/outlook/consumer-markets)
•A.C. Nielsen www.acnielsen.it (già visto).
•IRI http://www.iriworldwide.it/ https://www.iriworldwide.com/it-IT/insights/Publications/IReport-State-Of-The-
Nations-di-IRI
• vendite di un prodotto e quota di mercato (panel sui consumi, audit sui dettaglianti);
• esposizione ed efficacia della pubblicità (dati ad hoc e sui consumi);
• efficacia delle promozioni (dati scannerizzati dai punti vendita).
• Tendenziale (si analizzano le interrelazioni tra le diverse variabili ipotizzando costanza delle politiche economiche e
sociali).
• Strumentale (si propone una simulazione per valutare cosa accadrebbe se nulla si modificasse, allo scopo di sottolineare la
necessità di un cambiamento).
• Normativa (indica il cammino da compiere per conseguire un certo obiettivo).
Riferimento temporale
Breve: entro i 2 anni.
Medio: 5-10 anni.
Lungo: oltre i 10anni.
Strumenti di previsione:
Valutazioni soggettive.
Metodo Delphi.
Analisi di serie storiche.
Modelli econometrici.
• Proiezioni demografiche elaborate da Istat, Istituto di Ricerche sulla Popolazione, ONU, World Bank.
• Proiezioni macroeconomiche elaborate da svariati enti di ricerca:
PROMETEIA (www.prometeia.it) elabora previsioni trimestrali dei principali aggregati macroeconomici (Pil, consumi,
investimenti, produzione) mediante un modello econometrico; Fornisce un servizio di analisi e previsioni di consumi per
circa un centinaio di beni e servizi. https://www.prometeia.it/prometeiamio
Nell’ambito delle indagini continuative, dunque, si producono dati di tipo panel e lo stesso campione viene spesso
chiamato panel (rilevazioni su un “panel” di consumatori). Ma di per sé il panel sono i dati, l’insieme di unità statistiche
sulle quali si fa la rilevazione è il campione. Le informazioni riguardano solitamente quello che avviene in quell’istante o in
istanti molto prossimi alla rilevazione.
Panel: campione permanente, costituto dalle medesime unità, seguite nel tempo. I panel assolvono sostanzialmente a tre
funzioni principali:
1. consentono di registrare fatti (ad esempio consumi) in modo che siano solo limitatamente influenzati dal fattore
ricordo;
2. permettono di valutare modificazioni di mercato;
3. consentono di condurre piccoli esperimenti dividendo il panel in sotto-campioni equivalenti.
Le indagini continuative consentono, dunque, di effettuare indagini di tipo dinamico e di ridurre la distorsione del “fattore
ricordo”. Si prestano anche a delle ricerche sperimentali: all’interno del campione fisso un sotto-insieme di questo
campione di famiglie decidiamo di somministrare dei messaggi promozionali particolari e non lo facciamo sulle altre
famiglie. In questo modo alla fine del periodo rileviamo le informazioni del sotto-campione e del campione principale e
vediamo se ci sono delle variazioni o informazioni rilevanti per stimare l’effetto del particolare trattamento fatto al sotto-
insieme di unità statistiche (si fa spesso in ambito farmacologico).
Quando una persona esce dal campione dobbiamo essere pronti a sostituirla con un’altra il più possibile simile (si dice che
muore statisticamente). Spesso si deve prevedere un campione di scorta al quale attingere nel caso in cui alcune unità
statistiche rinuncino alla partecipazione all’indagine (Mortalità come Primo limite). Un altro problema è quello del
condizionamento da partecipazione al panel: nel momento in cui una persona viene chiamata a dare informazioni in
una rilevazione di questo tipo avviene che i comportamenti di acquisto e di consumo cambiano proprio perché la persona
è entrata a far parte del campione. Può aumentare i consumi subito dopo l’inizio della rilevazione, ad esempio, e dunque si
devono scontare questi effetti (prendere con le pinze le prime informazioni che rileviamo e considerarlo un momento di
prova fino ad un successivo assestamento e stabilizzazione). Molto spesso, per meglio coinvolgere le persone nel campione
delle indagini panel e farle sentire parte di una comunità, si tende a renderlo partecipe dei risultati dell’indagine fornendo
dei report. In base ai risultati ottenuti e osservati molto spesso si rileva che le persone tendono a modificare i loro
comportamento di acquisto in base ai risultati visti nel report, per una sorta di istinto di emulazione. Questo però rende
l’individuo meno rappresentativo del segmento dal quale è stato estratto e i risultati vengono distorti. È necessario che
l’unità statistica non resti nel panel per molte rilevazioni, in questi casi e che si provveda alla rotazione periodica del
campione statistico (si sostituiscono periodicamente le persone presenti nel campione per ridurre eventuali distorsioni e
non compromettere l’indagine).
Nell’ambito delle rilevazioni continue un ente importante è l’AUDITEL che controlla i dati sul traffico televisivo e stimare
lo share dei programmi.
MATRICI DI TRANSIZIONE E SCOMPOSIZIONE QDM
MATRICI DI TRANSIZIONE → sopra le colonne si legge la seconda rilevazione; a sinistra delle righe la prima rilevazione. Se
nella matrice i valori nelle celle sono compresi tra 0 e 1 è una matrice di frequenze relative, altrimenti se i numeri sono
interi positivi è una matrice di frequenze assolute.
ANALISI PROSPETTICA → sempre frequenze relative → dividere per i totali di riga
1. Sulla diagonale principale ci sono i tassi di fedeltà alla marca
2. Nelle celle al di fuori della diagonale principale si trovano i tassi di migrazione che coincidono con le frequenze
relative fuori dalla diagonale
3. Qdm alla seconda rilevazione nell’ultima riga → nell’ultima colonna mettiamo tutti 1
ANALISI RETROSPETTIVA → sempre frequenze relative → dividere per i totali di colonna
1. Consente di analizzare in termini relativi da dove provengono in termini di marche acquistate nella prima
rilevazione coloro che acquistano una determinata marca nella seconda rilevazione.
2. Tassi di provenienza
3. Qdm alla prima rilevazione nell’ultima colonna → nell’ultima riga mettiamo tutti 1
𝑐𝑘
• INDICE DI DIFFUSIONE: γ= 𝑐𝑝 → varia tra 0 e 1. Più è vicino all’1 meglio è.
𝑎𝑘
• TASSO DI RIACQUISTO/ INDICE DI FEDELTA’: β= 𝑎𝑝𝑘→ varia tra 0 e 1. Più è vicino all’1 meglio è
𝑞𝑝𝑘 𝑎𝑝 𝑎𝑝𝑘
• INDICE D’INTENSITA’ DI ACQUISTO MARCA K: α= dove qp= ; qpk=
𝑞𝑝 𝑐𝑝 𝑐𝑘
- α > 1 → situazione migliore per le aziende. i consumatori che acquistano la marca k mediamente acquistano il
prodotto in misura superiore rispetto a quanto avviene sul mercato
- α < 1 → criticità. i consumatori che acquistano la marca k mediamente acquistano il prodotto in misura inferiore
rispetto a quanto avviene sul mercato
- α=1 → situazione di neutralità
ak → numero di acquisti della marca k nel periodo → SOMMA DEI VALORI DELLA COLONNA DELLA MARCA
ap→ numero di acquisti del prodotto p distribuito dalla marca k e dalle altre marche concorrenti nel periodo → TOTALE
ck→ numero di acquirenti della marca k nel periodo → CONTARE LE CELLE DELLA COLONNA DELLA MARCA IN CUI
COMPAIONO VALORI DIVERSI DA 0
cp→ numero di acquirenti del prodotto p nel periodo → NUMERO DI CONSUMATORI TOTALI DEL PRODOTTO P
INDIPENDENTEMENTE DALLA MARCA
apk→ numero di acquisti del prodotto p da parte di clienti della marca k nel periodo → CONTARE LE CELLE DELLA
COLONNA TOTALE CORRISPONDENTI ALLE CELLE DELLA COLONNA DELLA MARCA IN CUI COMPAIONO VALORI
DIVERSI DA 0
𝑎𝑝𝑘
qpk→ quantità media di prodotto p acquistata da ciascun acquirente della marca k nel periodo qpk = 𝑐𝑘
𝑎𝑝
qp→ quantità media acquistata da ciascun acquirente del prodotto p nel periodo= ap/cp → qp= 𝑐𝑝
𝑎𝑘 𝑐𝑘 𝑎𝑘 𝑞𝑝𝑘
QDM marca k= 𝑎𝑝=𝑐𝑝 𝑎𝑝𝑘 =γxβxα
𝑞𝑝
𝑣𝑘
• QUOTA DI VENDITA DELLA MARCA K:
𝑣𝑝
𝑛𝑘
• INDICE DI DIFFUSIONE γ DELLA MARCA K NEI NEGOZI: → varia tra 0 e 1. Più si avvicina ad uno meglio è per le imprese
𝑛𝑝
𝑣𝑘
• TASSO DI PREFERENZA β /FEDELTA’ ALLA MARCA: → varia tra 0 e 1. Più si avvicina ad uno meglio è per le imprese
𝑣𝑝𝑘
̅̅̅̅̅̅
𝒗𝒑𝒌 𝑣𝑝𝑘 𝑣𝑝
• INTENSITA’ RELATIVA DI VENDITA α : = : → se >1 situazione buona, i punti vendita che propongono la marca k
̅̅̅̅
𝒗𝒑 𝑛𝑘 𝑛𝑝
vendono quantità di prodotto p superiori alla media del mercato; se <1 situazione critica
vk→ vendite della marca k effettuate in negozi che trattano il prodotto p nel periodo
vp→ vendite complessive del prodotto p nel periodo
nk→ numero di negozi che trattano la marca k nel periodo
np→ numero di negozi che trattano il prodotto p nel periodo
vpk→ vendita del prodotto p in negozi che trattano la marca k nel periodo
𝑣𝑝𝑘
𝑣̅ 𝑝𝑘→vendita media del prodotto p nei negozi che trattano la marca k nel periodo =
𝑛𝑘
𝑣𝑝
𝑣̅ 𝑝→ vendita media del prodotto p in tutti i negozi che lo trattano nel periodo=
𝑛𝑝
𝑣𝑘 𝑛𝑘 𝑣𝑘 𝑣̅𝑝𝑘
QDV della marca k: 𝑣𝑝= 𝑛𝑝 𝑣𝑝𝑘 𝑣̅𝑝
LE MATRICI DI TRANSIZIONE
Dati derivanti da indagini continuative (indagini svolte su un campione che rimane sostanzialmente invariato rispetto alle
caratteristiche della popolazione). Vedremo alcune delle principali elaborazioni statistiche. Il primo strumento che
prendiamo in esame è quello delle matrici di transizione, ovvero una matrice nella quale è possibile studiare il passaggio
da uno stadio all’altro, ad esempio da un comportamento di consumo da un tempo t 0 ad un tempo t1. Si tratta di tabelle a
doppia entrata. Le matrici di transizione si configurano come distribuzioni bivariate in ambito statistico. Partiamo dai dati
grezzi.
Il tempo viene indicato con la lettera “t”, i diversi istanti temporali di somministrazione del questionario è “k”. La
variabile, che si indica con X solitamente, sarà una variabile qualitativa (in questo caso) politomica, che può assumere più
di due modalità, le quali sono descritte da parole e tra le quali si può stabilire le relazioni di uguaglianza o
differenza/disuguaglianza in relazione a due unità statistiche diverse.
Questa variabile X si può descrivere, in questo caso, come la marca di un prodotto, che chiamiamo genericamente “p”, in
un determinato mercato. Ammettiamo che il prodotto “p” sia un dentifricio e le diverse marche che presentano il prodotto
sono i vari marchi produttori di beni per l’igiene della persona e in particolare dei denti (mentadent, acquafresh, elmex…).
Arriviamo alla definizione delle unità statistiche che sono “n” consumatori selezionati nel campione. Le modalità assunte
dalla variabile X sono le singole marche esistenti per il prodotto dentifricio sul mercato. Genericamente le marche in
questo esempio le chiameremo {A, B, C, D…} nei k istanti temporali in cui si articola la nostra indagine continuativa.
X11 (A). Modalità assunta dalla prima unità statistica nella prima rilevazione, ha dato preferenza per la marca A. Le lettere
tra parentesi indicano le marche alle quali le unità statistiche hanno dato la loro preferenza in una determinata rilevazione.
Per sintetizzare le informazioni relative ad una variabile qualitativa, si può effettuare una distribuzione di frequenza
vedendo quante unità statistiche hanno mostrato una modalità, in questo caso, quante unità statistiche hanno acquistato la
marca A, la marca B e così via, e potremo così costruire k distribuzioni di frequenza univariate. In questo caso passiamo
dalla tabella 1 alla tabella 2. È un’operazione di sintesi perché da una matrice grande possiamo passare ad una matrice dove
il numero di righe è uguale a quello delle modalità assunte dalla variabile (in questo caso la marca) affinché si raggruppino i
consumatori in base alla marca acquistata.
A B C D TOT
A nAA nAB nAC nad nA1
Quando confrontiamo i due istanti temporali, dobbiamo decidere dove collocare le modalità relative alla prima rilevazione
e dove collocare quelle relative alla seconda. Per convenzione si posizionano le modalità della I rilevazione sulle righe e le
altre sulle colonne. Il generico valore “n” all’interno delle celle indica la frequenza assoluta. Per completare la tabella a
doppia entrata, dunque, inseriamo nelle celle le cosiddette “frequenze assolute bivariate”. Faremo sempre un’operazione di
conteggio, che però dovrà tener conto contemporaneamente di ciò che accade in entrambe le rilevazioni. All’incrocio fra la
modalità A della prima rilevazione e la modalità A della seconda rilevazione, ad esempio, andremo a mettere la frequenza
bivariata con cui la modalità A si è presentata sia nella prima che nella seconda rilevazione (n AA → ottenuto andando a
contare [prendendo le prime due righe della prima tabella] le righe in cui vi sono consumatori che hanno acquistato la
marca A in entrambe le rilevazioni). Nel caso, ad esempio, di nAB sono persone che nella prima rilevazione hanno scelto A
ma nella seconda hanno scelto B e così via per tutta la tabella.
La tabella 3 dal punto di vista statistico è una distribuzione bivariata, l’insieme di tutte le frequenze bivariate che
abbiamo inserito nelle celle di incrocio tra le due rilevazioni, che insieme nel loro complesso rappresentano la distribuzione
bivariata della variabile “Marca acquistata” nella prima e nella seconda rilevazione, perché prendono in esame
congiuntamente il comportamento di acquisto nella prima e nella seconda rilevazione.
Dal punto di vista della ricerca di mercato cominciamo a capire che questa può essere interpretata come una matrice di
transizione perché osserviamo come i consumatori transitano da una marca all’altra o come NON transitano rimanendo
sulla stessa marca per la prima e la seconda. Nella prima cella i consumatori non hanno transitato (nAA, hanno sempre
acquistato A) ma altri hanno transitato. I valori presenti sulla diagonale a partire da nAA non hanno cambiato marca tra la
prima e la seconda rilevazione. Una cosa che si può fare una volta completata questa tabella è completare i totali di riga e i
totali di colonna. Nell’ultima cella in basso a destra ci sarà l’uguaglianza tra somma dei totali di riga e dei totali di colonna,
che sono uguali alla dimensione iniziale del campione (totalità delle unità statistica).
La prima riga della tabella 3 (da nAA a nA1) è una distribuzione degli acquisti suddivisi per marca alla seconda rilevazione,
che si può individuare prendendo tutti coloro che hanno acquistato la marca A nella prima rilevazione. La marca acquistata
alla prima rilevazione è fissa in questa prima riga della tabella, infatti tutti le n nelle celle come primo pedice hanno la
lettera A. In generale, in questo tipo di tabelle, il primo pedice indica la marca acquistata alla prima rilevazione, il secondo
pedice indica la marca acquistata alla seconda rilevazione.
Questa, in termini statistici, si configura come una distribuzione degli acquisti alla seconda rilevazione condizionata
all’acquisto della marca A nella prima rilevazione. La stessa cosa si può dire per la seconda riga (da nBA a nB1) che sarà la
distribuzione degli acquisti alla seconda rilevazione condizionata al fatto di avere acquistato la marca B nella prima
rilevazione e così via per tutto (il primo pedice per tutte le n della seconda riga, infatti, è la lettera B). Alla fine, avremo 5
distribuzioni condizionate in riferimento alla seconda rilevazione. Facciamo un’analisi analoga in relazione alle colonne,
individuando le frequenze assolute che si trovano nella prima colonna ad esclusione del totale.
La prima colonna, ad esempio, (da nAA a nA2), Questa è la distribuzione degli acquisti nella prima rilevazione condizionata
all’acquisto della marca A nella seconda rilevazione. Questo discorso ovviamente si può fare per ciascuna riga e ciascuna
colonna. Ora rimangono le colonne dei totali, di riga e di colonna. Partiamo dalla colonna dei totali di riga. L’insieme dei
totali di riga (ultima colonna) viene chiamata distribuzione marginale della variabile (consumi) alla prima
rilevazione. I totali di colonna, invece, che si trovano nell’ultima riga sarà la distribuzione marginale degli acquisti alla
seconda rilevazione.
A partire da una distribuzione bivariata, è sempre possibile costruire le distribuzioni univariate. Cominciamo ad utilizzare
alcune operazioni aritmetiche. Se usiamo la divisione, ad esempio, possiamo costruire la distribuzione delle frequenze
relative condizionate. Partiamo dalla prima riga che abbiamo individuato nella tabella 3 (si dividono i valori di ogni cella
per il corrispondente totale di riga). Per passare dalle frequenze assolute a quelle relative (f) dobbiamo dividere le frequenze
assolute di una distribuzione e dividerle per il totale (nA1). Le “f” riportate nella tabella 4 nella prima colonna sono le f
relative esclusivamente alla prima riga della tabella 4. In questo modo avremo la distribuzione delle frequenze relative degli
acquisti nella seconda rilevazione condizionata all’acquisto della marca A nella prima rilevazione. Ognuno di questi
rapporti assumerà sempre valori compresi tra 0 e 1. Abbiamo dei valori estremi (0 e 1) quando tutte le frequenze, tutti i
consumatori che hanno acquistato la marca A nella prima rilevazione si sono concentrati sull’acquisto della stessa marca in
ogni istante temporale. Siamo passati dalla distribuzione delle frequenze condizionate assolute alle distribuzioni relative
della seconda rilevazione condizionata dall’acquisto di una marca alla prima.
Con le frequenze relative otteniamo dei valori che ci danno indicazione della porzione di coloro che hanno acquistato nelle
due rilevazioni e se hanno transitato. Se analizziamo la tabella in cui al posto di queste frequenze assolute inseriamo quelle
relative appena trovate, questa nuova tabella ci consentirà di effettuare una cosiddetta “analisi prospettica” perché ci fa
vedere quali sono le frazioni di spostamento di consumatori da una marca all’altra passando dalla prima alla seconda
rilevazione. In prospettiva vediamo cosa succede nel tempo (tra la prima e la seconda rilevazione).
Nell’analisi prospettica, se prendiamo i totali di colonna possiamo costruire, allo stesso modo, dei rapporti (vedi VI
RIGA). Nell’analisi prospettica oltre ad avere un’idea degli spostamenti in termini relativi, possiamo anche calcolare la
frazione di consumatori che hanno dato preferenza alle singole marche. Se moltiplichiamo questi rapporti per 100, avremo
le QdM di ciascuna marca nella II rilevazione. Nell’analisi prospettica i valori che troviamo nella tabella in relazione alle
singole marche (dalla prima alla quinta riga: marca) sono interpretabili come tassi di migrazione da una marca all’altra per
quanto riguarda i valori al di fuori della diagonale principale. Sulla diagonale principale (tracciata unendo da nAA/nA1 a
nALAL/nAL1) possiamo individuare i tassi di fedeltà alla marca. Nell’ultima riga della tabella dell’analisi prospettica si
individuano le quote di mercato alla seconda rilevazione.
La stessa cosa si può fare rapportando le frequenze ai totali di colonna. Prendiamo le frequenze alla prima rilevazione
condizionate a quanto succede nella seconda rilevazione. Prendiamo la prima colonna e dividiamo ogni valore per il totale
corrispondente (totale di colonna= nA2). La situazione in cui si avranno i valori 0 e 1 sarà quella in cui tutti i consumatori
della marca A nella seconda erano concentrati in un’unica marca alla prima rilevazione, quindi avremo un solo valore 1 e
tutti gli altri zero. Nei casi normali sono tutti valori tra 0 e 1 e il risultato finale sommando tutti i rapporti sarà uguale a 1.
Questo modo di procedere si chiama “analisi retrospettiva”, perché troviamo le distribuzioni alla prima rilevazione
condizionata a quanto succede nella seconda rilevazione. I singoli rapporti al di fuori della diagonale principale (valori
esterni alla diagonale principale) sono interpretabili come tassi di provenienza perché se prendiamo ad esempio il
rapporto nBA/nA2 e lo immaginiamo uguale a 0,20 è interpretabile così: tra coloro che alla seconda rilevazione acquistavano
A, il 20% proviene dalla marca B acquistata alla prima rilevazione. Il 20% della marca A alla seconda rilevazione proviene
da una preferenza data alla marca B nella prima rilevazione. Percentuale di consumatori strappati alla marca B tra la prima
e la seconda rilevazione e che hanno scelto A nella seconda. Per quanto riguarda la diagonale principale, nel caso
dell’analisi retrospettiva, i valori al suo interno non sono interpretabili come tassi di fedeltà. I valori che si trovano
nell’ultima colonna nell’analisi retrospettiva (i valori della colonna finale) nella colonna dei totali (TOT) sono le quote di
mercato alla prima rilevazione.
21/10/2020
Sulla diagonale principale della tabella delle frequenze relative troviamo i tassi di fedeltà, al di fuori della diagonale
troviamo i tassi di migrazione, la frazione di coloro che hanno acquistato una marca nella I rilevazione e poi hanno
cambiato la loro preferenza, migrando verso un’altra marca.
Tabella 1 pagina 43 del libro. Siamo nel settore dei detersivi, ed è stata fatta una rilevazione continuativa sullo stesso
campione di persone a distanza di sei mesi. La consistenza totale del campione viene indicata con “n” e in questo caso
n=1000. Sono stati intervistati dunque 1000 consumatori. Il 225 (posizione AA) corrisponde alla quota di consumatori che
hanno dichiarato di aver acquistato A in entrambe le rilevazioni (nAA). 15 è la quota di consumatori che ha acquistato A
nella prima e B nella seconda rilevazione e così via.
Passiamo ad una tabella delle frequenze relative in una versione prospettica. La Marca A è quella che riesce a fidelizzare
meglio i propri clienti.
ESERCIZIO: Costruire una matrice identica alla tabella due dove le percentuali vengono costruite per i corrispondenti
totali di colonna (versione retrospettiva). Per trovare la QdM dovrò dividere i totali di riga invece dei totali di colonna.
La variabile X in questo caso non sarà più la variabile categorica “marca acquistata”, ma una variabile che, ad esempio,
tiene conto del numero di confezioni acquistate sul mercato, dunque una variabile quantitativa. Immaginiamo di avere 2
istanti temporali e in questo intervallo misuriamo il numero di confezioni acquistate. Mentre nell’esempio relativo alle
QdM fotografavamo l’istante t-1 (I rilevazione) e t (II rilevazione), in questo caso misuriamo dei flussi, guardando proprio
a quante confezioni sono state vendute.
X= n. di unità confezioni della marca K di un prodotto “p” acquistate nell’intervallo che va da t-1 a t.
Le unità statistiche le indichiamo con “cp”, numero di consumatori del prodotto p sul mercato (non più con “n”). Le
modalità non sono più le marche, bensì numeri interi non negativi.
Ora possiamo costruire una matrice iniziale per ricavare la scomposizione delle QdM. a1. (a uno punto) come totale di riga
indica il totale acquistato da parte del primo consumatore del prodotto p indipendentemente dalla marca (per questo
mettiamo il punto perché la marca è irrilevante), invece il totale di colonna è il totale delle confezioni acquistate della marca
nell’intervallo considerato e la chiamiamo A. I valori che troviamo come totali di colonna generalmente li chiamiamo ak
con k che può assumere tre elementi {A, B, C} le tre marche. Il generico valore che troviamo nella tabella iniziale lo
chiamiamo aik: numero di confezione della marca k-esima che viene acquistato dall’i-esimo consumatore. Se vogliamo
calcolare i totali di riga faremo la sommatoria degli aik per k che è all’interno dell’insieme A, B, C e otteniamo Ai1, quantità
acquistata dall’i-esimo consumatore indipendentemente dalla marca.
A partire da questa matrice iniziale possiamo calcolare le QdM di ogni singola marca nell’intervallo considerato a partire
dai totali di colonna. La QdM sarà data da ak/ap. Adesso dobbiamo scomporre questo rapporto e ricavare le componenti
che, se trattate in maniera moltiplicativa tra loro, restituiscono proprio la QdM. Per arrivare alla scomposizione dobbiamo
definire alcune quantità:
ESEMPIO DEL LIBRO → nella tabella uso le lettere relative alle marche dell’esempio k= {L, S, ALTRE}
DEFINIZIONE E COME TROVARLO L S ALTRE MARCHE TOTALE Per gli indici servono:
aK Generico totale di colonna. N° acquisti della marca k 49 41 27 β (beta) --> aK/aPK
aP Acquisti totali del prodotto (INCROCIO TRA I DUE TOT.) 117
cK N° di acquirenti della marca k: per ogni marca conto 8 8 9 γ (gamma) --> cK/cP
nella colonna "consumatori" cL cS cAL
tutte le righe eccetto quelle contenenti lo 0 (zero) (10-2) (10-2) (10-1)
cP N° di acquirenti del prodotto p (colonna consumatori) 10 γ (gamma)
aPK N° di acquisti del prodotto p da parte di clienti 109 108 109 β (beta)
della marca k (in questo caso marca L,S o altre)
Per ogni marca, sommo tutte le celle della colonna
dei totali in cui trovo numeri diversi da 0 e riporto il
valore. es. L= (15+7+28+19+8+4+8+20). Non ho messo
7 e 1 (seconda e quarta riga) perché in corrispondenza
di L sono celle in cui è riportato lo 0
qPK Quantità media di prodotto p acquistato da ciascun 13,625 13,5 12,11 α (alpha) --> qPK/qP
cliente della marca k = aPK/cK (109/8) (108/8) (109/9)
qP Quantità media di prodotto p acquistato da ciascun 11,7 α (alpha)
consumatore nel periodo (aP/cP) 117/10 consumatori
Se torniamo alla matrice iniziale avremo un numero di consumatori che hanno acquistato almeno una confezione per ogni
marca. Per calcolare questo numero andiamo nella colonna della marca A ad esempio (c A) e guardiamo tutte le righe in cui
tutti questi valori sono diversi da 0 che vuol dire che il consumatore ha acquistato almeno una confezione della marca A,
quando sommiamo tutti i valori otteniamo cA e così per tutte le marche. Ck sarà sempre minore uguale a cp (numero totale
di consumatori che fanno parte del campione). Questi due valori saranno uguali quando tutti i consumatori hanno
acquistato almeno una volta la marca k e avremo in quel caso c k=cp.
Un’altra quantità che ci serve è apk che è definita come il totale delle confezioni del prodotto p acquistato da coloro che
hanno acquistato almeno una confezione della marca k. Dobbiamo sommare gli ai per i quali aik è diverso da 0.
Individuiamo dei fattori che hanno una loro interpretazione e che moltiplicati tra loro portano alla quota di mercato e li
indichiamo con alfa (α), beta (β) e gamma (γ).
GAMMA: INDICE DI DIFFUSIONE DELLA MARCA = ck/cp → numero di consumatori che hanno acquistato
almeno una confezione della marca “k” / numero totale di consumatori che fanno parte del campione.
Il numeratore è sempre minore del denominatore quindi il rapporto assumerà sempre valori tra 0 e 1. Questo indice dà
un’indicazione di quanto sia diffusa la marca k tra i consumatori. Più si avvicina ad 1 maggiormente diffusa sarà la marca.
Se =1 tutti i consumatori hanno acquistato quella marca almeno una volta e c’è la massima diffusione della marca in
questione.
BETA: TASSO DI RIACQUISTO O INDICE DI FEDELTA’ ALLA MARCA: ak/apk → numero di acquisti della
marca k nel periodo / totale degli acquisti del prodotto p da parte di clienti della marca k.
Ak è sempre minore o uguale di apk. Il totale di confezioni di marca k è sempre minore uguale al totale delle confezioni del
prodotto p. Questo è il tasso di riacquisto della marca k o anche indice di fedeltà alla marca. Costituisce un modo
alternativo per studiare la fedeltà alla marca che si calcola a partire dai dati di flusso invece che dai dati di stato. Questo
indice può assumere valori tra 0 e 1. Più ci si avvicina ad 1 maggiore è l’indice di riacquisto per la marca in questione (k) e
quindi maggiore sarà l’indice di fedeltà per la marca k. È uguale ad 1 quando gli acquirenti della marca k non danno mai
preferenza ad altre marche e acquistano solo k.
qp: dato dal rapporto tra ap (tot. Confezioni acquistate del prodotto p) /cp (totale consumatori del campione). Questa è la
quantità media acquistata del prodotto p (numero medio di confezioni acquistate) sul mercato da parte di ogni singolo
consumatore.
qpk: apk (numero totale di acquisti del prodotto p da parte di clienti della marca k) /ck. È sempre una quantità media di
prodotto p (confezioni acquistate) dai consumatori della marca k.
Queste quantità medie ci servono per definire ALPHA: qpk/ qp: INDICE DI INTENSITA’ DI ACQUISTO DELLA
MARCA K. Perché indica qual è la tendenza ad acquistare mediamente il prodotto p da parte dei consumatori della marca
k rispetto al numero medio di confezioni acquistate sul mercato in generale. Il numeratore può essere uguale, inferiore o
superiore al denominatore quindi i valori possono essere minori uguali o maggiori di 1. Il valore di riferimento in base al
quale dobbiamo interpretare il numero ottenuto è proprio il valore soglia 1 perché se tale rapporto è maggiore di 1 vuol
dire che mediamente i consumatori della marca k acquistano più prodotti di quanto mediamente avviene sul mercato. Se
invece assume valori <1 vuol dire che gli acquirenti della marca k acquistano un numero medio di confezioni rispetto a
quello che viene acquistato sul mercato. È chiaro che le criticità per la marca si hanno quando questa componente assume
valori <1.
Queste componenti moltiplicati tra loro restituiscono la QdM. La scomposizione della QdM è importante perché se
abbiamo dei valori bassi possiamo capirne il motivo, che può essere connesso anche a problemi di distribuzione. Per
migliorare la QdM dobbiamo cercare di intervenire attraverso accordi con i canali distributivi (per quanto riguarda
gamma). Seconda componente beta, se presenta delle criticità vuol dire che dobbiamo fidelizzare i consumatori e quindi
dovremmo implementare una campagna di fidelizzazione come le raccolte punti o le carte fedeltà. Se la componente alpha
presenta delle criticità (<1) l’azienda può fare leva su interventi di marketing che riguardino le quantità acquistate quindi
per aumentare la quantità di confezioni acquistate si può agire con sconti o promozioni. Quindi:
23/10/2020
Nelle matrici di transizione, le modalità sono le marche ed è possibile valutare la fedeltà, la migrazione (analisi prospettica)
o i tassi di provenienza (retrospettiva) → nella versione retrospettiva i valori presenti sulla diagonale principale non sono
interpretabili come tassi di fedeltà, solo nella versione prospettica. I valori esterni alla diagonale principale sono indici di
provenienza dalle altre marche. Nel caso della matrice di transizione, la variabile si manifesta con parole ed è, quindi,
qualitativa. Nel caso della scomposizione della quota di mercato, partiamo da una variabile di flusso, come gli acquisti. E
quindi c’è la raccolta dei dati di flusso. La variabile è quantitativa.
Tabella 6
Nella matrice iniziale abbiamo la situazione di un mercato con 10 consumatori. Tante righe quanti sono i consumatori,
tante colonne quante sono le marche. I consumatori sono quindi le unità statistiche e vengono etichettati con una etichetta
numerica (da 1 a 10), a livello di colonne abbiamo il numero totale di confezioni acquistate sul mercato della marca L (49).
Sul mercato in totale sono state acquistate 117 confezioni di caffè. Le QdM si calcolano rapportando il totale di ogni
colonna per il totale generale (per la marca l QdML: 41/117x100). Una volta ottenuta la quota di mercato possiamo
scomporla nei diversi componenti, gamma, beta e alpha.
Per calcolare cK dobbiamo posizionarci nella marca di nostro interesse e contare le celle in cui i numeri sono diversi da 0.
cP, abbiamo già detto che è il totale dei consumatori considerati. Per calcolare aPK dobbiamo individuare le confezioni
acquistate del prodotto p da parte di coloro che hanno acquistato almeno una confezione della marca k. Vediamo la marca
L ad esempio. Possiamo sottrarre al totale delle confezioni vendute sul mercato le quantità acquistate in corrispondenza dei
totali di riga dove per la colonna considerata dei valori sono uguali a 0. Nel caso di L dobbiamo sottrarre 7 (seconda riga) e
1 (quarta riga). 117-8=109. ApkL= 109, apkS=108. Ora dobbiamo calcolare qp e qpk.
Per trovare qP dobbiamo dividere la quantità totale delle confezioni vendute/acquistate sul mercato per il totale dei
consumatori. Qp=117/10= 11.7. Per calcolare qPK, quantità di caffè lavazza mediamente acquistato, dobbiamo dividere
109 per il totale di coloro che hanno acquistato almeno una volta la marca L (8=cL) → 109/8= 13.625. Mediamente
coloro che hanno acquistato almeno una confezione di lavazza hanno acquistato 13.625 confezioni di caffè. E così per
tutte le marche. Adesso possiamo effettuare la scomposizione della quota di mercato:
Nella colonna L abbiamo la scomposizione della QdM della marca L e così per le altre marche nelle altre colonne. Per
verificare di aver fatto bene i conti, dobbiamo moltiplicare i 3 fattori trovati per singola marca e il risultato deve essere
uguale alla QdM calcolata precedentemente.
Dobbiamo interpretare i risultati ottenuti (esame). Dalle QdM si può dire che ci sono due marche leader abbastanza
simili tra loro, che hanno le QdM più elevate, le altre marche hanno meno di ¼ del mercato. Questo mercato è
sicuramente polarizzato, perché la maggior parte degli acquisti si concentra solo su due marche.
Per quanto riguarda l’indice di diffusione, che più si avvicina ad 1 meglio è per quella marca, possiamo dire che in questo
esempio abbiamo indici di diffusione abbastanza alti. Le due marche leader avrebbero ancora dei margini per migliorare la
loro posizione già buona sul mercato per arrivare più vicino ad 1, attraverso accordi più “stretti” con la distribuzione. La
loro presenza deve essere efficiente: può capitare che in alcuni punti vendita non si trova il prodotto, ad esempio, oppure
possono essere nei punti vendita ma non valorizzati adeguatamente (scaffali nascosti o che non seguono una logica),
ancora la presenza del prodotto nel punto vendita potrebbe non essere stata comunicata adeguatamente.
L’indice di fedeltà: i valori di questo indice possono andare da 0 ad 1 e, anche in questo caso, più ci si avvicina all’1 meglio
è, più ci si avvicina allo 0 maggiore è la criticità. In questa tabella gli indici di fedeltà sono abbastanza distanti da 1, quindi
tutte le marche possono fare leva per aumentarlo perché hanno tutte ampi margini. Potrebbero attuare delle campagne di
fidelizzazione, raccolte punti legate all’acquisto di quella marca, premi, estrazioni, accordi con la distribuzione tali per cui
l’acquisto di quel bene attribuisce punti fedeltà. È da notare che le altre marche hanno un indice di fedeltà più basso
rispetto a quello delle marche leader, perché nel loro caso il nome del brand non è importante, caso tipico che si osserva in
questo tipo di analisi, solitamente sono convenienti in termini di prezzo.
Indice di intensità: soglia unitaria che ci permette di discriminare tra le marche. In questo caso non ci sono grosse criticità.
In Italia il mercato del caffè va bene perché gli italiani sono grandi consumatori di caffè. I valori sono tutti abbastanza alti.
Le altre marche, se volessero agire in maniera aggressiva, potrebbero agire sull’indice di intensità con campagne di
marketing, in questo mercato del caffè, tuttavia, si gioca sulla fedeltà.
Per concludere, la stessa logica può essere applicata quando parliamo di vendite anziché di acquisti. Abbiamo presupposto
la raccolta dei dati su un panel di consumatori, ma informazioni analoghe si possono ottenere partendo, ad esempio, da un
campione di venditori/punti vendita. Le marche, i produttori hanno la possibilità di fare questa analisi sia tramite
rilevazioni dirette sui consumatori sia tramite rilevazioni sui punti vendita. Le informazioni sono analoghe, ma invece di
parlare di acquisti si parlerà di vendite (cambierà la simbologia probabilmente, invece di cp per definire i consumatori
magari si userà np). Anziché parlare di acquisti totali (ap) si parlerà di vendite totali (vp). Al posto delle quantità di
confezioni acquistate (ak) si parlerà di confezioni totali vendute (vk). E così per tutti i fattori utili al calcolo della QdM.
LE RICERCHE CAMPIONARIE
Ci occupiamo delle indagini campionarie nell’ambito delle ricerche di mercato, perché la maggior parte delle indagini
vengono svolte in maniera parziale, per cui l’indagine non viene effettuata su tutte le unità statistiche, ma solo su quelle che
fanno parte del campione oggetto d’indagine. La teoria dei campioni indica la modalità di selezione del campione e
fissa dei concetti di tipo probabilistico che consentano all’operatore di effettuare l’inferenza statistica. Attraverso il
calcolo delle probabilità è dunque possibile estendere i risultati ottenuti sul campione alla popolazione dalla quale il
campione deriva.
Dal punto di vista statistico, quando parliamo di indagini campionarie vogliamo effettuare una procedura di carattere
inferenziale, dove per inferenza si intende un procedimento di carattere induttivo attraverso il quale i risultati particolari
ottenuti dal campione si estendono al generale, dunque alla popolazione. Faremo riferimento alla teoria dei campioni e al
concetto di inferenza statistica.
C’è una distinzione tra un’indagine completa ed un’indagine parziale. Quando partiamo dall’impostazione dell’indagine di
mercato, nelle prime 2 fasi è necessario stabilire i contorni dell’indagine, il contesto, l’oggetto, la concorrenza etc. Nelle
altre fasi dobbiamo definire gli obiettivi dell’indagine, quali sono i dati finali ai quali vogliamo pervenire e dobbiamo
circoscrivere la popolazione.
Quindi la definizione della popolazione è fondamentale in un’indagine, perché da questa deriva anche la possibilità di
reperire una lista che descriva le unità statistiche che entreranno a far parte del campione sul quale effettivamente andremo
ad effettuare l’indagine. Quando si parla di popolazione, si usa questo termine in maniera tecnica. Per popolazione in
statistica si intende l’insieme di tutte le unità statistiche individuate come target una volta definito l’obiettivo dell’indagine,
che rappresentano l’obiettivo in relazione all’oggetto dell’indagine. Spesso, in statistica, come sinonimo di popolazione si
usa anche il termine “universo”, perfettamente equivalenti. Nell’esempio fatto sul fast food la popolazione era costituita dalle
donne residenti in Inghilterra, con figli di età uguale o superiore a 12 anni. Una volta definita la popolazione le
informazioni che ricaveremo non riguarderanno quasi mai la popolazione, bensì il campione (una fetta della popolazione).
Se l’indagine fosse fatta su tutte le mamme, si parlerebbe di indagine totale o censuaria. Se facciamo un’indagine sul
sottoinsieme (campione) si parla di indagine parziale o campionaria. Solitamente, quando facciamo un censimento,
preleviamo molte variabili (età, professione, residenza…) e poi le sintetizziamo trovando, ad esempio, l’età media, una
distribuzione delle professioni, reddito medio… quando facciamo operazioni di sintesi dei dati arriviamo alla statistica
descrittiva in cui descriviamo i tratti fondamentali della popolazione di partenza. Quando facciamo un’indagine parziale,
invece, gli indicatori sintetici che usiamo possono descrivere il campione (statistica descrittiva sulla parte di popolazione
estratta), ma se il campione è stato selezionato adeguatamente (requisiti da rispettare) allora è possibile effettuare quel
passaggio inferenziale in cui i risultati ottenuti ci dicono qualcosa non solo sul campione, ma anche sulla popolazione di
riferimento e questo grado di approssimazione può essere misurato in termini probabilistici, se valgono alcune regole di
selezione particolari del campione. Non sempre si può fare questo passaggio inferenziale. Vedremo campioni di tipo
probabilistico e non probabilistico e il passaggio inferenziale è possibile solo nel primo caso. Nel secondo caso ci sarà solo
una descrizione del campione ma non potremmo dare una connotazione in termini probabilistici al campione e al grado di
approssimazione. Quando parliamo di rilevazione, c’è sempre un margine di errore:
• Errore campionario: quando prendiamo il campione e poi sintetizziamo i dati, questi indicatori sintetici possono
essere considerati delle approssimazioni del valore sintetico che avremmo potuto ottenere se avessimo fatto
l’indagine completa. Questo scostamento tra il valore che troviamo sul campione e il valore incognito che
avremmo potuto ottenere indagando la popolazione si chiama errore campionario, che si commette solo nel
momento in cui facciamo un’indagine campionaria. Nel caso di un’indagine totale questo errore non c’è. Si parla di
differenza tra il valore che assume uno stimatore in presenza del campione e il valore del parametro incognito,
quando si parla di errore campionario. L’entità di questa approssimazione dipende da diversi fattori:
- Variabilità del fenomeno, della variabile: immaginiamo di voler misurare il reddito medio delle famiglie di Verona
e ipotizziamo che abbiano tutte lo stesso reddito di 30.000. in questo caso la variabilità è nulla e anche se
prendessimo un campione costituito da una sola famiglia misureremmo in maniera perfetta il reddito a livello di
popolazione. Quando nella realtà la variabile assume valori eterogenei maggiore sarà il grado di approssimazione
che dovremo sopportare in un’indagine. Maggiore sarà l’errore campionario.
- Ampiezza o numerosità del campione: immaginiamo di allargare il campione, fino ad avere una numerosità pari a
quella della popolazione. Il margine di errore campionario sparisce. Più restringiamo la numerosità campionaria
maggiore sarà l’errore campionario e il grado di approssimazione e viceversa.
• Errore non campionario: si possono commettere qualunque sia la tipologia di rilevazione (totale o parziale)
Variabilità campionaria e distribuzione campionaria sono i concetti più importanti. Quando parliamo di un campione
di unità statistiche della popolazione, per selezionare il campione effettuiamo una scelta delle unità statistiche.
Immaginiamo di partire da una popolazione di mille unità (si indica con N=1000) e vogliamo selezionare un campione di
100 unità (la numerosità campionaria in statistica si indica con “n” → n=100). Effettuiamo una rilevazione di informazioni
sulle 100 unità statistiche rilevando 3 o 4 variabili (residenza, età, reddito…) e poi sintetizziamo l’informazione calcolando,
ad esempio, l’età media. Questo è un valore stimato del parametro incognito (età media della popolazione di 1000 unità) e
abbiamo un valore dell’età media riferita a queste 100 unità. Anziché selezionare le prime 100, selezioniamo il campione
dalla 101esima alla 200esima unità e otteniamo una nuova età media. Anche questa è una stima del parametro incognito a
livello di popolazione. Il campione formato dalle prime 100 unità è diverso da quello formato dalla 101esima alla 200esima.
I campioni possibili sono moltissimi e ognuno dei quali darà un risultato sintetico diverso come stima del parametro
incognito “età media”. L’insieme di tutti questi valori dell’età media che ottengo in relazione ai singoli campioni che posso
estrarre, mi danno la distribuzione campionaria dello stimatore “età media”.
In generale, quando si parla di campionamento, si parla di “spazio dei campioni/ spazio campionario” ovvero
l’insieme di tutti i campioni di una determinata numerosità “n”, diversi tra loro e che si possono formare o estrarre a
partire da una popolazione di N unità. Per variabilità campionaria si intende il grado di eterogeneità che esiste in
relazione allo stimatore di un parametro che definiamo sullo spazio campionario. Intendiamo, dunque, che, estraendo
campioni diversi dalla popolazione, otteniamo valori diversi per lo stimatore del parametro incognito (caso dell’età) e
l’insieme di questi valori definiti sullo spazio dei campiono dà la possibilità di costruire la distribuzione campionaria dello
stimatore. Come facciamo a misurare la variabilità campionaria? Se parliamo di variabilità campionaria e la intendiamo
come la variabilità dei valori dello stimatore, ovviamente, la possiamo calcolare, e questo è fondamentale per calcolare lo
stimatore. Dobbiamo confrontare il valore dello stimatore con il valore incognito del parametro. Lo vedremo più avanti.
La selezione delle unità statistiche può essere fatta in modi diversi al fine di scegliere, quindi, quali sono le unità statistiche
che entreranno a far parte dell’indagine. Possiamo distinguere:
Le conseguenze della selezione casuale è che tutte le unità della popolazione hanno una probabilità non nulla di essere
estratte e la probabilità di essere estratta per ogni unità è nota. Una volta deciso il criterio di estrazione, possiamo calcolare
la probabilità. Un’altra conseguenza è che possiamo definire lo spazio campionario. Una volta definito lo spazio
campionario, si può attribuire una probabilità di estrazione ad ogni campione appartenente allo spazio, che si chiama
probabilità di selezione del campione.
Nel campionamento non probabilistico, la scelta della base campionaria avviene attraverso l’utilizzo di criteri di
convenienza e non casualmente. Ovviamente, le considerazioni del campionamento probabilistico non valgono. Non
possiamo applicare le tecniche di inferenza statistica. I piani di campionamento non probabilistico non consentono di
controllare la capacità del campione di rappresentare la popolazione dal quale è stato selezionato (problema della
rappresentatività). Quando si parla di rappresentatività, si intende la capacità di un campione di riprodurre in piccolo le
caratteristiche fondamentali della popolazione dalla quale è stato estratto. Se vogliamo rilevare la propensione all’acquisto
di prodotti per make-up da parte della popolazione, è chiaro che dovremmo rappresentare in maniera congrua maschi e
femmine (50% e 50%). I maschi tendono a consumare meno make-up. Dal punto di vista statistico, questo tipo di
campionamento è delicato perché non consente di sfruttare alcuni strumenti. È meno costoso, richiede meno tempo per
essere eseguito e non c’è la necessità di un elenco delle unità statistiche della popolazione.
28/10/2020
Spesso si utilizzano piani di campionamento non probabilistico proprio perché è più semplice. Ora ci soffermeremo
soprattutto sui piani di campionamento probabilistico, perché è qui che la statistica entra in gioco in maniera massiccia. La
caratteristica principale del campionamento probabilistico è quella di prevedere la selezione casuale delle unità statistiche
che si trovano all’interno (ad esempio) di un’urna. Quando abbiamo un campione probabilistico, possiamo pensare di
estendere i risultati del campione alla popolazione attraverso il processo di stima. Facciamo una rilevazione sulle unità
campionarie e sintetizziamo. La sintesi che facciamo vuole rappresentare o stimare il parametro incognito. La prima cosa
da fare è quella di circoscrivere la popolazione (es. giovani dai 15 ai 25 anni, residenti nelle province di Verona e Vicenza).
In questo modo, è facile individuare la numerosità della popolazione. Il parametro è un numero ed è incognito nella
popolazione. La variabile obiettivo è il numero di ore trascorse in una
settimana davanti lo schermo del cellulare.
A questo punto, somministriamo un questionario alle 1000 unità selezionate e ci saranno domande in cui viene chiesto
quante ore abbiamo trascorso indicativamente sul telefono questa settimana. Si può ottenere un tempo medio di utilizzo
del telefono nelle 1000 unità statistiche. Il valore medio che otteniamo è riferito al campione, perché il valore per la
popolazione non lo conosciamo ed è appunto il parametro incognito. Nel caso del campione, si può ottenere attraverso la
media matematica dei 1000 valori. Il valore medio che otteniamo si chiama stima del parametro. L’applicazione della
media aritmetica su tutti i possibili campioni che possiamo estrarre dallo spazio campionario mi dà la distribuzione dello
stimatore, che non è altro la variabile analitica che usiamo per sintetizzare i dati campionari. Di solito abbiamo un
parametro incognito che vogliamo stimare, il cui valore lo conosceremmo solo se somministrassimo il questionario
all’intera popolazione. Si usa dunque uno stimatore che assume valori diversi in relazione allo spazio campionario. La sua
distribuzione, dunque, è legata allo spazio campionario. Quando estraiamo un solo campione all’interno dello spazio
campionario, facciamo una rilevazione su quel campione e individuiamo un solo valore che verrà chiamato “stima del
parametro”. Esempio degli exit poll, quelli che si ricavano in prossimità delle elezioni. Esempio vogliamo stimare la %
degli elettori che voterà Trump. Prendiamo la proporzione di coloro che votano Trump sul totale. Noi estraiamo un
campione di uguale numerosità.
• Adeguatezza: una lista è adeguata quando copre in maniera adeguata, rispetto agli obiettivi dell’indagine, la
popolazione. Se ad esempio dobbiamo effettuare un’indagine a livello nazionale e prendiamo una lista che ha
copertura solo regionale chiaramente la lista non è adeguata.
• Compiutezza: una lista è compiuta quando contiene tutti gli elementi della popolazione. Uno degli elementi
più critici nella selezione di una lista.
• Assenza di doppioni: un’unità statistica deve essere contenuta una e una sola volta. Esistono liste in cui ci sono
doppioni perché altrimenti quell’unità avrebbe una maggiore probabilità delle altre di essere estratta.
• Accuratezza: capacità della lista di descrivere la popolazione in maniera aggiornata e senza errori.
• Convenienza: una lista è conveniente quando è accessibile (ad esempio in maniera digitale).
Un caso è quello del registro elettorale, che viene utilizzato per avere un’idea del flusso elettorale al momento delle
elezioni. È un elenco di individui che hanno diritto al voto. Ha una copertura molto ampia a livello nazionale (potrebbe
essere adeguata, dunque, per le indagini a livello nazionale), ma non rispetta tutte le caratteristiche. Una delle caratteristiche
non rispettate, ad esempio, è quella dell’accuratezza. Le liste elettorali vengono aggiornate periodicamente, ma non nel
continuo. Se uno, ad esempio, cambia lavoro ma non lo dichiara questo non compare sulla carta d’identità perché la
dovrebbe rinnovare e questa informazione non risulterà mai nel registro elettorale. Un’altra caratteristica non rispettata è
quella della compiutezza, caratteristica che raramente viene rispettata nelle liste di campionamento. Se dal registro
elettorale vogliamo fare un’indagine a partire da una realtà territoriale, il registro non include i minorenni. Se vogliamo fare
un’indagine in cui l’unità statistica è data non dal singolo individuo ma dalla famiglia, le famiglie numerose hanno maggiore
probabilità di essere selezionate.
Un altro esempio di lista di campionamento è dato dall’elenco delle abitazioni, che viene tenuta dall’ex ufficio del
registro e in collaborazione col catasto. Nel questionario corrispondente, verranno chieste informazioni sulle persone e
sulle abitazioni (vani, stato di conservazione…). L’Istat ha a disposizione un elenco delle abitazioni in collaborazione con
l’Agenzia delle Entrate (per la riscossione dell’IMU). Se vogliamo fare una rilevazione in cui le unità statistiche sono le
abitazioni, si tratta di una lista che ha una copertura a livello nazionale, ma è una lista che pecca di compiutezza e
accuratezza (scarsi aggiornamenti della lista).
Altro esempio ancora che riguarda i singoli nuclei familiari, molto usato in passato, è quello dell’elenco telefonici. La lista
potrebbe contenere doppioni, ha buona copertura nazionale ma pecca di alcune caratteristiche. Ancora il registro delle
imprese delle Camere di Commercio. È una fonte privilegiata di liste di campionamento per le imprese, ha una copertura
nazionale. Il problema è la parzialità dell’elenco rispetto alle imprese esistenti, perché hanno l’obbligo di registrarsi solo le
imprese che appartengono al settore secondario e terziario, ma non vige l’obbligo per i liberi professionisti e nemmeno per
le imprese che appartengono al settore primario, come le imprese agricole. Quindi, se vogliamo avere un elenco delle
imprese in generale questo registro non è adeguato, se consideriamo solo le imprese del settore secondario e terziario allora
è una buona lista di campionamento (è adeguata, copre in maniera adeguata la popolazione rispetto agli obiettivi
dell’indagine).
A parte questo ambito degli esperimenti di laboratorio, quando ci occupiamo di scienze sociali come le ricerche di
mercato, le popolazioni sono sempre finite. I temi che trattiamo non possono essere estesi alle popolazioni infinite.
Lo spazio campionario, che è l’insieme di tutti i campioni di dimensione n tutti diversi tra loro che si possono formare a
partire da N, si indica con omega. Possiamo determinare in maniera precisa, una volta definite le modalità di estrazione, la
probabilità di estrazione del campione “c” e quest’ultima la indichiamo con “pc”. Questa è sempre maggiore uguale a
zero per ogni campione che appartiene allo spazio campionario. La probabilità di estrazione, dunque è sempre non
negativa e, inoltre, se sommiamo le probabilità di estrazione prendendo tutti i campioni dello spazio campionario
(sommatoria di tutti i pc), allora questa sommatoria sarà uguale ad 1: questo significa che è sempre certo che possiamo
estrarre un campione di numerosità n da una popolazione di numerosità N. Possiamo anche definire le probabilità di
inclusione che riguardano le singole unità statistiche in un particolare campione. Le probabilità di inclusione possono
essere di ordine diverso.
29/10/2020
STIMATORI E PROPRIETA’
Uno stimatore è sempre interpretabile come una v.c. ed assume valori diversi in relazione ai campioni che appartengono a
Ω, e la probabilità con cui questi valori diversi dello stimatore vengono assunti dipende dalla probabilità di estrazione p(c).
Lo stimatore ha due proprietà: CORRETTEZZA ed EFFICIENZA.
Vedremo due proprietà fondamentali degli stimatori. Lo stimatore di un generico parametro Teta (θ), viene solitamente
indicato con T (maiuscola). Uno stimatore è una funzione dei valori campionari (funzione dei valori che x assume in
corrispondenza delle unità campionarie/statistiche e lo stimatore è una funzione di essi), la funzione la indichiamo con t
minuscola. Uno stimatore può assumere valori diversi in relazione ai diversi campioni che costituiscono lo spazio
campionario e i diversi valori danno idea della distribuzione dello stimatore stesso. Stiamo parlando di campioni
probabilistici, in cui gli elementi che appartengono al campione vengono estratti casualmente. Se vengono estratti
casualmente vuol dire che c’è un elemento di aleatorietà nella definizione delle unità statistiche che entrano a far parte del
campione, quindi ogni valore che assume la variabile obiettivo X in relazione all’unità statistica che deve essere estratta con
incertezza (e ognuno di questi valori) è una variabile casuale. Per questo usiamo, ad esempio, Xi1 maiuscola, il valore che
può assumere la variabile in relazione a i1. C’è un elemento di casualità anche nel valore che assumerà X in relazione con
l’unità.
Ogni singolo valore del campione, dunque, è una variabile casuale e lo stimatore, essendo una funzione di variabili casuali,
sarà anch’esso una variabile casuale. La probabilità di estrazione di ogni singolo campione è la probabilità che lo stimatore
assuma un determinato valore. Ogni variabile casuale, come le variabili statistiche, può essere sintetizzata. Se vogliamo
sintetizzare una variabile casuale si parla di valore atteso.
Quindi il valore atteso di una variabile casuale è il valore medio calcolato tenendo conto della distribuzione di probabilità
connessa a quella variabile casuale (vc). Se vogliamo calcolare il valore atteso dello stimatore (T) dobbiamo applicare la
formula per il calcolo del valore atteso di una variabile casuale che vediamo in alto. Sommatoria dei valori assunti dalla vc
moltiplicato per le probabilità corrispondenti (expectation o valore atteso).
Xc: tutti i valori dello stimatore in relazione ai valori del campione c.
Se parliamo di stimatore inteso come vc possiamo anche definire, oltre al suo valore atteso, un altro indicatore sintetico
(che non è più di livello). Questo indicatore è la varianza.
La varianza nel caso di vc si definisce così: si considerano gli scostamenti dello stimatore in corrispondenza dei campioni
dello spazio omegone, li confrontiamo col valore atteso dello stimatore, eleviamo al quadrato lo scostamento e prima di
fare la sommatoria moltiplichiamo gli scostamenti al quadrato per la probabilità.
Estensione del concetto di varianza sostituendo lo stimatore col parametro [t(Xc) - teta)]. Lo stimatore è una vc che vuole
stimare il parametro incognito.
Per distinguere lo stimatore migliori tra tanti possibili usiamo delle proprietà:
1. CORRETTEZZA: uno stimatore generico t di un parametro teta (θ)si dice corretto quando il suo valore
atteso è uguale al parametro che vuole stimare. Se vogliamo stimare l’utilizzo medio del cellulare tra i giovani,
è chiaro che vogliamo usare uno stimatore che, in media (nello spazio dei campioni), sia uguale al parametro che si
vuole stimare. Se il valore atteso di T è diverso da teta, allora T è uno stimatore distorto di teta e possiamo
calcolare il valore della distorsione [B(T) → b sta per bias] come differenza tra il valore atteso e il parametro
corrispondente. Se uno stimatore di Teta è corretto, il valore atteso è uguale a teta e quindi varianza ed errore
quadratico medio sono uguali. Per uno stimatore corretto, la varianza è uguale all’errore quadratico medio.
Sull’asse dell’ascisse riportiamo il valore che lo stimatore T può assumere in relazione ai valori che X assume in
corrispondenza di c. In ordinate la funzione di densità di probabilità f(T). Se uno stimatore è corretto, in media, il
suo valore atteso sarà proprio uguale a teta. La distribuzione di probabilità di uno stimatore, che ipotizziamo
simmetrica, sarà una distribuzione centrata sul valore del parametro incognito ed è qualcosa di desiderabile. Prima
foto, grafico che chiameremo E(T1) è lo stimatore corretto. Seconda foto, grafico che chiameremo E(T2) è lo
stimatore distorto.
Nel caso in cui si abbia uno stimatore distorto, abbiamo una distribuzione di questo tipo (grafico a destra): il
parametro teta si trova nel punto di incontro tra gli assi. La distribuzione di questo stimatore, però, non è centrata
su teta. Il valore centrale (atteso) di T è più spostato verso destra e teta è diverso dal valore atteso. Abbiamo
probabilità più elevate di stimare in maniera distorta il parametro teta. In questo caso, a parità di altre condizioni,
se devo scegliere tra due stimatori, scelgo quello corretto perché i valori che assumerà saranno prossimi al
parametro che vogliamo stimare. La distanza tra il parametro e il valore atteso (linea rossa) è il bias B(T).
2. EFFICIENZA: per definire l’efficienza dobbiamo farlo in modo relativo, prendendo in considerazione più
stimatori. Dati due stimatori T1 e T2 rispetto allo stesso parametro teta, si definisce stimatore più efficiente lo
stimatore che ha l’errore quadratico medio più basso.
Se vale la disuguaglianza sopra riportata in senso forte (senza l’uguale), T1 è più efficiente di T2. In generale,
diciamo che uno stimatore più efficiente ha l’errore quadratico medio più basso dell’altro. Il concetto non prende
dunque in considerazione il livello, come per la proprietà della correttezza, bensì la variabilità e dispersione
dello stimatore rispetto al parametro che vuole stimare. È chiaro che se vogliamo scegliere tra due stimatori
alternativi per uno stesso parametro sceglieremo quello con variabilità più bassa. Anche questo concetto si può
rappresentare graficamente: abbiamo T1 e T2 come stimatori alternativi del parametro teta. In una prima ipotesi,
immaginiamo che siano entrambi corretti. Se poniamo teta all’incrocio fra gli assi T1 e T2 avranno entrambi una
distribuzione centrata su Teta. Come scelgo il migliore se tutti e due sono corretti? → proprietà di efficienza:
immaginiamo che la distribuzione di T1 sia in nero e T2 in rosso. La seconda è più variabile, ha una varianza più
elevata, per cui si dice che per lo stimatore T1, la varianza di T1 è minore della varianza di T2. Perché i valori di
T1 sono più concentrati attorno al parametro. Essendo entrambi corretti inoltre la varianza è uguale allo scarto
quadratico medio. T1 è più efficiente di T2. A parità di correttezza, lo stimatore più efficiente stima il parametro in
maniera più precisa.
• Media aritmetica: indicatore di sintesi che si può applicare alle variabili quantitative (le cui modalità si esprimono
tramite numeri) e viene usato come parametro di sintesi, e si indica con la lettera greca mu (o mi). Mi si definisce,
in relazione ad una variabile x, come 1/N sommatoria dei valori assoluti della variabile x con i che va da 1 a n.
• Varianza: Potremmo usare uno stimatore T1 che prende il nome di stimatore della varianza campionaria. Ma
possiamo scegliere anche lo stimatore s2. Se prendiamo il valore atteso dello stimatore sigma2 cappello, il suo
valore si può dimostrare che è diverso dal parametro che vuole stimare, mentre se prendiamo il valore atteso di s2,
questo è uguale al parametro che si vuole stimare e s2 viene chiamata varianza campionaria corretta ed è quello
che solitamente viene utilizzato, perché ha una distribuzione centrata sul parametro che si vuole stimare.
• Media (variabile dicotomica): P grande indica la frequenza relativa. Si usa per sintetizzare i valori assunti dalle
unità statistiche di una popolazione in relazione ad una variabile qualitativa dicotomica. Possiede un cellulare di
una determinata marca? La risposta è sì o no. In questi casi la sintesi della variabile dicotomica sulla popolazione si
calcola con la frequenza relativa tramite il rapporto tra coloro che sono interessati al servizio (in questo esempio) e
la popolazione e sarà sempre un valore compreso tra 0 e 1. Quando abbiamo variabili dicotomiche si fa una sorta
di codifica e si utilizzano dei codici numerici che solitamente sono 0 per la modalità che non interessa allo studio,
ad esempio, e 1 per la modalità che ci interessa. Se x è una variabile qualitativa dicotomica che può assumere due
modalità (sì o no, presenza o assenza, possesso o spossesso) e immaginiamo di usare la codifica 0 (per i no ad
esempio) e 1 (per i sì), P si definisce come la media della variabile x. p piccolo è lo stimatore della frequenza
relativa.
I DISEGNI CAMPIONARI – CAMPIONAMENTO CASUALE SEMPLICE
𝑁+𝑛−1
• N° campioni distinti (cardinalità di Ω) estraibili con reimmissione: C’ N, n= ( 𝑛 )
1
• Probabilità di estrazione del campione CR: p(c)= 𝑁+𝑛−1
𝑛
• N° campioni distinti (cardinalità di Ω) estraibili senza reimmissione: C N, n = (N n)
1
• Probabilità di estrazione del campione SR: p(c)= 𝑁
𝑛
𝑛
• PROB. INCLUSIONE I ORDINE CCS SR: пi= 𝑁
𝑛 (𝑛−1)
• PROB. INCLUSIONE II ORDINE CCS SR: пij =𝑁 (𝑁−1)
𝑛!
• COEFFICIENTE BINOMIALE: C n, k= (n k) 𝑘!(𝑛−𝑘)! Dove n! = n(n-1) x (n-2) x…x 2xi
∑𝑛
𝑖=1 𝑥𝑖
• ̅=
STIMATORE DELLA MEDIA CAMPIONARIA (stim. puntuale di µ): 𝒙 𝑛
𝑥̅ −𝐸(𝑥̅ )
• ̅):
MEDIA CAMPIONARIA STANDARDIZZATA: Z (𝒙 → si può dimostrare che E(𝑥̅ ) = µ
√𝑉 (𝑥̅ )
• TEOREMA CENTRALE DEL LIMITE: Z (𝑥̅ ) ~ N (0, 1)
DIMOSTRAZIONE DELLA COSTRUZIONE DELL’IC:
1) Con probabilità pari ad (1-α) la normale standardizzata assume valori compresi tra i due estremi (-𝑧α/2 e + 𝑧 α/2 )
2) P {- 𝑧α/2 ≤z (𝑥̅ ) ≤ 𝑧α/2 } = (1-α)
𝑥̅ −𝐸(𝑥̅ ) 𝑥̅ −µ
3) Sappiamo che z (𝑥̅ )= e che si può dimostrare che E(𝑥̅ ) = µ → P {- 𝑧α/2 ≤ ≤ 𝑧α/2 } = (1-α)
√𝑉 (𝑥̅ ) √𝑉 (𝑥̅ )
4) Moltiplichiamo entrambi i membri per √𝑉 (𝑥̅ ) e portiamo al di fuori 𝑥̅ → P{ 𝑥̅ − 𝑧α/2 √𝑉 (𝑥̅ ) ≤ µ ≤ 𝑥̅ + 𝑧α/2 √𝑉 (𝑥̅ )}= 1-α
5) Per calcolare la varianza dello stimatore della media campionaria dobbiamo usare s2 , la stima corretta di σ 2, nel calcolo di
̂𝒙
𝑽( ̅) (CR O SR) e sostituirlo nel calcolo della stima intervallare di µ utilizzando l’informazione campionaria →
̂𝒙 ̂𝒙 𝒔𝟐 𝒔𝟐
→ P{𝑥̅ - 𝑧α/2 √𝑽( ̅) ≤ µ ≤ 𝑥̅ + 𝑧α/2 √𝑽( ̅)}= (1-α) → caso del CCS SR: P{𝑥̅ - 𝑧 α/2 √ (𝟏 − 𝐟) ≤ µ ≤ 𝑥̅ + 𝑧α/2 √ (𝟏 − 𝐟)}= (1-α)
𝒏 𝒏
Nel CCS CR il fattore (1-f) si elimina
Se n è sufficientemente elevato la distribuzione campionaria dello stimatore 𝑥̅ può essere approssimata con una normale → 𝑥̅ ≈
σ2 𝑁−𝑛 σ 2
N(µ, ) [CCS CR] ; 𝑥̅ ≈ N(µ, ) [CCS SR]
𝑛 𝑁 𝑛
STIMA DI UNA PROPORZIONE (FREQUENZA RELATIVA): media aritmetica di una variabile che assume esclusivamente i valori
{0, 1} – variabili dicotomiche o dummy. 1= presenza attributo; 2= assenza → avviene una codifica (da v. qualitativa a v.
quantitativa dummy)
La frequenza relativa P è la media dei valori assunti dalla variabile dicotomica codificata al fine di calcolare la % di interessati.
∑𝑁 𝑥𝑖
• PARAMETRO INCOGNITO P (FREQ. RELATIVA O PROPORZIONE): P= 𝑖=1 𝑁
dove xi= 0 → assenza di attributo d’interesse; xi= 1 → presenza di attributo di interesse
∑𝑛 𝑥𝑖
• STIMATORE CAMPIONARIO PUNTUALE FREQ. RELATIVA: p= 𝑖=1 → % di chi possiede l’attributo a livello
𝑛
campionario
* p di P è uno stimatore corretto tale per cui E(p)=P
𝑝−𝑃
• FREQUENZA RELATIVA CAMPIONARIA STANDARDIZZATA: Z(p) =
√𝑉(𝑝)
𝑝−𝑃
• TEOREMA CENTRALE DEL LIMITE: Z(p) = ~ N (0, 1) per n→∞
√𝑉(𝑝)
• INTERVALLO DI CONFIDENZA PER P: P {p-𝑧α/2 √𝑉(𝑝) ≤ P ≤ 𝑝 + 𝑧α/2 √𝑉(𝑝)}= 1-α
𝑃(1−𝑃) 𝑃(1−𝑃)
CCS CR: P {p-𝑧α/2 √ ≤ P ≤ 𝑝 + 𝑧α/2 √ }= 1-α
𝑛 𝑛
𝑃(1−𝑃) 𝑃(1−𝑃)
CCS SR: P {p-𝑧α/2 √ (1 − 𝑓) ≤ P ≤ 𝑝 + 𝑧α/2 √ (1 − 𝑓) }= 1-α
𝑛 𝑛
̂ 𝑝), P (pi grande) sarà sostituito da p (pi piccolo) per il calcolo intanto della
a livello di campione per il calcolo di 𝑉(
stima della varianza non distorta, la quale verrà poi impiegata nell’IC per la stima intervallare a livello campionario
𝑃(1−𝑃) 𝑃(1−𝑃)
• VARIANZA TEORICA DI P CCS CR: V(P)= ; VARIANZA TEORICA DI P CCS SR: (1-f)
𝑛 𝑛
• ̂ 𝑝)= 𝑝(1−𝑝); CCS SR: 𝑉(
STIMA DELLA VARIANZA STIM. P CCS CR: 𝑉( ̂ 𝑝)= 𝑝(1−𝑝)(1-f)
𝑛 𝑛
• ̂ ≤ P ≤ p+ 𝑧α/2√𝑽(𝒑)
IC: P {p- 𝑧α/2√𝑽(𝒑) ̂ }= 1 – α
Le prime due tipologie sono piani di campionamento elementari. I tre successivi vengono chiamati piani di
campionamento complessi. Il CCS è alla base dei piani di campionamento complessi. La loro caratteristica fondamentale è
che le unità campionarie vengono selezionate in base ad un criterio di casualità e la probabilità di essere incluse nel
campione è nota. La selezione avviene attraverso un’estrazione, nel caso dei piani di campionamento probabilistici. Visto
che ci deve essere un elemento di casualità, dobbiamo definire un metodo casuale di estrazione. Dal punto di vista classico,
quando si parla di metodi di estrazione delle unità statistiche da un campione, si prende l’esempio dell’urna che contiene
dei bussolotti di uguale colore e materiale che contengono un’etichetta all’interno con le unità statistiche. Nella realtà,
tuttavia, non si usa mai un’urna, bensì modalità più snelle e semplici da adottare. Prima si utilizzava il metodo delle tavole
dei numeri casuali, adesso si usano i software di generazione di numeri casuali [o, meglio, pseudo-casuali, perché non
rispettano in maniera perfetta la casualità, in quanto i numeri sono generati da un algoritmo sottostante molto complesso e
dunque difficilmente riproducibile, ma che se si potesse riprodurre comprometterebbe la casualità (anche excel ce l’ha)].
Questo è un piano di campionamento che viene definito estraendo un certo numero n di unità statistiche da una
popolazione N. L’esempio classico che si fa è quello dell’urna. Abbiamo due modi di procedere:
o estrazione con re-immissione (si rimette il bussolotto nell’urna, l’unità statistica quindi nella seconda estrazione
l’urna avrà la stessa composizione iniziale)
o estrazione senza re-immissione (non si rimette il bussolotto nell’urna, la cui composizione, dunque, cambierà)
La conseguenza della re-immissione a livello pratico è che si potrebbe estrarre più volte la stessa unità statistica, per
questo il piano di campionamento casuale semplice con re-immissione viene chiamato anche “a ripetizione”. La modalità
senza re-immissione prevede che ogni unità statistica estratta venga lasciata da parte, dunque cambierà la composizione
dell’urna dopo ogni estrazione. La conseguenza, in questo caso, è che la stessa unità statistica può essere estratta una volta
sola e il piano di campionamento casuale semplice in questo caso è chiamato “senza ripetizione” o “campionamento
casuale semplice con estrazione a blocchi” (nel senso che si può anche estrarre un blocco intero, ad esempio pari alla
numerosità campionaria). Dal punto di vista probabilistico cambia la probabilità di estrazione delle singole unità
statistiche. Perché nel caso di estrazione “con ripetizione” ogni unità ha la stessa probabilità di essere estratta, nel
secondo caso no, perché cambia la numerosità campionaria.
30/10/2020
Vediamo come stimare il parametro mi, il parametro della media aritmetica. Immaginiamo di voler stimare quanto le
famiglie italiane mediamente investono in titoli di stato. Estraiamo un campione dalle famiglie italiane per rilevare tale
informazione. Per calcolare questo valore approssimato utilizziamo lo stimatore fondamentale di mi che è dato da:
Sommatoria di tutti i valori campionari (assunti dall’investimento in titoli di ogni singola famiglia) e diviso
per la numerosità campionaria → STIMA PUNTUALE DEL PARAMETRO. Nel caso specifico diciamo che x sopra
segnato è uno stimatore puntuale del parametro mi, puntuale perché assume un unico valore in relazione ad un
determinato campione.
Quando si fanno i sondaggi elettorali, vogliamo avere una stima della percentuale di votanti per un determinato partito.
Durante gli exit poll si parla delle cosiddette “forchette”, ovvero (in statistica) un intervallo di confidenza, intervallo di
valori di cui conosciamo gli estremi. È un intervallo all’interno del quale la % effettiva che otterrà il partito è contenuta a
priori, con una certa probabilità. Si tratta sempre di stime che devono essere valutate dal punto di vista probabilistico,
perché stiamo facendo inferenza statistica. Solitamente, quando abbiamo una rilevazione campionaria, non ci
accontentiamo di una stima puntuale, di un singolo valore, ma passiamo da una stima puntuale ad una stima intervallare.
Ora vediamo come costruire l’intervallo di confidenza con e senza reimmissione. Facciamo un passo indietro: uno
stimatore come sappiamo può sempre essere inteso come una variabile casuale e una vc ha una determinata distribuzione
di probabilità. I valori che può assumere uno stimatore sono legati alle singole probabilità di estrazione del campione. Il
valore atteso, la varianza, lo scarto quadratico medio vengono chiamati “i momenti” di una variabile casuale,
rispettivamente I momenti di ordine I per il valore atteso; la varianza è il momento di ordine II rispetto al valore atteso.
Considerando questi momenti (primi due), vediamo come si può procedere per ottenere un intervallo di confidenza del
parametro mi. Quando in statistica si parla di standardizzazione di una variabile si tratta di un procedimento che sottrae
alla variabile la sua media, per poi dividere per lo scarto quadratico medio.
Si può dimostrare che il valore atteso di x sopra segnato è uguale a mi e dunque lo stimatore della media campionaria è
uguale al parametro mi che vuole stimare.
Si può anche dimostrare, e ciò deriva dal Teorema centrale del limite [TCL]), che la media campionaria standardizzata
[Z (x sopra segnato)] ha una distribuzione nota. La forma a campana ricorda una distribuzione normale, la distribuzione di
una vc in cui i valori hanno una probabilità che si distribuisce in maniera simmetrica rispetto al valore medio. La
probabilità di accadimento dei valori di questa vc che sono concentrati intorno alla media e la probabilità tende a diminuire
man mano che ci si allontana dalla media.
La vc cosiddetta “Gaussiana” è fondamentale in statistica perché ha una formulazione molto semplice, può essere
utilizzata spesso per analizzare l’andamento di alcuni fenomeni. Uno degli ambiti in cui viene utilizzata è quello in cui si fa
inferenza su un parametro. La vc media campionaria standardizzata si distribuisce (tilde-s orizzontale) come una normale
(o di Gauss) caratterizzata da due parametri (il valore atteso e i parametri) con media 0 e varianza unitaria (foto sotto).
→ variabile casuale zeta di x sopra segnata che si distribuisce come una normale di
media zero e varianza 1. Questo è il risultato del Teorema centrale del limite (TCL) e vale in termini “asintotici”, ovvero
che vale quando la numerosità campionaria (n piccolo) tende a + infinito. Quindi, se la numerosità del campione tende ad
aumentare, allora la distribuzione di z x sopra segnato tende ad essere approssimata ad una normale standardizzata. Questo
limite ci dice che il risultato che vediamo vale quando la numerosità campionaria è sufficientemente elevata (cosa che in
statistica abbiamo già quando n > 30 → numero sufficientemente elevato). Se vale il TCL, questa vc media campionaria
standardizzata ha una distribuzione di probabilità, ha una funzione di densità, è una normale (0,1) dalla forma classica a
campana e, se vale questo, possiamo fare riferimento ai valori conosciuti dei quantili alpha.
Dal punto di vista grafico, possiamo vedere che abbiamo la funzione “f” della variabile casuale media campionaria
standardizzata. Sull’asse delle ordinate avremo la densità di probabilità di Z (x sopra segnato/barra alta). Se prendiamo due
valori equidistanti rispetto allo zero, che chiamiamo – z alpha mezzi e + z alpha mezzi, questa area sottesa la curva per
valori compresi tra questi due estremi è pari a 1 – alpha. Con probabilità pari ad 1 – alpha, la normale standardizzata
assume valori compresi tra gli estremi. All’esterno considerando le code avremo una probabilità totale pari ad alpha perché
l’integrale totale deve essere uguale ad 1, ma visto che la distribuzione è simmetrica questo vuol dire che nelle due aree
rosse che vanno verso + e – infinito avremo una probabilità pari ad alpha mezzi e sommandole avremo 1(alpha). Possiamo
dunque dire che, con probabilità uguale ad 1 – alpha, la media campionaria standardizzata sarà compresa tra i due estremi.
A partire da questa formula sostituiamo.
Moltiplichiamo ogni membro della disuguaglianza per la radice quadrata della varianza; togliamo ad ogni membro della
doppia disuguaglianza x sopra segnato così che dentro rimanga solo – mi e a quel punto moltiplicheremo ogni membro
della doppia disuguaglianza per -1 e cambia il verso della doppia disuguaglianza e al centro dell’intervallo alla fine rimarrà il
parametro incognito mi, compreso tra i due estremi che si vedono in foto (terza formula).
Questa formula ci serve per definire l’intervallo di confidenza, i valori della cosiddetta “forchetta”. Vogliamo ad esempio
conoscere i due estremi in cui si trovano i valori dell’investimento medio in titoli di stato. Dovremo dare dei valori a x
sopra segnato e v di x sopra segnato. X sopra segnato è semplice perché applichiamo la formula dello stimatore ai dati
campionari. V di x sopra segnato per calcolarlo dobbiamo stimarlo a partire dai dati campionari. Per fare questo ci viene in
aiuto la teoria che dice che v di x sopra segnato è uguale a sigma2 fratto n (numerosità campionaria), nel caso di
campionamento casuale semplice con reimmissione, mentre nel caso di ccs senza reimmissione v di x sopra segnato è
uguale a sigma2fratto n moltiplicato per 1 – f dove f è il tasso di campionamento (n/N)
La varianza di questo investimento a livello di popolazione, cioè quanto si differenzia l’investimento nei titoli su tutte le
famiglie italiane. Sigma2 non lo conosciamo perché stiamo facendo inferenza sulla popolazione. Col campionamento senza
reimmissione dobbiamo fare i conti con la complicazione di (1-f) che si chiama “fattore di correzione per popolazioni
finite”. Dobbiamo sostituire a sigma quadrato una sua stima campionaria, per trovarne il valore. La stima campionaria di
sigma2 è data da s quadrato che è la stima corretta della varianza e questo è qualcosa che possiamo tranquillamente
calcolare a partire dai dati campionari. Nel caso di CCS con reimmissione v di x sopra segnato cappello (stima della var
della media campionaria) sarà uguale ad s2 / n. Nel caso di CCS senza reimmissione:
dove
Ora immaginiamo di estrarre un campione n=4 ed estraiamo un campione senza ripetizione. Allora dovremmo estrarre
casualmente 4 numeri compresi tra 1 e 10 immaginando che ad ogni unità statistica sia stata attribuita un’etichetta
numerica e quei numeri mi dicono quali sono le 4 unità che estraggo dalla popolazione. Immaginiamo di avere estratto le
etichette 3,10,4,6 e i valori delle unità campionarie sono (25, 28, 29, 26) anni, corrispondenti alle 4 etichette estratte. Il tasso
di campionamento è del 40 %. Il campione ci serve per avere una stima puntuale ed intervallare del parametro mi.
Vogliamo arrivare ad ottenere una stima puntuale e intervallare del parametro mi a partire dai dati campionari.
Stima puntuale di mi → prendere i 4 valori in corrispondenza delle 4 unità, li dividiamo per n=4 e otteniamo che l’età
media campionaria è uguale a 27. C’è un certo scostamento rispetto al valore vero nella popolazione e quello del campione
estratto. Nella realtà queste considerazioni non si possono fare. In questo caso abbiamo estratto un campione un po’ più
vecchio e dunque non è molto rappresentativo della popolazione perché sovrastima il parametro. Vogliamo passare da una
stima puntuale ad una…
… Stima intervallare di mi → dobbiamo stabilire il valore da attribuire a z a/2 (si dovrà consultare la tavola della normale
standardizzata → dove le righe rappresentano i quantili fino alla prima cifra decimale, la seconda cifra decimale invece
viene riportata sulle colonne: ad esempio 1,12 sulle righe vado su 1,1 e poi sulle colonne in prossimità della cifra 2
[0,86864]) , valore di confidenza che vogliamo attribuire alla stima intervallare (es ipotizziamo un livello di confidenza del
[0.95] 95%, alpha sarà uguale a 0.05) e vogliamo dare un valore a v di x sopra segnato cappello che nel caso del
campionamento senza reimmissione è uguale alla formula sopra.
Con una probabilità pari al 95% il parametro mi sarà compreso tra 25.61 e 28.39. L’interpretazione che possiamo dare al
livello di confidenza: sappiamo che se potessimo estrarre tutti i campioni dello spazio campionario (in questo caso di
numerosità 4 senza ripetizione da una popolazione di 10) il 95% restituirebbe un intervallo di confidenza, quindi degli
estremi, che contengono il valore del parametro incognito. Il 95% dei campioni sono dei buoni campioni perché
contengono il valore vero del parametro. Questo nella realtà non si può fare, per questo assegniamo un grado di
confidenza sperando che il campione sia nel 95% dei “campioni buoni”. Noi conosciamo il valore effettivo di mi pari a
24.7 anni. Estraendo il campione abbiamo determinato un intervallo di confidenza i cui estremi non contengono il valore
di mi (la media è inferiore alla media). Siamo caduti nel 5% dei campioni che restituiscono un intervallo di confidenza i cui
estremi non contengono il parametro vero. Alcuni campioni possono dunque portare a conclusioni sbagliate che vengono
indicate da alpha (5%). La media aritmetica è l’indicatore sintetico fondamentale di una variabile quantitativa.
Nel caso in cui, anziché essere interessati a sintetizzare i valori di una vqt, fossimo interessati a sintetizzare i valori di una
variabile qualitativa dicotomica (modalità rappresentate da parole e sono solo due le modalità), in questo caso il parametro
di interesse è la frequenza relativa (P). Questa è data dal rapporto tra il numero di persone che possiedono l’attributo
desiderato e il numero totale di individui intervistati a livello di popolazione (N). Solitamente, le variabili nominali
dicotomiche vengono codificate attribuendo il valore 0 al non possesso dell’attributo di interesse e 1 al possesso
dell’attributo di interesse (es. possiedi il telefono= 1; non possiedi il telefono=0).
Nella codifica si dice che la nuova variabile che si ottiene da tutti i 0,1 si configura come una variabile dummy (sciocca)
perché assume i soli valori zero-uno. In questo caso, P si può ottenere come media di una variabile dummy cioè in cui al
numeratore mettiamo la sommatoria degli xi (0 o 1) e al denominatore N e la frequenza relativa (o proporzione → ci dà la
frazione di unità statistiche che possiede l’attributo di interesse) assume sempre valori compresi tra 0 e 1. Se espressa in
percentuale indica l’incidenza della presenza dell’attributo nella popolazione es. P=0.30→30% → il 30% degli individui è
soddisfatto del servizio offerto dall’azienda.
Vediamo qual è lo stimatore puntuale di questo parametro incognito e vediamo come costruire una stima intervallare per il
parametro P. Il parametro di interesse Teta sarà uguale a P.
Lo stimatore puntuale di P (grande) viene individuato da p (piccolo) che a livello di campione verrà calcolato allo stesso
modo, ma al denominatore troveremo la numerosità campionaria “n” e non N a livello di popolazione. P piccolo, dunque,
è lo stimatore della frequenza relativa campionaria. Se vogliamo dare un singolo valore allo stimatore “p” prendiamo i
valori in un campione estratto, andiamo a rilevare la risposta alla domanda possiede/o no in corrispondenza delle unità
statistiche appartenenti al campione, rileviamo i 0-1, li sommiamo, il numero totale ci darà il numero di coloro che
possiedono il bene che fratto n piccolo ci darà una stima della % di coloro che possiedono quel determinato bene. Se
vogliamo passare dalla stima puntuale alla stima intervallare dobbiamo seguire i passaggi per ricavare la stima intervallare
per mi. P piccolo sarà una vc che assume diversi valori in base al campione estratto nello spazio campionario con
probabilità date dalla probabilità di estrazione dei singoli campioni ed essendo una vc avrà un suo valore atteso e una sua
varianza. Si può dimostrare che il valore atteso della frequenza relativa campionaria è uguale a p grande (come per la media
campionaria) quindi p piccolo è uno stimatore corretto di p grande (P). Esiste un teorema centrale del limite anche in
relazione anche alla frequenza relativa campionaria e per arrivare alla sua formulazione dobbiamo prima definire una nuova
variabile che è la variabile aleatoria frequenza relativa campionaria standardizzata. Si dimostra nel teorema centrale del
limite per la frequenza relativa che la frequenza relativa campionaria standardizzata si distribuisce come una variabile
aleatoria normale standardizzata quando n tende a + infinito. A questo punto possiamo costruire un intervallo di
confidenza per z(p). Adesso P grande indica la probabilità, e dice che con probabilità pari ad 1 – alpha la frequenza relativa
campionaria standardizzata sarà contenuta tra – e + z alpha/2. E avremo un intervallo di confidenza in cui è incluso anche il
parametro da stimare. Eseguendo i passaggi visti anche per la media standardizzata si può arrivare alla formulazione in cui
all’interno dell’IC troviamo il parametro incognito e l’IC per P (p grande) sarà dato dai due estremi che otteniamo.
Se vogliamo calcolare questi estremi conosciamo p piccolo, zeta alpha/2 possiamo trovarlo nella tavola e dobbiamo trovare la
varianza della frequenza relativa campionaria, ma che sappiamo essere uguale a (foto a dx, nei rispettivi casi di CCS con
reimmissione e senza reimmissione). Per passare da v(p) teorico a v(p) stimato (cappello) basta sostituire a p grande la sua
stima puntuale (terza formula foto a dx).
Per calcolare la stima puntuale del grado di interesse faremo il rapporto tra il numero di coloro che hanno detto di essere
interessati e il totale degli intervistati, e questa è la stima puntuale. Se vogliamo passare alla stima intervallare dobbiamo
prima di tutto stimare la varianza dello stimatore “frequenza relativa campionaria”, con reimmissione o senza
reimmissione.
Soluzione
Come al solito partiamo dal parametro media aritmetica (mi). La variabile obiettivo sarà una variabile quantitativa perché,
ad esempio, vogliamo stimare la spesa media in un determinato intervallo di tempo. In questo caso abbiamo detto che la
stima per intervallo del parametro mi sarà dato dall’espressione sotto riportata. Abbiamo detto che l’ampiezza dell’IC è
data dalla differenza tra estremo superiore e inferiore. Dopo alcuni passaggi algebrici come mostra la foto (dobbiamo
cambiare il segno ai fattori dell’estremo inferiori) rimane l’ultima formula che si vede in foto, previa semplificazione, che ci
consente di trovare “D”.
La formula di n nel riquadro indica la numerosità campionaria minima per stimare il parametro mi con un grado di
precisione dato da D, un livello di precisione pari ad alpha e un grado di variabilità misurato da sigma 2. Se vogliamo ridurre
la numerosità campionaria quindi potremmo agire su ognuno di questi elementi. Se diminuiamo il quantile della normale
standardizzata dobbiamo aumentare alpha e ridurre il livello di confidenza possiamo avere un n più basso; oppure per
ottenere una numerosità campionaria più bassa servirebbe una variabilità della variabile obiettivo più bassa; ancora
potremmo aumentare il livello di precisione D a parità di altre condizioni (se D diminuisce, aumenta la precisione).
Per incrementare la precisione, a parità di altre condizioni, dovremmo aumentare la numerosità campionaria. Se vogliamo
una precisione pari a 10 e stimare dunque una spesa per un determinato bene con uno scarto di 10 € in più e in meno
dovremmo conoscere la variabilità della spesa, il livello di confidenza e utilizzando questa formula potremmo ottenere la
numerosità minima necessaria per raggiungere il nostro obiettivo di stima con uno scarto di 10 €. Se volessimo una stima
più precisa D, ad esempio, deve passare da 10 € a 5 €, e la numerosità dovrà aumentare. Se dimezziamo D raddoppiamo la
precisione e l’effetto su n sarà elevato al quadrato. Per raddoppiare la precisione dovremmo dunque quadruplicare la
numerosità campionaria.
6/11/2020
NUMEROSITÀ OTTIMALE
- C’è una relazione diretta con il quantile della normale standardizzata e con sigma2→ se aumentano Z alpha/2 e
sigma2 aumenta n
- C’è una relazione inversa con la semi-ampiezza dell’IC (D)→ Se aumenta D diminuisce n
A parità di altre condizioni, se aumentiamo Z alpha/2 (aumentiamo 1-alpha), quindi vogliamo aumentare il livello di
confidenza, allora dobbiamo aumentare la numerosità campionaria minima perché c’è una relazione diretta.
Sigma2 è la varianza della variabile obiettivo X (x grande) e se, ad esempio, vogliamo stimare attraverso un IC il tempo
trascorso settimanalmente davanti al cellulare da parte dei giovani, sigma2 è la varianza del tempo trascorso davanti al
cellulare, cioè quanto ognuno di noi si differenzia dagli altri in termine di ore settimanali ed è un parametro incognito
(valore a livello di popolazione) e ad aumentare la varianza aumenta la numerosità minima necessaria per ottenere questo
livello di precisione. Su sigma2 non possiamo incidere, è qualcosa che viene dato e dipende dalla variabilità del fenomeno,
un fattore che subiamo.
Ultimo valore che influenza n da considerare è D, lo scostamento in valore assoluto tra la stima puntuale e il parametro
incognito. In questo caso c’è una relazione inversa con n quindi all’aumentare di D diminuisce la numerosità minima
necessaria, a parità di altre condizioni. Se vogliamo diminuire D e aumentare la precisione, a parità di altre condizioni,
aumenta la numerosità campionaria n per quel livello di precisione che vogliamo ottenere.
Dobbiamo considerare che D è elevato al quadrato, quindi, c’è una relazione quadratica inversa tra n e D, quindi se
vogliamo raddoppiare la precisione dobbiamo dimezzare D (ad esempio vogliamo passare da uno scarto di 2 ore ad
un’ora), e a parità di altre condizioni la numerosità dovrà quadruplicare (come si
può evincere dalla dimostrazione sotto).
Dobbiamo anche considerare la numerosità della popolazione di partenza in questo caso. Nel caso con reimmissione N
poteva anche essere trascurato.
La numerosità ottimale, dunque, è la dimensione MINIMA necessaria per un determinato livello di precisione e
determina una sorta di soglia oltre la quale non si deve andare, se vogliamo un determinato risultato in termine di
precisione.
Quando siamo interessati alla numerosità ottimale campionaria, ci troviamo nella fase di ricerca di mercato in cui
dobbiamo ancora estrarre le unità campionarie, prima ancora di effettuare l’indagine (fase 3 → decisione sul piano di
campionamento). Se siamo in questa fase, non abbiamo ancora nessun dato a disposizione sulle singole unità, non
sappiamo ancora a chi somministrare il questionario. Sigma2, dunque, è assolutamente ignoto. Non abbiamo alcuna
indicazione per stimarlo perché non abbiamo ancora fatto la rilevazione, perché dobbiamo ancora effettuare l’estrazione
dall’urna. Questo porta a delle complicazioni, ovviamente, e vuol dire che dovremo cercare di stimare sigma2
preliminarmente all’indagine statistica vera e propria. Ci sono 2 possibilità, e possono essere usate entrambe:
- Effettuare un’indagine pilota → un’indagine campionaria vera e propria, effettuata su poche unità statistiche
(solitamente una decina), che possiamo selezionare anche con campionamenti di tipo non probabilistico, per avere
informazioni preliminari sulla calibrazione dei nostri strumenti e sul valore preliminare di sigma2 per trovare la
numerosità ottimale. Questa viene effettuata con un piano di campionamento comodo su un numero molto basso
di unità e non necessitiamo di somministrare un questionario completo alle unità stesse che appartengono
all’indagine pilota, anzi. Di solito viene usata per testare i nostri strumenti di rilevazione, oltre che per dare un
valore iniziale a sigma 2, e anche per calibrare il questionario. Nell’indagine pilota abbiamo la possibilità di
somministrare una domanda aperta, da sfruttare successivamente nel questionario definitivo sotto forma di
domanda chiusa con possibilità di risposta finite.
- Utilizzare informazioni che derivano da fonti secondarie → potremmo andare a vedere se esistono indagini
effettuate da società o enti su questo tema che negli anni passati hanno rilevato la stessa variabile e la stessa
variabilità. Vedere se l’Istat ha fatto qualche indagine sull’utilizzo del telefono da parte dei giovani.
Fino ad ora abbiamo parlato della numerosità ottimale campionaria (minima) per ottenere un determinato livello di
precisione, la stima di mi. La variabile obiettivo era dunque quantitativa (fatturato, tempo medio di utilizzo del cellulare,
consumo di un bene in un intervallo di tempo…) e dunque il parametro di interesse da stimare è mi.
Nel caso in cui, invece, ci interessasse la rilevazione di variabili qualitative dicotomiche, il parametro di interesse che
sintetizza l’informazione derivante dalla rilevazione di tale variabile è la frequenza relativa. In questo caso l’intervallo di
confidenza è identico:
Per calcolare la numerosità ottimale, in questo caso, analogamente a quanto fatto per il parametro mi, dobbiamo usare una
formula di questo tipo (foto sotto), in cui al posto di sigma2 abbiamo la varianza della variabile casuale di Bernoulli.
Quando abbiamo una variabile dicotomica, la variabile di riferimento è la variabile Bernoulliana. Se conosciamo la
frequenza relativa, allora sigma2, la varianza della variabile con distribuzione bernoulliana, ha questa formula:
La varianza di una variabile bernoulliana assume il suo valore massimo quando P= 0,5. Sapendo che P è compreso
tra 0 e 1, Quando vogliamo calcolare la numerosità minima che ci consente di arrivare ad una stima con un errore non
superiore a D, basta che sostituiamo a sigma2, nella formula, il suo valore massimo, se non abbiamo alcuna conoscenza
preliminare di P. Esercizio 1 (vecchie prove d’esame).
Abbiamo due variabili: Età (<16 anni o >= 16 anni) e sesso (maschi e
femmine). Individuiamo dunque quattro gruppi all’interno della
popolazione per i quali vengono fornite le frequenze relative (ad
Esempio il 16% è costituito da maschi con età inferiore a 16 anni).
Vogliamo stimare la proporzione di interessati con uno scarto in
eccesso o in difetto con uno scarto non superiore al 3% (D) e il livello
di confidenza sarà pari al 99%.
0.75 x 0.25 sarebbe P (1-P). La numerosità minima campionaria sarà uguale a 90.567 (approssimato per eccesso).
Il tasso di campionamento ottimale sarà pari a n*/N = 7.55%. Tasso di campionamento che garantirà il livello di
precisione che interessa la nostra indagine, date l’IC, la variabilità data la conoscenza di P, e la numerosità campionaria.
Vogliamo stimare l’intenzione di spesa mensile delle famiglie con una precisione non inferiore a 10 €. Il parametro di
interesse sarà mi (vogliamo stimare la spesa media mensile per prodotti LCC da parte delle famiglie residenti a Verona). La
variabile obiettivo X da rilevare sarà la spesa mensile per questi prodotti LCC. D=10€ (l’errore in eccesso o in difetto nella
stima di mi non deve superare 10 €).
Si usa un CCS senza reimmissione. Per quanto riguarda la numerosità della popolazione N è 340.000, però l’unità statistica
non sono i singoli individui, bensì le singole famiglie. Per stabilire la popolazione dobbiamo calcolare il numero di famiglie.
Conosciamo il numero di individui e il numero medio di individui per famiglia quindi dovremo dividere 340.000/3.2
Sappiamo che se viene data la precisione parleremo di numerosità minima ottimale. In questo caso la conosciamo già.
Quindi qual è il valore della varianza della spesa mensile utilizzato per ottenere la numerosità minima? → Si tratta di una
formula inversa. Conosciamo N, Z alpha/2, l’unica incognita è la
varianza sigma 2. Dobbiamo trovare s2 .
Anche questo rientra tra i piani di campionamento elementari, così come il CCS. Immaginiamo di avere una popolazione,
ad esempio, le famiglie e abbiamo una lista in cui vengono riportate le 106.000 famiglie residenti in provincia di Verona
con il nome del capo famiglia e il Codice Fiscale del capo famiglia. Decidiamo di effettuare un’indagine attraverso il
campionamento sistematico.
Innanzitutto, dobbiamo stabilire la numerosità campionaria. La prima cosa da fare è quella di calcolare il cosiddetto
“Passo di campionamento” che solitamente indichiamo con k (k=N/n) che è il
reciproco del tasso di campionamento (n/N). Passo di campionamento:
106.000/1000= 106 → significa che andrò ad intervistare una famiglia ogni 106.
Questo prevede che in una lista di campionamento in cui abbiamo tutte le unità
della popolazione, si selezioni un elemento ogni passo di campionamento. Si deve
stabilire da dove partire con questa selezione. Per partire bisogna stabilire la
posizione di partenza, che viene determinata in maniera casuale. Per questa ragione
il piano di campionamento sistematico, contrariamente a quanto il nome
“sistematico” suggerisce, è un piano di campionamento casuale probabilistico. Si
estrae casualmente un numero compreso tra uno e il passo di campionamento (in questo caso 106).
6/11/2020
Esercizi di vecchi esami sul campionamento casuale semplice sulle slide “Esami passati →ESERCIZI CCS”
12/11/2020
La fase di selezione delle unità statistiche è molto rapida perché, una volta che si
ha la lista di campionamento, basta fare una estrazione e le unità statistiche
vengono selezionate in maniera automatica. Ipotizziamo che si voglia estrarre un
campione in maniera sistematica da una popolazione di individui, in cui trova una
lista di campionamento di tipo “maschio-femmina”. Se dovessimo scegliere le
unità statistiche che occupano la posizione pari, sceglieremmo sempre le donne.
Se le liste presentano una periodicità come quella maschio-femmina, questo
potrebbe portare a selezionare un campione cattivo, formato solamente da sole
donne o da soli uomini (se si scelgono le unità statistiche che occupano la
posizione dispari) in questo caso. Questo è il problema legato al campionamento sistematico, che potrebbe essere
condizionata in maniera distorsiva la rappresentatività della popolazione per effetto di una periodicità nella lista di
campionamento.
1
• PARAMETRO MEDIA di strato nella POP.: µH= 𝑁ℎ ∑𝑁ℎ
𝑖=1 𝑋ℎ𝑖
dove Nh=numerosità strato h-esimo nella pop; N=numerosità della popolazione
(𝑋ℎ𝑖−µH)2
• PARAMETRO VARIANZA di strato POP: σ2 H= ∑𝑁ℎ
𝑖=1 𝑁ℎ
𝑁ℎ
• PESO DELLO STRATO H-ESIMO: Wh= 𝑁
1 1 ∑𝑁ℎ
𝑖=1 𝑋ℎ𝑖
• MEDIA NELLA POPOLAZIONE: µ= ∑𝐻 𝐻 𝑁ℎ
ℎ=1 𝑊ℎµh → µ=𝑁 ∑ℎ=1 ∑𝑖=1 𝑋ℎ𝑖 → 𝑁 𝑁ℎ= Wh; = µh
𝑁ℎ
• VARIANZA NELLA POPOLAZIONE: σ2= ∑𝐻 𝐻
ℎ=1 𝑊ℎ σ2h + ∑ℎ=1 𝑊ℎ (µh − µ)
2
𝒏
• NUMEROSITA’ CON ALLOCAZIONE UNIFORME: nh= 𝑯 con h= 1, …, H → NUMEROSITA’ UGUALE IN OGNI STRATO
𝑵𝒉
• NUMEROSITA’ CON ALLOCAZIONE PROPORZIONALE: nh= nWh= n 𝑵 → NUMEROSITA’ DELLO STRATO
PROPORZIONALE AL PESO DELLO STRATO STESSO
̂)
e sostituisco queste due equivalenze nella formula di 𝑉(𝑥̅
• NUMEROSITA’ CON ALLOCAZIONE OTTIMALE: minV(𝑥̅ st), s.v. C=C0 + ∑𝐻 ℎ=1 𝐶ℎ𝑛ℎ → PROBLEMA DI
MINIMIZZAZIONE SOTTO IL VINCOLO DEI COSTI FISSI E VARIABILI
(𝑪−𝑪𝟎)𝑾𝒉𝛔𝐡/√𝑪𝒉
→ nh= ∑ 𝒉 𝑾𝒉𝛔𝐡√𝑪𝒉
• ALLOCAZIONE OTTIMALE DI NEYMAN: C= C0+nC* → C-C0=nC* → ragionamento
𝑛𝐶∗𝑊ℎσh 𝑊ℎσh
nh= 𝐶∗ ∑ 𝑊ℎσh → nh=n ∑𝐻 𝑊ℎσh
ℎ=1
∑𝑛ℎ
𝑖=1 𝑥ℎ𝑖
• STIMATORE MEDIA CAMPIONARIA DELLO STRATO: 𝑥̅ h= 𝑛ℎ
E(𝑥̅ h) = µh → 𝑥̅ h è uno stimatore corretto di µh
∑𝑛 (𝑥ℎ𝑖−𝑥̅ )2
• STIMATORE VARIANZA CAMPIONARIA DELLO STRATO: s2h= 𝑖=1𝑛ℎ−1
• STIMATORE DELLA MEDIA: 𝑥̅ = ∑𝐻
ℎ=1 𝑊ℎ 𝑥̅ h
𝑛ℎ 2 𝑁ℎ−𝑛ℎ
• STIMA DELLA VARIANZA FORMULA GENERALE (C. NON PROPORZIONALE): V(𝑥̅ ) = ∑𝐻
ℎ=1 𝑛2 σ h ( 𝑁ℎ )
𝑛 σ2h
• STIMA DELLA VARIANZA CAMP. PROPORZIONALE: V (𝑥̅ ) = (1- 𝑁) ∑𝐻
ℎ=1 𝑊ℎ 𝑛
𝑛ℎ 2 𝑁ℎ−𝑛ℎ
• ̂ 𝐻
VARIANZA CORRETTA C. NON PROPORZIONALE: 𝑉(𝑥̅ ) = ∑ℎ=1 𝑠 h ( ) 𝑛2 𝑁ℎ
𝑛 s2h
• ̂)= (1- ) ∑𝐻
VARIANZA CORRETTA C. PROPORZIONALE: 𝑉(𝑥̅ ℎ=1 𝑊ℎ
𝑁 𝑛
Se la stratificazione è buona, allora dovremmo ridurre al massimo la parte a sinistra, e aumentare al massimo quella a destra (della foto).
Aumentando/diminuendo l'uno, l'altro diminuisce/aumenta: la loro somma fa sempre σ2.
Problemi connessi alla stratificazione: – Individuazione dei caratteri correlati con quello oggetto di studio (se molti, tecniche di analisi
multivariata).
– Decisione sul numero di strati → DIPENDE DAL NUMERO DI VARIABILI E DALLE MODALITA’. Se aumentano le variabili di
stratificazione, e più le stratificazioni sono articolate, più avremo strati numerosi.
– Disponibilità di una lista con le informazioni sui caratteri di stratificazione. È necessario disporre di informazioni per tutte le us della
popolazione relative alla variabile di stratificazione.
– Scelta della frazione di campionamento in ogni strato (uniforme, proporzionale, ottimale). Problema della scelta del numero di unità che
dobbiamo estrarre da ogni singola urna. Chi ci dice quante palline devo estrarre da ogni urna? Questo è un problema di allocazione di us all'interno dei
singoli strati. Ci sono diverse tipologie di allocazione: – Allocazione uniforme. – Allocazione proporzionale. – Allocazione ottimale. – Il guadagno di
efficienza sarà tanto maggiore quanto più gli strati sono: – Omogenei internamente (within). – Diversi tra di loro (between).
Il CSTRA consente di dividere preliminarmente la popolazione in segmenti, lo si fa prima questo lavoro. Nel nostro
esempio dovremmo dividere la lista dei 400.000 individui residenti a Padova con età tra i 16 e i 65 anni preliminarmente, e
divisi in due parti, che saranno presumibilmente due gruppi di uguale numerosità, circa 200.000 maschi e 200.000
femmine. Poi estrarremo un campione di 500 unità dagli uomini e uno di uguale dimensione da quello delle donne. Il
campione finale sarà di 1000 unità statistiche, che rappresentano adeguatamente la popolazione di partenza. La differenza
tra questo e il CCS è che, invece di partire da un’unica urna come per il CCS, partiamo da urne diverse, poi estraiamo un
CCS dalla prima urna e un CCS dalla seconda urna (vediamo come il CCS sia la base anche per il campionamento
stratificato). L’estrazione urna per urna utilizza sempre lo schema del CCS.
Abbiamo una partizione quando suddividiamo la popolazione in sottoinsiemi tra di loro mutuamente esclusivi ed esaustivi.
Perché si effettua la stratificazione? Per rendere più rappresentativo il campione rispetto alla popolazione. Questo è
importante, perché la stratificazione è tanto migliore quanto più consente di ottenere delle sottopopolazioni in cui le unità
statistiche siano il più possibile omogenee tra di loro e il più possibile diverse nel momento in cui appartengono a strati
diversi. Questa omogeneità nei gruppi ed eterogeneità tra gli strati, deve essere rispetto alla variabile obiettivo. Quando si
parla di omogeneità delle unità statistiche negli strati ed eterogeneità tra i gruppi, si intende sempre in relazione alla vo.
Nell’esempio di prima la vo (X) era la spesa annua per dopobarba (variabile quantitativa), il parametro da stimare è la spesa
media annua (mi). In questo esempio, ci aspettiamo che gli uomini abbiano comportamenti di spesa del dopobarba
omogenei tra di loro (tendono a spendere la stessa simile cifra) e che le donne, all’interno del loro gruppo, avranno una
spesa abbastanza simile nel dopobarba, anche se la spesa mediamente è molto più alta per gli uomini per quanto riguarda il
prodotto in questione. I due gruppi sono eterogenei tra loro, ma ciascuno di loro al suo interno è omogeneo rispetto alla
vo “spesa per dopobarba”. Più raggiungiamo questa situazione, migliori saranno la rappresentatività del campione rispetto
alla popolazione e la stima del parametro finale in termini di precisione di questa stessa stima.
Per effettuare un CSTRA, dobbiamo creare delle urne separate preliminarmente all’estrazione del campione casuale e ci
servono delle informazioni ausiliarie e in relazione a tutte le unità statistiche della popolazione. Ad esempio, dovremo
conoscere il sesso di ogni individuo. In questo caso è semplice perché usiamo una sola caratteristica per individuare lo
strato.
Ma se prendiamo ad esempio il fatturato delle aziende di Rovigo che operano nel settore del tessile, la vo è il fatturato
annuo e il parametro da stimare è il fatturato medio annuo. Pensiamo di voler estrarre un campione stratificato da questa
popolazione e questa stratificazione la facciamo in base alla forma giuridica delle aziende: aziende individuali, società di
persone e società di capitale. Abbiamo dunque tre strati, e dobbiamo creare 3 urne. Pensiamo di voler stratificare anche in
base al numero di dipendenti individuando 3 gruppi che siano formati da piccole, medie e grandi aziende in cui le soglie
possono essere 10 dipendenti e 50 dipendenti. In questo caso, visto che vogliamo creare dei gruppi considerando
congiuntamente forma giuridica e dipendenti, abbiamo bisogno delle informazioni preliminari sulle aziende e ausiliarie
rispetto a forma giuridica e numero di dipendenti. Il numero di strati e di urne sarà formato dal prodotto degli strati che
identifichiamo sulle singole variabili ausiliarie: forma giuridica= 3 gruppi, numero di dipendenti= 3 gruppi. Gli strati
saranno 3x3 = 9 → 9 urne. La prima include le aziende individuali con un numero di addetti inferiori a 10, poi abbiamo le
snc con 10 dipendenti e così via… e poi estrarremo un CCS da ciascuna urna, l’insieme di campioni estratto costituirà il
campione finale. Più queste urne includono unità statistiche che sono omogenee in relazione alla vo fatturato, migliore poi
sarà la stima finale che otterremo del fatturato medio relativamente alla popolazione nel complesso. Effettivamente,
possiamo aspettarci che il fatturato sia legato sia alla forma giuridica sia al numero di dipendenti (le società di capitali con
più dipendenti di solito presentano fatturati più elevati).
L’obiettivo principale del CST è quello di consentire di ottenere una stima più precisa e dunque più efficiente del
parametro incognito rispetto a quanto avviene utilizzando un CCS, condizionatamente al fatto di aver stratificato
bene, cioè quando individuiamo delle variabili ausiliarie che consentono di separare la popolazione in sottopopolazioni in
cui le unità statistiche sono il più possibile omogenee tra loro in relazione alla vo. La stratificazione, però, può avere anche
altri vantaggi.
Quindi in questo caso la stratificazione può essere utile per risolvere problemi organizzativi. Il vantaggio principale,
tuttavia, è proprio quello legato all’efficienza delle stime. In questa tabella viene rappresentata una popolazione e dei
parametri di sintesi, ipotizzando di suddividere la popolazione in strati. Abbiamo che ogni riga si riferisce ad un diverso
strato. In questa tabella il numero totale di strati in cui è suddivisa la popolazione viene indicata con H. Per ogni strato
vengono riportate le modalità nella prima parte assunte dalle unità statistiche dei diversi strati relativamente alla variabile
obiettivo. X11, ad esempio, rappresenta il valore che la variabile X assume in relazione all’unità 1 all’interno dello strato 1, e
così per tutte le X. Ad esempio la donna che occupa la posizione 1 nello strato 1 (delle femmine). N1 è la numerosità della
popolazione dello strato 1. Il primo pedice si riferisce sempre a quel determinato strato e non cambia. Abbiamo l’h-esimo
strato generico. Cambia solo il secondo pedice, quello relativo alle unità statistiche appartenenti a quel determinato strato.
Se vogliamo sintetizzare l’informazione relativamente alla vo nei diversi strati a livello di popolazione, allora abbiamo i
parametri sintetici della vo nei diversi strati. Mi 1 rappresenta la media della vo nella popolazione relativamente allo strato 1.
Nell’esempio sul fatturato, mi1 sarà il fatturato medio delle piccole aziende aventi 10 dipendenti con la forma giuridica di
azienda individuale, a livello di popolazione, considerando, dunque, tutte le imprese che appartengono a quello strato.
Chiaramente è un valore incognito che non conosciamo, noi effettuiamo un’estrazione dall’urna per stimare questo
parametro. Sigma21 è la varianza del fatturato annuo per le piccole aziende con forma giuridica data dall’azienda
individuale, sempre a livello di popolazione.
Nella definizione del CSTRA, è importante il simbolo WH, che viene calcolato come rapporto tra la numerosità dello strato
h-esimo a livello di popolazione (NH) fratto la numerosità totale della popolazione. Nel caso della stratificazione in base al
sesso sarà: le donne nella popolazione/ tutti gli individui nella popolazione. È chiaro che questo “Peso” assumerà sempre
valori compresi tra 0 e 1. In particolare, se sommiamo rispetto a tutti gli strati della popolazione i pesi degli strati la somma
sarà pari ad 1. LA SOMMA DEI PESI DEGLI STRATI ESTESA A TUTTI GLI STRATI DELLA POPOLAZIONE
DEVE ESSERE SEMPRE 1. La sommatoria della numerosità dei diversi strati, ovviamente, restituisce la numerosità
totale della popolazione.
Immaginiamo di moltiplicare la sommatoria più esterna (nella formula di stima del parametro mi) per un numero neutro
uguale ad 1 Nh/Nh.
Per quanto riguarda sigma2, questo è quanto si differenzia, quanto è eterogenea, la variabile obiettivo della popolazione. Se
questa è il fatturato, indica quanto sono differenti tra loro le aziende in termini di fatturato. Se hanno lo stesso fatturato
sigma2 sarà uguale a 0. È la varianza della vo. La varianza in una popolazione stratificata può essere definita come la
sommatoria degli scostamenti al quadrato del valore di ogni unità statistica rispetto alla media generale, sommiamo gli
scostamenti prima a livello di strato e poi sommiamo tutti i totali.
Prendiamo il caso delle aziende tessili di Rovigo, calcoliamo la media e la varianza dei fatturati. La varianza a livello di
popolazione, ad esempio, del fatturato di tutte le aziende di Rovigo nel tessile, si può scomporre in due parti: la prima
parte è la numerosità relativa delle singole aziende nei singoli strati, sigma2 h, è la varianza del fatturato all’interno dell’h-
esimo strato. Avremo una varianza per ogni singolo strato, calcolata prendendo il fatturato della prima azienda che
appartiene al primo strato sottraendo il fatturato medio, elevando al quadrato e sommando a tutti gli altri e poi lo
dividiamo per 10.000 (numerosità delle piccole aziende). Ripetiamo la stessa operazione per il secondo strato, alla fine
dividiamo per la numerosità delle medie aziende e anche per il terzo strato (le grandi aziende, ottenendo sigma 2 2 e
sigma23).
La prima componente della varianza totale è la varianza nei gruppi e indica quanto sono omogenee le aziende all’interno
dei singoli gruppi. Se le aziende avessero tutte lo stesso fatturato, ci sarebbe massima omogeneità e separazione. Se tutte le
piccole, medie e grandi aziende hanno lo stesso fatturato nel proprio strato sigma2 sarà uguale a 0. Nel caso di massima
omogeneità la varianza NEI gruppi è uguale a 0, situazione ideale perché basta estrarre un’azienda (unità statistica) da ogni
singolo strato per rappresentare perfettamente la popolazione. Mi è il fatturato medio per le aziende (1,2 o 3 a seconda che
siano piccole medie o grandi).
La seconda componente viene chiamata varianza fra i gruppi e indica quanto siano separati tra loro i gruppi. Ipotesi
estrema: nelle piccole aziende, molto diverse tra loro, otteniamo una media del fatturato medio di 100.000, anche per le
medie aziende e grandi aziende. In questo caso, se andiamo a calcolare questa componente (100.000 nel primo gruppo –
100.000 che è anche la media a livello di popolazione), lo scostamento sarà uguale a zero per tutti i gruppi. Questa è la
situazione peggiore, perché tutta la varianza è legata alla varianza all’interno dei gruppi e in questo caso la stratificazione
non serve a niente. Nella realtà ci troveremo sempre in una situazione intermedia. Una certa % si legherà alla varianza nei
gruppi e una certa % alla varianza tra i gruppi.
Si può dimostrare che la varianza si può scomporre in due parti:
Prima parte: peso dell’h-esimo strato per sigma quadrato. → sommatoria → VARIANZA NEI GRUPPI
Seconda parte: sommatoria, estesa a tutti gli strati, degli scostamenti al quadrato tra la media di strato e la media generale
(confrontiamo la spesa delle donne, ad esempio, per make-up rispetto alla media della popolazione generale) e questi
scostamenti li moltiplichiamo per il peso dei singoli strati. → VARIANZA TRA GLI STRATI (BETWEEN)
La scomposizione della varianza ci dice che le due componenti devono essere aggregate tra loro in maniera additiva, la
prima riguarda la varianza all’interno dei gruppi e la seconda la varianza tra i gruppi. Ci dà un’idea di quanto sia buona la
stratificazione, che è tanto migliore quanto più bassa è la componente di varianza nei gruppi. Più bassa è la varianza nei
gruppi, maggiore è l’omogeneità delle unità statistiche all’interno degli strati rispetto alla vo. La stratificazione è tanto
migliore quanto minore è la varianza nei gruppi, perché quando quest’ultima è bassa significa che le unità statistiche
all’interno dei singoli gruppi hanno comportamenti omogenei rispetto alla vo.
13/11/2020
Abbiamo detto che la stratificazione è tanto migliore quanto più si riduce la quota
di varianza nei gruppi. La scomposizione è di tipo matematico, la somma è
sempre quella, ma dobbiamo vedere com’è allocata la varianza nelle due
componenti. Per mantenere la quota di varianza interna agli strati più bassa
possibile, devo scegliere le variabili ausiliarie/ di stratificazione adeguata. Questo
obiettivo di rendere gli strati al loro interno più omogenei possibile e separare al massimo gli strati tra loro, si ottiene
scegliendo in maniera opportuna le variabili di stratificazione. Il criterio che ci dice se una variabile di stratificazione è
buona è il grado di correlazione tra le variabili di stratificazione e la vo. Per avere delle buone variabili ausiliarie o di
stratificazione queste devono essere il più possibile correlate con la vo (X).
Prendiamo l’esempio in cui vogliamo stimare il consumo medio per prodotti per rasatura. Avevamo scelto come variabile
di stratificazione il sesso, perché questa è correlata con la vo, perché sappiamo che cambiando il sesso cambia anche la
spesa, la predisposizione al consumo di questo particolare prodotto. Il sesso, dunque, è sicuramente correlato alla spesa per
prodotti di rasatura (X). Oppure ancora nel caso delle aziende in cui la variabile obiettivo era il fatturato, è chiaro che il
fatturato è legato alla dimensione. Infatti, come variabile ausiliaria abbiamo scelto la dimensione perché possiamo
aspettarci che, cambiando la classe dimensionale, cambierà anche il fatturato. Si parla di correlazione o associazione tra
le variabili di stratificazione e la vo. Nel caso del consumo di prodotti per rasatura, se prendessimo come variabile di
stratificazione la professione, questa non sarebbe opportuna, perché è verosimile pensare che tutti si devono radere,
indipendentemente dalla professione. È chiaro che, se prendiamo una variabile di stratificazione di questo tipo, non
correlata con la vo “spesa per prodotti di rasatura”, non ci avvicineremmo all’obiettivo di individuare strati con
comportamenti omogenei rispetto alla vo. La scelta delle variabili ausiliarie da utilizzare per individuare gli strati è, dunque,
cruciale, perché è da questa scelta che dipende la capacità di circoscrivere e creare partizioni che raggiungano il nostro
scopo di minimizzare la varianza all’interno dei gruppi e massimizzare la distanza tra le medie dei diversi gruppi.
Se vogliamo fare un CSTRA dobbiamo, dunque, disporre di informazioni ulteriori sulle unità statistiche che ci
consentano di fare i gruppi. Dobbiamo avere una lista di campionamento in cui oltre all’etichetta delle singole unità
statistiche ci siano anche altre informazioni (nell’esempio delle aziende non basterà il loro nome, servirà la sede legale, la
forma giuridica) e queste serviranno per tutte le unità statistiche. Il fabbisogno informativo è molto maggiore rispetto ai
piani di campionamento precedentemente visti. Bisogna selezionare, poi, le variabili il più possibile correlate con la vo.
Una volta che abbiamo individuato le variabili di stratificazione (il più possibile associate con la vo) e una volta definite le
classi sulle singole variabili di stratificazione, automaticamente individuiamo il numero di strati/urne in cui divideremo la
popolazione. Se la variabile di stratificazione, ad esempio, è il sesso, la popolazione sarà divisa in due gruppi. Se fossero il
sesso e la professione congiuntamente (il sesso articolato su 2 gruppi e la professione su 3 gruppi) gli strati saranno 2x3= 6,
e così via. Se le variabili ausiliarie sono scelte adeguatamente il campione finale sarà più efficiente per il CST rispetto al
CCS:
- Col CST possiamo ottenere una stima del parametro incognito più precisa rispetto al CCS, a parità di numerosità
campionaria. Questo vuol dire che, se prendiamo l’esempio dei prodotti per rasatura, se decidiamo di estrarre dalla
popolazione un campione n=1000: da una parte facciamo un CCS e dall’altra facciamo la stratificazione (CST),
estraendo 1000 unità in entrambi i casi, ci si aspetta che, calcolando un IC sulla spesa media e mantenendo lo
stesso livello di confidenza, l’ampiezza per l’IC nel CST sarà minore rispetto a quella dell’intervallo nel CCS (e
sappiamo che quando l’ampiezza dell’IC si riduce otteniamo stime più precise). A parità di numerosità
campionaria otteniamo una stima più precisa, una varianza dello stimatore più bassa. Lo stimatore nel caso del
CST ha una varianza più bassa, è più preciso e più efficiente, a parità di numerosità campionaria e livello di
confidenza e avremo stime intervallari per il parametro con ampiezza minore.
- Per guadagni di efficienza si intende che la stessa precisione della stima si può ottenere col CST rispetto al CCS
riducendo la numerosità campionaria. Col CCS otterremo una stima della spesa per prodotti per rasatura con uno
scarto, un’ampiezza dell’IC di più o meno 10 € utilizzando la numerosità di 1000. La stessa precisione di + o – 10
€ si può ottenere utilizzando il CST con un campione di numerosità inferiore (ad esempio 900).
Il campionamento stratificato, dunque, se la stratificazione è fatta in maniera opportuna, consente di ottenere stime più
efficienti a parità di numerosità campionaria o stime ugualmente efficienti con numerosità campionaria inferiore. Si riflette
anche in un guadagno dal punto di vista economico. Resta il problema dell’allocazione delle unità statistiche nel CST,
ovvero decidere quante unità statistiche estrarre da ogni singolo strato. Decidere, dunque, la numerosità campionaria
all’interno di ogni singolo strato e non è una scelta scontata.
Dobbiamo decidere quante “stelline” individuare in ogni strato, chiaramente in maniera casuale. Il numero di stelline lo
indichiamo con nh, numero di unità statistiche che devono essere estratte dallo strato h-esimo. La decisione da prendere è,
dunque, su quale valore attribuire ad ogni nh.
Vediamo quali sono le possibilità:
Si può dimostrare che la numerosità ottimale nh si ottiene come funzione dei costi, del peso relativo di ogni singolo
strato e della variabilità della vo nell’h-esimo strato. Se partiamo da questa formula e sostituiamo a C-C0 quello che
abbiamo trovato nel caso di allocazione di Neyman possiamo scrivere (riscrivere la formula qua sotto) che questo è
uguale a nC*.
C* sotto radice per C* sotto radice dà C*, si semplifica C* a numeratore e denominatore. Si ottiene che la numerosità
ottimale nello stato h-esimo sarà uguale alla formula nel riquadro:
Questa allocazione è importante perché considera sigmah, che dà un’idea del grado di eterogeneità delle unità
statistiche all’interno di quello strato rispetto alla variabile obiettivo. Se prendiamo l’esempio delle aziende con 3 strati,
la vo è il fatturato, sigmah (avremo sigma 1 del primo strato, sigma 2 dello strato delle medie aziende…).
Sigma 1 indica quanto sono diverse le piccole aziende in termini di fatturato, così come sigma 2 e 3 per le medie e le
grandi in termini di fatturato. Decidere l’allocazione, quante unità campionarie estrarre da ogni singolo strato in
proporzione al peso ma anche alla variabilità della vo, significa che dovremmo estrarre più unità statistica a parità di
altre condizioni laddove lo strato è più eterogeneo. Considerare la variabilità della vo nell’allocazione, significa che
dovremmo estrarre più unità da quegli strati che sono più eterogenei.
Nel caso delle aziende, ipotizziamo che nello strato delle piccole aziende tutte le aziende abbiano un fatturato annuo
pari a 100.000 e quindi sigma 1 in questo caso sarà uguale a 0, perché sono tutte uguali tra di loro in termini di vo.
Questo vuol dire che in questo caso estremo addirittura non ci servirà estrarre neanche un’azienda, non dobbiamo
misurare nulla. Ipotizziamo che le aziende, però, abbiano tutte un fatturato simile e che sigma h sia prossimo a 0, in
questo caso il numero di unità statistiche da estrarre da questo strato molto omogeneo sarà molto basso e basteranno
pochissime unità statistiche. Più la vo è eterogenea all’interno dello strato, maggiore sarà il numero di unità
campionarie da estrarre da quel gruppo per rappresentare bene la popolazione, a parità di altre condizioni.
L’allocazione di Neyman, quindi, è importante perché tiene conto del peso e della variabilità della variabile obiettivo
negli strati, consentendo di ridurre la numerosità campionaria in quegli strati maggiormente omogenei, a pac (parità di
altre condizioni) perché consente di ottenere stime più precise possibili sotto il vincolo di budget.
C’è però un problema, ovvero che per effettuare un’allocazione ottimale dobbiamo conoscere qualcosa a livello di
popolazione, in particolare dobbiamo conoscere i sigmah che sono parametri a livello di popolazione. Quindi
dovremmo conoscere il valore della variabilità del fatturato per ogni singolo strato ed è un fabbisogno informativo
non indifferente. Bisognerebbe avere informazioni su tutte le unità statistiche, ma in questa fase ancora non abbiamo
effettuato neanche la rilevazione campionaria perché stiamo ancora decidendo quante unità estrarre da ogni strato e
abbiamo bisogno di informazioni ulteriori provenienti da indagini pilota o fonti secondarie. Quindi l’allocazione di
Neyman è preferibile ma necessità di un elevato fabbisogno informativo.
Una volta deciso come allocare le unità statistiche, possiamo definire gli stimatori media campionaria e varianza nel CST.
Nel primo strato per h=1 la numerosità è 10, applichiamo il tasso di campionamento di 1/5, moltiplichiamo e avremo il
numero di unità statistiche da estrarre, ovvero 2. E così per tutti gli strati. Le palline blu sono quelle che devono essere
estratte dalle rispettive urne. Anche nel CST il tasso di campionamento è dato dalla numerosità del campione diviso per la
numerosità della popolazione n/N. Il campione finale sarà composto dalle unità statistiche estratte da ogni singolo strato.
Per quanto riguarda x sopra segnato, questo si ottiene come media ponderata delle medie dello stimatore della media nei
singoli strati, dove il peso è rappresentato dal peso relativo di ogni singolo strato a livello di popolazione Wh. Abbiamo
ottenuto una stima del fatturato medio per le piccole aziende uguale a 100.000, 200.000 per le medie e 500.000 per le
grandi aziende e abbiamo dei pesi relativi rispettivamente di 0,70 0.20 0.10. I valori del fatturato per le diverse categorie di
aziende (strati) sarà dunque:
Il fatturato medio complessivo a livello di campione (x sopra segnato) sarà dato dalla sommatoria di questi risultati. Se
vogliamo passare da uno stimatore puntuale ad uno stimatore intervallare dobbiamo fissare l’IC, i quantili e avere anche
uno stimatore della varianza della media campionaria (V di x sopra segnato). Quando usiamo un CST dobbiamo vedere
quale formula consente di ottenere V di x sopra segnato.
FORMULA GENERALE
come:
Nel caso di allocazione proporzionale, la varianza di x sopra segnato può essere scritta in modo semplificato come sopra,
tenendo conto della considerazione di cui sopra. Questa formula non si può semplificare nel caso di allocazione non
proporzionale.
Questa è la varianza dello stimatore media campionaria che ha al suo interno il valore del parametro, sigma2 all’interno
della popolazione, quindi dovremo sostituire a sigma2h il suo stimatore a livello di campione s2h. In questo modo passiamo
da V di x sopra segnato a V di x sopra segnato cappello, che può essere utilizzato per costruire l’intervallo di confidenza
per mi nel caso di campionamento stratificato.
Le unità statistiche, in questo esercizio, sono i proprietari di automobili registrati nel PRA (pubblico registro
automobilistico). Questi sicuramente devono essere maggiorenni.
Possibile DOMANDA ESAME: da quale lista si può partire in questo caso? R: Una lista idonea da cui si può partire per
lo svolgimento di questo esercizio è il PRA.
La variabile obiettivo (X) sarà la spesa annua per manutenzione dell’automobile, una variabile quantitativa e il parametro da
stimare mi sarà la spesa media annua sostenuta dai proprietari di automobili residenti in quella determinata regione. Le
variabili di stratificazione o ausiliarie sono il sesso e l’età. Si ipotizza che le spese di manutenzione cambino in base al sesso
e all’età. C’è un’associazione tra la vo e le due variabili ausiliarie, quindi utilizzando le informazioni a livello di popolazione
su queste due variabili, otterremo una suddivisione della popolazione in strati all’interno dei quali la spesa per
manutenzione sarà più omogenea rispetto a quanto avviene a livello generale nella popolazione.
X sopra segnato, in questo esempio, è di 134 € e si ottiene dopo aver fatto l’estrazione campionaria. Vengono riportati
alcuni dati sull’universo e sui risultati della rilevazione, in particolare vengono riportati i pesi W h (Nh/N) e lo stimatore
della varianza sh , la standard deviation corretta della vo in ogni singolo strato, un indicatore di eterogeneità della vo nei
singoli strati. 22 indica ad esempio di quanto varia la spesa nello strato di maschi sotto i 30 anni. Il sesso si divide in due
classi, l’età viene suddivisa in 3 classi (la seconda classe d’età va da 31 a 50): gli strati saranno, quindi, 2x3=6. Per ogni
classe abbiamo il peso relativo. Ad esempio, il 20% della popolazione è costituita da maschi con meno di 30 anni.
Sommando tutti i Wh per h che va da 1 fino a 6 otterremo un valore pari ad 1. È un’informazione che abbiamo
preliminarmente all’estrazione. Nella seconda tabella abbiamo valori che otteniamo solo dopo l’estrazione e la rilevazione.
Il tasso di campionamento è n/N= 0.03 → 3% e la popolazione totale è 20.000 → applicando il tasso di campionamento
alla popolazione individuiamo anche la numerosità campionaria (600) → per trovare la numerosità dei singoli strati basta
applicare ciascun peso alla numerosità campionaria di 600. La numerosità dei maschi sotto i 30 anni con il valore di Wh
uguale a 0.2 sarà n=0.20*600= 120 e così per tutti gli strati. La somma dei valori di tutti gli strati dovrà restituire 600. Il
punto 2 chiede di calcolare la stima della varianza media campionaria, applichiamo la formula semplificata nel caso di
allocazione proporzionale (V di x sopra segnato cappello).
Vogliamo utilizzare un CCS senza ripetizione e nel punto 1 si dice che si vuole stimare la percentuale di consumatori
interessati ad acquistare un determinato prodotto per l’igiene dentale. 30.000 consumatori indica la numerosità della
popolazione sulla quale vogliamo effettuare l’indagine. Il parametro di interesse sarà la proporzione degli interessati
rispetto al totale della popolazione (P → frequenza relativa), di conseguenza la vo sarà una variabile qualitativa dicotomica
che può essere definita come “interesse nell’acquisto del dentifricio”.
Viene chiesto di indicare la numerosità campionaria appropriata data una determinata precisione della stima e un certo
livello di confidenza. Siamo nel caso di numerosità minima campionaria quando il parametro d’interesse è la frequenza
relativa o proporzione. Dobbiamo applicare la formula del calcolo della numerosità minima nel caso di frequenza relativa
in un CCS senza ripetizione. Il punto 2 chiede di stimare la spesa media annua di una famiglia per cure dentarie. Anche qui
dovremo calcolare la numerosità campionaria minima che consente di stimare il parametro con un certo grado di
precisione e un certo livello di confidenza. Cambia però la variabile obiettivo, perché adesso la vo è la spesa annua,
variabile quantitativa, e cambierà anche il parametro, che sarà la spesa media annua della popolazione di famiglie. Dovremo
applicare la formula per il calcolo della numerosità campionaria minima quando il parametro di interesse è la media e la
variabilità del fenomeno indicata dallo scarto quadratico medio è pari a 400 €. Basta applicare direttamente la formula per
la determinazione della numerosità minima. Ancora, l’anno dopo cambia la tipologia di rilevazione che non sarà più con
CCS senza ripetizione, bensì con CSTR. Con allocazione ottimale di Neyman. La vo sarà sempre la spesa annua per
l’igiene dentale ma cambia il tasso di campionamento, che si vuole incrementare del 10%. Al punto 3 quindi si chiede di
calcolare la numerosità campionaria nei singoli strati sapendo che in base alla rilevazione dell’anno precedente si sono
ottenute le informazioni presenti nella tabella. Abbiamo due strati e ogni strato ha un determinato peso relativo e una
stima della varianza della spesa per cure dentarie.
Visto che non abbiamo alcuna informazione sulla varianza della variabile dicotomica, al posto di sigma 2 mettiamo 0.25.
Abbiamo due numerosità minime diverse per raggiungere 2 obiettivi.
3) 1,1 sta per (244+0.10 → il prof ha raccolto 244 fuori e ha moltiplicato per 1.10). Per trovare il numero delle famiglie
con e senza figli dovremo applicare la formula per il calcolo della numerosità tramite allocazione ottimale di Neyman sulla
base dei risultati ottenuti l’anno precedente. Vediamo come il numero di famiglie con figli da estrarre sarà 253 e il numero
di famiglie senza figli da estrarre sarà 16. La somma delle unità allocate nei diversi strati deve restituire, alla fine, la
numerosità campionaria complessiva.
13/11/2020 pomeriggio
La numerosità delle famiglie senza figli non rispetta la proporzione iniziale (20%). Questo perché sono diversi anche i
livelli di eterogeneità, che sono molto più omogenei nel caso di famiglie senza figli. In base all’allocazione ottimale di
Neyman, gli strati con omogeneità maggiore hanno bisogno di una numerosità campionaria inferiore. A fronte di un 20%
di famiglie senza figli nella popolazione occorre una numerosità campionaria minore del 20% per rappresentare bene
quello strato in termini di comportamento d’acquisto.
In questo esempio si parte da una popolazione di tutti i clienti di
una determinata banca che in totale sono pari a 100.000 unità (N).
Questi vengono distinti in 6 strati, divisi in base alla disponibilità di
denaro in banca. Man mano che ci si sposta dalle classi più basse a
quelle più alte diminuisce la numerosità, un modo per rappresentare
la ricchezza che è, di per sé, fortemente asimmetrica. A partire da
queste informazioni Nh possiamo calcolare il peso relativo dei
singoli strati dividendo i singoli Nh per N. Il peso del primo strato,
ad esempio, è pari a 39.54%. immaginiamo che si voglia stimare la
capacità d’investimento in titoli finanziari. La vo è l’investimento
annuo in attività finanziarie da parte dei clienti della banca e
vogliamo stimare quanto mediamente i clienti investono sul mercato azionario. Il parametro da stimare sarà, pertanto,
l’investimento medio annuo. Ci sono delle informazioni sul grado di variabilità dell’investimento nei singoli strati. La
variabilità più bassa si ha nello strato dei meno abbienti e quella più alta nello strato dei più ricchi.
Vogliamo stimare il parametro attraverso una rilevazione campionaria dei clienti per chiedere loro quanto hanno investito
nei mercati azionari ed estraiamo un campione di 2500 clienti (n), il tasso di campionamento sarà 2500/100000= 0.025 e
vogliamo allocarli sfruttando l’allocazione proporzionale di Neyman, e possiamo farlo perché abbiamo a disposizione
informazioni sui singoli strati.
Possiamo notare come lo strato dal quale si estrae il numero maggiore di unità statistiche sia il quarto. Nel caso di
allocazione proporzionale, il tasso di campionamento è uguale in tutti gli strati, ma potremmo calcolare il tasso di
campionamento nel caso di allocazione non proporzionale (es. 271/39.540= 0.007). Nell’ultimo strato il tasso di
campionamento è quasi completo (perché prossimo all’1), perché la variabilità in questo strato è molto alta e dovremo
estrarre molti più elementi, questo viene comunicato proprio dal tasso di campionamento.
Dobbiamo vedere se le informazioni utilizzate per stratificare possono essere considerate come correlate con la vo. Per
quanto riguarda femmine e maschi la correlazione ci potrebbe essere, gli uomini sono più legati alla manutenzione
dell’automobile e potrebbe esserci una maggiore propensione all’acquisto. Per quanto riguarda la professione, in questo
esempio, è una variabile di stratificazione poco correlata con la vo e la scelta di questa variabile potrebbe essere discussa. In
ogni caso, vengono individuati 6 possibili strati con le rispettive numerosità.
Si vuole utilizzare un CST con allocazione proporzionale. Una buona lista di campionamento potrebbe essere quella del
pubblico registro automobilistico o la lista elettorale, il PRA, tuttavia, è sicuramente la lista preferibile in questo caso.
Sapendo che la numerosità campionaria complessiva deve essere pari a 750 dobbiamo applicare la formula di allocazione
proporzionale in cui sappiamo che n=750, per calcolare tutti i nh basterà moltiplicare 750 per il peso relativo di ogni strato
nella popolazione (valore di ogni singola cella/totale della popolazione). Per prima cosa calcoliamo la numerosità totale
della popolazione N dato dalla somma di tutti i valori nella tabella (20.476). Dividendo ogni singolo valore nelle celle per il
totale appena trovato otterremo i pesi di ogni singolo strato sulla popolazione. Sommando tutti i pesi relativi dovremo
ottenere un valore pari ad uno. La numerosità campionaria, moltiplicata per i singoli pesi, restituirà la numerosità di ogni
singolo strato.
Possiamo dire che, con un livello di confidenza del 95%, la percentuale di interessati a questi prodotti è compresa tra il
34.6 e il 41.4 %. Nonostante la variabile di stratificazione utilizzata (professione) sia discutibile, la variabile di
stratificazione sesso è riuscita a stimare adeguatamente.
A destra abbiamo un esempio di applicazione della stratificazione al fatturato. Abbiamo una popolazione di 24 aziende
sulle quali vogliamo stimare il fatturato medio e lo facciamo attraverso un CST e da ognuna di questa ricaviamo un numero
di unità statistiche attraverso l’allocazione proporzionale, applicando il tasso di campionamento ad ogni strato.
IL CAMPIONAMENTO A GRAPPOLI
Pro:
– Vantaggioso quando i grappoli costituiscono una naturale aggregazione delle unità finali per le quali invece non si possiede una lista. Se vogliamo
studiare una popolazione in cui le us possono essere considerate come raggruppate ed unite tra loro da un vincolo naturale, con il CGRA possiamo
evitare di reperire una lista completa di campionamento a livello di unità elementari, ci basta una lista di CGRA.
– Se le unità sono caratterizzate da dispersione sul territorio e si rende necessario un contatto diretto, studiare solo alcuni grappoli è molto meno
dispendioso rispetto al CCS. 89
Contro: affinché il CGRA sia efficiente SERVE che i grappoli siano molto eterogenei al loro interno e omogenei tra essi – alcuni di essi
rappresentano infatti anche quelli non selezionati – in realtà si verifica più frequentemente il contrario. Per avere una buona rappresentatività,
idealmente sarebbe bello che ogni grappolo rappresentasse un microcosmo che rispecchi la popolazione da cui il grappolo è estratto. Ci dovrebbe
essere eterogeneità tra le us del grappolo a parità di numerosità campionaria, questa caratteristica fa sì che le stime ottenute siano meno efficienti
rispetto a quelle efficienti ottenute da un CCS.
CAMPIONAMENTO A GRAPPOLI
• NUMERO DI UNITA’ ELEMENTARI NELLA POPOLAZIONE: N= ∑𝐿ℎ=1 𝑁ℎ
• NUMERO DI UNITA’ ELEMENTARI NEL CAMPIONE: n= ∑𝑙ℎ=1 𝑛ℎ
1 ∑𝑙ℎ=1 ∑𝑁ℎ
𝑖=1 𝑥𝑖ℎ
• STIMATORE DELLA MEDIA: 𝑥̅ ℎ = ̅
𝑁 𝑙
1
• ̅ = ∑𝐿ℎ=1 𝑁ℎ
NUMEROSITA’ MEDIA DI OGNI GRAPPOLO: 𝑁 𝐿
𝑙
• ̂)= 1 ∑ℎ=1(𝑁ℎ𝑥̅ h−𝑁̅ 𝑥̅ )2 (1 - 𝑙 )
VARIANZA DELLO STIMATORE MEDIA CAMPIONARIA: 𝑉(𝑥̅ ̅2
𝑁 𝑙(𝑙−1) 𝐿
∑𝑁ℎ
𝑖=1 𝑥𝑖ℎ
• STIMATORIA MEDIA CAMPIONARIA A LIVELLO DI GRAPPOLO: 𝑥̅ h=
𝑁ℎ
• ̂) ≤ μ ≤ 𝑥̅ + z α/2 √𝑉(𝑥̅
INTERVALLO DI CONFIDENZA: P {𝑥̅ – z α/2 √𝑉(𝑥̅ ̂) } = 1- α
19/11/2020
IL CAMPIONAMENTO A GRAPPOLI
Visto che l’indagine deve essere fatta rilevando le informazioni sulle singole unità statistiche, i gruppi selezionati daranno
luogo ad un campione formato da tutte le unità statistiche che appartengono ai gruppi selezionati. Se selezioniamo 100
gruppi, il campione finale sarà formato da tutti gli individui che appartengono a queste 100 famiglie. È lecito aspettarsi che
le informazioni che rileviamo siano abbastanza simili in relazione ai membri del nucleo familiare → c’è omogeneità sulle
informazioni che rileviamo tra gli individui di uno stesso gruppo.
C’è un vincolo, un legame che unisce le singole unità statistiche (ad esempio i dipendenti) al gruppo (ad esempio l’azienda)
e questa relazione è, ad esempio, il rapporto di lavoro. La relazione definisce l’appartenenza dell’individuo al gruppo. Le
informazioni rilevate sui singoli lavoratori presentano una certa omogeneità tra lavoratori che lavorano per la stessa
azienda.
I gruppi in questo schema vengono chiamati “grappoli”. Nel campionamento a grappoli, la popolazione intesa come
insieme di unità statistiche elementari è costituita da sottoinsiemi di queste unità elementari, che hanno le due
caratteristiche già viste per gli strati: esaustività e mutua esclusività.
Decidiamo di estrarre 3 grappoli, quindi l=3. Pensiamo di estrarre il terzo, il quarto e il settimo grappolo (la somma di tutte
le palline dentro il terzo, il quarto e il settimo grappolo è uguale a 20. Si hanno dunque 20 unità elementari). Il campione
finale sarà formato da tutte le unità elementari che compongono i 3 grappoli estratti (20) e la rilevazione verrà effettuata su
tutte le unità elementari appartenenti ai grappoli estratti. La numerosità di ogni singolo grappolo, data dal numero di unità
elementari che costituiscono ogni singolo grappolo, viene indicata con Nh. (N3=6; N4=4; N7=10 → N=20)
N sopra segnato è la numerosità media di ogni grappolo a livello di popolazione. Se dividiamo la sommatoria di tutti gli Nh
per il numero di grappoli otteniamo la numerosità media in ogni grappolo. La prima formula che vediamo nella foto è la
media di una variabile quantitativa in un CGRA. Per passare ad una stima intervallare abbiamo bisogno di alpha,
dovremmo avere una formula per calcolare la varianza dello stimatore media campionaria. Dobbiamo dunque dare un
valore a V di x sopra segnato cappello. In ogni varianza dobbiamo prendere gli scostamenti dei valori rispetto al valore
medio, elevarli al quadrato e farne la sommatoria. La sommatoria fa riferimento ai grappoli che andranno a comporre il
campione in termini di unità elementari.
Lo scostamento è, dunque, a livello di grappolo. Viene utilizzato per semplicità il simbolo della media aritmetica della vo a
livello di grappolo, che significa, ad esempio, quanto mediamente un membro di una famiglia h-esima spende al mese per il
trasporto. Se moltiplichiamo questo xh sopra segnato per Nh abbiamo il numeratore della formula di V di x sopra segnato
(sommatoria degli xih) e questo è il totale della variabile nell’h-esimo gruppo, ovvero quanto in complesso l’azienda
retribuisce per gli straordinari i suoi dipendenti. La parentesi al numeratore è lo scostamento del livello della variabile x in
un grappolo rispetto al livello medio su tutti i grappoli del campione, valori che possiamo ottenere ovviamente dal
campione, poi li eleviamo al quadrato. Il numeratore poi lo dividiamo per il numero di grappoli estratti per il numero di
grappoli estratti meno uno, dividiamo ancora per la numerosità media dei grappoli al quadrato e poi, visto che l’estrazione
dei grappoli avviene senza reimmissione, per stimare la varianza di V di x sopra segnato dobbiamo applicare il solito
fattore di correzione per popolazioni finite, ovviamente a livello di grappoli (1- l/L).
l/L è il tasso di campionamento a livello di grappoli. 1- l/L otteniamo il fattore di correzione per popolazioni finite da
applicare per il calcolo di V di x sopra segnato.
Abbiamo una tabella in cui vengono riportati i dati relativi alle singole province selezionate, abbiamo la numerosità in
termini di unità elementari (nella prima provincia ci sono 23 punti vendita). A partire dagli otto punti vendita estratti il
campione finale sarà dato dalla sommatoria di tutti gli Nh per h che va da uno ad otto che troviamo nella seconda colonna
della tabella. Andiamo poi in tutti i punti vendita e ad ognuno chiediamo quante bottiglie di spumante sono state vendute
nell’ultimo anno, dopodiché nell’ultima colonna vengono riportati i dati rilevati su ogni singolo punto vendita aggregati,
però, a livello di grappoli. 3978 (punti vendita presenti nelle 103 province italiane) rappresenta N. 103 è L (le province
sono i grappoli). Viene chiesto di fornire una stima puntuale delle bottiglie vendute mediamente in ogni punto vendita in
un anno. Chiede anche di fare una stima intervallare con un livello di confidenza al 95%.
Adesso passiamo alla stima intervallare e per questo serve la formula di V di x sopra segnato cappello (prima formula del
punto due → nella foto in alto manca il cappello sulla V per un refuso; altro refuso aggiungere il quadrato nella parentesi
4477-5785.87). Per quanto riguarda il valore Nx sopra segnato, questo rappresenta quante bottiglie di spumante sono state
vendute mediamente in ogni provincia. Il fattore di correzione è (1-8/103). La stima di V di x sopra segnato è di 202.61
Con un livello di confidenza del 95% il numero medio di bottiglie di
spumante vendute in ogni singolo punto vendita sul suolo nazionale si
colloca in un intervallo che ha come estremo inferiore 121.91 e come
estremo superiore il valore
177.71
È vantaggioso anche quando le unità elementari sono molto disperse sul territorio. Se facessimo un’indagine sui
dipendenti dell’azienda a livello nazionale, se facessimo un’estrazione a livello di singoli dipendenti senza vincoli di
appartenenza, potremmo estrarre dipendenti tutti dispersi. È chiaro che ci sarebbe una grossa dispersione. Effettuando
l’estrazione di singoli grappoli possiamo raggiungere la stessa numerosità a livello di unità elementari estraendo una limitata
quantità di grappoli più raggiungibili. Prima intervistiamo tutti i dipendenti di un’azienda, poi tutti i dipendenti di un’altra e
così via.
Il problema, però, che costituisce lo svantaggio del CG è dato dal fatto che le informazioni che noi traiamo dalle unità
statistiche elementari del grappolo sono molto omogenee tra di loro e quindi, quando andiamo a rilevare informazioni su
tutte le unità elementari che appartengono ad un grappolo, rischiamo di rilevare più volte un’informazione che si
sovrappone. Se rileviamo la retribuzione per straordinari dei dipendenti nella stessa azienda, ad esempio, potremmo avere
dei doppioni di informazione, per via delle unità molto omogenee all’interno dei grappoli.
Allo stesso tempo ci impedisce di avere informazioni di altre unità elementari appartenenti a grappoli non estratti, che
avrebbero potuto rappresentare la popolazione in maniera adeguata. Dunque, nel CGRA l’omogeneità naturale che
troviamo a livello di unità elementari nei grappoli è un limite. Con un CCS con la stessa numerosità campionaria,
otterremmo una migliore rappresentatività della popolazione in generale. Dal punto di vista della precisione delle stime e
della rappresentatività, spesso il CGRA è meno efficiente rispetto al CCS. Perché sceglierlo allora? Perché i vantaggi del
CG non sono indifferenti, c’è un guadagno in termini di sforzo organizzativo. Solitamente il CG è privilegiato se
vogliamo fare una procedura snella con una certa numerosità. Il limite appena discusso relativo al CG ci porta a parlare di
un’altra tipologia di campionamento complesso:
CAMPIONAMENTO A PIÙ STADI
Arriviamo alla definizione del CAMPIONAMENTO A PIÙ STADI (CPS). Nel CPS, anziché esaminare tutte le unità
campionarie dei grappoli estratti nella prima fase, si effettua un’ulteriore estrazione, in modo tale da limitare poi l’indagine
ad un sottoinsieme di unità elementari all’interno di ogni singolo grappolo. In termini pratici, questo vuol dire che, in un
campionamento a due stadi (ad esempio), nel primo stadio estraiamo un certo numero di aziende, nel secondo stadio
andiamo in ogni azienda ed estraiamo un certo numero di dipendenti. Si effettuano due estrazioni casuali (nel CPS a due
stadi). Si evitano problemi legati alla forte omogeneità a livello di unità elementari. Nel CPS si usa una terminologia diversa:
si parla di unità di primo e di secondo (e così via…) stadio, non più di grappoli e unità elementari. Il CPS viene spesso
utilizzato dall’Istat che, nelle sue indagini campionarie, effettua un CPS in cui gli stadi solitamente sono definiti a livello
territoriale. Di solito l’Istat prende tutte le province italiane e ne estrae un sottoinsieme. Mettiamo che ne estragga 20 e da
ognuna di queste 20 prende tutti i comuni che appartengono a ciascuna provincia e ne estrae un sottoinsieme, facendo una
seconda estrazione (secondo stadio → estrae 10 comuni dalla prima provincia ad esempio), in ogni comune estratto al
secondo stadio prende tutti i punti vendita al dettaglio e ne estrae un sottoinsieme (terzo stadio). Il campione finale è
rappresentato dai punti vendita al dettaglio e la rilevazione sui prezzi applicati al dettaglio viene effettuata sui singoli punti
vendita, rispettando questi stadi.