Sei sulla pagina 1di 99

RICERCHE DI MERCATO E FONTI DEI DATI

• LE RICERCHE DI MERCATO →
- FASI DI UNA RICERCA DI MERCATO
- DEFINIZIONE (DI AMERICAN MKTING ASS.) ED ESEMPI DI RICERCHE DI MERCATO A
- STORIA DELLE RICERCHE DI MERCATO E LIMITI DELLE RICERCHE DI MERCATO
• DEFINIZIONI
- UNITA’ STATISTICA
- VARIABILE STATISTICA; MODALITA’; VARIABILI QUANTITATIVE E QUALITATIVE
(NOMINALI E ORD.)
• FONTI PRIMARIE (DIRETTE)
- RILEVAZIONI
- RICERCA SPERIMENTALE
• FONTI SECONDARIE (INDIRETTE)
- INTERNE
- ESTERNE
COMMERCIALI: banche dati , dati d’agenzia – Sondaggi e sondaggi omnibus, Panel ), previsioni
e proiezioni
UFFICIALI (SISTAN, CENSIS, UNIONCAMERE, CONFINDUSTRIA, BANCA D’ITALIA E
MEDIOBANCA)
STATISTICA AZIENDALE
Le abbreviazioni utilizzate nel testo indicano:
vc= variabile casuale; ic (IC)= intervallo di confidenza; vqt= variabile quantitativa; pac = parità di altre condizioni; vo= variabile obiettivo; TCL= Teorema Centrale del
Limite; CST = campionamento stratificato; CG (o CGRA) = campionamento a grappoli; CPS (o CSTA) = campionamento a più stadi; cov = covarianza; v.a.=
variabile/i aleatoria/e; v.e= variabile esplicativa; gdl= gradi di libertà

Parleremo di:

• LE RICERCHE DI MERCATO: Ci occupiamo principalmente dell’azienda in rapporto al mercato (metodi


statistici per le ricerche di mercato). Dovremo usare dei protocolli fissati da istituti ed enti per avere indicazioni
sull’analisi dei dati relativi al mercato. Come tutti i metodi scientifici ci sono limiti e vantaggi. Vedremo gli ambiti
delle ricerche di mercato nel marketing. Le ricerche di mercato hanno a che fare con delle leve per migliorare la
nostra posizione/collocazione/immagine sul mercato. Quindi, si devono irrobustire le ricerche di marketing.
Quali variabili dobbiamo rilevare per conoscere meglio certi ambiti? Ci sono diverse metodologie di
campionamento. Vedremo che nelle diverse fasi possono essere utilizzate diverse metodologie statistiche e
strumenti statistici e di comunicati.

• LE FONTI INFORMATIVE: si dividono in primarie (dirette), che a loro volta possono concretizzarsi in
rilevazioni e ricerca sperimentale e secondarie, ovvero dati che già esistono (esempio di analytics). Luoghi virtuali
dove possiamo scovare dati e informazione. Un tempo si parlava di pubblicazione statistica, veri e propri tomi
fisici. Esempio dell’annuario statistico. Ora si possono trovare delle pubblicazioni digitali per aiutare le nostre
ricerche di mercato. Le aziende oggi sono affamate di dati. Tra le fonti secondarie dobbiamo stare attenti, perché
la qualità è variabile. Bisogna distinguere tra fonti ufficiali, e non. Istat ed Eurostat producono dati di elevata
qualità e utilità perché seguono vari protocolli. I dati di agenzia invece sono dati raccolti da altre società allo scopo
delle ricerche di mercato, sono più specifici dei dati raccolti dalle fonti ufficiali ma spesso di qualità inferiore e più
variabili. INDAGINI CONTINUATIVE → Danno luogo a dati denominati panel. Se vengono fatte in maniera
ottimale possono consentire di studiare le variazioni del mercato in quanto sono ripetute nel tempo.

• CAMPIONAMENTO PROBABILISTICO E NON PROBABILISTICO: degli elementi devono essere


selezionati in modo tale da essere rappresentativi (campioni). Le indagini di mercato sono fatte con tecniche di
campionamento. Quando selezioniamo un campione si inizia a parlare di statistica inferenziale. Il campionamento
di tipo probabilistico è sempre preferibile dal punto di vista statistico, ma c’è un prezzo da pagare in termini di
tempo e denaro. Quando facciamo un’indagine possiamo commettere degli errori che possono essere campionari
(quando facciamo un’indagine campionaria, errore di approssimazione) e non campionari. I primi devono essere
calcolati in modo probabilistico. I secondi sono solitamente errori materiali (es. questionario telefonico in cui
l’operatore sbaglia a digitare).

• IL QUESTIONARIO E LE TECNICHE DI INTERVISTA: il questionario è il principale strumento per la


rilevazione dei dati. Dipende da obiettivi, variabili, popolazione di riferimento. Si potrebbe somministrare il
questionario tramite un intervistatore addestrato che raggiunge l’intervistato in varie modalità alle quali
corrispondono varie tecniche di somministrazione e diversi risultati.

• IL MODELLO DI REGRESSIONE E LE PREVISIONI DELLE VENDITE: una volta raccolti e


controllati i dati e fatto la matrice dei dati per “spremere” le informazioni e sintetizzare i dati, dobbiamo riportare i
nostri dati. Approfondiremo il “modello lineare” che sta alla base di tutti gli altri modelli. Il modello di regressione
che affronteremo è quello semplice, che ci dà conto delle relazioni che scaturiscono tra una variabile e l’altra.
Quando abbiamo due variabili quantitative le possiamo sempre rappresentare in un grafico a dispersione (es.
scatter plot) e rappresentare la nuvola di punti per interpolare una retta di regressione. Per fare ciò dobbiamo
usare il metodo dei minimi quadrati (Gauss) ottimizzazione, dunque, mediante la minimizzazione di alcuni valori.
Studieremo la calibrazione del prezzo di un bene che viene fatto provando a vendere lo stesso prodotto con prezzi
diversi in posti diversi.
LE FASI DI UNA RICERCA DI MERCATO (lezione pomeridiana 9/10/2020)

La prima fase riguarda l’impostazione preliminare del problema. Questo vuol dire che, nel momento in cui ho una
società incaricata di effettuare una ricerca di mercato o l’impresa stessa effettua la ricerca di mercato, si deve avere un’idea
chiara degli elementi da analizzare. In questa fase di solito vengono coinvolte persone interne ed esterne all’azienda con
diverse competenze, le quali si scambiano idee in base all’esigenza informativa dell’azienda.
Stabilire l’oggetto della ricerca è di importanza fondamentale. Si parte da un problema come quello della perdita di
clienti, ad esempio. Si devono, appunto, demarcare i confini dell’analisi.
Dopo aver definito l’oggetto ed i limiti è necessario individuare la popolazione che deve essere studiata. La popolazione
è il modo per definire il collettivo, l’insieme di unità statistiche (tutte) di interesse in questa particolare rilevazione. Dopo
aver circoscritto l’oggetto e individuato la popolazione bisogna cercare più in profondità si devono individuare i soggetti
della nostra indagine.
Nella seconda fase si devono definire gli obiettivi. Dobbiamo scegliere le domande di ricerca che ci si deve porre,
dopodiché dobbiamo definire le variabili da rilevare per rispondere a tali domande. Si devono individuare le metodologie
di ricerca (es. focus group).
Nella terza fase bisogna pianificare la raccolta delle informazioni, quindi come inserire, in corrispondenza di ciascuna
variabile, determinati valori. Occorre vedere se ci sono informazioni già disponibili e in questo caso vengono in aiuto le
fonti di dati a cui faremo riferimento prossimamente. A questo punto possiamo passare ad un’operazione della
predisposizione del piano di campionamento (stabilire la popolazione che effettivamente verrà indagata). Le
informazioni vengono raccolte principalmente tramite il questionario, quindi si deve anche costruire il questionario.
Partire dall’elenco delle variabili e poi decidere come le modalità delle variabili saranno ottenute, questo ci darà
un’indicazione delle domande da inserire nel questionario.
Nella quarta fase passiamo alla raccolta dei dati. Il campionamento probabilistico prevede, ad esempio, l’estrazione
casuale del campione. Una volta estratto il campione potremmo passare alla raccolta vera e propria dell’informazione che
avverrà attraverso la somministrazione del questionario (metodo dell’intervista, auto-compilazione online…). Una volta
somministrati i questionari si dovranno ordinare e si potrà creare una prima bozza della matrice finale dei dati, una
struttura dei dati in cui ogni riga corrisponde ad un’unità statistica e ogni colonna è una variabile. Fatto ciò, prima di
effettuare le elaborazioni statistiche di sintesi, è necessario effettuare un primo controllo sulla qualità dei dati per
minimizzare errori eventuali.
Nella quinta fase si procede all’analisi dei dati, organizzando le informazioni raccolte prima dell’analisi effettiva dei dati
statistici e si deve anche cercare di dare una risposta alla domanda di ricerca. Si potrebbero anche fare delle analisi sul
collegamento tra le varie variabili.
Nella sesta e ultima fase si preparano e si presentano i dati. A questo punto siamo dunque pronti per redigere un report
finale.

LE FONTI DEI DATI

Per fonti dei dati si intendono tutti i documenti dove si possono individuare le informazioni che interessano le nostre
ricerche. Le fonti si distinguono in primarie (o dirette) e secondarie (indirette). Le fonti primarie sono quei dati che
vengono rilevati direttamente da coloro che hanno l’esigenza informativa, oppure effettuate da terzi ma su mandato del
soggetto al quale interessa l’indagine, seguendo ovviamente le fasi di cui abbiamo parlato. All’interno delle fonti primarie ci
sono anche gli esperimenti. Le fonti secondarie sono un insieme di dati raccolti da terzi soggetti indipendentemente dal
fabbisogno informativo attuale di un’impresa X.

Queste a loro volta si distinguono in fonti interne ed esterne. Le prime sono quei dati rilevati all’interno
dell’organizzazione nell’ambito dell’attività aziendale ma indipendentemente dal fabbisogno informativo dell’azienda
(fatture, database clienti…). Le fonti secondarie esterne sono generate appunto all’esterno dell’azienda da aziende private,
ad esempio. Le fonti secondarie esterne si distinguono a loro volta in ufficiali e commerciali. Prima di vendere un prodotto
sul mercato l’azienda deve effettuare delle indagini sul mercato potenziale e le unità statistiche. Nel caso della produzione e
vendita dell’elettrodomestico l’unità statistica è la famiglia.

3 definizioni importanti che chiede all’ESAME:


• UNITA’ STATISTICA: singolo elemento che costituisce un collettivo (persone, famiglie, aziende, persone con
determinate caratteristiche…)
• VARIABILE STATISTICA: determinata caratteristica rilevata in corrispondenza delle unità statistiche.
L’insieme delle variabili che possiamo analizzare dipende dal collettivo. Definito il collettivo si possono
individuare le variabili (es. sesso)
• MODALITA’: definita come il modo attraverso il quale si manifesta una variabile in corrispondenza di
un’unità statistica. (le modalità in cui si manifesta la variabile genere sono due: maschio e femmina → variabile
dicotomica → variabile che si può manifestare in due sole modalità vs variabile politomica → più di due modalità.)

Una classificazione importante è quella che distingue le variabili in:

▪ VARIABILI QUANTITATIVE: le cui modalità sono rappresentate da numeri (es. età)


▪ VARIABILI QUALITATIVE: le cui modalità sono rappresentate da parole (es. sesso)
Le variabili qualitative a sua volta possono essere nominali, ovvero variabili per le quali le modalità che possono
essere assunte consentono la relazione di uguaglianza o differenza (es genere); o ordinali, per le quali le modalità
che possono essere assunte si può stabilire un ordinamento. (titolo di studio)

Relazione tra variabili quantitative e qualitative: si può sempre pensare di trasformare una variabile quantitativa in
qualitativa ma non può accadere l’opposto. Ad esempio, azienda con meno di 10 dipendenti (variabile quantitativa) =
piccola azienda (variabile qualitativa).

Quando facciamo una rilevazione, l’informazione quantitativa è sempre più utile della qualitativa. Quando parliamo di var.
qualitative spesso siamo interessati ad effettuare operazioni di CODIFICAZIONE, che consiste nell’attribuire in maniera
del tutto convenzionale e arbitraria la sostituzione alle parole dei numeri (codici) (es. maschi: 0; femmine:1). L’importante è
che i numeri siano diversi e che venga mantenuta la corrispondenza biunivoca. Quando facciamo la codificazione non
stiamo trasformando la v. qualitativa in quantitativa, la variabile resta sempre qualitativa.

Siamo il manager delle vendite dell’azienda xyz, vuole conoscere meglio il mercato e la prima cosa che deve fare è
verificare la disponibilità delle informazioni che gli servono tra le diverse fonti che ci sono già. Un’informazione sul
possesso di elettrodomestici, ad esempio, esiste perché viene rilevata dall’ISTAT, perché fa un’indagine sul consumo degli
italiani. Quindi essere consapevoli dell’informazione già disponibile, già rilevata da altri. Bisogna vedere anche il grado di
dettaglio e disaggregazione territoriale che ci interessa, ma anche individuare il grado di aggiornamento delle informazioni
che ci interessano. L’indagine Istat viene fatta annualmente. Quando si fa un’indagine questo richiede tempo, questo si
traduce nel fatto che le informazioni che provengono da fonti ufficiali non sono esattamente recenti (troveremo quelle
dell’anno scorso ma non quelle di un mese fa). Le rilevazioni fatte dall’Istat sono, inoltre, nazionali e possono avere un
certo livello disaggregazione (difficilmente vanno al di sotto del livello provinciale, anzi spesso ci dobbiamo accontentare
di informazioni a livello nazionale, macroaree, regionale). Se il manager, dunque, ha bisogno di un’informazione relativa al
mese scorso disaggregata a livello di quartiere, non può contare sulle indagini effettuate dall’Istat.

La ricerca delle informazioni disponibili va sempre fatta prima, poi si deve vedere il grado di dettaglio al quale si vuole
arrivare, anche per stabilire quando vogliamo fare una rilevazione ad hoc come strutturare le indagini che vogliamo fare.
Spesso, in questi casi, è la stessa azienda, o chi per lei, a dover effettuare la ricerca di mercato. Nel marketing, il ruolo
principale è del mercato e del cliente finale. Quindi dobbiamo individuare cosa si aspetta il cliente, quale prezzo è
ottimale… se dobbiamo mettere al centro il cliente dobbiamo dunque cercare di raccogliere informazioni in modo diretto
o indiretto. Dobbiamo decidere anche i canali di distribuzione, come far arrivare il prodotto al cliente.

Le ricerche e le fonti informative disponibili aiutano i manager a prendere decisioni mettendo a disposizione informazioni
nuove per la soluzione di specifici problemi. Si tratta di ricerche sistematiche ed oggettive su:

•lo sviluppo di un prodotto;

•l’identificazione del mercato;

•l’individuazione di adeguati metodi di vendita, di distribuzione, di promozione;

•l’ambiente sociale e culturale;


•i cambiamenti in ambito politico e legale;

•gli sviluppi tecnologici.

Facciamo alcuni esempi.

Quando decidiamo di effettuare una ricerca di mercato è perché abbiamo individuato un problema (vendiamo meno,
nuovi concorrenti, i clienti cambiano le loro tendenze). Prima di occuparci di come raccogliere le informazioni, dunque,
dobbiamo prima capire quali sono le cause del problema riscontrato. Prendiamo il caso in cui il problema è la perdita di
clienti. Una causa del problema potrebbe sicuramente essere il prezzo troppo alto, ma dobbiamo anche capire quanto la
clientela sia sensibile al prezzo, e dunque capire cosa ci serve sapere per risolvere il problema e implementare dei parametri
che diano un’idea precisa della sensibilità dei consumi della clientela ai prezzi. Per risolvere il problema si devono abbassare
i prezzi o questi si possono mantenere uguali offrendo altri servizi? Se l’elasticità è alta, ho elevati margini di manovra e
viceversa.

Altro caso ancora, scopriamo che la causa della perdita dei clienti è l’insoddisfazione dei miei clienti riguardo al mio bene.
Ovviamente dovremo individuare le aspettative del cliente in termini di qualità del bene/servizio, raccogliere dei dati sui
consumatori e fare un’indagine sulla c.d. customer satisfaction, dunque in questo caso il prezzo non è così fondamentale.
Magari devo cambiare il canale di distribuzione, impostare una comunicazione diversa e una volta individuati gli aspetti
critici trovare il modo per limitare la perdita di clienti e, dunque, risolvere il problema.
Ancora un’altra causa potrebbe essere la presenza di nuovi competitor che hanno cominciato ad erodere QdM (quote di
mercato). A questo punto dovremo cercare di migliorare la conoscenza sui concorrenti quindi dovrò effettuare un’indagine
sulla concorrenza e sul mercato (promozioni dei concorrenti, qualità dei loro beni, canali di distribuzione utilizzati…). Una
volta capito il problema dobbiamo migliorare noi stessi rispetto ai clienti.
Altra causa ancora potrebbe essere l’obsolescenza della mia offerta. Il mio prodotto non risponde più alle esigenze di
innovazione che pretendono i clienti. Si deve capire fino a che punto ci si vuole spingere in investimenti in innovazione e
in che misura, al fine di risolvere il problema iniziale. In questo caso, si deve capire come orientare gli investimenti e
allocare le risorse, al fine di avere un effetto positivo sulle vendite.

Un filone di mercato importante è quello che riguarda la valutazione ex ante ed ex post di campagne promozionali e
pubblicitarie. Ci aspettiamo, quando impostiamo una campagna promozionale o pubblicitaria, che questa sia efficace e
porti un beneficio in termini economici, attraverso un miglioramento del posizionamento sul mercato. Alla fine, dunque,
deve portare dei miglioramenti, ad esempio in termini di aumento della clientela o dei suoi consumi. Quando decidiamo di
intraprendere una campagna dobbiamo stabilire degli obiettivi.

Per comprendere l’efficacia di una campagna dobbiamo confrontare la situazione prima e dopo la campagna e dunque
misurare tutte le dimensioni che abbiamo ritenuto utile analizzare per la nostra ricerca (ADVERTISING RESEARCH).
Questo possiamo farlo tramite un’indagine continuativa con due istanti temporali diversi.

Un’altra tipologia di rilevazione è quella che riguarda il prodotto (PRODUCT RESEARCH), solitamente fatta da aziende
che offrono prodotti alimentari. Si possono fare ricerche sulla percezione del prodotto per il consumatore finale e valutare
quali sono le caratteristiche che vengono rilevate e manifestate dal cliente una volta che effettua l’assaggio. Solitamente si fa
in termini comparativi tra due brand togliendo il nome del brand (prodotto in versione blind per evitare le distorsioni
dovute alla conoscenza della marca) dal prodotto in questione prima dell’assaggio.

Ci sono anche altre indagini per misurare il grado di sensibilità dei consumatori rispetto al prezzo (PRICING
RESEARCH) mirate all’impostazione dei modelli di sensitività al prezzo o ancora indagini che riguardano i canali
distributivi (DISTRIBUTION RESEARCH).
Cosa si intende per ricerche di mercato? la definizione che viene data dall’American Marketing Association è questa:
“Marketing Research is the function that links the consumer, customer, and public to the marketer through information - information used
to identify and define marketing opportunities and problems; generate, refine, and evaluate marketing actions; monitor marketing performance;
and improve understanding of marketing as a process. Marketing research specifies the information required to address these issues, designs the
method for collecting information, manages and implements the data collection process, analyzes the results, and
communicates the findings and their implications .”
La ricerca di mercato è la funzione che collega e crea un ponte tra l’azienda e i consumatori (interpretazione del
prof), è sempre un mezzo attraverso il quale si cerca di raggiungere e di capire meglio quali sono le informazioni e
caratteristiche più importanti per i consumatori, al fine di monitorare le performance di marketing e comprendere le
dimensioni del mercato. Le ricerche di mercato si programmano in metodi per la raccolta delle informazioni, quindi
attraverso la ricerca si cerca di definire i metodi per raccogliere i dati. Una volta definiti i metodi dobbiamo passare alla
raccolta vera e propria delle informazioni e dunque capire come gestire la parte della procedura che riguarda la raccolta dei
dati (prima decidiamo come raccoglierli e poi li raccogliamo). Una volta raccolti i dati dobbiamo validarli (controllarne la
qualità) e poi sintetizzare i risultati ottenuti attraverso le tecniche statistiche di sintesi dei dati per evidenziare le
caratteristiche fondamentali delle singole variabili e trovare eventuali relazioni tra queste. I risultati ottenuti devono essere
comunicati nel modo più efficace possibile attraverso la redazione di un report destinato ai soggetti interessati alla ricerca
di mercato (responsabili vendite, comunicazione, all’esterno, ai media…).

I leader per le ricerche di mercato sono gli inglesi e le ricerche sono nate all’inizio del secolo scorso, prima del primo
conflitto mondiale. Tra le due guerre hanno avuto un buon impulso. Nel 1928 Gallup conduce il primo sondaggio di
mercato, semplice e rudimentale, ma è il primo a capire che le imprese non possono prescindere dalle informazioni
riguardante il mercato e i clienti finali. Nel 1936 viene effettuato il primo sondaggio elettorale per come lo intendiamo oggi,
in quell’anno si confrontavano Landon e Roosevelt.
Prima del 1905: nascono negli USA le prime rudimentali applicazioni della ricerca ai problemi di marketing. 1905-1919: le
ricerche di mercato si avviano ad assumere un ruolo più significativo nelle attività commerciali (principalmente in USA e
GB). Bureau of Business Research ad Harvard (1911)
1919-1930: la ricerca di mercato comincia ad essere strutturata come disciplina propria con pubblicazioni specializzate.
Negli USA (1926) viene fondato l’American Market Research Council.
Gallup (1928) conduce il primo sondaggio.
1930-1945: le ricerche di mercato si diffondono e le loro basi metodologiche si consolidano.
1936: primo sondaggio elettorale (Landon-Roosvelt).
1945-1973: nascono le ricerche di mercato moderne con forte connotazione interdisciplinare. Si utilizzano:

- la teoria dei campioni;


- tecniche di analisi statistica sofisticata;
- concetti e tecniche psicologiche per lo studio del comportamento del consumatore;
- le tecniche per la misura degli atteggiamenti.

Nascono il Journal of the Market Research Society (1959) e il Journal of Marketing Research dell’AMA (1964).

Limiti delle ricerche di mercato


Riguardano:

▪ Tempi
▪ Costi
▪ Errori di misura

Per un’azienda una proposta ottimale è ottenere risultati subito a fronte di un budget congruo e sostenibile.
I focus group sono dei brainstorming in cui delle persone si riuniscono in una stanza e attraverso il coordinamento della
discussione fatto da uno o due esperti moderatori si confrontano su un argomento di interesse. Un’impresa che produce
pasta decide di effettuare investimenti per rinnovare gli impianti al fine di migliorare la qualità del prodotto. Prima di
effettuare gli investimenti, vuole vedere quali siano le esigenze in termini di qualità del prodotto da parte dei consumatori
finali e, dunque, si effettuano dei test di assaggio in forma blind e si propone di assaggiare lo stesso piatto di pasta fatto con
due tipi di pasta diversi senza dire la marca. Da un test di assaggio potrebbe rilevarsi che la qualità della pasta dell’impresa è
buona, ma ha un problema di immagine e dunque dovrebbe indirizzare i suoi investimenti verso le campagne pubblicitarie.

Abbiamo detto che una fonte statistica è, appunto, una fonte di informazione che si può utilizzare per colmare il gap
informativo dell’azienda. La prima classificazione è tra fonti primarie (dirette) e secondarie (indirette). All’interno delle
fonti primarie possiamo distinguere tra: rilevazioni e ricerca sperimentale (solitamente eseguita nell’ambito di materie
scientifiche). Le fonti secondarie o indirette sono caratterizzate dal fatto che rappresentano informazioni rilevate
indipendentemente dal bisogno conoscitivo attuale dell’azienda. Le fonti secondarie possono essere interne o esterne. Le
fonti (secondarie) interne sono tutte le informazioni che l’impresa produce nell’ambito e nel merito della sua attività (ad
esempio le fatture di vendita). Quelle esterne sono dati rilevati sempre indipendentemente dall’obiettivo aziendale ma che
sono state prodotte all’esterno. Si distingue tra fonti secondarie esterne ufficiali (svolte all’interno del SISTAN [sistema
statistico nazionale, programma definito con legge dello stato e coordinato dall’Istat e nel quale vengono previste tutte le
indagini per fare fronte al fabbisogno informativo di enti pubblici e non che hanno sede nello Stato Italiano]) e fonti
secondarie esterne commerciali (dati che derivano da indagini svolte da società private che hanno come attività
principale la raccolta dei dati e l’attività di indagine) che hanno la caratteristica di essere disponibili dietro pagamento.
Alcuni esempi di alcune tipologie di fonti.

DATI SECONDARI INTERNI

Informazioni che si trovano negli archivi di azienda (database clienti, database fornitori, database dipendenti, fatture, note
di carico, bilanci e scritture contabili). Per caratterizzare questo tipo di fonti ci dobbiamo interrogare sugli obiettivi
informativi da individuare. I vantaggi delle fonti secondarie interne sono quelli di essere disponibili immediatamente
all’interno dell’azienda a costi limitati. Il problema che si riscontra quando vogliamo usare questa tipologia di dati è che
sempre più frequentemente le aziende hanno tantissime informazioni, sono proprio bombardate e spesso non hanno
risorse interne all’azienda per sfruttarle.

DATI SECONDARI ESTERNI

Statistiche e rapporti pubblicati da enti pubblici, associazioni commerciali di categoria, istituti di ricerca, agenzie di
pubblicità. Come abbiamo detto possono essere ufficiali o commerciali e si tratta di dati già elaborati, utili per supportare
le decisioni aziendali che necessariamente hanno a che fare col futuro prossimo. Nonostante si tratti di dati di elevata
qualità e controllo per via dei protocolli, mancano spesso di accuratezza e forma. Questo perché un dato che potrebbe
essere rilevante per la nostra indagine oggi potrebbe già essere troppo vecchio, perché riferito ad anni prima, e dunque non
servirci più o servirci marginalmente. In generale, quando reperiamo dei dati secondari esterni, siano essi ufficiali o
commerciali, dobbiamo sempre interrogarci su qual è il loro potenziale informativo, al di là del grado di sovrapposizione ai
nostri obiettivi. Dobbiamo interrogarci sugli obiettivi che hanno spinto lo stesso soggetto a raccogliere i dati, perché ciò ci
consente di avere un’idea su qual è il grado di commitment, di sforzo che il soggetto ha messo nella raccolta di questi dati.
Nel caso delle fonti ufficiali, sappiamo che lo scopo è rivolto all’utilizzatore finale e questo ci fornisce una garanzia di
qualità del dato.
Un’indagine svolta da un’azienda che si occupa di indagini di mercato su mandato di un’altra società, invece, riguarda un
mercato molto specifico solitamente, e lo scopo è molto diverso da quello delle fonti ufficiali e la qualità potrebbe non
essere molto elevata. Un’altra domanda fondamentale da porsi è relativa all’identità di colui che ha raccolto i dati. Una cosa
è l’Istat, un’altra è una società privata, anche se quest’ultima lavora benissimo. Anche come sono state raccolte le
informazioni è importante (entreremo in merito delle rilevazioni campionarie, dei questionari etc.). A seconda di come
vengano implementati alcuni strumenti, la qualità del dato può variare e ne dipende fortemente. Nel caso delle indagini
svolte dall’Istat, possiamo sempre trovare un documento di supporto che fa parte dei cd metadati, in cui vengono illustrate
tutte le procedure di raccolta dei dati. La presenza di un documento che attesta la procedura di raccolta dei dati ci dice
molto sulla procedura in sé e sulla qualità dei dati raccolti. Se abbiamo poi l’opportunità di raccogliere dati che derivano da
fonti diverse, il confronto tra i risultati ci consente ancora una volta di comprendere l’utilità dei dati.

DATI DA INTERNET

Anche internet ormai è sempre più utilizzato per la raccolta e la ricerca dei dati. Basti pensare ai questionari online, il cui
link viene distribuito, ad esempio, attraverso i social media. È necessario presentare lo scopo del questionario e garantire il
mantenimento della privacy, soprattutto quando si tratta di auto-compilazione. La prima reazione di chi compila il
questionario è di fastidio. Quindi bisogna valutare il tempo necessario a compilarlo e occorre che venga garantita la
segretezza e che i dati verranno mostrati in forma aggregata e anonima. Solitamente il questionario viene strutturato in
sessione, nella prima solitamente ci sono dati della persona (sesso, regione di provenienza etc.).

FONTI STATISTICHE UFFICIALI

Le principali pubblicazioni dell’Istat sono due: l’Annuario statistico italiano


(https://www.Istat.it/it/archivio/annuario+statistico+italiano) e il Bollettino mensile. (https://www.Istat.it/it/dati‐
analisi‐e‐prodotti/tavole‐di‐dati/bollettino‐mensile‐di‐statistica‐on‐line) La differenza tra i due è relativa alla tempestività
dell’informazione, il bollettino è sicuramente più aggiornato. All’aumentare della tempestività dell’informazione diminuisce
il grado di disaggregazione. Nell’annuario troveremo dati più disaggregati (si arriva addirittura al livello provinciale)
nonostante sia meno tempestivo e meno aggiornato. I dati dell’Istat vengono pubblicati anche in altre ricerche. L’Istat
effettua anche indagini sui consumi delle famiglie, molto importante ad esempio per le aziende che operano nel settore
alimentare, anche per capire le percentuali di reddito mensile impiegato per far fronte alle varie esigenze nei consumi
(alimentari e non alimentari). La % più alta di consumi riguarda l’abitazione, l’acqua, le bollette. Le indagini multiscopo
sono un insieme di indagini svolte dall’Istat annualmente che riguardano alcuni aspetti della vita quotidiana. Al suo interno
c’è anche un focus trimestrale sulle vacanze e, dunque, sul turismo e 5 indagini tematiche con cadenza quinquennale (una
all’anno tra salute, tempo libero, la sicurezza, le famiglie e i soggetti sociali e l’uso generale del tempo distinto tra tempo
dedicato a lavoro e tempo dedicato al tempo libero).

16/10/2020

Quando si parla di fonti ufficiali si devono analizzare tutti i dati che emergono dalle rilevazioni dell’Istat. Il grafico che
prende il nome di piramide della popolazione in Italia ha più la forma di un albero. La base (0-4 anni) è ristretta, va per
ampliarsi fino ai 50-54 anni per poi restringersi. L’Italia è il Paese più vecchio al mondo insieme al Giappone.
Consideriamo altre statistiche ufficiali di altri enti a parte l’Istat che fanno sempre parte del SISTAN. Il CENSIS è un
ente pubblico che svolge un’indagine molto interessante in cui si mettono in evidenza dei risultati sociali per quanto
riguarda la popolazione italiana (“Rapporto sulla situazione sociale”). Un altro esempio è UNIONCAMERE, l’unione di
tutte le Camere di Commercio. Se ci soffermiamo sul settore secondario, la principale associazione di categoria è
CONFINDUSTRIA. Il suo scopo principale non è produrre o raccogliere dati ma nel suo lavoro ha a che fare con dei
dati, li raccoglie e pubblica dei volumi rendendo disponibili dei database. Una pubblicazione curata dal centro studi
all’interno di Confindustria è, ad esempio, la “pubblicazione scenari”. Gli scenari sono studi e analisi del passato dei
diversi settori industriali, utili poi per costruire delle proiezioni (scenari) a breve e medio termine sugli sviluppi, per offrire
un supporto alle decisioni che devono prendere le aziende. Per analisi congiunturale si intende un’analisi previsiva a
breve termine che solitamente dura dai tre al massimo sei mesi. Molti studi raccolgono i c.d. sentiments delle imprese su
quelli che sono i sentimenti, le sensazioni delle imprese per un determinato sviluppo degli eventi economici.

Un altro settore all’interno del quale si trovano delle fonti di dati ufficiali sono i dati finanziari, che riguardano la capacità
del sistema di sostenere le imprese e il credito e gli andamenti riguardanti gli investimenti e i mercati finanziari (quotazioni
società, azioni). La maggior parte di queste informazioni viene raccolta dalla Banca d’Italia, la nostra Banca Centrale, che
prima dell’adesione al sistema euro stabiliva la politica monetaria (emissione di carta moneta e il controllo e la fissazione
del livello dei tassi di interesse stabilendo il tasso di sconto ufficiale; seconda funzione di vigilanza sul sistema finanziario
per garantire il buon funzionamento della cessione del credito alle famiglie e ai cittadini). Oggi la Banca d’Italia svolge
solamente una funzione di vigilanza, ma fa anche delle pubblicazioni importanti come “Bilanci sulle famiglie italiane”,
“Indagine su imprese”. La Banca d’Italia rende direttamente disponibili i micro-dati, al contrario dell’Istat. Vedi
MEDIOBANCA.

Guarda riviste “Marketing espansione” e “Marketing manager”.


Un istituto importantissimo a livello europeo è L’EUROSTAT, istituto centrale di statistica dell’Unione Europea. Come
per l’Istat, è possibile consultare i dati in maniera interattiva, anche a livello regionale (quando si parla di dati a livello
europeo si usa una classificazione territoriale particolare, che ha diversi gradi di disaggregazione; il primo grado ovviamente
è quello nazionale, per arrivare a disaggregazioni a livello regionale → solo alcune regioni italiane rappresentano una
regione a sé stante in questa modalità, come la Lombardia).

FONTI SECONDARIE ESTERNE COMMERCIALI

Queste società hanno come scopo principale la raccolta di dati per poi rivenderli o la raccolta di dati su commissione. Per
quanto riguarda i dati di bilancio, una società molto importante che svolge questa attività di raccolta di dati di bilancio in
collaborazione con le camere di commercio è CERVED. Questa raccoglie i bilanci, li classifica e li rende disponibili
attraverso la banca data AIDA, dove è possibile dunque reperire tutte le informazioni riguardanti le poste di bilancio di
tutte le società di capitali italiane.
SEAT gestisce attraverso CONSODATA (http://www.consodata.it/) una base informativa di geo-marketing, che
contiene dati comunali tratti dai censimenti della popolazione e dell’industria, indicatori comunali di provenienze diverse
(Banca d’Italia, Ministeri) ed elaborazioni delle informazioni desumibili dagli elenchi telefonici.

NIELSEN registra le componenti essenziali degli annunci pubblicitari, apparsi su quotidiani, periodici, affissioni stradali,
radio e televisione. (http://it.nielsen.com/site).

Esempio Numerose banche dati sui mercati internazionali:


-di tipo bibliografico, contenenti sintesi di articoli (ABI/Inform);
-contenenti informazioni numeriche e statistiche (US Bureau of the Census, https://www.census.gov/popclock/);
-per fini specifici (OECD, www.oecd.org)

ISTAT gestisce diverse banche dati:

•Coeweb: dati sul commercio estero (http://www.coeweb.Istat.it)

•ConIstat: indicatori congiunturali in serie storiche Migrato su (http://dati.Istat.it/)

•ASIA: archivio delle imprese Attive

DATI DI AGENZIA

Sempre nell’ambito di fonti secondarie commerciali abbiamo i dati di agenzia, che vengono rilevati da società che
hanno come scopo principale la raccolta di dati per le ricerche di mercato una volta individuato il fabbisogno informativo
di più imprese, avendo individuato le variabili e gli obiettivi più importanti. Se i clienti vogliono informazioni sul settore dei
cosmetici in Italia, ad esempio, io sono la NIELSEN e raccolgo tutte le informazioni, contatto i consumatori e
somministro un questionario per rilevare le variabili che possano rispondere agli obiettivi delle imprese. Poi si crea una
matrice finale dei risultati, che possono essere distribuiti in modo tale da distribuirli a tutte le imprese. Per le imprese che si
sono rivolte alla società in questione per effettuare la rilevazione, questi dati rappresentano DATI PRIMARI perché sono
stati rilevati per far fronte direttamente al fabbisogno informativo delle stesse imprese (che si configurano come imprese
committenti). Questi dati, pagati dietro corrispettivo, vengono a far parte di un database generale di Nielsen. Se l’anno
dopo un’impresa contatta la Nielsen per la stessa indagine di mercato, ma non ha i soldi per pagare l’indagine, a quel punto
la Nielsen fornisce la matrice dell’anno prima, ma senza fare un’indagine ad hoc. I dati a questo punto sono secondari,
proprio perché sono parzialmente correlati all’esigenza informativa dell’ultima impresa, non sono dati raccolti ad hoc per
questa impresa omega. Dunque, per i committenti i dati rilevati sono primari, per quelle imprese che usufruiscono di dati
esistenti e derivanti da indagini ad hoc passate sono dati secondari. Sono dunque informazioni vendute da società di ricerca
specializzate a clienti diversi che condividono bisogni informativi comuni (i dati secondari d’agenzia sono anche detti
syndacate data).

I dati di agenzia possono essere effettuati avendo popolazioni target di diverso tipo. Le unità statistiche sulle quali vengono
rilevate le informazioni possono essere famiglie o imprese. Se i questionari vengono svolti una tantum prendono il nome di
sondaggi (presso un campione di famiglie/imprese). Si parla di sondaggi omnibus, ovvero sondaggi commissionati da
più utilizzatori/imprese a ciascuno dei quali è data la possibilità di riservarsi una porzione modulare del questionario.

Ci sono casi in cui, però, la società che svolge la richiesta, estrae un campione dalla popolazione di famiglie e, anziché
somministrare il questionario in un unico momento, ripete l’indagine sullo stesso campione in vari momenti, a quel punto
si parla di indagini continuative svolte presso un campione di famiglie, e i dati che vengono rilevati si configurano come
dati panel, perché sono riferiti allo stesso campione e il questionario viene somministrato in diversi istanti temporali.
Altra metodologia di raccolta dei dati è quella dei dati sui consumi e sui prezzi pagati per i beni di largo consumo che
possono essere rilevati presso i punti vendita o dalle scannerizzazioni degli acquisti delle famiglie. I dati raccolti nei punti
vendita sono dati che vengono rilevati in continuo. La differenza rispetto ai panel è che, nei diversi istanti, il campione
cambia. Gli acquisti di una settimana sono effettuati da consumatori diversi rispetto alla settimana dopo, resta fisso il
punto vendita. I dati possono anche essere rilevati direttamente dalle famiglie. Viene selezionato un campione fisso di
persone e si chiede alle famiglie di farne parte per ricevere informazioni ad intervalli regolari. Per incentivarle a farne parte,
ovviamente, è necessario promettere loro qualcosa, come buoni acquisti o omaggi. Una volta si chiedeva alle famiglie di
compilare una sorta di diario dei consumi, oggi solitamente il campione oggetto d’indagine viene dotato di un palmare, uno
scanner che legge il QR code dei prodotti che immagazzina le informazioni e manda i dati ad un server online che
raccoglie tutte le informazioni. L’altra parte di rilevazioni commerciali considera la popolazione delle imprese. Esistono
varie rilevazioni come, ad esempio, i c.d. audit sui dettaglianti (informazioni simili a quelle del campione delle famiglie,
ma la prospettiva è diversa) per individuare informazioni in merito a brand, prezzi, promozioni. Questi audit possono
essere fatti ad imprese che vendono al dettaglio o fornitori che poi vendono ad imprese al dettaglio.
Vantaggi:
• bassi costi e velocità (rispetto ad una rilevazione condotta in proprio)
• accuratezza

Svantaggi:
• i dati non sono specifici per le esigenze della singola azienda

Ambiti analizzati:
• comportamenti dei consumatori
• segmentazione del mercato
• evoluzione del mercato
• monitoraggio di campagne promozionali

Principali fornitori di dati d’agenzia in Italia:

• Doxa www.doxa.it
• ASSIRM http://www.assirm.it/ Database «Statista» (https://www.statista.com/outlook/consumer-markets)
•A.C. Nielsen www.acnielsen.it (già visto).
•IRI http://www.iriworldwide.it/ https://www.iriworldwide.com/it-IT/insights/Publications/IReport-State-Of-The-
Nations-di-IRI

Scopi per cui si utilizzano questi dati:

• vendite di un prodotto e quota di mercato (panel sui consumi, audit sui dettaglianti);
• esposizione ed efficacia della pubblicità (dati ad hoc e sui consumi);
• efficacia delle promozioni (dati scannerizzati dai punti vendita).

Previsioni e proiezioni - Natura della previsione

• Tendenziale (si analizzano le interrelazioni tra le diverse variabili ipotizzando costanza delle politiche economiche e
sociali).
• Strumentale (si propone una simulazione per valutare cosa accadrebbe se nulla si modificasse, allo scopo di sottolineare la
necessità di un cambiamento).
• Normativa (indica il cammino da compiere per conseguire un certo obiettivo).

Riferimento temporale
Breve: entro i 2 anni.
Medio: 5-10 anni.
Lungo: oltre i 10anni.

Strumenti di previsione:
Valutazioni soggettive.
Metodo Delphi.
Analisi di serie storiche.
Modelli econometrici.

Previsioni e proiezioni (2)

Previsioni e proiezioni disponibili

• Proiezioni demografiche elaborate da Istat, Istituto di Ricerche sulla Popolazione, ONU, World Bank.
• Proiezioni macroeconomiche elaborate da svariati enti di ricerca:

PROMETEIA (www.prometeia.it) elabora previsioni trimestrali dei principali aggregati macroeconomici (Pil, consumi,
investimenti, produzione) mediante un modello econometrico; Fornisce un servizio di analisi e previsioni di consumi per
circa un centinaio di beni e servizi. https://www.prometeia.it/prometeiamio

Nell’ambito delle indagini continuative, dunque, si producono dati di tipo panel e lo stesso campione viene spesso
chiamato panel (rilevazioni su un “panel” di consumatori). Ma di per sé il panel sono i dati, l’insieme di unità statistiche
sulle quali si fa la rilevazione è il campione. Le informazioni riguardano solitamente quello che avviene in quell’istante o in
istanti molto prossimi alla rilevazione.
Panel: campione permanente, costituto dalle medesime unità, seguite nel tempo. I panel assolvono sostanzialmente a tre
funzioni principali:
1. consentono di registrare fatti (ad esempio consumi) in modo che siano solo limitatamente influenzati dal fattore
ricordo;
2. permettono di valutare modificazioni di mercato;
3. consentono di condurre piccoli esperimenti dividendo il panel in sotto-campioni equivalenti.

Le indagini continuative consentono, dunque, di effettuare indagini di tipo dinamico e di ridurre la distorsione del “fattore
ricordo”. Si prestano anche a delle ricerche sperimentali: all’interno del campione fisso un sotto-insieme di questo
campione di famiglie decidiamo di somministrare dei messaggi promozionali particolari e non lo facciamo sulle altre
famiglie. In questo modo alla fine del periodo rileviamo le informazioni del sotto-campione e del campione principale e
vediamo se ci sono delle variazioni o informazioni rilevanti per stimare l’effetto del particolare trattamento fatto al sotto-
insieme di unità statistiche (si fa spesso in ambito farmacologico).

Limiti delle rilevazioni tramite panel

Quando una persona esce dal campione dobbiamo essere pronti a sostituirla con un’altra il più possibile simile (si dice che
muore statisticamente). Spesso si deve prevedere un campione di scorta al quale attingere nel caso in cui alcune unità
statistiche rinuncino alla partecipazione all’indagine (Mortalità come Primo limite). Un altro problema è quello del
condizionamento da partecipazione al panel: nel momento in cui una persona viene chiamata a dare informazioni in
una rilevazione di questo tipo avviene che i comportamenti di acquisto e di consumo cambiano proprio perché la persona
è entrata a far parte del campione. Può aumentare i consumi subito dopo l’inizio della rilevazione, ad esempio, e dunque si
devono scontare questi effetti (prendere con le pinze le prime informazioni che rileviamo e considerarlo un momento di
prova fino ad un successivo assestamento e stabilizzazione). Molto spesso, per meglio coinvolgere le persone nel campione
delle indagini panel e farle sentire parte di una comunità, si tende a renderlo partecipe dei risultati dell’indagine fornendo
dei report. In base ai risultati ottenuti e osservati molto spesso si rileva che le persone tendono a modificare i loro
comportamento di acquisto in base ai risultati visti nel report, per una sorta di istinto di emulazione. Questo però rende
l’individuo meno rappresentativo del segmento dal quale è stato estratto e i risultati vengono distorti. È necessario che
l’unità statistica non resti nel panel per molte rilevazioni, in questi casi e che si provveda alla rotazione periodica del
campione statistico (si sostituiscono periodicamente le persone presenti nel campione per ridurre eventuali distorsioni e
non compromettere l’indagine).

Nell’ambito delle rilevazioni continue un ente importante è l’AUDITEL che controlla i dati sul traffico televisivo e stimare
lo share dei programmi.
MATRICI DI TRANSIZIONE E SCOMPOSIZIONE QDM

MATRICI DI TRANSIZIONE → sopra le colonne si legge la seconda rilevazione; a sinistra delle righe la prima rilevazione. Se
nella matrice i valori nelle celle sono compresi tra 0 e 1 è una matrice di frequenze relative, altrimenti se i numeri sono
interi positivi è una matrice di frequenze assolute.
ANALISI PROSPETTICA → sempre frequenze relative → dividere per i totali di riga
1. Sulla diagonale principale ci sono i tassi di fedeltà alla marca
2. Nelle celle al di fuori della diagonale principale si trovano i tassi di migrazione che coincidono con le frequenze
relative fuori dalla diagonale
3. Qdm alla seconda rilevazione nell’ultima riga → nell’ultima colonna mettiamo tutti 1
ANALISI RETROSPETTIVA → sempre frequenze relative → dividere per i totali di colonna
1. Consente di analizzare in termini relativi da dove provengono in termini di marche acquistate nella prima
rilevazione coloro che acquistano una determinata marca nella seconda rilevazione.
2. Tassi di provenienza
3. Qdm alla prima rilevazione nell’ultima colonna → nell’ultima riga mettiamo tutti 1

SCOMPOSIZIONE DELLA QUOTA DI MERCATO


INFORMAZIONI DEDUCIBILI DA UN PANEL DI CONSUMATORI

𝑐𝑘
• INDICE DI DIFFUSIONE: γ= 𝑐𝑝 → varia tra 0 e 1. Più è vicino all’1 meglio è.
𝑎𝑘
• TASSO DI RIACQUISTO/ INDICE DI FEDELTA’: β= 𝑎𝑝𝑘→ varia tra 0 e 1. Più è vicino all’1 meglio è
𝑞𝑝𝑘 𝑎𝑝 𝑎𝑝𝑘
• INDICE D’INTENSITA’ DI ACQUISTO MARCA K: α= dove qp= ; qpk=
𝑞𝑝 𝑐𝑝 𝑐𝑘
- α > 1 → situazione migliore per le aziende. i consumatori che acquistano la marca k mediamente acquistano il
prodotto in misura superiore rispetto a quanto avviene sul mercato
- α < 1 → criticità. i consumatori che acquistano la marca k mediamente acquistano il prodotto in misura inferiore
rispetto a quanto avviene sul mercato
- α=1 → situazione di neutralità

ak → numero di acquisti della marca k nel periodo → SOMMA DEI VALORI DELLA COLONNA DELLA MARCA
ap→ numero di acquisti del prodotto p distribuito dalla marca k e dalle altre marche concorrenti nel periodo → TOTALE
ck→ numero di acquirenti della marca k nel periodo → CONTARE LE CELLE DELLA COLONNA DELLA MARCA IN CUI
COMPAIONO VALORI DIVERSI DA 0
cp→ numero di acquirenti del prodotto p nel periodo → NUMERO DI CONSUMATORI TOTALI DEL PRODOTTO P
INDIPENDENTEMENTE DALLA MARCA
apk→ numero di acquisti del prodotto p da parte di clienti della marca k nel periodo → CONTARE LE CELLE DELLA
COLONNA TOTALE CORRISPONDENTI ALLE CELLE DELLA COLONNA DELLA MARCA IN CUI COMPAIONO VALORI
DIVERSI DA 0
𝑎𝑝𝑘
qpk→ quantità media di prodotto p acquistata da ciascun acquirente della marca k nel periodo qpk = 𝑐𝑘
𝑎𝑝
qp→ quantità media acquistata da ciascun acquirente del prodotto p nel periodo= ap/cp → qp= 𝑐𝑝
𝑎𝑘 𝑐𝑘 𝑎𝑘 𝑞𝑝𝑘
QDM marca k= 𝑎𝑝=𝑐𝑝 𝑎𝑝𝑘 =γxβxα
𝑞𝑝

INFORMAZIONI DEDUCIBILI DA UN PANEL DI DETTAGLIANTI (punti vendita)

𝑣𝑘
• QUOTA DI VENDITA DELLA MARCA K:
𝑣𝑝
𝑛𝑘
• INDICE DI DIFFUSIONE γ DELLA MARCA K NEI NEGOZI: → varia tra 0 e 1. Più si avvicina ad uno meglio è per le imprese
𝑛𝑝
𝑣𝑘
• TASSO DI PREFERENZA β /FEDELTA’ ALLA MARCA: → varia tra 0 e 1. Più si avvicina ad uno meglio è per le imprese
𝑣𝑝𝑘
̅̅̅̅̅̅
𝒗𝒑𝒌 𝑣𝑝𝑘 𝑣𝑝
• INTENSITA’ RELATIVA DI VENDITA α : = : → se >1 situazione buona, i punti vendita che propongono la marca k
̅̅̅̅
𝒗𝒑 𝑛𝑘 𝑛𝑝
vendono quantità di prodotto p superiori alla media del mercato; se <1 situazione critica

vk→ vendite della marca k effettuate in negozi che trattano il prodotto p nel periodo
vp→ vendite complessive del prodotto p nel periodo
nk→ numero di negozi che trattano la marca k nel periodo
np→ numero di negozi che trattano il prodotto p nel periodo
vpk→ vendita del prodotto p in negozi che trattano la marca k nel periodo
𝑣𝑝𝑘
𝑣̅ 𝑝𝑘→vendita media del prodotto p nei negozi che trattano la marca k nel periodo =
𝑛𝑘
𝑣𝑝
𝑣̅ 𝑝→ vendita media del prodotto p in tutti i negozi che lo trattano nel periodo=
𝑛𝑝
𝑣𝑘 𝑛𝑘 𝑣𝑘 𝑣̅𝑝𝑘
QDV della marca k: 𝑣𝑝= 𝑛𝑝 𝑣𝑝𝑘 𝑣̅𝑝

LE MATRICI DI TRANSIZIONE

LEZIONE POMERIDIANA 16/10/2020

Dati derivanti da indagini continuative (indagini svolte su un campione che rimane sostanzialmente invariato rispetto alle
caratteristiche della popolazione). Vedremo alcune delle principali elaborazioni statistiche. Il primo strumento che
prendiamo in esame è quello delle matrici di transizione, ovvero una matrice nella quale è possibile studiare il passaggio
da uno stadio all’altro, ad esempio da un comportamento di consumo da un tempo t 0 ad un tempo t1. Si tratta di tabelle a
doppia entrata. Le matrici di transizione si configurano come distribuzioni bivariate in ambito statistico. Partiamo dai dati
grezzi.

Il tempo viene indicato con la lettera “t”, i diversi istanti temporali di somministrazione del questionario è “k”. La
variabile, che si indica con X solitamente, sarà una variabile qualitativa (in questo caso) politomica, che può assumere più
di due modalità, le quali sono descritte da parole e tra le quali si può stabilire le relazioni di uguaglianza o
differenza/disuguaglianza in relazione a due unità statistiche diverse.

Questa variabile X si può descrivere, in questo caso, come la marca di un prodotto, che chiamiamo genericamente “p”, in
un determinato mercato. Ammettiamo che il prodotto “p” sia un dentifricio e le diverse marche che presentano il prodotto
sono i vari marchi produttori di beni per l’igiene della persona e in particolare dei denti (mentadent, acquafresh, elmex…).

Arriviamo alla definizione delle unità statistiche che sono “n” consumatori selezionati nel campione. Le modalità assunte
dalla variabile X sono le singole marche esistenti per il prodotto dentifricio sul mercato. Genericamente le marche in
questo esempio le chiameremo {A, B, C, D…} nei k istanti temporali in cui si articola la nostra indagine continuativa.

Tabella 1 → DISTRIBUZIONE UNIVARIATA

UNITA'1 I RILEV II RIL III


1 X11 (A) X12 © X13 ©
2 X21 © X22 X23
3 X31 X32 (B) X33
4 X41 X42 X43
5 X51 X52 X53

X11 (A). Modalità assunta dalla prima unità statistica nella prima rilevazione, ha dato preferenza per la marca A. Le lettere
tra parentesi indicano le marche alle quali le unità statistiche hanno dato la loro preferenza in una determinata rilevazione.

Per sintetizzare le informazioni relative ad una variabile qualitativa, si può effettuare una distribuzione di frequenza
vedendo quante unità statistiche hanno mostrato una modalità, in questo caso, quante unità statistiche hanno acquistato la
marca A, la marca B e così via, e potremo così costruire k distribuzioni di frequenza univariate. In questo caso passiamo
dalla tabella 1 alla tabella 2. È un’operazione di sintesi perché da una matrice grande possiamo passare ad una matrice dove
il numero di righe è uguale a quello delle modalità assunte dalla variabile (in questo caso la marca) affinché si raggruppino i
consumatori in base alla marca acquistata.

Tabella 2 → DISTRIBUZIONE DELLE FREQUENZE ASSOLUTE


MODALITA' I RIL II RIL III RIL IV RIL V RIL

A na1 na2 na3 na4 na5

B nb1 nb2 nb3 nb4 nb5

C nc1 nc2 nc3 nc4 nc5

D nd1 nd2 nd3 nd4 nd5

E ne1 ne2 ne3 ne4 ne5

AL nal1 nal2 nal3 nal4 nal5


Nella prima colonna, non avremo più le unità statistiche come nella matrice iniziale, bensì le modalità assunte dalla
variabile x, quindi, in questo caso, solamente 6 righe, corrispondenti alle marche (modalità assunte dalla variabile
X=dentifricio) {A, B, C, D, E, AL}. Nelle altre colonne si avranno sempre le rilevazioni (k=1,2,3…). In questa tabella
abbiamo le distribuzioni delle frequenze assolute “nrt” dove r, in questo caso, è una delle marche, e t è il tempo che va da 1
a k (k rilevazioni). Abbiamo una distribuzione di frequenza per ognuna delle k rilevazioni. Questa è la prima operazione di
conteggio che possiamo fare. Un passaggio successivo è quello di effettuare la stessa operazione di conteggio
considerando, anziché i singoli istanti disgiuntamente, quello che accade prendendo in esame due istanti temporali (tabella
3). Pensiamo di voler fare un confronto fra i comportamenti di consumo delle n unità statistiche nelle rilevazioni I e II.
Rilevazione del successo in termini di consumo nelle prime due rilevazioni. Andiamo ad effettuare quella che in statistica
viene chiamata “Analisi bivariata”, in cui si prendono in considerazione due variabili diverse oppure la stessa variabile
rilevata in due istanti temporali distinti. Si può calcolare per qualsiasi confronto binario, per diverse coppie di rilevazioni in
esame.

Tabella 3 → ANALISI O DISTRIBUZIONE BIVARIATA → MATRICE DI TRANSIZIONE

A B C D TOT
A nAA nAB nAC nad nA1

B nBA nBB nBC nBD nB1

C nCA nCB nCC nCD nC1 n: numero totale di consumatori


I RILEVAZIONE SULLE RIGHE E II RILEVAZIONE SULLE COLONNE
D nDA nDB nDC nDD nD1 DIAGONALE PRINCIPALE: CONSUMATORI CHE NON HANNO TRANSITATO
DISTRIBUZIONI MARGINALI DEGLI ACQUISTI ALLA PRIMA RILEVAZIONE
TOT nA2 nB2 nC2 nD2 n (ULTIMA COLONNA) E ALLA SECONDA RILEVAZIONE (ULTIMA RIGA)

Quando confrontiamo i due istanti temporali, dobbiamo decidere dove collocare le modalità relative alla prima rilevazione
e dove collocare quelle relative alla seconda. Per convenzione si posizionano le modalità della I rilevazione sulle righe e le
altre sulle colonne. Il generico valore “n” all’interno delle celle indica la frequenza assoluta. Per completare la tabella a
doppia entrata, dunque, inseriamo nelle celle le cosiddette “frequenze assolute bivariate”. Faremo sempre un’operazione di
conteggio, che però dovrà tener conto contemporaneamente di ciò che accade in entrambe le rilevazioni. All’incrocio fra la
modalità A della prima rilevazione e la modalità A della seconda rilevazione, ad esempio, andremo a mettere la frequenza
bivariata con cui la modalità A si è presentata sia nella prima che nella seconda rilevazione (n AA → ottenuto andando a
contare [prendendo le prime due righe della prima tabella] le righe in cui vi sono consumatori che hanno acquistato la
marca A in entrambe le rilevazioni). Nel caso, ad esempio, di nAB sono persone che nella prima rilevazione hanno scelto A
ma nella seconda hanno scelto B e così via per tutta la tabella.
La tabella 3 dal punto di vista statistico è una distribuzione bivariata, l’insieme di tutte le frequenze bivariate che
abbiamo inserito nelle celle di incrocio tra le due rilevazioni, che insieme nel loro complesso rappresentano la distribuzione
bivariata della variabile “Marca acquistata” nella prima e nella seconda rilevazione, perché prendono in esame
congiuntamente il comportamento di acquisto nella prima e nella seconda rilevazione.

Dal punto di vista della ricerca di mercato cominciamo a capire che questa può essere interpretata come una matrice di
transizione perché osserviamo come i consumatori transitano da una marca all’altra o come NON transitano rimanendo
sulla stessa marca per la prima e la seconda. Nella prima cella i consumatori non hanno transitato (nAA, hanno sempre
acquistato A) ma altri hanno transitato. I valori presenti sulla diagonale a partire da nAA non hanno cambiato marca tra la
prima e la seconda rilevazione. Una cosa che si può fare una volta completata questa tabella è completare i totali di riga e i
totali di colonna. Nell’ultima cella in basso a destra ci sarà l’uguaglianza tra somma dei totali di riga e dei totali di colonna,
che sono uguali alla dimensione iniziale del campione (totalità delle unità statistica).

La prima riga della tabella 3 (da nAA a nA1) è una distribuzione degli acquisti suddivisi per marca alla seconda rilevazione,
che si può individuare prendendo tutti coloro che hanno acquistato la marca A nella prima rilevazione. La marca acquistata
alla prima rilevazione è fissa in questa prima riga della tabella, infatti tutti le n nelle celle come primo pedice hanno la
lettera A. In generale, in questo tipo di tabelle, il primo pedice indica la marca acquistata alla prima rilevazione, il secondo
pedice indica la marca acquistata alla seconda rilevazione.
Questa, in termini statistici, si configura come una distribuzione degli acquisti alla seconda rilevazione condizionata
all’acquisto della marca A nella prima rilevazione. La stessa cosa si può dire per la seconda riga (da nBA a nB1) che sarà la
distribuzione degli acquisti alla seconda rilevazione condizionata al fatto di avere acquistato la marca B nella prima
rilevazione e così via per tutto (il primo pedice per tutte le n della seconda riga, infatti, è la lettera B). Alla fine, avremo 5
distribuzioni condizionate in riferimento alla seconda rilevazione. Facciamo un’analisi analoga in relazione alle colonne,
individuando le frequenze assolute che si trovano nella prima colonna ad esclusione del totale.
La prima colonna, ad esempio, (da nAA a nA2), Questa è la distribuzione degli acquisti nella prima rilevazione condizionata
all’acquisto della marca A nella seconda rilevazione. Questo discorso ovviamente si può fare per ciascuna riga e ciascuna
colonna. Ora rimangono le colonne dei totali, di riga e di colonna. Partiamo dalla colonna dei totali di riga. L’insieme dei
totali di riga (ultima colonna) viene chiamata distribuzione marginale della variabile (consumi) alla prima
rilevazione. I totali di colonna, invece, che si trovano nell’ultima riga sarà la distribuzione marginale degli acquisti alla
seconda rilevazione.

Tabella 4 → DISTRIBUZIONE DELLE FREQUENZE RELATIVE CONDIZIONATE considerando le righe


(L’ANALISI PROSPETTICA)

(fAA1) f(AB1) f(AC1) f(AD1) f(AAL1)


I RIGA nAA/nA1 nAB/nA1 nAC/nA1 nAD/nA1 nAAL/nA1 1
II RIGA nBA/nB1 nBB/nB1 nBC/nB1 nBD/nB1 nBAL/nB1 1
III RIGA nCA/nC1 nCB/nC1 nCC/nC1 nCD/nC1 nCAL/nC1 1
IV RIGA nDA/nD1 nDB/nD1 nDC/nD1 nDD/nD1 nDAL/nD1 1
V RIGA nALA/nAL1 nALB/nAL1 nALC/nAL1 nALD/nAL1 nALAL/nAL1 1
VI RIGA nA2/n nB2/n nC2/n nD2/n nAL2/n 1

A partire da una distribuzione bivariata, è sempre possibile costruire le distribuzioni univariate. Cominciamo ad utilizzare
alcune operazioni aritmetiche. Se usiamo la divisione, ad esempio, possiamo costruire la distribuzione delle frequenze
relative condizionate. Partiamo dalla prima riga che abbiamo individuato nella tabella 3 (si dividono i valori di ogni cella
per il corrispondente totale di riga). Per passare dalle frequenze assolute a quelle relative (f) dobbiamo dividere le frequenze
assolute di una distribuzione e dividerle per il totale (nA1). Le “f” riportate nella tabella 4 nella prima colonna sono le f
relative esclusivamente alla prima riga della tabella 4. In questo modo avremo la distribuzione delle frequenze relative degli
acquisti nella seconda rilevazione condizionata all’acquisto della marca A nella prima rilevazione. Ognuno di questi
rapporti assumerà sempre valori compresi tra 0 e 1. Abbiamo dei valori estremi (0 e 1) quando tutte le frequenze, tutti i
consumatori che hanno acquistato la marca A nella prima rilevazione si sono concentrati sull’acquisto della stessa marca in
ogni istante temporale. Siamo passati dalla distribuzione delle frequenze condizionate assolute alle distribuzioni relative
della seconda rilevazione condizionata dall’acquisto di una marca alla prima.

Con le frequenze relative otteniamo dei valori che ci danno indicazione della porzione di coloro che hanno acquistato nelle
due rilevazioni e se hanno transitato. Se analizziamo la tabella in cui al posto di queste frequenze assolute inseriamo quelle
relative appena trovate, questa nuova tabella ci consentirà di effettuare una cosiddetta “analisi prospettica” perché ci fa
vedere quali sono le frazioni di spostamento di consumatori da una marca all’altra passando dalla prima alla seconda
rilevazione. In prospettiva vediamo cosa succede nel tempo (tra la prima e la seconda rilevazione).

Nell’analisi prospettica, se prendiamo i totali di colonna possiamo costruire, allo stesso modo, dei rapporti (vedi VI
RIGA). Nell’analisi prospettica oltre ad avere un’idea degli spostamenti in termini relativi, possiamo anche calcolare la
frazione di consumatori che hanno dato preferenza alle singole marche. Se moltiplichiamo questi rapporti per 100, avremo
le QdM di ciascuna marca nella II rilevazione. Nell’analisi prospettica i valori che troviamo nella tabella in relazione alle
singole marche (dalla prima alla quinta riga: marca) sono interpretabili come tassi di migrazione da una marca all’altra per
quanto riguarda i valori al di fuori della diagonale principale. Sulla diagonale principale (tracciata unendo da nAA/nA1 a
nALAL/nAL1) possiamo individuare i tassi di fedeltà alla marca. Nell’ultima riga della tabella dell’analisi prospettica si
individuano le quote di mercato alla seconda rilevazione.

Tabella 5 → DISTRIBUZIONE DELLE FREQUENZE RELATIVE CONDIZIONATE considerando le


colonne (L’ANALISI RETROSPETTIVA)
I RIGA nAA/nA2 nAB/nB2 nAC/nC2 nAD/nD2 nAAL/nAL2 nA1/n
II RIGA nBA/nA2 nBB/nB2 nBC/nC2 nBD/nD2 nBAL/nAL2 nB1/n
III RIGA nCA/nA2 nCB/nB2 nCC/nC2 nCD/nD2 nCAL/nAL2 nC1/n
IV RIGA nDA/nA2 nDB/nB2 nDC/nC2 nDD/nD2 nDAL/nAL2 nD1/n
V RIGA nALA/nA2 nALB/nB2 nALC/nC2 nALD/nD2 nALAL/nAL2 nAL/n
1 1 1 1 1 1

La stessa cosa si può fare rapportando le frequenze ai totali di colonna. Prendiamo le frequenze alla prima rilevazione
condizionate a quanto succede nella seconda rilevazione. Prendiamo la prima colonna e dividiamo ogni valore per il totale
corrispondente (totale di colonna= nA2). La situazione in cui si avranno i valori 0 e 1 sarà quella in cui tutti i consumatori
della marca A nella seconda erano concentrati in un’unica marca alla prima rilevazione, quindi avremo un solo valore 1 e
tutti gli altri zero. Nei casi normali sono tutti valori tra 0 e 1 e il risultato finale sommando tutti i rapporti sarà uguale a 1.
Questo modo di procedere si chiama “analisi retrospettiva”, perché troviamo le distribuzioni alla prima rilevazione
condizionata a quanto succede nella seconda rilevazione. I singoli rapporti al di fuori della diagonale principale (valori
esterni alla diagonale principale) sono interpretabili come tassi di provenienza perché se prendiamo ad esempio il
rapporto nBA/nA2 e lo immaginiamo uguale a 0,20 è interpretabile così: tra coloro che alla seconda rilevazione acquistavano
A, il 20% proviene dalla marca B acquistata alla prima rilevazione. Il 20% della marca A alla seconda rilevazione proviene
da una preferenza data alla marca B nella prima rilevazione. Percentuale di consumatori strappati alla marca B tra la prima
e la seconda rilevazione e che hanno scelto A nella seconda. Per quanto riguarda la diagonale principale, nel caso
dell’analisi retrospettiva, i valori al suo interno non sono interpretabili come tassi di fedeltà. I valori che si trovano
nell’ultima colonna nell’analisi retrospettiva (i valori della colonna finale) nella colonna dei totali (TOT) sono le quote di
mercato alla prima rilevazione.

21/10/2020

Sulla diagonale principale della tabella delle frequenze relative troviamo i tassi di fedeltà, al di fuori della diagonale
troviamo i tassi di migrazione, la frazione di coloro che hanno acquistato una marca nella I rilevazione e poi hanno
cambiato la loro preferenza, migrando verso un’altra marca.

Tabella 1 pagina 43 del libro. Siamo nel settore dei detersivi, ed è stata fatta una rilevazione continuativa sullo stesso
campione di persone a distanza di sei mesi. La consistenza totale del campione viene indicata con “n” e in questo caso
n=1000. Sono stati intervistati dunque 1000 consumatori. Il 225 (posizione AA) corrisponde alla quota di consumatori che
hanno dichiarato di aver acquistato A in entrambe le rilevazioni (nAA). 15 è la quota di consumatori che ha acquistato A
nella prima e B nella seconda rilevazione e così via.

Passiamo ad una tabella delle frequenze relative in una versione prospettica. La Marca A è quella che riesce a fidelizzare
meglio i propri clienti.

ESERCIZIO: Costruire una matrice identica alla tabella due dove le percentuali vengono costruite per i corrispondenti
totali di colonna (versione retrospettiva). Per trovare la QdM dovrò dividere i totali di riga invece dei totali di colonna.

LA SCOMPOSIZIONE DELLE QUOTE DI MERCATO

La variabile X in questo caso non sarà più la variabile categorica “marca acquistata”, ma una variabile che, ad esempio,
tiene conto del numero di confezioni acquistate sul mercato, dunque una variabile quantitativa. Immaginiamo di avere 2
istanti temporali e in questo intervallo misuriamo il numero di confezioni acquistate. Mentre nell’esempio relativo alle
QdM fotografavamo l’istante t-1 (I rilevazione) e t (II rilevazione), in questo caso misuriamo dei flussi, guardando proprio
a quante confezioni sono state vendute.

X= n. di unità confezioni della marca K di un prodotto “p” acquistate nell’intervallo che va da t-1 a t.

Le unità statistiche le indichiamo con “cp”, numero di consumatori del prodotto p sul mercato (non più con “n”). Le
modalità non sono più le marche, bensì numeri interi non negativi.

Ora possiamo costruire una matrice iniziale per ricavare la scomposizione delle QdM. a1. (a uno punto) come totale di riga
indica il totale acquistato da parte del primo consumatore del prodotto p indipendentemente dalla marca (per questo
mettiamo il punto perché la marca è irrilevante), invece il totale di colonna è il totale delle confezioni acquistate della marca
nell’intervallo considerato e la chiamiamo A. I valori che troviamo come totali di colonna generalmente li chiamiamo ak
con k che può assumere tre elementi {A, B, C} le tre marche. Il generico valore che troviamo nella tabella iniziale lo
chiamiamo aik: numero di confezione della marca k-esima che viene acquistato dall’i-esimo consumatore. Se vogliamo
calcolare i totali di riga faremo la sommatoria degli aik per k che è all’interno dell’insieme A, B, C e otteniamo Ai1, quantità
acquistata dall’i-esimo consumatore indipendentemente dalla marca.

A partire da questa matrice iniziale possiamo calcolare le QdM di ogni singola marca nell’intervallo considerato a partire
dai totali di colonna. La QdM sarà data da ak/ap. Adesso dobbiamo scomporre questo rapporto e ricavare le componenti
che, se trattate in maniera moltiplicativa tra loro, restituiscono proprio la QdM. Per arrivare alla scomposizione dobbiamo
definire alcune quantità:

ESEMPIO DEL LIBRO → nella tabella uso le lettere relative alle marche dell’esempio k= {L, S, ALTRE}

CONSUMATORE L S ALTRE MARCHE TOTALE


1 9 3 3 15 (a1.)
2 0 5 2 7 (a2.)
3 4 2 1 7 (a3.)
4 0 0 1 1 (a4.)
5 12 (aik) 10 6 28 (a5.)
6 6 8 5 19 (a6.)
7 5 0 3 8 (a7.)
8 1 2 1 4 (a8.)
9 5 3 0 8 (a9.)
10 7 8 5 20 (a10.)
TOTALE 49 41 27 117
ak = aL ak = aS ak = aAL aP
k = {L, S, ALTRE MARCHE}; aK/aP --> QdM
(aIK) generico valore contenuto nella cella

DEFINIZIONE E COME TROVARLO L S ALTRE MARCHE TOTALE Per gli indici servono:
aK Generico totale di colonna. N° acquisti della marca k 49 41 27 β (beta) --> aK/aPK
aP Acquisti totali del prodotto (INCROCIO TRA I DUE TOT.) 117
cK N° di acquirenti della marca k: per ogni marca conto 8 8 9 γ (gamma) --> cK/cP
nella colonna "consumatori" cL cS cAL
tutte le righe eccetto quelle contenenti lo 0 (zero) (10-2) (10-2) (10-1)
cP N° di acquirenti del prodotto p (colonna consumatori) 10 γ (gamma)
aPK N° di acquisti del prodotto p da parte di clienti 109 108 109 β (beta)
della marca k (in questo caso marca L,S o altre)
Per ogni marca, sommo tutte le celle della colonna
dei totali in cui trovo numeri diversi da 0 e riporto il
valore. es. L= (15+7+28+19+8+4+8+20). Non ho messo
7 e 1 (seconda e quarta riga) perché in corrispondenza
di L sono celle in cui è riportato lo 0
qPK Quantità media di prodotto p acquistato da ciascun 13,625 13,5 12,11 α (alpha) --> qPK/qP
cliente della marca k = aPK/cK (109/8) (108/8) (109/9)
qP Quantità media di prodotto p acquistato da ciascun 11,7 α (alpha)
consumatore nel periodo (aP/cP) 117/10 consumatori

Se torniamo alla matrice iniziale avremo un numero di consumatori che hanno acquistato almeno una confezione per ogni
marca. Per calcolare questo numero andiamo nella colonna della marca A ad esempio (c A) e guardiamo tutte le righe in cui
tutti questi valori sono diversi da 0 che vuol dire che il consumatore ha acquistato almeno una confezione della marca A,
quando sommiamo tutti i valori otteniamo cA e così per tutte le marche. Ck sarà sempre minore uguale a cp (numero totale
di consumatori che fanno parte del campione). Questi due valori saranno uguali quando tutti i consumatori hanno
acquistato almeno una volta la marca k e avremo in quel caso c k=cp.
Un’altra quantità che ci serve è apk che è definita come il totale delle confezioni del prodotto p acquistato da coloro che
hanno acquistato almeno una confezione della marca k. Dobbiamo sommare gli ai per i quali aik è diverso da 0.
Individuiamo dei fattori che hanno una loro interpretazione e che moltiplicati tra loro portano alla quota di mercato e li
indichiamo con alfa (α), beta (β) e gamma (γ).

GAMMA: INDICE DI DIFFUSIONE DELLA MARCA = ck/cp → numero di consumatori che hanno acquistato
almeno una confezione della marca “k” / numero totale di consumatori che fanno parte del campione.
Il numeratore è sempre minore del denominatore quindi il rapporto assumerà sempre valori tra 0 e 1. Questo indice dà
un’indicazione di quanto sia diffusa la marca k tra i consumatori. Più si avvicina ad 1 maggiormente diffusa sarà la marca.
Se =1 tutti i consumatori hanno acquistato quella marca almeno una volta e c’è la massima diffusione della marca in
questione.
BETA: TASSO DI RIACQUISTO O INDICE DI FEDELTA’ ALLA MARCA: ak/apk → numero di acquisti della
marca k nel periodo / totale degli acquisti del prodotto p da parte di clienti della marca k.
Ak è sempre minore o uguale di apk. Il totale di confezioni di marca k è sempre minore uguale al totale delle confezioni del
prodotto p. Questo è il tasso di riacquisto della marca k o anche indice di fedeltà alla marca. Costituisce un modo
alternativo per studiare la fedeltà alla marca che si calcola a partire dai dati di flusso invece che dai dati di stato. Questo
indice può assumere valori tra 0 e 1. Più ci si avvicina ad 1 maggiore è l’indice di riacquisto per la marca in questione (k) e
quindi maggiore sarà l’indice di fedeltà per la marca k. È uguale ad 1 quando gli acquirenti della marca k non danno mai
preferenza ad altre marche e acquistano solo k.

ALPHA: dobbiamo prima definire due quantità intermedie:

qp: dato dal rapporto tra ap (tot. Confezioni acquistate del prodotto p) /cp (totale consumatori del campione). Questa è la
quantità media acquistata del prodotto p (numero medio di confezioni acquistate) sul mercato da parte di ogni singolo
consumatore.

qpk: apk (numero totale di acquisti del prodotto p da parte di clienti della marca k) /ck. È sempre una quantità media di
prodotto p (confezioni acquistate) dai consumatori della marca k.

Queste quantità medie ci servono per definire ALPHA: qpk/ qp: INDICE DI INTENSITA’ DI ACQUISTO DELLA
MARCA K. Perché indica qual è la tendenza ad acquistare mediamente il prodotto p da parte dei consumatori della marca
k rispetto al numero medio di confezioni acquistate sul mercato in generale. Il numeratore può essere uguale, inferiore o
superiore al denominatore quindi i valori possono essere minori uguali o maggiori di 1. Il valore di riferimento in base al
quale dobbiamo interpretare il numero ottenuto è proprio il valore soglia 1 perché se tale rapporto è maggiore di 1 vuol
dire che mediamente i consumatori della marca k acquistano più prodotti di quanto mediamente avviene sul mercato. Se
invece assume valori <1 vuol dire che gli acquirenti della marca k acquistano un numero medio di confezioni rispetto a
quello che viene acquistato sul mercato. È chiaro che le criticità per la marca si hanno quando questa componente assume
valori <1.

L S ALTRE MARCHE CALCOLO QDM


QdM 49/117=0,418803 41/117=0,350427 27/117=0,230769 αxβxγ
γ indice di diffusione 8/10=0,8 8/10=0,8 9/10=0,9
β tasso di riacquisto 49/109=0,45 41/108=0,38 27/109=0,25
α indice di intensità di acquisto 13,625/11,7=1,16453 13,5/11,7=1,153846 12,11/11,7=1,035138

Queste componenti moltiplicati tra loro restituiscono la QdM. La scomposizione della QdM è importante perché se
abbiamo dei valori bassi possiamo capirne il motivo, che può essere connesso anche a problemi di distribuzione. Per
migliorare la QdM dobbiamo cercare di intervenire attraverso accordi con i canali distributivi (per quanto riguarda
gamma). Seconda componente beta, se presenta delle criticità vuol dire che dobbiamo fidelizzare i consumatori e quindi
dovremmo implementare una campagna di fidelizzazione come le raccolte punti o le carte fedeltà. Se la componente alpha
presenta delle criticità (<1) l’azienda può fare leva su interventi di marketing che riguardino le quantità acquistate quindi
per aumentare la quantità di confezioni acquistate si può agire con sconti o promozioni. Quindi:

➢ BASSI VALORI/CRITICITA’ DI GAMMA (INDICE DI DIFFUSIONE) → SI DEVE AGIRE SUL


CANALE DISTRIBUTIVO
➢ BASSI VALORI/CRITICITA’ DI BETA (TASSO DI RIACQUISTO O INDICE DI FEDELTA’) →
ATTIVARE UNA CAMPAGNA DI FIDELIZZAZIONE
➢ BASSI VALORI/CRITICITA’ DI ALPHA (INTENSITA’ DI ACQUISTO) → < 1 → INTERVENTI DI
MARKETING

23/10/2020

Nelle matrici di transizione, le modalità sono le marche ed è possibile valutare la fedeltà, la migrazione (analisi prospettica)
o i tassi di provenienza (retrospettiva) → nella versione retrospettiva i valori presenti sulla diagonale principale non sono
interpretabili come tassi di fedeltà, solo nella versione prospettica. I valori esterni alla diagonale principale sono indici di
provenienza dalle altre marche. Nel caso della matrice di transizione, la variabile si manifesta con parole ed è, quindi,
qualitativa. Nel caso della scomposizione della quota di mercato, partiamo da una variabile di flusso, come gli acquisti. E
quindi c’è la raccolta dei dati di flusso. La variabile è quantitativa.

Tabella 6

Nella matrice iniziale abbiamo la situazione di un mercato con 10 consumatori. Tante righe quanti sono i consumatori,
tante colonne quante sono le marche. I consumatori sono quindi le unità statistiche e vengono etichettati con una etichetta
numerica (da 1 a 10), a livello di colonne abbiamo il numero totale di confezioni acquistate sul mercato della marca L (49).
Sul mercato in totale sono state acquistate 117 confezioni di caffè. Le QdM si calcolano rapportando il totale di ogni
colonna per il totale generale (per la marca l QdML: 41/117x100). Una volta ottenuta la quota di mercato possiamo
scomporla nei diversi componenti, gamma, beta e alpha.

Per calcolare cK dobbiamo posizionarci nella marca di nostro interesse e contare le celle in cui i numeri sono diversi da 0.
cP, abbiamo già detto che è il totale dei consumatori considerati. Per calcolare aPK dobbiamo individuare le confezioni
acquistate del prodotto p da parte di coloro che hanno acquistato almeno una confezione della marca k. Vediamo la marca
L ad esempio. Possiamo sottrarre al totale delle confezioni vendute sul mercato le quantità acquistate in corrispondenza dei
totali di riga dove per la colonna considerata dei valori sono uguali a 0. Nel caso di L dobbiamo sottrarre 7 (seconda riga) e
1 (quarta riga). 117-8=109. ApkL= 109, apkS=108. Ora dobbiamo calcolare qp e qpk.

Per trovare qP dobbiamo dividere la quantità totale delle confezioni vendute/acquistate sul mercato per il totale dei
consumatori. Qp=117/10= 11.7. Per calcolare qPK, quantità di caffè lavazza mediamente acquistato, dobbiamo dividere
109 per il totale di coloro che hanno acquistato almeno una volta la marca L (8=cL) → 109/8= 13.625. Mediamente
coloro che hanno acquistato almeno una confezione di lavazza hanno acquistato 13.625 confezioni di caffè. E così per
tutte le marche. Adesso possiamo effettuare la scomposizione della quota di mercato:

Nella colonna L abbiamo la scomposizione della QdM della marca L e così per le altre marche nelle altre colonne. Per
verificare di aver fatto bene i conti, dobbiamo moltiplicare i 3 fattori trovati per singola marca e il risultato deve essere
uguale alla QdM calcolata precedentemente.

Dobbiamo interpretare i risultati ottenuti (esame). Dalle QdM si può dire che ci sono due marche leader abbastanza
simili tra loro, che hanno le QdM più elevate, le altre marche hanno meno di ¼ del mercato. Questo mercato è
sicuramente polarizzato, perché la maggior parte degli acquisti si concentra solo su due marche.

Per quanto riguarda l’indice di diffusione, che più si avvicina ad 1 meglio è per quella marca, possiamo dire che in questo
esempio abbiamo indici di diffusione abbastanza alti. Le due marche leader avrebbero ancora dei margini per migliorare la
loro posizione già buona sul mercato per arrivare più vicino ad 1, attraverso accordi più “stretti” con la distribuzione. La
loro presenza deve essere efficiente: può capitare che in alcuni punti vendita non si trova il prodotto, ad esempio, oppure
possono essere nei punti vendita ma non valorizzati adeguatamente (scaffali nascosti o che non seguono una logica),
ancora la presenza del prodotto nel punto vendita potrebbe non essere stata comunicata adeguatamente.

L’indice di fedeltà: i valori di questo indice possono andare da 0 ad 1 e, anche in questo caso, più ci si avvicina all’1 meglio
è, più ci si avvicina allo 0 maggiore è la criticità. In questa tabella gli indici di fedeltà sono abbastanza distanti da 1, quindi
tutte le marche possono fare leva per aumentarlo perché hanno tutte ampi margini. Potrebbero attuare delle campagne di
fidelizzazione, raccolte punti legate all’acquisto di quella marca, premi, estrazioni, accordi con la distribuzione tali per cui
l’acquisto di quel bene attribuisce punti fedeltà. È da notare che le altre marche hanno un indice di fedeltà più basso
rispetto a quello delle marche leader, perché nel loro caso il nome del brand non è importante, caso tipico che si osserva in
questo tipo di analisi, solitamente sono convenienti in termini di prezzo.

Indice di intensità: soglia unitaria che ci permette di discriminare tra le marche. In questo caso non ci sono grosse criticità.
In Italia il mercato del caffè va bene perché gli italiani sono grandi consumatori di caffè. I valori sono tutti abbastanza alti.
Le altre marche, se volessero agire in maniera aggressiva, potrebbero agire sull’indice di intensità con campagne di
marketing, in questo mercato del caffè, tuttavia, si gioca sulla fedeltà.

Per concludere, la stessa logica può essere applicata quando parliamo di vendite anziché di acquisti. Abbiamo presupposto
la raccolta dei dati su un panel di consumatori, ma informazioni analoghe si possono ottenere partendo, ad esempio, da un
campione di venditori/punti vendita. Le marche, i produttori hanno la possibilità di fare questa analisi sia tramite
rilevazioni dirette sui consumatori sia tramite rilevazioni sui punti vendita. Le informazioni sono analoghe, ma invece di
parlare di acquisti si parlerà di vendite (cambierà la simbologia probabilmente, invece di cp per definire i consumatori
magari si userà np). Anziché parlare di acquisti totali (ap) si parlerà di vendite totali (vp). Al posto delle quantità di
confezioni acquistate (ak) si parlerà di confezioni totali vendute (vk). E così per tutti i fattori utili al calcolo della QdM.

Anziché utilizzare la dicitura q, v con la barra sopra è la quantità media venduta


(generalmente in statistica le medie si indicano ponendo una barra sulla lettera in
questione).
Anche per la scomposizione della qdm sulla base delle vendite più ci si avvicina
ad 1 per i primi due indici, meglio è per la marca, tanto più supera l’1 l’indice di
intensità meglio è per la marca.
Cambia solo la natura della variabile rilevata (vendite anziché acquisti) ma non
cambia il modo di procedere.
Visto che la marca A deve agire sulla distribuzione, nella tabella con dati a scelta attribuiremo un valore basso all’indice di
diffusione (0.5). La marca B deve agire sul rapporto di fidelizzazione, quindi in tabella inseriremo un valore come 0,3 e così
via in base a quanto richiesto dall’esercizio. Se un’impresa è migliore di un’altra nell’esercizio ovviamente ne dobbiamo
tenere conto nel momento in cui attribuiamo dei valori numerici.

LE RICERCHE CAMPIONARIE

Ci occupiamo delle indagini campionarie nell’ambito delle ricerche di mercato, perché la maggior parte delle indagini
vengono svolte in maniera parziale, per cui l’indagine non viene effettuata su tutte le unità statistiche, ma solo su quelle che
fanno parte del campione oggetto d’indagine. La teoria dei campioni indica la modalità di selezione del campione e
fissa dei concetti di tipo probabilistico che consentano all’operatore di effettuare l’inferenza statistica. Attraverso il
calcolo delle probabilità è dunque possibile estendere i risultati ottenuti sul campione alla popolazione dalla quale il
campione deriva.
Dal punto di vista statistico, quando parliamo di indagini campionarie vogliamo effettuare una procedura di carattere
inferenziale, dove per inferenza si intende un procedimento di carattere induttivo attraverso il quale i risultati particolari
ottenuti dal campione si estendono al generale, dunque alla popolazione. Faremo riferimento alla teoria dei campioni e al
concetto di inferenza statistica.

C’è una distinzione tra un’indagine completa ed un’indagine parziale. Quando partiamo dall’impostazione dell’indagine di
mercato, nelle prime 2 fasi è necessario stabilire i contorni dell’indagine, il contesto, l’oggetto, la concorrenza etc. Nelle
altre fasi dobbiamo definire gli obiettivi dell’indagine, quali sono i dati finali ai quali vogliamo pervenire e dobbiamo
circoscrivere la popolazione.
Quindi la definizione della popolazione è fondamentale in un’indagine, perché da questa deriva anche la possibilità di
reperire una lista che descriva le unità statistiche che entreranno a far parte del campione sul quale effettivamente andremo
ad effettuare l’indagine. Quando si parla di popolazione, si usa questo termine in maniera tecnica. Per popolazione in
statistica si intende l’insieme di tutte le unità statistiche individuate come target una volta definito l’obiettivo dell’indagine,
che rappresentano l’obiettivo in relazione all’oggetto dell’indagine. Spesso, in statistica, come sinonimo di popolazione si
usa anche il termine “universo”, perfettamente equivalenti. Nell’esempio fatto sul fast food la popolazione era costituita dalle
donne residenti in Inghilterra, con figli di età uguale o superiore a 12 anni. Una volta definita la popolazione le
informazioni che ricaveremo non riguarderanno quasi mai la popolazione, bensì il campione (una fetta della popolazione).

Se l’indagine fosse fatta su tutte le mamme, si parlerebbe di indagine totale o censuaria. Se facciamo un’indagine sul
sottoinsieme (campione) si parla di indagine parziale o campionaria. Solitamente, quando facciamo un censimento,
preleviamo molte variabili (età, professione, residenza…) e poi le sintetizziamo trovando, ad esempio, l’età media, una
distribuzione delle professioni, reddito medio… quando facciamo operazioni di sintesi dei dati arriviamo alla statistica
descrittiva in cui descriviamo i tratti fondamentali della popolazione di partenza. Quando facciamo un’indagine parziale,
invece, gli indicatori sintetici che usiamo possono descrivere il campione (statistica descrittiva sulla parte di popolazione
estratta), ma se il campione è stato selezionato adeguatamente (requisiti da rispettare) allora è possibile effettuare quel
passaggio inferenziale in cui i risultati ottenuti ci dicono qualcosa non solo sul campione, ma anche sulla popolazione di
riferimento e questo grado di approssimazione può essere misurato in termini probabilistici, se valgono alcune regole di
selezione particolari del campione. Non sempre si può fare questo passaggio inferenziale. Vedremo campioni di tipo
probabilistico e non probabilistico e il passaggio inferenziale è possibile solo nel primo caso. Nel secondo caso ci sarà solo
una descrizione del campione ma non potremmo dare una connotazione in termini probabilistici al campione e al grado di
approssimazione. Quando parliamo di rilevazione, c’è sempre un margine di errore:

• Errore campionario: quando prendiamo il campione e poi sintetizziamo i dati, questi indicatori sintetici possono
essere considerati delle approssimazioni del valore sintetico che avremmo potuto ottenere se avessimo fatto
l’indagine completa. Questo scostamento tra il valore che troviamo sul campione e il valore incognito che
avremmo potuto ottenere indagando la popolazione si chiama errore campionario, che si commette solo nel
momento in cui facciamo un’indagine campionaria. Nel caso di un’indagine totale questo errore non c’è. Si parla di
differenza tra il valore che assume uno stimatore in presenza del campione e il valore del parametro incognito,
quando si parla di errore campionario. L’entità di questa approssimazione dipende da diversi fattori:
- Variabilità del fenomeno, della variabile: immaginiamo di voler misurare il reddito medio delle famiglie di Verona
e ipotizziamo che abbiano tutte lo stesso reddito di 30.000. in questo caso la variabilità è nulla e anche se
prendessimo un campione costituito da una sola famiglia misureremmo in maniera perfetta il reddito a livello di
popolazione. Quando nella realtà la variabile assume valori eterogenei maggiore sarà il grado di approssimazione
che dovremo sopportare in un’indagine. Maggiore sarà l’errore campionario.
- Ampiezza o numerosità del campione: immaginiamo di allargare il campione, fino ad avere una numerosità pari a
quella della popolazione. Il margine di errore campionario sparisce. Più restringiamo la numerosità campionaria
maggiore sarà l’errore campionario e il grado di approssimazione e viceversa.
• Errore non campionario: si possono commettere qualunque sia la tipologia di rilevazione (totale o parziale)

Variabilità campionaria e distribuzione campionaria sono i concetti più importanti. Quando parliamo di un campione
di unità statistiche della popolazione, per selezionare il campione effettuiamo una scelta delle unità statistiche.
Immaginiamo di partire da una popolazione di mille unità (si indica con N=1000) e vogliamo selezionare un campione di
100 unità (la numerosità campionaria in statistica si indica con “n” → n=100). Effettuiamo una rilevazione di informazioni
sulle 100 unità statistiche rilevando 3 o 4 variabili (residenza, età, reddito…) e poi sintetizziamo l’informazione calcolando,
ad esempio, l’età media. Questo è un valore stimato del parametro incognito (età media della popolazione di 1000 unità) e
abbiamo un valore dell’età media riferita a queste 100 unità. Anziché selezionare le prime 100, selezioniamo il campione
dalla 101esima alla 200esima unità e otteniamo una nuova età media. Anche questa è una stima del parametro incognito a
livello di popolazione. Il campione formato dalle prime 100 unità è diverso da quello formato dalla 101esima alla 200esima.
I campioni possibili sono moltissimi e ognuno dei quali darà un risultato sintetico diverso come stima del parametro
incognito “età media”. L’insieme di tutti questi valori dell’età media che ottengo in relazione ai singoli campioni che posso
estrarre, mi danno la distribuzione campionaria dello stimatore “età media”.

In generale, quando si parla di campionamento, si parla di “spazio dei campioni/ spazio campionario” ovvero
l’insieme di tutti i campioni di una determinata numerosità “n”, diversi tra loro e che si possono formare o estrarre a
partire da una popolazione di N unità. Per variabilità campionaria si intende il grado di eterogeneità che esiste in
relazione allo stimatore di un parametro che definiamo sullo spazio campionario. Intendiamo, dunque, che, estraendo
campioni diversi dalla popolazione, otteniamo valori diversi per lo stimatore del parametro incognito (caso dell’età) e
l’insieme di questi valori definiti sullo spazio dei campiono dà la possibilità di costruire la distribuzione campionaria dello
stimatore. Come facciamo a misurare la variabilità campionaria? Se parliamo di variabilità campionaria e la intendiamo
come la variabilità dei valori dello stimatore, ovviamente, la possiamo calcolare, e questo è fondamentale per calcolare lo
stimatore. Dobbiamo confrontare il valore dello stimatore con il valore incognito del parametro. Lo vedremo più avanti.
La selezione delle unità statistiche può essere fatta in modi diversi al fine di scegliere, quindi, quali sono le unità statistiche
che entreranno a far parte dell’indagine. Possiamo distinguere:

• CAMPIONI DI TIPO PROBABILISTICO: la selezione del campione di tipo probabilistico è casuale e la


selezione si può anche chiamare estrazione, perché è facile pensare al caso dell’estrazione casuale dei numeri da
un’urna.
• CAMPIONI DI TIPO NON PROBABILISTICO: quei campioni in cui le unità statistiche vengono
selezionate in base a delle scelte soggettive effettuate dal rilevatore. Esempio del caso studio sulle intolleranze
alimentari. Le unità statistiche sono state selezionate attraverso la presenza del contatto delle unità statistiche
stesse. Ogni studente in aula doveva contattare delle persone attraverso i social media.
IL CAMPIONAMENTO PROBABILISTICO

CAMPIONAMENTO PROBABILISTICO – IL PROCESSO DI STIMA


∑ 𝑁
𝑌𝑖
• PARAMETRO DA STIMARE MEDIA DELLA POPOLAZIONE: 𝑌̅ = 𝑖=1𝑁
∑𝑛
𝑖=1 𝑦𝑖
• STIMATORE MEDIA CAMPIONARIA: 𝑦̅ = 𝑛
𝑛
• TASSO DI CAMPIONAMENTO O DI SONDAGGIO= f= 𝑁
Un piano di campionamento probabilistico determina la probabilità di estrazione p(c) di ogni singolo campione ci. Tali
probabilità devono essere definite in modo che: p(c) ≥ 0 ∀ c∊Ω ∑𝒄=Ω 𝒑(𝑪) = 𝟏

• PROB. INCLUSIONE I ORDINE: пi= ∑𝑐єAi 𝑝(𝑐)


• PROB. INCLUSIONE II ORDINE: пij= ∑𝑐єAij 𝑝(𝑐)
STIMATORI E PROPRIETA’ → VALORE ATTESO, VARIANZA ED ERRORE QUADRATICO MEDIO sono i principali indici di sintesi della
distribuzione T
Uno stimatore T di un parametro θ appartenente a Θ è una funzione dei dati campionari Xc (Xi1, Xi2, …, Xin) utilizzata per assegnare un
valore a θ sulla base del campione: (T=t (Xi1, Xi2, …, Xin) = t(Xc)

• VALORE ATTESO: E(T)= ∑cєΩ t(xc) p(c)


• VARIANZA: VAR(T)= ∑cєΩ [t(xc)- E(T)]2 p(c)
• ERRORE QUADRATICO MEDIO: MSE(T)= ∑cєΩ [t(xc)- Θ] 2 p(c)
• DISTORSIONE DELLO STIMATORE: B(T) = E(T) – Θ
• VALORE ATTESO DI UNA VARIABILE CASUALE X: E(X)= ∑𝑛𝑖=1 𝑥𝑖 𝑝 (𝑥𝑖)
• VARIANZA DI UNA V.C. X: VAR(X)= ∑𝑛𝑖=1[𝑥𝑖 − 𝐸 (𝑋)] 2 p(xi)
1
• PARAMETRO MEDIA PER LA POPOLAZIONE: µ= 𝑛 ∑𝑛𝑖=1 𝑥𝑖
• MEDIA DI UNA VARIABILE CONTINUA: 𝒙 ̅= ∑𝑛𝑖=1 𝑥𝑖/𝑛
∑𝑛
𝑖=1(𝑥𝑖−𝑥̅ )
2
• VARIANZA CAMPIONARIA: s2= 𝑛−1
𝑁𝑈𝑀𝐸𝑅𝑂 𝐷𝐼 𝑈𝑁𝐼𝑇𝐴′ 𝐶𝑂𝑁 𝐴𝑇𝑇𝑅𝐼𝐵𝑈𝑇𝑂 𝐷′𝐼𝑁𝑇𝐸𝑅𝐸𝑆𝑆𝐸
• MEDIA DI UNA VARIABILE DICOTOMICA: P=
𝑁
1
• STIMATORE DI FREQUENZA RELATIVA CAMPIONARIA: p= 𝑛 ∑𝑛𝑖=1 𝑥𝑖
𝑀𝑆𝐸 (𝑇2)
• EFFICIENZA RELATIVA DI UNO STIMATORE T1 RISPETTO A T2: eff(T1, T2)= 𝑀𝑆𝐸 (𝑇1)
CAMPIONE PROBABILISTICO

Le conseguenze della selezione casuale è che tutte le unità della popolazione hanno una probabilità non nulla di essere
estratte e la probabilità di essere estratta per ogni unità è nota. Una volta deciso il criterio di estrazione, possiamo calcolare
la probabilità. Un’altra conseguenza è che possiamo definire lo spazio campionario. Una volta definito lo spazio
campionario, si può attribuire una probabilità di estrazione ad ogni campione appartenente allo spazio, che si chiama
probabilità di selezione del campione.

LEZIONE POMERIDIANA 23/10/2020

Nel campionamento non probabilistico, la scelta della base campionaria avviene attraverso l’utilizzo di criteri di
convenienza e non casualmente. Ovviamente, le considerazioni del campionamento probabilistico non valgono. Non
possiamo applicare le tecniche di inferenza statistica. I piani di campionamento non probabilistico non consentono di
controllare la capacità del campione di rappresentare la popolazione dal quale è stato selezionato (problema della
rappresentatività). Quando si parla di rappresentatività, si intende la capacità di un campione di riprodurre in piccolo le
caratteristiche fondamentali della popolazione dalla quale è stato estratto. Se vogliamo rilevare la propensione all’acquisto
di prodotti per make-up da parte della popolazione, è chiaro che dovremmo rappresentare in maniera congrua maschi e
femmine (50% e 50%). I maschi tendono a consumare meno make-up. Dal punto di vista statistico, questo tipo di
campionamento è delicato perché non consente di sfruttare alcuni strumenti. È meno costoso, richiede meno tempo per
essere eseguito e non c’è la necessità di un elenco delle unità statistiche della popolazione.

28/10/2020

Spesso si utilizzano piani di campionamento non probabilistico proprio perché è più semplice. Ora ci soffermeremo
soprattutto sui piani di campionamento probabilistico, perché è qui che la statistica entra in gioco in maniera massiccia. La
caratteristica principale del campionamento probabilistico è quella di prevedere la selezione casuale delle unità statistiche
che si trovano all’interno (ad esempio) di un’urna. Quando abbiamo un campione probabilistico, possiamo pensare di
estendere i risultati del campione alla popolazione attraverso il processo di stima. Facciamo una rilevazione sulle unità
campionarie e sintetizziamo. La sintesi che facciamo vuole rappresentare o stimare il parametro incognito. La prima cosa
da fare è quella di circoscrivere la popolazione (es. giovani dai 15 ai 25 anni, residenti nelle province di Verona e Vicenza).
In questo modo, è facile individuare la numerosità della popolazione. Il parametro è un numero ed è incognito nella
popolazione. La variabile obiettivo è il numero di ore trascorse in una
settimana davanti lo schermo del cellulare.

Solitamente, nelle ricerche di mercato estraiamo un campione. Dalle 100.000


unità statistiche della popolazione selezioniamo in maniera casuale (ai fini
del campionamento di tipo probabilistico) un numero inferiore a 100.000 di
unità statistiche. Immaginiamo di estrarre un sottoinsieme formato da 1000
unità statistiche. Quindi N=100.000 ; n=1000

A questo punto, somministriamo un questionario alle 1000 unità selezionate e ci saranno domande in cui viene chiesto
quante ore abbiamo trascorso indicativamente sul telefono questa settimana. Si può ottenere un tempo medio di utilizzo
del telefono nelle 1000 unità statistiche. Il valore medio che otteniamo è riferito al campione, perché il valore per la
popolazione non lo conosciamo ed è appunto il parametro incognito. Nel caso del campione, si può ottenere attraverso la
media matematica dei 1000 valori. Il valore medio che otteniamo si chiama stima del parametro. L’applicazione della
media aritmetica su tutti i possibili campioni che possiamo estrarre dallo spazio campionario mi dà la distribuzione dello
stimatore, che non è altro la variabile analitica che usiamo per sintetizzare i dati campionari. Di solito abbiamo un
parametro incognito che vogliamo stimare, il cui valore lo conosceremmo solo se somministrassimo il questionario
all’intera popolazione. Si usa dunque uno stimatore che assume valori diversi in relazione allo spazio campionario. La sua
distribuzione, dunque, è legata allo spazio campionario. Quando estraiamo un solo campione all’interno dello spazio
campionario, facciamo una rilevazione su quel campione e individuiamo un solo valore che verrà chiamato “stima del
parametro”. Esempio degli exit poll, quelli che si ricavano in prossimità delle elezioni. Esempio vogliamo stimare la %
degli elettori che voterà Trump. Prendiamo la proporzione di coloro che votano Trump sul totale. Noi estraiamo un
campione di uguale numerosità.

N= Numerosità della popolazione


Y= valore della modalità assunto in relazione alle i-esime unità statistiche,
potrebbe essere il fatturato di tutte le imprese. Y con una barra sopra sarà
il fatturato medio che vogliamo stimare ed è incognito perché non
conosciamo il fatturato di tutte le imprese, infatti estrarremo
n = campione
e poi applichiamo la formula dello stimatore (y).

Quando applichiamo il processo inferenziale è questo l’obiettivo al quale


vogliamo arrivare, ma dobbiamo attenerci ad un protocollo per fare la nostra indagine di mercato.
Prima dobbiamo definire la popolazione e, in particolar modo, definire l’unità statistica (es. giovani tra 15 e 25 anni),
definire l’ambito territoriale e il periodo di riferimento. Nell’esempio del tempo trascorso al cellulare da parte dei giovani, si
stabiliva che dovevano essere residenti tra Verona e Vicenza, con un periodo di riferimento che riguarda l’ultima settimana.
Una volta definiti questi indicatori, definiamo la popolazione e, a questo punto, abbiamo bisogno di un elenco delle unità
statistiche che rispondono ai requisiti sopra citati all’interno della popolazione e che prenderà il nome di “Lista di
campionamento”, un elenco delle unità statistiche che appartengono alla popolazione dalla quale andrò ad estrarre il
campione. La scelta della lista di campionamento è fondamentale, è una scelta fatta a monte che condiziona il risultato
finale. Proprio per questa importanza, dobbiamo definire dei criteri ottimali a cui la lista deve rispondere affinché sia una
buona lista, in base a dei protocolli messi a punto da istituti statistici e altri enti che dicono quali sono le caratteristiche
desiderabili in una lista, al fine di discriminare tra varie tipologie di elenchi. Sceglierò le liste di campionamento che
garantiscono la rispondenza ad alcuni criteri, più ne soddisfo migliore sarà la qualità della lista. Questi criteri sono:

• Adeguatezza: una lista è adeguata quando copre in maniera adeguata, rispetto agli obiettivi dell’indagine, la
popolazione. Se ad esempio dobbiamo effettuare un’indagine a livello nazionale e prendiamo una lista che ha
copertura solo regionale chiaramente la lista non è adeguata.
• Compiutezza: una lista è compiuta quando contiene tutti gli elementi della popolazione. Uno degli elementi
più critici nella selezione di una lista.
• Assenza di doppioni: un’unità statistica deve essere contenuta una e una sola volta. Esistono liste in cui ci sono
doppioni perché altrimenti quell’unità avrebbe una maggiore probabilità delle altre di essere estratta.
• Accuratezza: capacità della lista di descrivere la popolazione in maniera aggiornata e senza errori.
• Convenienza: una lista è conveniente quando è accessibile (ad esempio in maniera digitale).

Fonti di liste a livello nazionale:

Un caso è quello del registro elettorale, che viene utilizzato per avere un’idea del flusso elettorale al momento delle
elezioni. È un elenco di individui che hanno diritto al voto. Ha una copertura molto ampia a livello nazionale (potrebbe
essere adeguata, dunque, per le indagini a livello nazionale), ma non rispetta tutte le caratteristiche. Una delle caratteristiche
non rispettate, ad esempio, è quella dell’accuratezza. Le liste elettorali vengono aggiornate periodicamente, ma non nel
continuo. Se uno, ad esempio, cambia lavoro ma non lo dichiara questo non compare sulla carta d’identità perché la
dovrebbe rinnovare e questa informazione non risulterà mai nel registro elettorale. Un’altra caratteristica non rispettata è
quella della compiutezza, caratteristica che raramente viene rispettata nelle liste di campionamento. Se dal registro
elettorale vogliamo fare un’indagine a partire da una realtà territoriale, il registro non include i minorenni. Se vogliamo fare
un’indagine in cui l’unità statistica è data non dal singolo individuo ma dalla famiglia, le famiglie numerose hanno maggiore
probabilità di essere selezionate.

Un altro esempio di lista di campionamento è dato dall’elenco delle abitazioni, che viene tenuta dall’ex ufficio del
registro e in collaborazione col catasto. Nel questionario corrispondente, verranno chieste informazioni sulle persone e
sulle abitazioni (vani, stato di conservazione…). L’Istat ha a disposizione un elenco delle abitazioni in collaborazione con
l’Agenzia delle Entrate (per la riscossione dell’IMU). Se vogliamo fare una rilevazione in cui le unità statistiche sono le
abitazioni, si tratta di una lista che ha una copertura a livello nazionale, ma è una lista che pecca di compiutezza e
accuratezza (scarsi aggiornamenti della lista).

Altro esempio ancora che riguarda i singoli nuclei familiari, molto usato in passato, è quello dell’elenco telefonici. La lista
potrebbe contenere doppioni, ha buona copertura nazionale ma pecca di alcune caratteristiche. Ancora il registro delle
imprese delle Camere di Commercio. È una fonte privilegiata di liste di campionamento per le imprese, ha una copertura
nazionale. Il problema è la parzialità dell’elenco rispetto alle imprese esistenti, perché hanno l’obbligo di registrarsi solo le
imprese che appartengono al settore secondario e terziario, ma non vige l’obbligo per i liberi professionisti e nemmeno per
le imprese che appartengono al settore primario, come le imprese agricole. Quindi, se vogliamo avere un elenco delle
imprese in generale questo registro non è adeguato, se consideriamo solo le imprese del settore secondario e terziario allora
è una buona lista di campionamento (è adeguata, copre in maniera adeguata la popolazione rispetto agli obiettivi
dell’indagine).

Una quantità importante quando parliamo di campionamento è il tasso di


campionamento o di sondaggio, che è dato dal rapporto tra la
numerosità campionaria e la numerosità campionaria (n/N) e non è altro
che la frazione di unità statistiche della popolazione che entra a far
parte del campione. Solitamente si parla di popolazioni finite, tali per cui
N è un numero finito. Ci sono popolazioni non finite, come gli esperimenti
da laboratorio. Un esperimento può essere ripetuto infinite volte quindi la
popolazione formata dai singoli esperimenti ha una numerosità
potenzialmente e teoricamente infinita. Per questo non possiamo fare delle
indagini censuarie complete in laboratorio.

A parte questo ambito degli esperimenti di laboratorio, quando ci occupiamo di scienze sociali come le ricerche di
mercato, le popolazioni sono sempre finite. I temi che trattiamo non possono essere estesi alle popolazioni infinite.

Lo spazio campionario, che è l’insieme di tutti i campioni di dimensione n tutti diversi tra loro che si possono formare a
partire da N, si indica con omega. Possiamo determinare in maniera precisa, una volta definite le modalità di estrazione, la
probabilità di estrazione del campione “c” e quest’ultima la indichiamo con “pc”. Questa è sempre maggiore uguale a
zero per ogni campione che appartiene allo spazio campionario. La probabilità di estrazione, dunque è sempre non
negativa e, inoltre, se sommiamo le probabilità di estrazione prendendo tutti i campioni dello spazio campionario
(sommatoria di tutti i pc), allora questa sommatoria sarà uguale ad 1: questo significa che è sempre certo che possiamo
estrarre un campione di numerosità n da una popolazione di numerosità N. Possiamo anche definire le probabilità di
inclusione che riguardano le singole unità statistiche in un particolare campione. Le probabilità di inclusione possono
essere di ordine diverso.

La probabilità di inclusione del primo ordine è data dalla


sommatoria della probabilità di estrazione di tutti i campioni che
contengono quell’unità statistica i. Questo è espresso
matematicamente nella prima formula che si vede a lato. Dalla proprietà di inclusione del I ordine possiamo passare alla
probabilità di inclusione del II ordine (espressa matematicamente nella seconda formula) e non prendiamo più in
considerazione un’unità statistica, bensì coppie di unità statistiche (due unità diverse tra loro ovviamente) che indichiamo
come unità i-esima e j-esima appartenenti sempre alla popolazione. La probabilità di inclusione è data sempre dalla
sommatoria delle probabilità di estrazione dell’insieme dei campioni, però l’insieme contiene tutti i campioni nei quali siano
contemporaneamente incluse le unità i e j. Dobbiamo definire dapprima l’insieme Aij ovvero l’insieme di tutti i campioni
contenenti contemporaneamente l’unità i e l’unità j.

Vogliamo creare uno spazio in cui siano presenti tutte le combinazioni in


cui siano contemporaneamente presenti i tre elementi a partire da una
popolazione di 4 elementi. E queste 4 combinazioni dei tre elementi
formano lo spazio dei campioni (omegone).

Nella tabella, definiamo la probabilità di estrazione di ciascun campione.


In base al criterio di selezione dell’unità possiamo attribuire le varie
probabilità. Adesso calcoliamo le probabilità di inclusione con
riferimento alla popolazione di partenza.

29/10/2020

STIMATORI E PROPRIETA’

Uno stimatore è sempre interpretabile come una v.c. ed assume valori diversi in relazione ai campioni che appartengono a
Ω, e la probabilità con cui questi valori diversi dello stimatore vengono assunti dipende dalla probabilità di estrazione p(c).
Lo stimatore ha due proprietà: CORRETTEZZA ed EFFICIENZA.

Abbiamo visto che per stimare il parametro incognito “numero medio


di ore spese al cellulare” una possibilità è quella di usare uno stimatore
che risponde alla stessa formula applicata per trovare il parametro, una
formula che riproduca gli strumenti utilizzati per sintetizzare
l’informazione a livello di popolazione. Non è sempre così immediato.
Immaginiamo di selezionare un campione n di 1.000 individui su una
popolazione N di 100.000 e tra questi mille ci sono pochi elementi che
hanno un comportamento molto diverso rispetto agli altri. Se, in
media, l’utilizzo del cellulare settimanalmente è 20 ore, questi individui
lo usano per 50. La presenza di valori anomali influenza enormemente
il calcolo del valore medio del campione creando una distorsione e
spingendo verso l’alto (in questo caso) il valore medio. In questo caso, usare come sintesi la media aritmetica potrebbe
essere fuorviante. In questi casi potrebbe essere sintetizzata l’informazione con uno stimatore diverso come la mediana,
un indice sintetico robusto all’eventuale presenza di valori anomali nel campione.

Vedremo due proprietà fondamentali degli stimatori. Lo stimatore di un generico parametro Teta (θ), viene solitamente
indicato con T (maiuscola). Uno stimatore è una funzione dei valori campionari (funzione dei valori che x assume in
corrispondenza delle unità campionarie/statistiche e lo stimatore è una funzione di essi), la funzione la indichiamo con t
minuscola. Uno stimatore può assumere valori diversi in relazione ai diversi campioni che costituiscono lo spazio
campionario e i diversi valori danno idea della distribuzione dello stimatore stesso. Stiamo parlando di campioni
probabilistici, in cui gli elementi che appartengono al campione vengono estratti casualmente. Se vengono estratti
casualmente vuol dire che c’è un elemento di aleatorietà nella definizione delle unità statistiche che entrano a far parte del
campione, quindi ogni valore che assume la variabile obiettivo X in relazione all’unità statistica che deve essere estratta con
incertezza (e ognuno di questi valori) è una variabile casuale. Per questo usiamo, ad esempio, Xi1 maiuscola, il valore che
può assumere la variabile in relazione a i1. C’è un elemento di casualità anche nel valore che assumerà X in relazione con
l’unità.
Ogni singolo valore del campione, dunque, è una variabile casuale e lo stimatore, essendo una funzione di variabili casuali,
sarà anch’esso una variabile casuale. La probabilità di estrazione di ogni singolo campione è la probabilità che lo stimatore
assuma un determinato valore. Ogni variabile casuale, come le variabili statistiche, può essere sintetizzata. Se vogliamo
sintetizzare una variabile casuale si parla di valore atteso.

Quindi il valore atteso di una variabile casuale è il valore medio calcolato tenendo conto della distribuzione di probabilità
connessa a quella variabile casuale (vc). Se vogliamo calcolare il valore atteso dello stimatore (T) dobbiamo applicare la
formula per il calcolo del valore atteso di una variabile casuale che vediamo in alto. Sommatoria dei valori assunti dalla vc
moltiplicato per le probabilità corrispondenti (expectation o valore atteso).
Xc: tutti i valori dello stimatore in relazione ai valori del campione c.

Se parliamo di stimatore inteso come vc possiamo anche definire, oltre al suo valore atteso, un altro indicatore sintetico
(che non è più di livello). Questo indicatore è la varianza.

La varianza nel caso di vc si definisce così: si considerano gli scostamenti dello stimatore in corrispondenza dei campioni
dello spazio omegone, li confrontiamo col valore atteso dello stimatore, eleviamo al quadrato lo scostamento e prima di
fare la sommatoria moltiplichiamo gli scostamenti al quadrato per la probabilità.

Estensione del concetto di varianza sostituendo lo stimatore col parametro [t(Xc) - teta)]. Lo stimatore è una vc che vuole
stimare il parametro incognito.

Per distinguere lo stimatore migliori tra tanti possibili usiamo delle proprietà:

1. CORRETTEZZA: uno stimatore generico t di un parametro teta (θ)si dice corretto quando il suo valore
atteso è uguale al parametro che vuole stimare. Se vogliamo stimare l’utilizzo medio del cellulare tra i giovani,
è chiaro che vogliamo usare uno stimatore che, in media (nello spazio dei campioni), sia uguale al parametro che si
vuole stimare. Se il valore atteso di T è diverso da teta, allora T è uno stimatore distorto di teta e possiamo
calcolare il valore della distorsione [B(T) → b sta per bias] come differenza tra il valore atteso e il parametro
corrispondente. Se uno stimatore di Teta è corretto, il valore atteso è uguale a teta e quindi varianza ed errore
quadratico medio sono uguali. Per uno stimatore corretto, la varianza è uguale all’errore quadratico medio.

Sull’asse dell’ascisse riportiamo il valore che lo stimatore T può assumere in relazione ai valori che X assume in
corrispondenza di c. In ordinate la funzione di densità di probabilità f(T). Se uno stimatore è corretto, in media, il
suo valore atteso sarà proprio uguale a teta. La distribuzione di probabilità di uno stimatore, che ipotizziamo
simmetrica, sarà una distribuzione centrata sul valore del parametro incognito ed è qualcosa di desiderabile. Prima
foto, grafico che chiameremo E(T1) è lo stimatore corretto. Seconda foto, grafico che chiameremo E(T2) è lo
stimatore distorto.

Nel caso in cui si abbia uno stimatore distorto, abbiamo una distribuzione di questo tipo (grafico a destra): il
parametro teta si trova nel punto di incontro tra gli assi. La distribuzione di questo stimatore, però, non è centrata
su teta. Il valore centrale (atteso) di T è più spostato verso destra e teta è diverso dal valore atteso. Abbiamo
probabilità più elevate di stimare in maniera distorta il parametro teta. In questo caso, a parità di altre condizioni,
se devo scegliere tra due stimatori, scelgo quello corretto perché i valori che assumerà saranno prossimi al
parametro che vogliamo stimare. La distanza tra il parametro e il valore atteso (linea rossa) è il bias B(T).

2. EFFICIENZA: per definire l’efficienza dobbiamo farlo in modo relativo, prendendo in considerazione più
stimatori. Dati due stimatori T1 e T2 rispetto allo stesso parametro teta, si definisce stimatore più efficiente lo
stimatore che ha l’errore quadratico medio più basso.

Se vale la disuguaglianza sopra riportata in senso forte (senza l’uguale), T1 è più efficiente di T2. In generale,
diciamo che uno stimatore più efficiente ha l’errore quadratico medio più basso dell’altro. Il concetto non prende
dunque in considerazione il livello, come per la proprietà della correttezza, bensì la variabilità e dispersione
dello stimatore rispetto al parametro che vuole stimare. È chiaro che se vogliamo scegliere tra due stimatori
alternativi per uno stesso parametro sceglieremo quello con variabilità più bassa. Anche questo concetto si può
rappresentare graficamente: abbiamo T1 e T2 come stimatori alternativi del parametro teta. In una prima ipotesi,
immaginiamo che siano entrambi corretti. Se poniamo teta all’incrocio fra gli assi T1 e T2 avranno entrambi una
distribuzione centrata su Teta. Come scelgo il migliore se tutti e due sono corretti? → proprietà di efficienza:
immaginiamo che la distribuzione di T1 sia in nero e T2 in rosso. La seconda è più variabile, ha una varianza più
elevata, per cui si dice che per lo stimatore T1, la varianza di T1 è minore della varianza di T2. Perché i valori di
T1 sono più concentrati attorno al parametro. Essendo entrambi corretti inoltre la varianza è uguale allo scarto
quadratico medio. T1 è più efficiente di T2. A parità di correttezza, lo stimatore più efficiente stima il parametro in
maniera più precisa.

I tre parametri di cui ci occuperemo (tabella blu):

• Media aritmetica: indicatore di sintesi che si può applicare alle variabili quantitative (le cui modalità si esprimono
tramite numeri) e viene usato come parametro di sintesi, e si indica con la lettera greca mu (o mi). Mi si definisce,
in relazione ad una variabile x, come 1/N sommatoria dei valori assoluti della variabile x con i che va da 1 a n.
• Varianza: Potremmo usare uno stimatore T1 che prende il nome di stimatore della varianza campionaria. Ma
possiamo scegliere anche lo stimatore s2. Se prendiamo il valore atteso dello stimatore sigma2 cappello, il suo
valore si può dimostrare che è diverso dal parametro che vuole stimare, mentre se prendiamo il valore atteso di s2,
questo è uguale al parametro che si vuole stimare e s2 viene chiamata varianza campionaria corretta ed è quello
che solitamente viene utilizzato, perché ha una distribuzione centrata sul parametro che si vuole stimare.

• Media (variabile dicotomica): P grande indica la frequenza relativa. Si usa per sintetizzare i valori assunti dalle
unità statistiche di una popolazione in relazione ad una variabile qualitativa dicotomica. Possiede un cellulare di
una determinata marca? La risposta è sì o no. In questi casi la sintesi della variabile dicotomica sulla popolazione si
calcola con la frequenza relativa tramite il rapporto tra coloro che sono interessati al servizio (in questo esempio) e
la popolazione e sarà sempre un valore compreso tra 0 e 1. Quando abbiamo variabili dicotomiche si fa una sorta
di codifica e si utilizzano dei codici numerici che solitamente sono 0 per la modalità che non interessa allo studio,
ad esempio, e 1 per la modalità che ci interessa. Se x è una variabile qualitativa dicotomica che può assumere due
modalità (sì o no, presenza o assenza, possesso o spossesso) e immaginiamo di usare la codifica 0 (per i no ad
esempio) e 1 (per i sì), P si definisce come la media della variabile x. p piccolo è lo stimatore della frequenza
relativa.
I DISEGNI CAMPIONARI – CAMPIONAMENTO CASUALE SEMPLICE
𝑁+𝑛−1
• N° campioni distinti (cardinalità di Ω) estraibili con reimmissione: C’ N, n= ( 𝑛 )
1
• Probabilità di estrazione del campione CR: p(c)= 𝑁+𝑛−1
𝑛
• N° campioni distinti (cardinalità di Ω) estraibili senza reimmissione: C N, n = (N n)
1
• Probabilità di estrazione del campione SR: p(c)= 𝑁
𝑛
𝑛
• PROB. INCLUSIONE I ORDINE CCS SR: пi= 𝑁
𝑛 (𝑛−1)
• PROB. INCLUSIONE II ORDINE CCS SR: пij =𝑁 (𝑁−1)
𝑛!
• COEFFICIENTE BINOMIALE: C n, k= (n k) 𝑘!(𝑛−𝑘)! Dove n! = n(n-1) x (n-2) x…x 2xi
∑𝑛
𝑖=1 𝑥𝑖
• ̅=
STIMATORE DELLA MEDIA CAMPIONARIA (stim. puntuale di µ): 𝒙 𝑛
𝑥̅ −𝐸(𝑥̅ )
• ̅):
MEDIA CAMPIONARIA STANDARDIZZATA: Z (𝒙 → si può dimostrare che E(𝑥̅ ) = µ
√𝑉 (𝑥̅ )
• TEOREMA CENTRALE DEL LIMITE: Z (𝑥̅ ) ~ N (0, 1)
DIMOSTRAZIONE DELLA COSTRUZIONE DELL’IC:
1) Con probabilità pari ad (1-α) la normale standardizzata assume valori compresi tra i due estremi (-𝑧α/2 e + 𝑧 α/2 )
2) P {- 𝑧α/2 ≤z (𝑥̅ ) ≤ 𝑧α/2 } = (1-α)
𝑥̅ −𝐸(𝑥̅ ) 𝑥̅ −µ
3) Sappiamo che z (𝑥̅ )= e che si può dimostrare che E(𝑥̅ ) = µ → P {- 𝑧α/2 ≤ ≤ 𝑧α/2 } = (1-α)
√𝑉 (𝑥̅ ) √𝑉 (𝑥̅ )
4) Moltiplichiamo entrambi i membri per √𝑉 (𝑥̅ ) e portiamo al di fuori 𝑥̅ → P{ 𝑥̅ − 𝑧α/2 √𝑉 (𝑥̅ ) ≤ µ ≤ 𝑥̅ + 𝑧α/2 √𝑉 (𝑥̅ )}= 1-α
5) Per calcolare la varianza dello stimatore della media campionaria dobbiamo usare s2 , la stima corretta di σ 2, nel calcolo di
̂𝒙
𝑽( ̅) (CR O SR) e sostituirlo nel calcolo della stima intervallare di µ utilizzando l’informazione campionaria →
̂𝒙 ̂𝒙 𝒔𝟐 𝒔𝟐
→ P{𝑥̅ - 𝑧α/2 √𝑽( ̅) ≤ µ ≤ 𝑥̅ + 𝑧α/2 √𝑽( ̅)}= (1-α) → caso del CCS SR: P{𝑥̅ - 𝑧 α/2 √ (𝟏 − 𝐟) ≤ µ ≤ 𝑥̅ + 𝑧α/2 √ (𝟏 − 𝐟)}= (1-α)
𝒏 𝒏
Nel CCS CR il fattore (1-f) si elimina
Se n è sufficientemente elevato la distribuzione campionaria dello stimatore 𝑥̅ può essere approssimata con una normale → 𝑥̅ ≈
σ2 𝑁−𝑛 σ 2
N(µ, ) [CCS CR] ; 𝑥̅ ≈ N(µ, ) [CCS SR]
𝑛 𝑁 𝑛

• INTERVALLO DI CONFIDENZA PER µ: P{ 𝑥̅ − 𝑧α/2 √𝑉 (𝑥̅ ) ≤ µ ≤ 𝑥̅ + 𝑧 α/2 √𝑉 (𝑥̅ )}= 1-α


dove 𝑥̅ − 𝑧 α/2 √𝑉 (𝑥̅ )= ESTREMO INFERIORE (EI); +𝑧α/2 √𝑉 (𝑥̅ )= ESTREMO SUPERIORE (ES)
σ2
• VARIANZA DELLA MEDIA CAMPIONARIA CCS CR: 𝑽 (𝒙 ̅) =
𝑛
σ2 𝑛 𝑁−𝑛
• VARIANZA DELLA MEDIA CAMPIONARIA CCS SR: 𝑽 (𝒙
̅) = (1 − 𝑓) dove f= 𝑁 e (1-f) =
𝑛 𝑁
𝒔𝟐
• VARIANZA CORRETTA DELLA MEDIA CAMPIONARIA CCS CR: µ 𝒏
𝒔𝟐
• ̂𝒙
VARIANZA DELLO STIMATORE DELLA MEDIA CAMPIONARIA CCS SR: 𝑽( ̅)= (1-f)
𝒏
𝑁−𝑛
con (1-f) = 𝑁
∑𝒏
𝒊=𝟏((𝒙𝒊−𝑥̅ )
𝟐
• VARIANZA CAMPIONARIA CORRETTA s2: s2=
𝒏−𝟏

STIMA DI UNA PROPORZIONE (FREQUENZA RELATIVA): media aritmetica di una variabile che assume esclusivamente i valori
{0, 1} – variabili dicotomiche o dummy. 1= presenza attributo; 2= assenza → avviene una codifica (da v. qualitativa a v.
quantitativa dummy)
La frequenza relativa P è la media dei valori assunti dalla variabile dicotomica codificata al fine di calcolare la % di interessati.

∑𝑁 𝑥𝑖
• PARAMETRO INCOGNITO P (FREQ. RELATIVA O PROPORZIONE): P= 𝑖=1 𝑁
dove xi= 0 → assenza di attributo d’interesse; xi= 1 → presenza di attributo di interesse
∑𝑛 𝑥𝑖
• STIMATORE CAMPIONARIO PUNTUALE FREQ. RELATIVA: p= 𝑖=1 → % di chi possiede l’attributo a livello
𝑛
campionario
* p di P è uno stimatore corretto tale per cui E(p)=P
𝑝−𝑃
• FREQUENZA RELATIVA CAMPIONARIA STANDARDIZZATA: Z(p) =
√𝑉(𝑝)
𝑝−𝑃
• TEOREMA CENTRALE DEL LIMITE: Z(p) = ~ N (0, 1) per n→∞
√𝑉(𝑝)
• INTERVALLO DI CONFIDENZA PER P: P {p-𝑧α/2 √𝑉(𝑝) ≤ P ≤ 𝑝 + 𝑧α/2 √𝑉(𝑝)}= 1-α
𝑃(1−𝑃) 𝑃(1−𝑃)
CCS CR: P {p-𝑧α/2 √ ≤ P ≤ 𝑝 + 𝑧α/2 √ }= 1-α
𝑛 𝑛
𝑃(1−𝑃) 𝑃(1−𝑃)
CCS SR: P {p-𝑧α/2 √ (1 − 𝑓) ≤ P ≤ 𝑝 + 𝑧α/2 √ (1 − 𝑓) }= 1-α
𝑛 𝑛
̂ 𝑝), P (pi grande) sarà sostituito da p (pi piccolo) per il calcolo intanto della
a livello di campione per il calcolo di 𝑉(
stima della varianza non distorta, la quale verrà poi impiegata nell’IC per la stima intervallare a livello campionario
𝑃(1−𝑃) 𝑃(1−𝑃)
• VARIANZA TEORICA DI P CCS CR: V(P)= ; VARIANZA TEORICA DI P CCS SR: (1-f)
𝑛 𝑛
• ̂ 𝑝)= 𝑝(1−𝑝); CCS SR: 𝑉(
STIMA DELLA VARIANZA STIM. P CCS CR: 𝑉( ̂ 𝑝)= 𝑝(1−𝑝)(1-f)
𝑛 𝑛

DETERMINAZIONE DELLA NUMEROSITA’ CAMPIONARIA OTTIMALE:


La dimensione campionaria ottimale consente di ottenere il risultato migliore in termini di stima del parametro. Dipende da:
- CARATTERISTICHE DELLA POPOLAZIONE: maggiore è l’omogeneità interna alla popolazione inferiore sarà la numerosità campionaria
necessaria per ottenere una stima del parametro e viceversa
- TIPO DI INFORMAZIONI RICHIESTE: dipende dalla variabile/ dal parametro che vogliamo stimare
- GRADO DI PRECISIONE DELLA STIMA: Per aumentare la precisione della stima dobbiamo incrementare la numerosità campionaria a parità
di altre condizioni
- VINCOLI DI TEMPI E COSTI
Una volta calcolato l’intervallo di confidenza e avere ottenuto l’estremo superiore e inferiore dello stesso siamo in grado di calcolare D (una misura del
livello di precisione della stima) con le formule che seguono
n→ relazione DIRETTA col quantile della normale standardizzata e sigma 2 (all’aumentare della variabilità deve aumentare anche la numerosità
minima campionaria).
→ relazione INVERSA con la semiampiezza dell’IC (D) → se D aumenta, la precisione della stima si riduce e la numerosità campionaria necessaria
sarà inferiore e viceversa. D può essere stabilito prima della rilevazione campionaria.

• AMPIEZZA DELL’INTERVALLO DI CONFIDENZA: 2D= ES-EI


σ2 σ 2 𝑁−𝑛
• SEMIAMPIEZZA DELL’IC CCS CR: D= 𝑧α/2 √ 𝑛 ; CCS SR: D= 𝑧α/2√ → si noti che è richiesta la conoscenza di σ2 o
𝑛 𝑁
che si disponga di una sua pre-stima (indagine pilota o indagini precedenti).
𝑧α/2 2 σ2 𝑁 𝑧α/2 2 σ2
• NUMEROSITA’ CAMPIONARIA MINIMA CCS CR: n= ; CCS SR: n= 𝐷2𝑁+ 𝑧α/2 2σ 2
𝐷2
• VARIANZA DI UNA V. BERNOULLIANA (DICOTOMICA): σ2= P(1-P)
σ 2𝑧α/2 2
• NUMEROSITA’ V. DICOTOMICHE CCS CR: n= se P è ignoto allora P=0.5 (valore massimo → SITUAZIONE
𝐷2
PIU’ ONEROSA E DI MASSIMA DIMENSIONE CAMPIONARIA)
N 𝑧α/2 2 σ2
• NUMEROSITA’ V. DICOTOMICHE CCS SR: n=
𝑁𝐷2+𝑧α/2 2 σ2
• VARIANZA DELLO STIMATORE P “FREQUENZA RELATIVA CAMPIONARIA”:
̂ = 𝒑 (𝟏−𝒑) → STARE SEMPRE ATTENTI AL TIPO DI CAMPIONAMENTO RICHIESTO DALL’ESERCIZIO
- CCS CR: 𝑽(𝒑)
𝒏
̂ = 𝒑 (𝟏−𝒑) (1-f)
- CCS SR: 𝑽(𝒑) 𝒏

• ̂ ≤ P ≤ p+ 𝑧α/2√𝑽(𝒑)
IC: P {p- 𝑧α/2√𝑽(𝒑) ̂ }= 1 – α

➔ NUMEROSITA’ MINIMA → APPROSSIMARE SEMPRE PER ECCESSO (ALL’UNITA’


SUCCESSIVA)
I DISEGNI CAMPIONARI

Parliamo delle diverse tipologie di piani di campionamento probabilistici. Parleremo di 5 tipologie

• Campionamento semplice CCS


• Campionamento sistematico CSI
• Campionamento stratificato CSTRA o CST
• Campionamento a grappoli CGRA
• Campionamento a più stadi CSTA

Le prime due tipologie sono piani di campionamento elementari. I tre successivi vengono chiamati piani di
campionamento complessi. Il CCS è alla base dei piani di campionamento complessi. La loro caratteristica fondamentale è
che le unità campionarie vengono selezionate in base ad un criterio di casualità e la probabilità di essere incluse nel
campione è nota. La selezione avviene attraverso un’estrazione, nel caso dei piani di campionamento probabilistici. Visto
che ci deve essere un elemento di casualità, dobbiamo definire un metodo casuale di estrazione. Dal punto di vista classico,
quando si parla di metodi di estrazione delle unità statistiche da un campione, si prende l’esempio dell’urna che contiene
dei bussolotti di uguale colore e materiale che contengono un’etichetta all’interno con le unità statistiche. Nella realtà,
tuttavia, non si usa mai un’urna, bensì modalità più snelle e semplici da adottare. Prima si utilizzava il metodo delle tavole
dei numeri casuali, adesso si usano i software di generazione di numeri casuali [o, meglio, pseudo-casuali, perché non
rispettano in maniera perfetta la casualità, in quanto i numeri sono generati da un algoritmo sottostante molto complesso e
dunque difficilmente riproducibile, ma che se si potesse riprodurre comprometterebbe la casualità (anche excel ce l’ha)].

Il piano di campionamento casuale semplice (CCS)

Questo è un piano di campionamento che viene definito estraendo un certo numero n di unità statistiche da una
popolazione N. L’esempio classico che si fa è quello dell’urna. Abbiamo due modi di procedere:

o estrazione con re-immissione (si rimette il bussolotto nell’urna, l’unità statistica quindi nella seconda estrazione
l’urna avrà la stessa composizione iniziale)
o estrazione senza re-immissione (non si rimette il bussolotto nell’urna, la cui composizione, dunque, cambierà)

La conseguenza della re-immissione a livello pratico è che si potrebbe estrarre più volte la stessa unità statistica, per
questo il piano di campionamento casuale semplice con re-immissione viene chiamato anche “a ripetizione”. La modalità
senza re-immissione prevede che ogni unità statistica estratta venga lasciata da parte, dunque cambierà la composizione
dell’urna dopo ogni estrazione. La conseguenza, in questo caso, è che la stessa unità statistica può essere estratta una volta
sola e il piano di campionamento casuale semplice in questo caso è chiamato “senza ripetizione” o “campionamento
casuale semplice con estrazione a blocchi” (nel senso che si può anche estrarre un blocco intero, ad esempio pari alla
numerosità campionaria). Dal punto di vista probabilistico cambia la probabilità di estrazione delle singole unità
statistiche. Perché nel caso di estrazione “con ripetizione” ogni unità ha la stessa probabilità di essere estratta, nel
secondo caso no, perché cambia la numerosità campionaria.

30/10/2020

Dobbiamo decidere quale tipologia di piano di campionamento adottare. Nel


caso del piano di campionamento casuale semplice, tutti i campioni hanno la
stessa probabilità di essere estratti. Se vogliamo ricondurci allo schema
dell’urna, nel caso del CCS avremo una situazione del genere. I pallini blu sono i numeri che sono stati estratti ed
entreranno a far parte del campione casuale semplice e l’indagine verrà effettuata rilevando informazioni solo sulle 10 unità
campionarie estratte (i numeri estratti casualmente).

Per il primo punto vedere lezione precedente.


Secondo punto: N=4; n=3
Terzo punto: N=30.000; n=1000
Ogni campione si differenzia dall’altro per almeno una unità statistica. La
probabilità di estrazione di ogni singolo campione si calcola con dati a scelta. Ogni
probabilità deve essere compresa, ovviamente, tra 0 e 1 e la somma di tutte le
probabilità di estrazione deve dare 1. Per calcolare la probabilità di inclusione di
I ordine (delle 4 unità statistiche della popolazione) per l’unità 1 (u1) facciamo la
somma della probabilità di estrazione nei campioni che la contengono
(0.10+0.55+0.15= 0.80) e così via.

Per le probabilità di inclusione del II ordine dobbiamo considerare le


coppie di unità statistiche.
Il tasso di campionamento (f=n/N) è dato dal rapporto tra la numerosità
campionaria e la popolazione; si tratta di un CCS senza reimmissione
quindi la composizione dello spazio campionario omegone è dato dallo
spazio campionario di 1000 elementi che si possono formare a partire da
una popolazione di 30.000 e quindi la numerosità dello spazio campionario
si calcola dal rapporto tra N/n (fattoriale).

CCS – STIMATORI DELLA MEDIA

Vediamo come stimare il parametro mi, il parametro della media aritmetica. Immaginiamo di voler stimare quanto le
famiglie italiane mediamente investono in titoli di stato. Estraiamo un campione dalle famiglie italiane per rilevare tale
informazione. Per calcolare questo valore approssimato utilizziamo lo stimatore fondamentale di mi che è dato da:
Sommatoria di tutti i valori campionari (assunti dall’investimento in titoli di ogni singola famiglia) e diviso
per la numerosità campionaria → STIMA PUNTUALE DEL PARAMETRO. Nel caso specifico diciamo che x sopra
segnato è uno stimatore puntuale del parametro mi, puntuale perché assume un unico valore in relazione ad un
determinato campione.
Quando si fanno i sondaggi elettorali, vogliamo avere una stima della percentuale di votanti per un determinato partito.
Durante gli exit poll si parla delle cosiddette “forchette”, ovvero (in statistica) un intervallo di confidenza, intervallo di
valori di cui conosciamo gli estremi. È un intervallo all’interno del quale la % effettiva che otterrà il partito è contenuta a
priori, con una certa probabilità. Si tratta sempre di stime che devono essere valutate dal punto di vista probabilistico,
perché stiamo facendo inferenza statistica. Solitamente, quando abbiamo una rilevazione campionaria, non ci
accontentiamo di una stima puntuale, di un singolo valore, ma passiamo da una stima puntuale ad una stima intervallare.

Ora vediamo come costruire l’intervallo di confidenza con e senza reimmissione. Facciamo un passo indietro: uno
stimatore come sappiamo può sempre essere inteso come una variabile casuale e una vc ha una determinata distribuzione
di probabilità. I valori che può assumere uno stimatore sono legati alle singole probabilità di estrazione del campione. Il
valore atteso, la varianza, lo scarto quadratico medio vengono chiamati “i momenti” di una variabile casuale,
rispettivamente I momenti di ordine I per il valore atteso; la varianza è il momento di ordine II rispetto al valore atteso.
Considerando questi momenti (primi due), vediamo come si può procedere per ottenere un intervallo di confidenza del
parametro mi. Quando in statistica si parla di standardizzazione di una variabile si tratta di un procedimento che sottrae
alla variabile la sua media, per poi dividere per lo scarto quadratico medio.

Si può dimostrare che il valore atteso di x sopra segnato è uguale a mi e dunque lo stimatore della media campionaria è
uguale al parametro mi che vuole stimare.
Si può anche dimostrare, e ciò deriva dal Teorema centrale del limite [TCL]), che la media campionaria standardizzata
[Z (x sopra segnato)] ha una distribuzione nota. La forma a campana ricorda una distribuzione normale, la distribuzione di
una vc in cui i valori hanno una probabilità che si distribuisce in maniera simmetrica rispetto al valore medio. La
probabilità di accadimento dei valori di questa vc che sono concentrati intorno alla media e la probabilità tende a diminuire
man mano che ci si allontana dalla media.

La vc cosiddetta “Gaussiana” è fondamentale in statistica perché ha una formulazione molto semplice, può essere
utilizzata spesso per analizzare l’andamento di alcuni fenomeni. Uno degli ambiti in cui viene utilizzata è quello in cui si fa
inferenza su un parametro. La vc media campionaria standardizzata si distribuisce (tilde-s orizzontale) come una normale
(o di Gauss) caratterizzata da due parametri (il valore atteso e i parametri) con media 0 e varianza unitaria (foto sotto).

→ variabile casuale zeta di x sopra segnata che si distribuisce come una normale di
media zero e varianza 1. Questo è il risultato del Teorema centrale del limite (TCL) e vale in termini “asintotici”, ovvero
che vale quando la numerosità campionaria (n piccolo) tende a + infinito. Quindi, se la numerosità del campione tende ad
aumentare, allora la distribuzione di z x sopra segnato tende ad essere approssimata ad una normale standardizzata. Questo
limite ci dice che il risultato che vediamo vale quando la numerosità campionaria è sufficientemente elevata (cosa che in
statistica abbiamo già quando n > 30 → numero sufficientemente elevato). Se vale il TCL, questa vc media campionaria
standardizzata ha una distribuzione di probabilità, ha una funzione di densità, è una normale (0,1) dalla forma classica a
campana e, se vale questo, possiamo fare riferimento ai valori conosciuti dei quantili alpha.

La probabilità è legata ad alcuni intervalli classici, come ad esempio +/ - 1.96.

Dal punto di vista grafico, possiamo vedere che abbiamo la funzione “f” della variabile casuale media campionaria
standardizzata. Sull’asse delle ordinate avremo la densità di probabilità di Z (x sopra segnato/barra alta). Se prendiamo due
valori equidistanti rispetto allo zero, che chiamiamo – z alpha mezzi e + z alpha mezzi, questa area sottesa la curva per
valori compresi tra questi due estremi è pari a 1 – alpha. Con probabilità pari ad 1 – alpha, la normale standardizzata
assume valori compresi tra gli estremi. All’esterno considerando le code avremo una probabilità totale pari ad alpha perché
l’integrale totale deve essere uguale ad 1, ma visto che la distribuzione è simmetrica questo vuol dire che nelle due aree
rosse che vanno verso + e – infinito avremo una probabilità pari ad alpha mezzi e sommandole avremo 1(alpha). Possiamo
dunque dire che, con probabilità uguale ad 1 – alpha, la media campionaria standardizzata sarà compresa tra i due estremi.
A partire da questa formula sostituiamo.
Moltiplichiamo ogni membro della disuguaglianza per la radice quadrata della varianza; togliamo ad ogni membro della
doppia disuguaglianza x sopra segnato così che dentro rimanga solo – mi e a quel punto moltiplicheremo ogni membro
della doppia disuguaglianza per -1 e cambia il verso della doppia disuguaglianza e al centro dell’intervallo alla fine rimarrà il
parametro incognito mi, compreso tra i due estremi che si vedono in foto (terza formula).

Questa formula ci serve per definire l’intervallo di confidenza, i valori della cosiddetta “forchetta”. Vogliamo ad esempio
conoscere i due estremi in cui si trovano i valori dell’investimento medio in titoli di stato. Dovremo dare dei valori a x
sopra segnato e v di x sopra segnato. X sopra segnato è semplice perché applichiamo la formula dello stimatore ai dati
campionari. V di x sopra segnato per calcolarlo dobbiamo stimarlo a partire dai dati campionari. Per fare questo ci viene in
aiuto la teoria che dice che v di x sopra segnato è uguale a sigma2 fratto n (numerosità campionaria), nel caso di
campionamento casuale semplice con reimmissione, mentre nel caso di ccs senza reimmissione v di x sopra segnato è
uguale a sigma2fratto n moltiplicato per 1 – f dove f è il tasso di campionamento (n/N)

La varianza di questo investimento a livello di popolazione, cioè quanto si differenzia l’investimento nei titoli su tutte le
famiglie italiane. Sigma2 non lo conosciamo perché stiamo facendo inferenza sulla popolazione. Col campionamento senza
reimmissione dobbiamo fare i conti con la complicazione di (1-f) che si chiama “fattore di correzione per popolazioni
finite”. Dobbiamo sostituire a sigma quadrato una sua stima campionaria, per trovarne il valore. La stima campionaria di
sigma2 è data da s quadrato che è la stima corretta della varianza e questo è qualcosa che possiamo tranquillamente
calcolare a partire dai dati campionari. Nel caso di CCS con reimmissione v di x sopra segnato cappello (stima della var
della media campionaria) sarà uguale ad s2 / n. Nel caso di CCS senza reimmissione:

dove

Facciamo un esempio numerico

Immaginiamo di avere una popolazione N=10 e per ogni unità rileviamo


una variabile X. La variabile obiettivo in questo caso è una variabile
quantitativa (potrebbe essere l’età) che assume queste modalità quindi x
sopra segnato è l’età. Se vogliamo calcolare l’età media facciamo la
sommatoria dividiamo per 10 e vediamo che risulta 24.7. La variabilità si
calcola a partire da sigma quadro, prendendo gli scostamenti dei singoli
valori dalla media, li eleviamo al quadrato tutti, li sommiamo e poi li
dividiamo per 10. Il risultato di sigma2 (varianza della variabile obiettivo età) è 9.81. Se tutti gli individui avessero la stessa
età questo indicatore sarebbe pari a 0, varianza nulla, perfetta omogeneità.

Ora immaginiamo di estrarre un campione n=4 ed estraiamo un campione senza ripetizione. Allora dovremmo estrarre
casualmente 4 numeri compresi tra 1 e 10 immaginando che ad ogni unità statistica sia stata attribuita un’etichetta
numerica e quei numeri mi dicono quali sono le 4 unità che estraggo dalla popolazione. Immaginiamo di avere estratto le
etichette 3,10,4,6 e i valori delle unità campionarie sono (25, 28, 29, 26) anni, corrispondenti alle 4 etichette estratte. Il tasso
di campionamento è del 40 %. Il campione ci serve per avere una stima puntuale ed intervallare del parametro mi.
Vogliamo arrivare ad ottenere una stima puntuale e intervallare del parametro mi a partire dai dati campionari.

Stima puntuale di mi → prendere i 4 valori in corrispondenza delle 4 unità, li dividiamo per n=4 e otteniamo che l’età
media campionaria è uguale a 27. C’è un certo scostamento rispetto al valore vero nella popolazione e quello del campione
estratto. Nella realtà queste considerazioni non si possono fare. In questo caso abbiamo estratto un campione un po’ più
vecchio e dunque non è molto rappresentativo della popolazione perché sovrastima il parametro. Vogliamo passare da una
stima puntuale ad una…

… Stima intervallare di mi → dobbiamo stabilire il valore da attribuire a z a/2 (si dovrà consultare la tavola della normale
standardizzata → dove le righe rappresentano i quantili fino alla prima cifra decimale, la seconda cifra decimale invece
viene riportata sulle colonne: ad esempio 1,12 sulle righe vado su 1,1 e poi sulle colonne in prossimità della cifra 2
[0,86864]) , valore di confidenza che vogliamo attribuire alla stima intervallare (es ipotizziamo un livello di confidenza del
[0.95] 95%, alpha sarà uguale a 0.05) e vogliamo dare un valore a v di x sopra segnato cappello che nel caso del
campionamento senza reimmissione è uguale alla formula sopra.

LEZIONE POMERIDIANA 30/10/2020

Con una probabilità pari al 95% il parametro mi sarà compreso tra 25.61 e 28.39. L’interpretazione che possiamo dare al
livello di confidenza: sappiamo che se potessimo estrarre tutti i campioni dello spazio campionario (in questo caso di
numerosità 4 senza ripetizione da una popolazione di 10) il 95% restituirebbe un intervallo di confidenza, quindi degli
estremi, che contengono il valore del parametro incognito. Il 95% dei campioni sono dei buoni campioni perché
contengono il valore vero del parametro. Questo nella realtà non si può fare, per questo assegniamo un grado di
confidenza sperando che il campione sia nel 95% dei “campioni buoni”. Noi conosciamo il valore effettivo di mi pari a
24.7 anni. Estraendo il campione abbiamo determinato un intervallo di confidenza i cui estremi non contengono il valore
di mi (la media è inferiore alla media). Siamo caduti nel 5% dei campioni che restituiscono un intervallo di confidenza i cui
estremi non contengono il parametro vero. Alcuni campioni possono dunque portare a conclusioni sbagliate che vengono
indicate da alpha (5%). La media aritmetica è l’indicatore sintetico fondamentale di una variabile quantitativa.

STIMA DI UNA PROPORZIONE (FREQUENZA RELATIVA)

Nel caso in cui, anziché essere interessati a sintetizzare i valori di una vqt, fossimo interessati a sintetizzare i valori di una
variabile qualitativa dicotomica (modalità rappresentate da parole e sono solo due le modalità), in questo caso il parametro
di interesse è la frequenza relativa (P). Questa è data dal rapporto tra il numero di persone che possiedono l’attributo
desiderato e il numero totale di individui intervistati a livello di popolazione (N). Solitamente, le variabili nominali
dicotomiche vengono codificate attribuendo il valore 0 al non possesso dell’attributo di interesse e 1 al possesso
dell’attributo di interesse (es. possiedi il telefono= 1; non possiedi il telefono=0).

Nella codifica si dice che la nuova variabile che si ottiene da tutti i 0,1 si configura come una variabile dummy (sciocca)
perché assume i soli valori zero-uno. In questo caso, P si può ottenere come media di una variabile dummy cioè in cui al
numeratore mettiamo la sommatoria degli xi (0 o 1) e al denominatore N e la frequenza relativa (o proporzione → ci dà la
frazione di unità statistiche che possiede l’attributo di interesse) assume sempre valori compresi tra 0 e 1. Se espressa in
percentuale indica l’incidenza della presenza dell’attributo nella popolazione es. P=0.30→30% → il 30% degli individui è
soddisfatto del servizio offerto dall’azienda.

Vediamo qual è lo stimatore puntuale di questo parametro incognito e vediamo come costruire una stima intervallare per il
parametro P. Il parametro di interesse Teta sarà uguale a P.

Lo stimatore puntuale di P (grande) viene individuato da p (piccolo) che a livello di campione verrà calcolato allo stesso
modo, ma al denominatore troveremo la numerosità campionaria “n” e non N a livello di popolazione. P piccolo, dunque,
è lo stimatore della frequenza relativa campionaria. Se vogliamo dare un singolo valore allo stimatore “p” prendiamo i
valori in un campione estratto, andiamo a rilevare la risposta alla domanda possiede/o no in corrispondenza delle unità
statistiche appartenenti al campione, rileviamo i 0-1, li sommiamo, il numero totale ci darà il numero di coloro che
possiedono il bene che fratto n piccolo ci darà una stima della % di coloro che possiedono quel determinato bene. Se
vogliamo passare dalla stima puntuale alla stima intervallare dobbiamo seguire i passaggi per ricavare la stima intervallare
per mi. P piccolo sarà una vc che assume diversi valori in base al campione estratto nello spazio campionario con
probabilità date dalla probabilità di estrazione dei singoli campioni ed essendo una vc avrà un suo valore atteso e una sua
varianza. Si può dimostrare che il valore atteso della frequenza relativa campionaria è uguale a p grande (come per la media
campionaria) quindi p piccolo è uno stimatore corretto di p grande (P). Esiste un teorema centrale del limite anche in
relazione anche alla frequenza relativa campionaria e per arrivare alla sua formulazione dobbiamo prima definire una nuova
variabile che è la variabile aleatoria frequenza relativa campionaria standardizzata. Si dimostra nel teorema centrale del
limite per la frequenza relativa che la frequenza relativa campionaria standardizzata si distribuisce come una variabile
aleatoria normale standardizzata quando n tende a + infinito. A questo punto possiamo costruire un intervallo di
confidenza per z(p). Adesso P grande indica la probabilità, e dice che con probabilità pari ad 1 – alpha la frequenza relativa
campionaria standardizzata sarà contenuta tra – e + z alpha/2. E avremo un intervallo di confidenza in cui è incluso anche il
parametro da stimare. Eseguendo i passaggi visti anche per la media standardizzata si può arrivare alla formulazione in cui
all’interno dell’IC troviamo il parametro incognito e l’IC per P (p grande) sarà dato dai due estremi che otteniamo.
Se vogliamo calcolare questi estremi conosciamo p piccolo, zeta alpha/2 possiamo trovarlo nella tavola e dobbiamo trovare la
varianza della frequenza relativa campionaria, ma che sappiamo essere uguale a (foto a dx, nei rispettivi casi di CCS con
reimmissione e senza reimmissione). Per passare da v(p) teorico a v(p) stimato (cappello) basta sostituire a p grande la sua
stima puntuale (terza formula foto a dx).

Per calcolare la stima puntuale del grado di interesse faremo il rapporto tra il numero di coloro che hanno detto di essere
interessati e il totale degli intervistati, e questa è la stima puntuale. Se vogliamo passare alla stima intervallare dobbiamo
prima di tutto stimare la varianza dello stimatore “frequenza relativa campionaria”, con reimmissione o senza
reimmissione.

Punto 1: Ad un certo punto gli intervistati dovranno dire se la fiction è


piaciuta (con sì o no), dunque una tipica variabile qualitativa dicotomica.
Facciamo riferimento alle prime due fasi di un’indagine di mercato: definire
l’oggetto dell’indagine e definire l’obiettivo (quello di individuare degli
indicatori di gradimento della fiction) e la popolazione di interesse (dipende
dal target a cui è indirizzata la visione della stessa fiction, che sarà una fiction
per la famiglia, dunque, non è indirizzata né a bambini, giovanissimi, né ad
adulti ma ad un pubblico eterogeneo composto di genitori e figli). Dovremmo
fare riferimento alle famiglie che risiedono in aree in cui verrà trasmessa la serie tv.
La popolazione di interesse sarà formata da un insieme di famiglie con bambini piccoli e verrà individuata una volta
determinato l’ambito territoriale in cui verrà trasmessa la fiction (es. nazionale).
Punto 2: dobbiamo interrogarci sul parametro di interesse. Se dobbiamo effettuare una stima intervallare il parametro sarà
legato alla variabile obiettivo, ovvero il gradimento, che sarà una variabile dicotomica e il tasso di gradimento sarà la
frequenza relativa a livello di popolazione. p= 0.75 (tasso di gradimento del 75%).

Soluzione

In questi casi occorre utilizzare un numero elevato di famiglie


perché si tratta di una ricerca a livello nazionale. Se vogliamo
calcolare la consistenza della popolazione perché abbiamo il tasso
di campionamento → visto che f=0.02 = n/N
N= 24.000/0.02= 1.200.000 famiglie
Resta da calcolare la stima della varianza v(p) cappello. Una volta
trovato il valore lo sostituiamo nella formula dell’intervallo di confidenza e troviamo che con un livello di confidenza al
99% la frequenza relativa di famiglie interessate nella popolazione sarà compresa tra il 74,29% e il 75,71 %. Il valore vero
degli interessati sarà contenuto in questo (tutto sommato breve e ristretto) intervallo. Se vogliamo interpretarlo a livello di
spazio campionario possiamo dire che il 99% dei campioni restituirà un intervallo di confidenza che contiene il valore vero
del parametro.

NUMEROSITA’ CAMPIONARIA: DETERMINAZIONE

Una volta deciso di fare una rilevazione campionaria con campionamento


probabilistico dobbiamo essere in grado di determinare la numerosità
campionaria minima, una volta definito un livello di precisione della stima,
misurata come ampiezza dell’intervallo di confidenza all’interno del quale
andrà a collocarsi il parametro che vogliamo stimare. La precisione è legata
alla numerosità campionaria. Possiamo ottenere intervalli di confidenza più o
meno contenuti e stime più o meno precise in base alla numerosità
campionaria, a parità di altre condizioni. Occorrerà dunque stabilire la
numerosità campionaria minima per il livello di precisione che ci interessa e
dati i vincoli che ci vengono imposti. Dobbiamo considerare che la
dimensiona campionaria ottimale dipende dai quattro punti elencati nella foto qui sopra, ovvero:

• CARATTERISTICHE DELLA POPOLAZIONE: a parità di altre condizioni più la popolazione è eterogenea


e i comportamenti di consumo sono diversi (in statistica si dice maggiore è la variabilità dei comportamenti)
maggiore sarà la numerosità campionaria minima. Se siamo interessati ad esempio alla stima del consumo medio
nell’ultimo anno di prodotti per l’igiene personale da parte delle famiglie residenti in Veneto, la variabile obiettivo
sarà la spesa mensile per quei beni dell’igiene della persona (variabile quantitativa) e il parametro sarà la spesa
media all’interno di questa popolazione individuata. Se tutte le famiglie spendessero la stessa cifra (ad esempio
200€) in questo caso la stima del parametro spesa media può essere ottenuta con una numerosità campionaria pari
ad 1 perché siamo in una situazione di eterogeneità minima e il parametro è misurato in maniera perfetta. Più
aumenta la differenza nei comportamenti d’acquisto maggiore sarà la numerosità campionaria minima richiesta per
il livello di precisione scelto per la nostra indagine.
• TIPO DI INFORMAZIONI RICHIESTE: a seconda che siamo interessati a rilevare informazioni di tipo
quantitativo o qualitativo cambierà la numerosità campionaria minima da selezionare.
• GRADO DI PRECISIONE DESIDERATO → misurato dall’ampiezza dell’intervallo di confidenza
(differenza tra l’estremo superiore e inferiore dell’intervallo). Più l’ampiezza è bassa più la stima sarà precisa e
viceversa. La relazione tra grado di precisione e numerosità campionaria: a parità di altre condizioni
incrementando la numerosità campionaria aumenta la precisione della stima e si riduce l’ampiezza
dell’intervallo di confidenza.
• VINCOLI DI TEMPI E COSTI

Come al solito partiamo dal parametro media aritmetica (mi). La variabile obiettivo sarà una variabile quantitativa perché,
ad esempio, vogliamo stimare la spesa media in un determinato intervallo di tempo. In questo caso abbiamo detto che la
stima per intervallo del parametro mi sarà dato dall’espressione sotto riportata. Abbiamo detto che l’ampiezza dell’IC è
data dalla differenza tra estremo superiore e inferiore. Dopo alcuni passaggi algebrici come mostra la foto (dobbiamo
cambiare il segno ai fattori dell’estremo inferiori) rimane l’ultima formula che si vede in foto, previa semplificazione, che ci
consente di trovare “D”.

EI: ESTREMO INFERIORE ; ES: ESTREMO SUPERIORE


Dall’espressione dell’IC togliamo a tutti i membri della doppia disuguaglianza x sopra segnato. La differenza tra il
parametro e la stima puntuale del parametro sarà compresa tra –D e D con probabilità 1-alpha. La differenza in valore
assoluto indica l’errore di stima e deve essere inferiore ad un determinato D dove questo D (che dà un’idea della precisione
della stima) è dato dall’espressione (foto sopra). Sostituendo a v (x sopra segnato) la sua espressione (nel caso di CCS con
reimmissione) sigma2/n e vediamo che v(x sopra segnato) è legato alla numerosità campionaria.

La formula di n nel riquadro indica la numerosità campionaria minima per stimare il parametro mi con un grado di
precisione dato da D, un livello di precisione pari ad alpha e un grado di variabilità misurato da sigma 2. Se vogliamo ridurre
la numerosità campionaria quindi potremmo agire su ognuno di questi elementi. Se diminuiamo il quantile della normale
standardizzata dobbiamo aumentare alpha e ridurre il livello di confidenza possiamo avere un n più basso; oppure per
ottenere una numerosità campionaria più bassa servirebbe una variabilità della variabile obiettivo più bassa; ancora
potremmo aumentare il livello di precisione D a parità di altre condizioni (se D diminuisce, aumenta la precisione).

Per incrementare la precisione, a parità di altre condizioni, dovremmo aumentare la numerosità campionaria. Se vogliamo
una precisione pari a 10 e stimare dunque una spesa per un determinato bene con uno scarto di 10 € in più e in meno
dovremmo conoscere la variabilità della spesa, il livello di confidenza e utilizzando questa formula potremmo ottenere la
numerosità minima necessaria per raggiungere il nostro obiettivo di stima con uno scarto di 10 €. Se volessimo una stima
più precisa D, ad esempio, deve passare da 10 € a 5 €, e la numerosità dovrà aumentare. Se dimezziamo D raddoppiamo la
precisione e l’effetto su n sarà elevato al quadrato. Per raddoppiare la precisione dovremmo dunque quadruplicare la
numerosità campionaria.

6/11/2020

NUMEROSITÀ OTTIMALE

La numerosità ottimale n minimo che mi garantisce di non superare D è data da:

I valori che influenzano “n”:

- C’è una relazione diretta con il quantile della normale standardizzata e con sigma2→ se aumentano Z alpha/2 e
sigma2 aumenta n
- C’è una relazione inversa con la semi-ampiezza dell’IC (D)→ Se aumenta D diminuisce n
A parità di altre condizioni, se aumentiamo Z alpha/2 (aumentiamo 1-alpha), quindi vogliamo aumentare il livello di
confidenza, allora dobbiamo aumentare la numerosità campionaria minima perché c’è una relazione diretta.
Sigma2 è la varianza della variabile obiettivo X (x grande) e se, ad esempio, vogliamo stimare attraverso un IC il tempo
trascorso settimanalmente davanti al cellulare da parte dei giovani, sigma2 è la varianza del tempo trascorso davanti al
cellulare, cioè quanto ognuno di noi si differenzia dagli altri in termine di ore settimanali ed è un parametro incognito
(valore a livello di popolazione) e ad aumentare la varianza aumenta la numerosità minima necessaria per ottenere questo
livello di precisione. Su sigma2 non possiamo incidere, è qualcosa che viene dato e dipende dalla variabilità del fenomeno,
un fattore che subiamo.
Ultimo valore che influenza n da considerare è D, lo scostamento in valore assoluto tra la stima puntuale e il parametro
incognito. In questo caso c’è una relazione inversa con n quindi all’aumentare di D diminuisce la numerosità minima
necessaria, a parità di altre condizioni. Se vogliamo diminuire D e aumentare la precisione, a parità di altre condizioni,
aumenta la numerosità campionaria n per quel livello di precisione che vogliamo ottenere.
Dobbiamo considerare che D è elevato al quadrato, quindi, c’è una relazione quadratica inversa tra n e D, quindi se
vogliamo raddoppiare la precisione dobbiamo dimezzare D (ad esempio vogliamo passare da uno scarto di 2 ore ad
un’ora), e a parità di altre condizioni la numerosità dovrà quadruplicare (come si
può evincere dalla dimostrazione sotto).

Se prima avevamo bisogno di una numerosità di 100, adesso aumentando la


precisione e dunque diminuendo D, a parità di altre condizioni avremo bisogno di
400 unità. Nel caso di estrazione senza reimmissione allora D sarà uguale a

In questo caso la numerosità minima campionaria richiesta sarà:

Dobbiamo anche considerare la numerosità della popolazione di partenza in questo caso. Nel caso con reimmissione N
poteva anche essere trascurato.

La numerosità ottimale, dunque, è la dimensione MINIMA necessaria per un determinato livello di precisione e
determina una sorta di soglia oltre la quale non si deve andare, se vogliamo un determinato risultato in termine di
precisione.

Quando siamo interessati alla numerosità ottimale campionaria, ci troviamo nella fase di ricerca di mercato in cui
dobbiamo ancora estrarre le unità campionarie, prima ancora di effettuare l’indagine (fase 3 → decisione sul piano di
campionamento). Se siamo in questa fase, non abbiamo ancora nessun dato a disposizione sulle singole unità, non
sappiamo ancora a chi somministrare il questionario. Sigma2, dunque, è assolutamente ignoto. Non abbiamo alcuna
indicazione per stimarlo perché non abbiamo ancora fatto la rilevazione, perché dobbiamo ancora effettuare l’estrazione
dall’urna. Questo porta a delle complicazioni, ovviamente, e vuol dire che dovremo cercare di stimare sigma2
preliminarmente all’indagine statistica vera e propria. Ci sono 2 possibilità, e possono essere usate entrambe:

- Effettuare un’indagine pilota → un’indagine campionaria vera e propria, effettuata su poche unità statistiche
(solitamente una decina), che possiamo selezionare anche con campionamenti di tipo non probabilistico, per avere
informazioni preliminari sulla calibrazione dei nostri strumenti e sul valore preliminare di sigma2 per trovare la
numerosità ottimale. Questa viene effettuata con un piano di campionamento comodo su un numero molto basso
di unità e non necessitiamo di somministrare un questionario completo alle unità stesse che appartengono
all’indagine pilota, anzi. Di solito viene usata per testare i nostri strumenti di rilevazione, oltre che per dare un
valore iniziale a sigma 2, e anche per calibrare il questionario. Nell’indagine pilota abbiamo la possibilità di
somministrare una domanda aperta, da sfruttare successivamente nel questionario definitivo sotto forma di
domanda chiusa con possibilità di risposta finite.
- Utilizzare informazioni che derivano da fonti secondarie → potremmo andare a vedere se esistono indagini
effettuate da società o enti su questo tema che negli anni passati hanno rilevato la stessa variabile e la stessa
variabilità. Vedere se l’Istat ha fatto qualche indagine sull’utilizzo del telefono da parte dei giovani.

Fino ad ora abbiamo parlato della numerosità ottimale campionaria (minima) per ottenere un determinato livello di
precisione, la stima di mi. La variabile obiettivo era dunque quantitativa (fatturato, tempo medio di utilizzo del cellulare,
consumo di un bene in un intervallo di tempo…) e dunque il parametro di interesse da stimare è mi.
Nel caso in cui, invece, ci interessasse la rilevazione di variabili qualitative dicotomiche, il parametro di interesse che
sintetizza l’informazione derivante dalla rilevazione di tale variabile è la frequenza relativa. In questo caso l’intervallo di
confidenza è identico:

Per calcolare la numerosità ottimale, in questo caso, analogamente a quanto fatto per il parametro mi, dobbiamo usare una
formula di questo tipo (foto sotto), in cui al posto di sigma2 abbiamo la varianza della variabile casuale di Bernoulli.
Quando abbiamo una variabile dicotomica, la variabile di riferimento è la variabile Bernoulliana. Se conosciamo la
frequenza relativa, allora sigma2, la varianza della variabile con distribuzione bernoulliana, ha questa formula:

; → con e senza reimmissione

La varianza di una variabile bernoulliana assume il suo valore massimo quando P= 0,5. Sapendo che P è compreso
tra 0 e 1, Quando vogliamo calcolare la numerosità minima che ci consente di arrivare ad una stima con un errore non
superiore a D, basta che sostituiamo a sigma2, nella formula, il suo valore massimo, se non abbiamo alcuna conoscenza
preliminare di P. Esercizio 1 (vecchie prove d’esame).

La variabile obiettivo X è la spesa annua per servizi in outsourcing.


Questa è la variabile che vogliamo rilevare in relazione a ciascuna
azienda estratta. La spesa media annua è il parametro mi. Il
parametro incognito da stimare è la spesa media annua per la popolazione per servizi in outsourcing da parte delle aziende
che appartengono alla popolazione, che si calcola in maniera sintetica sommando tutti i valori della variabile obiettivo e
dividendola per il numero totale di unità presenti nella popolazione. Non fare confusione tra questi due valori (ESAME: 1
punto in meno all’esame se non si è in grado di individuare correttamente variabile obiettivo e parametro). L’intervista
diretta è la modalità che garantisce la minore incidenza di mancate risposte ed è più costosa anche perché l’intervistatore si
reca personalmente a fare l’intervista. Nel caso di auto-compilazione l’incidenza delle mancate risposte è sicuramente più
alta. A livello intermedio si colloca l’intervista telefonica.
Vediamo anche come calcolare la numerosità. Conosciamo la
numerosità dell’indagine pilota n*. Il rapporto tra n*/N= 0,008

La popolazione di aziende che hanno una forma giuridica di


società di capitale con sede legale nel luogo di interesse è pari a
3750 e vogliamo stimare il valore della spesa media per i servizi
in outsourcing. Se facciamo il budget fratto il costo unitario
vedremo quanti questionari potranno essere somministrati.
Dobbiamo tenere conto delle mancate risposte e questo viene
considerato applicando la correzione (1- Nad [tasso di mancata
risposta] che è uguale a 0,02).

Per quanto riguarda il livello di precisione della stima


intervallare (D → semi-ampiezza dell’IC), quello più alto si
ottiene nel caso di somministrazione del questionario mediante
intervista telefonica perché il valore più basso in assoluto è 62€. Potremo aspettarci di ottenere una stima del parametro
incognito (spesa media annuale per servizi in outsourcing) con uno scarto in eccesso o in difetto con uno scarto non
superiore a 62€.

Abbiamo due variabili: Età (<16 anni o >= 16 anni) e sesso (maschi e
femmine). Individuiamo dunque quattro gruppi all’interno della
popolazione per i quali vengono fornite le frequenze relative (ad
Esempio il 16% è costituito da maschi con età inferiore a 16 anni).
Vogliamo stimare la proporzione di interessati con uno scarto in
eccesso o in difetto con uno scarto non superiore al 3% (D) e il livello
di confidenza sarà pari al 99%.

La popolazione di interesse è data dai consumatori maschi con età


superiore ai 16 anni quindi la popolazione sarà data dagli individui che
appartengono a questo gruppo. Sappiamo che in totale la popolazione
totale residente nell’area è pari a 200.000 persone ma la popolazione target è data dal 35% di queste 200.000 persone. Su
questo gruppo di maschi con età superiore a 16 anni effettueremo l’indagine. Quindi l’urna sarà costituita da 200.000 x
0.35. Una volta stabilita la popolazione e sappiamo che il campionamento casuale che si vuole utilizzare è quello senza
reimmissione, per calcolare la numerosità ottimale e ottenere la precisione basta applicare la formula. Ci dobbiamo
interrogare sulla variabile obiettivo e sul parametro da stimare. In questo caso si parla di proporzione di interessati al
prodotto all’interno della popolazione (P). La variabile obiettivo sarà una variabile di tipo dicotomico (sei interessato a
questo prodotto? → Si/No) che può assumere due modalità: interessato o non interessato. Il parametro da stimare, invece,
sarà P, cioè la proporzione frequenza relativa di individui interessati all’acquisto del prodotto, che si otterrà sintetizzando le
risposte alla domanda “Sei interessato a questo prodotto o
no?”.

alpha= 1%=0.01 → Z alpha/2 = 2.58

Adesso bisogna fare una considerazione sulla numerosità


minima. Questa dovrà sempre essere un numero intero.
L’approssimazione da fare qualora trovassimo un decimale è
sempre per eccesso nel caso della numerosità minima. Quindi dobbiamo sempre arrotondare all’unità superiore perché
vogliamo una numerosità minima sufficiente per garantire quel livello di precisione (3% in + o in -). Se approssimiamo per
difetto potrei raggiungere un risultato che non mi garantisce una determinata precisione. È sempre un errore arrotondare
per difetto.

NUMEROSITA’ MINIMA → APPROSSIMARE SEMPRE PER ECCESSO (ALL’UNITA’ SUCCESSIVA)


Si chiede di dire come dovrà cambiare il tasso di campionamento per
raggiungere questo obiettivo. Dobbiamo passare da un D a un D* che è
uguale ad = ½ D ipotizzando che P sia uguale a quello registrato
nell’indagine fatta quest’anno (75%). Questo è importante perché avrà
incidenza su sigma2 per calcolare la numerosità minima. Quando abbiamo
indicazioni su P grande date da indagini precedenti il calcolo di sigma2
deve rientrare in quello della numerosità ottimale.

0.75 x 0.25 sarebbe P (1-P). La numerosità minima campionaria sarà uguale a 90.567 (approssimato per eccesso).

Il tasso di campionamento ottimale sarà pari a n*/N = 7.55%. Tasso di campionamento che garantirà il livello di
precisione che interessa la nostra indagine, date l’IC, la variabilità data la conoscenza di P, e la numerosità campionaria.

Vogliamo stimare l’intenzione di spesa mensile delle famiglie con una precisione non inferiore a 10 €. Il parametro di
interesse sarà mi (vogliamo stimare la spesa media mensile per prodotti LCC da parte delle famiglie residenti a Verona). La
variabile obiettivo X da rilevare sarà la spesa mensile per questi prodotti LCC. D=10€ (l’errore in eccesso o in difetto nella
stima di mi non deve superare 10 €).

Si usa un CCS senza reimmissione. Per quanto riguarda la numerosità della popolazione N è 340.000, però l’unità statistica
non sono i singoli individui, bensì le singole famiglie. Per stabilire la popolazione dobbiamo calcolare il numero di famiglie.
Conosciamo il numero di individui e il numero medio di individui per famiglia quindi dovremo dividere 340.000/3.2

Sappiamo che se viene data la precisione parleremo di numerosità minima ottimale. In questo caso la conosciamo già.
Quindi qual è il valore della varianza della spesa mensile utilizzato per ottenere la numerosità minima? → Si tratta di una
formula inversa. Conosciamo N, Z alpha/2, l’unica incognita è la
varianza sigma 2. Dobbiamo trovare s2 .

Cambiando la modalità di estrazione vediamo come nel CCS con


reimmissione serviranno tre unità in più per garantire lo stesso
livello di precisione a quel livello di confidenza.

Passiamo da D=10 a D*=20 → 2 volte D

Se vogliamo dimezzare la precisione dobbiamo accontentarci di ¼


della popolazione
IL CAMPIONAMENTO SISTEMATICO
𝑁
PASSO DI CAMPIONAMENTO → k = → reciproco del tasso di campionamento
𝑛
Non si ottiene esattamente un CCS dal momento che gran parte dei possibili campioni ha una probabilità di essere
estratti pari a zero. Alcuni campioni non possono essere estratti, in quanto non viene rispettato lo schema di selezione.
Tutti i campioni che contengono delle unità consecutive non possono essere estratti.
È assimilabile al CCS perché non sussiste un controllo arbitrario delle unità selezionate. È un campionamento
probabilistico, la casualità deriva dal fatto che la posizione di partenza dev'essere scelta in maniera casuale. Prima siamo
partiti dall'unità 1 con un k = 4, ma non per forza dobbiamo partire dall'unità 1. Per inizializzare il processo di selezione,
dobbiamo selezionare uno dei numeri naturali compreso tra 1 e il passo di campionamento stesso.

Anche questo rientra tra i piani di campionamento elementari, così come il CCS. Immaginiamo di avere una popolazione,
ad esempio, le famiglie e abbiamo una lista in cui vengono riportate le 106.000 famiglie residenti in provincia di Verona
con il nome del capo famiglia e il Codice Fiscale del capo famiglia. Decidiamo di effettuare un’indagine attraverso il
campionamento sistematico.
Innanzitutto, dobbiamo stabilire la numerosità campionaria. La prima cosa da fare è quella di calcolare il cosiddetto
“Passo di campionamento” che solitamente indichiamo con k (k=N/n) che è il
reciproco del tasso di campionamento (n/N). Passo di campionamento:
106.000/1000= 106 → significa che andrò ad intervistare una famiglia ogni 106.
Questo prevede che in una lista di campionamento in cui abbiamo tutte le unità
della popolazione, si selezioni un elemento ogni passo di campionamento. Si deve
stabilire da dove partire con questa selezione. Per partire bisogna stabilire la
posizione di partenza, che viene determinata in maniera casuale. Per questa ragione
il piano di campionamento sistematico, contrariamente a quanto il nome
“sistematico” suggerisce, è un piano di campionamento casuale probabilistico. Si
estrae casualmente un numero compreso tra uno e il passo di campionamento (in questo caso 106).

6/11/2020

Esercizi di vecchi esami sul campionamento casuale semplice sulle slide “Esami passati →ESERCIZI CCS”

12/11/2020
La fase di selezione delle unità statistiche è molto rapida perché, una volta che si
ha la lista di campionamento, basta fare una estrazione e le unità statistiche
vengono selezionate in maniera automatica. Ipotizziamo che si voglia estrarre un
campione in maniera sistematica da una popolazione di individui, in cui trova una
lista di campionamento di tipo “maschio-femmina”. Se dovessimo scegliere le
unità statistiche che occupano la posizione pari, sceglieremmo sempre le donne.
Se le liste presentano una periodicità come quella maschio-femmina, questo
potrebbe portare a selezionare un campione cattivo, formato solamente da sole
donne o da soli uomini (se si scelgono le unità statistiche che occupano la
posizione dispari) in questo caso. Questo è il problema legato al campionamento sistematico, che potrebbe essere
condizionata in maniera distorsiva la rappresentatività della popolazione per effetto di una periodicità nella lista di
campionamento.

Immaginiamo di volere estrarre un campione secondo un tasso di


campionamento pari allo 0.25, estraiamo un’unità statistica ogni 4, il
tasso di campionamento è 1/4 (24*1/4 → la numerosità
campionaria sarà pari a 6) mentre il passo di campionamento è 4.
Nel caso del CCS, succede che dobbiamo estrarre 6 numeri
casualmente dall’urna che contiene le 24 palline. Prendiamo le celle
nere e facciamo la media. Nel caso del CSI dobbiamo calcolare il
passo di campionamento, che è il reciproco del tasso di
campionamento, ed è 4. Quindi, in questo caso, immaginiamo che il
numero casuale iniziale estratto sarà il 3 (per trovare le successive
estratte basta aggiungere a 3 [in questo caso] il passo di
campionamento → celle nere: 7,11,15…)
IL PIANO DI CAMPIONAMENTO STRATIFICATO
➔ A PARITA’ DI NUMEROSITA’ CAMPIONARIA SI OTTIENE UNA PRECISIONE MIGLIORE RISPETTO AL CCS E UNA
MIGLIORE APPROSSIMAZIONE DEL PARAMETRO DI INTERESSE.
➔ LE VARIABILI DI STRATIFICAZIONE DEVONO ESSERE ADEGUATAMENTE CORRELATE CON LA VARIABILE
OBIETTIVO PER OTTENERE QUESTI VANTAGGI
➔ L’ALLOCAZIONE E’ OTTIMALE QUANDO GLI STRATI SONO IL PIU’ POSSIBILE OMOGENEI (L’OMOGENEITA’ SI
MISURA IN TERMINI DI VARIABILE OBIETTIVO) AL LORO INTERNO E IL PIU’ POSSIBILE ETEROGENEI
(L’ETEROGENEITA’ SI MANIFESTA TRAMITE GLI INDICATORI DI VARIABILITA’ COME LA VARIANZA) TRA DI
LORO
PASSAGGI
1) Dividere la popolazione in strati tramite variabili ausiliarie o di stratificazione
2) Scelta della frazione di campionamento in ogni strato (uniforme, proporzionale, ottimale).
3) Da ogni strato si estrae un campione casuale semplice (le variabili continue come l’età devono essere prima categorizzate individuando delle
soglie [es. sotto i 35 anni; sopra i 35 anni]
4) L’aggregazione di tali campioni produce il CAMPIONE STRATIFICATO
CAMPIONAMENTO STRATIFICATO
• NUMERO DI STRATI= MOLTIPLICO LE MODALITA’ DELLE VARIABILI
ad esempio se le variabili di stratificazione sono il sesso (2 modalità: maschi e femmine) e la professione (articolata su due
modalità: autonomo e dipendente) il numero di strati sarà 2x2=4
PARAMETRI PER LA POPOLAZIONE

1
• PARAMETRO MEDIA di strato nella POP.: µH= 𝑁ℎ ∑𝑁ℎ
𝑖=1 𝑋ℎ𝑖
dove Nh=numerosità strato h-esimo nella pop; N=numerosità della popolazione
(𝑋ℎ𝑖−µH)2
• PARAMETRO VARIANZA di strato POP: σ2 H= ∑𝑁ℎ
𝑖=1 𝑁ℎ
𝑁ℎ
• PESO DELLO STRATO H-ESIMO: Wh= 𝑁
1 1 ∑𝑁ℎ
𝑖=1 𝑋ℎ𝑖
• MEDIA NELLA POPOLAZIONE: µ= ∑𝐻 𝐻 𝑁ℎ
ℎ=1 𝑊ℎµh → µ=𝑁 ∑ℎ=1 ∑𝑖=1 𝑋ℎ𝑖 → 𝑁 𝑁ℎ= Wh; = µh
𝑁ℎ
• VARIANZA NELLA POPOLAZIONE: σ2= ∑𝐻 𝐻
ℎ=1 𝑊ℎ σ2h + ∑ℎ=1 𝑊ℎ (µh − µ)
2

dove VARIANZA NEI GRUPPI: ∑𝐻 𝐻


ℎ=1 𝑊ℎ σ H=; VARIANZA FRA I GRUPPI: ∑ℎ=1 𝑊ℎ (µh − µ)
2 2

𝒏
• NUMEROSITA’ CON ALLOCAZIONE UNIFORME: nh= 𝑯 con h= 1, …, H → NUMEROSITA’ UGUALE IN OGNI STRATO
𝑵𝒉
• NUMEROSITA’ CON ALLOCAZIONE PROPORZIONALE: nh= nWh= n 𝑵 → NUMEROSITA’ DELLO STRATO
PROPORZIONALE AL PESO DELLO STRATO STESSO

̂)
e sostituisco queste due equivalenze nella formula di 𝑉(𝑥̅
• NUMEROSITA’ CON ALLOCAZIONE OTTIMALE: minV(𝑥̅ st), s.v. C=C0 + ∑𝐻 ℎ=1 𝐶ℎ𝑛ℎ → PROBLEMA DI
MINIMIZZAZIONE SOTTO IL VINCOLO DEI COSTI FISSI E VARIABILI
(𝑪−𝑪𝟎)𝑾𝒉𝛔𝐡/√𝑪𝒉
→ nh= ∑ 𝒉 𝑾𝒉𝛔𝐡√𝑪𝒉
• ALLOCAZIONE OTTIMALE DI NEYMAN: C= C0+nC* → C-C0=nC* → ragionamento
𝑛𝐶∗𝑊ℎσh 𝑊ℎσh
nh= 𝐶∗ ∑ 𝑊ℎσh → nh=n ∑𝐻 𝑊ℎσh
ℎ=1
∑𝑛ℎ
𝑖=1 𝑥ℎ𝑖
• STIMATORE MEDIA CAMPIONARIA DELLO STRATO: 𝑥̅ h= 𝑛ℎ
E(𝑥̅ h) = µh → 𝑥̅ h è uno stimatore corretto di µh
∑𝑛 (𝑥ℎ𝑖−𝑥̅ )2
• STIMATORE VARIANZA CAMPIONARIA DELLO STRATO: s2h= 𝑖=1𝑛ℎ−1
• STIMATORE DELLA MEDIA: 𝑥̅ = ∑𝐻
ℎ=1 𝑊ℎ 𝑥̅ h
𝑛ℎ 2 𝑁ℎ−𝑛ℎ
• STIMA DELLA VARIANZA FORMULA GENERALE (C. NON PROPORZIONALE): V(𝑥̅ ) = ∑𝐻
ℎ=1 𝑛2 σ h ( 𝑁ℎ )
𝑛 σ2h
• STIMA DELLA VARIANZA CAMP. PROPORZIONALE: V (𝑥̅ ) = (1- 𝑁) ∑𝐻
ℎ=1 𝑊ℎ 𝑛
𝑛ℎ 2 𝑁ℎ−𝑛ℎ
• ̂ 𝐻
VARIANZA CORRETTA C. NON PROPORZIONALE: 𝑉(𝑥̅ ) = ∑ℎ=1 𝑠 h ( ) 𝑛2 𝑁ℎ
𝑛 s2h
• ̂)= (1- ) ∑𝐻
VARIANZA CORRETTA C. PROPORZIONALE: 𝑉(𝑥̅ ℎ=1 𝑊ℎ
𝑁 𝑛

SCOMPOSIZIONE DELLA VARIANZA:

Se la stratificazione è buona, allora dovremmo ridurre al massimo la parte a sinistra, e aumentare al massimo quella a destra (della foto).
Aumentando/diminuendo l'uno, l'altro diminuisce/aumenta: la loro somma fa sempre σ2.

Problemi connessi alla stratificazione: – Individuazione dei caratteri correlati con quello oggetto di studio (se molti, tecniche di analisi
multivariata).
– Decisione sul numero di strati → DIPENDE DAL NUMERO DI VARIABILI E DALLE MODALITA’. Se aumentano le variabili di
stratificazione, e più le stratificazioni sono articolate, più avremo strati numerosi.
– Disponibilità di una lista con le informazioni sui caratteri di stratificazione. È necessario disporre di informazioni per tutte le us della
popolazione relative alla variabile di stratificazione.
– Scelta della frazione di campionamento in ogni strato (uniforme, proporzionale, ottimale). Problema della scelta del numero di unità che
dobbiamo estrarre da ogni singola urna. Chi ci dice quante palline devo estrarre da ogni urna? Questo è un problema di allocazione di us all'interno dei
singoli strati. Ci sono diverse tipologie di allocazione: – Allocazione uniforme. – Allocazione proporzionale. – Allocazione ottimale. – Il guadagno di
efficienza sarà tanto maggiore quanto più gli strati sono: – Omogenei internamente (within). – Diversi tra di loro (between).

Vantaggi della stratificazione


1) Miglioramento dell’efficienza degli stimatori. La precisione delle stime è maggiore di quella del CCS qualora i sottogruppi siano omogenei al loro
interno e disomogenei tra di loro rispetto alla caratteristica di studio. A parità di numerosità campionaria (o parità di precisione della stima) la
stratificazione è la soluzione migliore.
2) Possibilità di stimare i parametri di sottopopolazione (domini di studio). In ogni strato corrisponde un'urna, e noi estraiamo un CCS, possiamo
avere, utilizzando un campione casuale estratto da quella particolare urna, una stima di quel particolare parametro che si riferisce a quella particolare
popolazione.
3) Miglioramento e razionalizzazione del lavoro sul campo. Diversi sottogruppi possono presentare problematiche di campionamento differenti, come
ad esempio nel caso di campionamento della popolazione residente in zone urbane o rurali. Una volta che individuiamo diverse popolazioni,
possiamo organizzare in maniera diversa la rilevazione.
4) Riduzione della probabilità di estrazione di campioni poco rappresentativi della popolazione obiettivo.

Svantaggi del CST


È necessario disporre di variabili ausiliari di buona qualità – ossia sufficientemente correlate con il fenomeno oggetto di studio e che gli strati siano
ben costruiti. In caso contrario le stime possono presentare addirittura una perdita di efficienza rispetto al CCS.
→ il significato sta nel voler minimizzare la varianza dello stimatore.
Il primo tra i piani di campionamento complessi è il PIANO DI CAMPIONAMENTO STRATIFICATO.

Sappiamo che il CCS è la base per comprendere i piani di campionamento complessi.


Per comprendere il piano CSTRA utilizziamo questo esempio. Sappiamo che in tutte le
popolazioni le proporzioni tra maschi e femmine tendono ad essere abbastanza simili ed
equilibrate (16-65 anni). Se avessimo un campione che per il 60% rappresenta gli uomini
e il 40% le donne sarebbe errato, perché sovra-rappresenterebbe gli uomini (del segmento
maschile) e darebbe problemi perché si rifletterà in una distorsione della stima finale del
parametro incognito mi. Una scarsa rappresentatività del campione rispetto alla
popolazione porta sempre ad una distorsione nella stima del parametro incognito
attraverso i dati raccolti con il campione.
Allora occorre ricorrere ad un campionamento di tipo diverso: quello stratificato.

Il CSTRA consente di dividere preliminarmente la popolazione in segmenti, lo si fa prima questo lavoro. Nel nostro
esempio dovremmo dividere la lista dei 400.000 individui residenti a Padova con età tra i 16 e i 65 anni preliminarmente, e
divisi in due parti, che saranno presumibilmente due gruppi di uguale numerosità, circa 200.000 maschi e 200.000
femmine. Poi estrarremo un campione di 500 unità dagli uomini e uno di uguale dimensione da quello delle donne. Il
campione finale sarà di 1000 unità statistiche, che rappresentano adeguatamente la popolazione di partenza. La differenza
tra questo e il CCS è che, invece di partire da un’unica urna come per il CCS, partiamo da urne diverse, poi estraiamo un
CCS dalla prima urna e un CCS dalla seconda urna (vediamo come il CCS sia la base anche per il campionamento
stratificato). L’estrazione urna per urna utilizza sempre lo schema del CCS.

Nel CSTRA (CST o CSTRA= campionamento stratificato) è prevista la


suddivisione (preliminare all’estrazione del campione) della popolazione in
gruppi che vengono chiamati strati. → dobbiamo STRATIFICARE la
popolazione. Gli strati devono essere delle partizioni dell’insieme di
partenza, della popolazione di partenza. Una partizione di una popolazione
si esegue individuando delle sottopopolazioni che siano:

- ESAUSTIVE: Data una unità statistica della popolazione questa


deve appartenere almeno ad uno strato.
- MUTUAMENTE ESCLUSIVE: data un’unità statistica questa
deve appartenere ad uno e un solo strato. Non può appartenere
contemporaneamente a più di uno strato e gli strati, dunque, non devono avere alcuna sovrapposizione in termini
di unità statistiche.

Abbiamo una partizione quando suddividiamo la popolazione in sottoinsiemi tra di loro mutuamente esclusivi ed esaustivi.
Perché si effettua la stratificazione? Per rendere più rappresentativo il campione rispetto alla popolazione. Questo è
importante, perché la stratificazione è tanto migliore quanto più consente di ottenere delle sottopopolazioni in cui le unità
statistiche siano il più possibile omogenee tra di loro e il più possibile diverse nel momento in cui appartengono a strati
diversi. Questa omogeneità nei gruppi ed eterogeneità tra gli strati, deve essere rispetto alla variabile obiettivo. Quando si
parla di omogeneità delle unità statistiche negli strati ed eterogeneità tra i gruppi, si intende sempre in relazione alla vo.
Nell’esempio di prima la vo (X) era la spesa annua per dopobarba (variabile quantitativa), il parametro da stimare è la spesa
media annua (mi). In questo esempio, ci aspettiamo che gli uomini abbiano comportamenti di spesa del dopobarba
omogenei tra di loro (tendono a spendere la stessa simile cifra) e che le donne, all’interno del loro gruppo, avranno una
spesa abbastanza simile nel dopobarba, anche se la spesa mediamente è molto più alta per gli uomini per quanto riguarda il
prodotto in questione. I due gruppi sono eterogenei tra loro, ma ciascuno di loro al suo interno è omogeneo rispetto alla
vo “spesa per dopobarba”. Più raggiungiamo questa situazione, migliori saranno la rappresentatività del campione rispetto
alla popolazione e la stima del parametro finale in termini di precisione di questa stessa stima.

Per effettuare un CSTRA, dobbiamo creare delle urne separate preliminarmente all’estrazione del campione casuale e ci
servono delle informazioni ausiliarie e in relazione a tutte le unità statistiche della popolazione. Ad esempio, dovremo
conoscere il sesso di ogni individuo. In questo caso è semplice perché usiamo una sola caratteristica per individuare lo
strato.
Ma se prendiamo ad esempio il fatturato delle aziende di Rovigo che operano nel settore del tessile, la vo è il fatturato
annuo e il parametro da stimare è il fatturato medio annuo. Pensiamo di voler estrarre un campione stratificato da questa
popolazione e questa stratificazione la facciamo in base alla forma giuridica delle aziende: aziende individuali, società di
persone e società di capitale. Abbiamo dunque tre strati, e dobbiamo creare 3 urne. Pensiamo di voler stratificare anche in
base al numero di dipendenti individuando 3 gruppi che siano formati da piccole, medie e grandi aziende in cui le soglie
possono essere 10 dipendenti e 50 dipendenti. In questo caso, visto che vogliamo creare dei gruppi considerando
congiuntamente forma giuridica e dipendenti, abbiamo bisogno delle informazioni preliminari sulle aziende e ausiliarie
rispetto a forma giuridica e numero di dipendenti. Il numero di strati e di urne sarà formato dal prodotto degli strati che
identifichiamo sulle singole variabili ausiliarie: forma giuridica= 3 gruppi, numero di dipendenti= 3 gruppi. Gli strati
saranno 3x3 = 9 → 9 urne. La prima include le aziende individuali con un numero di addetti inferiori a 10, poi abbiamo le
snc con 10 dipendenti e così via… e poi estrarremo un CCS da ciascuna urna, l’insieme di campioni estratto costituirà il
campione finale. Più queste urne includono unità statistiche che sono omogenee in relazione alla vo fatturato, migliore poi
sarà la stima finale che otterremo del fatturato medio relativamente alla popolazione nel complesso. Effettivamente,
possiamo aspettarci che il fatturato sia legato sia alla forma giuridica sia al numero di dipendenti (le società di capitali con
più dipendenti di solito presentano fatturati più elevati).

L’obiettivo principale del CST è quello di consentire di ottenere una stima più precisa e dunque più efficiente del
parametro incognito rispetto a quanto avviene utilizzando un CCS, condizionatamente al fatto di aver stratificato
bene, cioè quando individuiamo delle variabili ausiliarie che consentono di separare la popolazione in sottopopolazioni in
cui le unità statistiche sono il più possibile omogenee tra loro in relazione alla vo. La stratificazione, però, può avere anche
altri vantaggi.

La disponibilità di informazioni ausiliarie porta altri vantaggi, come quello di mettere in


risalto una o più sottopopolazioni che hanno caratteristiche particolari e che, quindi,
meritano di essere trattate in maniera diversa rispetto alle altre. Nell’esempio delle aziende,
attraverso quelle informazioni ausiliarie, possiamo individuare l’urna delle grandi aziende
organizzate in spa che, nel settore tessile a Rovigo, hanno caratteristiche specifiche e
meritano un supplemento nell’indagine. Potremmo decidere di fare un’indagine comune a
tutti gli strati e una più approfondita con questionario alle
aziende che appartengono allo strato delle aziende di grandi
dimensioni. Fare ad esempio una rilevazione degli
investimenti in R&S.

La ripartizione in strati può dunque servire, grazie alle


informazioni ausiliarie, per indagare gruppi di unità
statistiche che devono essere studiati in modo particolare.
È anche utile per individuare degli strati che sono
geograficamente isolati rispetto agli altri, ad esempio può
servire per individuare un gruppo di aziende con sede legale
nelle isole o nelle piccole isole del territorio nazionale che
hanno particolari caratteristiche nella gestione dell’azienda e
sono importanti da indagare, ma talvolta difficili da
raggiungere. Immaginiamo di voler fare un’indagine sul
settore ittico e somministrare il questionario con l’intervista diretta. Il fatto di isolare questo particolare strato, consente di
organizzare meglio anche la rilevazione, perché, per queste aziende, potrei anche decidere di contattarle tramite una
videochiamata, ad esempio, per non spendere troppo.

Quindi in questo caso la stratificazione può essere utile per risolvere problemi organizzativi. Il vantaggio principale,
tuttavia, è proprio quello legato all’efficienza delle stime. In questa tabella viene rappresentata una popolazione e dei
parametri di sintesi, ipotizzando di suddividere la popolazione in strati. Abbiamo che ogni riga si riferisce ad un diverso
strato. In questa tabella il numero totale di strati in cui è suddivisa la popolazione viene indicata con H. Per ogni strato
vengono riportate le modalità nella prima parte assunte dalle unità statistiche dei diversi strati relativamente alla variabile
obiettivo. X11, ad esempio, rappresenta il valore che la variabile X assume in relazione all’unità 1 all’interno dello strato 1, e
così per tutte le X. Ad esempio la donna che occupa la posizione 1 nello strato 1 (delle femmine). N1 è la numerosità della
popolazione dello strato 1. Il primo pedice si riferisce sempre a quel determinato strato e non cambia. Abbiamo l’h-esimo
strato generico. Cambia solo il secondo pedice, quello relativo alle unità statistiche appartenenti a quel determinato strato.

Se vogliamo sintetizzare l’informazione relativamente alla vo nei diversi strati a livello di popolazione, allora abbiamo i
parametri sintetici della vo nei diversi strati. Mi 1 rappresenta la media della vo nella popolazione relativamente allo strato 1.
Nell’esempio sul fatturato, mi1 sarà il fatturato medio delle piccole aziende aventi 10 dipendenti con la forma giuridica di
azienda individuale, a livello di popolazione, considerando, dunque, tutte le imprese che appartengono a quello strato.
Chiaramente è un valore incognito che non conosciamo, noi effettuiamo un’estrazione dall’urna per stimare questo
parametro. Sigma21 è la varianza del fatturato annuo per le piccole aziende con forma giuridica data dall’azienda
individuale, sempre a livello di popolazione.

Nella definizione del CSTRA, è importante il simbolo WH, che viene calcolato come rapporto tra la numerosità dello strato
h-esimo a livello di popolazione (NH) fratto la numerosità totale della popolazione. Nel caso della stratificazione in base al
sesso sarà: le donne nella popolazione/ tutti gli individui nella popolazione. È chiaro che questo “Peso” assumerà sempre
valori compresi tra 0 e 1. In particolare, se sommiamo rispetto a tutti gli strati della popolazione i pesi degli strati la somma
sarà pari ad 1. LA SOMMA DEI PESI DEGLI STRATI ESTESA A TUTTI GLI STRATI DELLA POPOLAZIONE
DEVE ESSERE SEMPRE 1. La sommatoria della numerosità dei diversi strati, ovviamente, restituisce la numerosità
totale della popolazione.

Immaginiamo di moltiplicare la sommatoria più esterna (nella formula di stima del parametro mi) per un numero neutro
uguale ad 1 Nh/Nh.

La media di una variabile quantitativa, in una popolazione stratificata, può essere


ottenuta come media ponderata delle singole medie di strato con pesi dati dai pesi dei
singoli strati. Formula attraverso la quale possiamo ottenere la media a livello di
popolazione in una popolazione stratificata.

Per quanto riguarda sigma2, questo è quanto si differenzia, quanto è eterogenea, la variabile obiettivo della popolazione. Se
questa è il fatturato, indica quanto sono differenti tra loro le aziende in termini di fatturato. Se hanno lo stesso fatturato
sigma2 sarà uguale a 0. È la varianza della vo. La varianza in una popolazione stratificata può essere definita come la
sommatoria degli scostamenti al quadrato del valore di ogni unità statistica rispetto alla media generale, sommiamo gli
scostamenti prima a livello di strato e poi sommiamo tutti i totali.

Prendiamo il caso delle aziende tessili di Rovigo, calcoliamo la media e la varianza dei fatturati. La varianza a livello di
popolazione, ad esempio, del fatturato di tutte le aziende di Rovigo nel tessile, si può scomporre in due parti: la prima
parte è la numerosità relativa delle singole aziende nei singoli strati, sigma2 h, è la varianza del fatturato all’interno dell’h-
esimo strato. Avremo una varianza per ogni singolo strato, calcolata prendendo il fatturato della prima azienda che
appartiene al primo strato sottraendo il fatturato medio, elevando al quadrato e sommando a tutti gli altri e poi lo
dividiamo per 10.000 (numerosità delle piccole aziende). Ripetiamo la stessa operazione per il secondo strato, alla fine
dividiamo per la numerosità delle medie aziende e anche per il terzo strato (le grandi aziende, ottenendo sigma 2 2 e
sigma23).

La prima componente della varianza totale è la varianza nei gruppi e indica quanto sono omogenee le aziende all’interno
dei singoli gruppi. Se le aziende avessero tutte lo stesso fatturato, ci sarebbe massima omogeneità e separazione. Se tutte le
piccole, medie e grandi aziende hanno lo stesso fatturato nel proprio strato sigma2 sarà uguale a 0. Nel caso di massima
omogeneità la varianza NEI gruppi è uguale a 0, situazione ideale perché basta estrarre un’azienda (unità statistica) da ogni
singolo strato per rappresentare perfettamente la popolazione. Mi è il fatturato medio per le aziende (1,2 o 3 a seconda che
siano piccole medie o grandi).
La seconda componente viene chiamata varianza fra i gruppi e indica quanto siano separati tra loro i gruppi. Ipotesi
estrema: nelle piccole aziende, molto diverse tra loro, otteniamo una media del fatturato medio di 100.000, anche per le
medie aziende e grandi aziende. In questo caso, se andiamo a calcolare questa componente (100.000 nel primo gruppo –
100.000 che è anche la media a livello di popolazione), lo scostamento sarà uguale a zero per tutti i gruppi. Questa è la
situazione peggiore, perché tutta la varianza è legata alla varianza all’interno dei gruppi e in questo caso la stratificazione
non serve a niente. Nella realtà ci troveremo sempre in una situazione intermedia. Una certa % si legherà alla varianza nei
gruppi e una certa % alla varianza tra i gruppi.
Si può dimostrare che la varianza si può scomporre in due parti:

Prima parte: peso dell’h-esimo strato per sigma quadrato. → sommatoria → VARIANZA NEI GRUPPI
Seconda parte: sommatoria, estesa a tutti gli strati, degli scostamenti al quadrato tra la media di strato e la media generale
(confrontiamo la spesa delle donne, ad esempio, per make-up rispetto alla media della popolazione generale) e questi
scostamenti li moltiplichiamo per il peso dei singoli strati. → VARIANZA TRA GLI STRATI (BETWEEN)

La scomposizione della varianza ci dice che le due componenti devono essere aggregate tra loro in maniera additiva, la
prima riguarda la varianza all’interno dei gruppi e la seconda la varianza tra i gruppi. Ci dà un’idea di quanto sia buona la
stratificazione, che è tanto migliore quanto più bassa è la componente di varianza nei gruppi. Più bassa è la varianza nei
gruppi, maggiore è l’omogeneità delle unità statistiche all’interno degli strati rispetto alla vo. La stratificazione è tanto
migliore quanto minore è la varianza nei gruppi, perché quando quest’ultima è bassa significa che le unità statistiche
all’interno dei singoli gruppi hanno comportamenti omogenei rispetto alla vo.

13/11/2020

Si pone il problema di quante unità statistiche selezionare da ogni singolo strato.


Abbiamo parlato della scomposizione della varianza: quota all’interno degli strati
e quota all’esterno degli strati → VARIANZA NEI E VARIANZA FRA I
GRUPPI

Abbiamo detto che la stratificazione è tanto migliore quanto più si riduce la quota
di varianza nei gruppi. La scomposizione è di tipo matematico, la somma è
sempre quella, ma dobbiamo vedere com’è allocata la varianza nelle due
componenti. Per mantenere la quota di varianza interna agli strati più bassa
possibile, devo scegliere le variabili ausiliarie/ di stratificazione adeguata. Questo
obiettivo di rendere gli strati al loro interno più omogenei possibile e separare al massimo gli strati tra loro, si ottiene
scegliendo in maniera opportuna le variabili di stratificazione. Il criterio che ci dice se una variabile di stratificazione è
buona è il grado di correlazione tra le variabili di stratificazione e la vo. Per avere delle buone variabili ausiliarie o di
stratificazione queste devono essere il più possibile correlate con la vo (X).

Prendiamo l’esempio in cui vogliamo stimare il consumo medio per prodotti per rasatura. Avevamo scelto come variabile
di stratificazione il sesso, perché questa è correlata con la vo, perché sappiamo che cambiando il sesso cambia anche la
spesa, la predisposizione al consumo di questo particolare prodotto. Il sesso, dunque, è sicuramente correlato alla spesa per
prodotti di rasatura (X). Oppure ancora nel caso delle aziende in cui la variabile obiettivo era il fatturato, è chiaro che il
fatturato è legato alla dimensione. Infatti, come variabile ausiliaria abbiamo scelto la dimensione perché possiamo
aspettarci che, cambiando la classe dimensionale, cambierà anche il fatturato. Si parla di correlazione o associazione tra
le variabili di stratificazione e la vo. Nel caso del consumo di prodotti per rasatura, se prendessimo come variabile di
stratificazione la professione, questa non sarebbe opportuna, perché è verosimile pensare che tutti si devono radere,
indipendentemente dalla professione. È chiaro che, se prendiamo una variabile di stratificazione di questo tipo, non
correlata con la vo “spesa per prodotti di rasatura”, non ci avvicineremmo all’obiettivo di individuare strati con
comportamenti omogenei rispetto alla vo. La scelta delle variabili ausiliarie da utilizzare per individuare gli strati è, dunque,
cruciale, perché è da questa scelta che dipende la capacità di circoscrivere e creare partizioni che raggiungano il nostro
scopo di minimizzare la varianza all’interno dei gruppi e massimizzare la distanza tra le medie dei diversi gruppi.

Se vogliamo fare un CSTRA dobbiamo, dunque, disporre di informazioni ulteriori sulle unità statistiche che ci
consentano di fare i gruppi. Dobbiamo avere una lista di campionamento in cui oltre all’etichetta delle singole unità
statistiche ci siano anche altre informazioni (nell’esempio delle aziende non basterà il loro nome, servirà la sede legale, la
forma giuridica) e queste serviranno per tutte le unità statistiche. Il fabbisogno informativo è molto maggiore rispetto ai
piani di campionamento precedentemente visti. Bisogna selezionare, poi, le variabili il più possibile correlate con la vo.

Una volta che abbiamo individuato le variabili di stratificazione (il più possibile associate con la vo) e una volta definite le
classi sulle singole variabili di stratificazione, automaticamente individuiamo il numero di strati/urne in cui divideremo la
popolazione. Se la variabile di stratificazione, ad esempio, è il sesso, la popolazione sarà divisa in due gruppi. Se fossero il
sesso e la professione congiuntamente (il sesso articolato su 2 gruppi e la professione su 3 gruppi) gli strati saranno 2x3= 6,
e così via. Se le variabili ausiliarie sono scelte adeguatamente il campione finale sarà più efficiente per il CST rispetto al
CCS:

- Col CST possiamo ottenere una stima del parametro incognito più precisa rispetto al CCS, a parità di numerosità
campionaria. Questo vuol dire che, se prendiamo l’esempio dei prodotti per rasatura, se decidiamo di estrarre dalla
popolazione un campione n=1000: da una parte facciamo un CCS e dall’altra facciamo la stratificazione (CST),
estraendo 1000 unità in entrambi i casi, ci si aspetta che, calcolando un IC sulla spesa media e mantenendo lo
stesso livello di confidenza, l’ampiezza per l’IC nel CST sarà minore rispetto a quella dell’intervallo nel CCS (e
sappiamo che quando l’ampiezza dell’IC si riduce otteniamo stime più precise). A parità di numerosità
campionaria otteniamo una stima più precisa, una varianza dello stimatore più bassa. Lo stimatore nel caso del
CST ha una varianza più bassa, è più preciso e più efficiente, a parità di numerosità campionaria e livello di
confidenza e avremo stime intervallari per il parametro con ampiezza minore.
- Per guadagni di efficienza si intende che la stessa precisione della stima si può ottenere col CST rispetto al CCS
riducendo la numerosità campionaria. Col CCS otterremo una stima della spesa per prodotti per rasatura con uno
scarto, un’ampiezza dell’IC di più o meno 10 € utilizzando la numerosità di 1000. La stessa precisione di + o – 10
€ si può ottenere utilizzando il CST con un campione di numerosità inferiore (ad esempio 900).

Il campionamento stratificato, dunque, se la stratificazione è fatta in maniera opportuna, consente di ottenere stime più
efficienti a parità di numerosità campionaria o stime ugualmente efficienti con numerosità campionaria inferiore. Si riflette
anche in un guadagno dal punto di vista economico. Resta il problema dell’allocazione delle unità statistiche nel CST,
ovvero decidere quante unità statistiche estrarre da ogni singolo strato. Decidere, dunque, la numerosità campionaria
all’interno di ogni singolo strato e non è una scelta scontata.

Dobbiamo decidere quante “stelline” individuare in ogni strato, chiaramente in maniera casuale. Il numero di stelline lo
indichiamo con nh, numero di unità statistiche che devono essere estratte dallo strato h-esimo. La decisione da prendere è,
dunque, su quale valore attribuire ad ogni nh.
Vediamo quali sono le possibilità:

- ALLOCAZIONE UNIFORME: la più semplice in


assoluto, perché prevede che nh sia uguale in tutti gli strati.
Abbiamo due strati, la numerosità campionaria generale
decisa in base al budget è 100 con due strati: da entrambi gli
strati estrarremo lo stesso numero di unità, 50. n1=n2=50.
Quando allochiamo in maniera uniforme le unità campionarie
nei diversi stati, avremo un rapporto tra la numerosità
complessiva e il numero totale di strati H (n/H → 100/2)
- ALLOCAZIONE PROPORZIONALE: quella
più vicina a ciò che ci aspettiamo intuitivamente, perché
prevede che la numerosità campionaria all’interno di ogni
strato sia proporzionale al peso che ogni strato ha a livello
di popolazione. Prendiamo l’esempio sulle aziende in cui suddividiamo la popolazione in 3 strati: il 70% sono
piccole aziende, il 20 % sono medie e il 10% sono grandi. W 1= 0,70, W2=0,20, W3= 0,10. Se la numerosità
campionaria è uguale a 100, dovremmo estrarre 70 aziende dallo strato delle piccole, 20 da quello delle medie e 10
dallo strato delle grandi. Si usa Wh, il peso relativo dello strato sulla popolazione. Sull’allocazione proporzionale
devono essere fatte alcune considerazioni di tipo algebrico: 1) dividiamo entrambi i membri per n → nel caso di
allocazione proporzionale, Wh si può ottenere dividendo la numerosità campionaria dello strato per la numerosità
complessiva, SOLO nel caso di allocazione proporzionale. Allora si avrà nh/n=Nh/N=Wh; 2) possiamo dividere
ambo i membri per Nh → il tasso di campionamento generale è uguale in tutti gli strati, è costante in tutti gli strati
e da ciò deriva che la numerosità campionaria all’interno di ogni singolo strato può essere ottenuta applicando il
tasso di campionamento costante alla numerosità dello strato nella popolazione, anche questo vale solo nel caso di
allocazione proporzionale. Se dividiamo ambedue i membri per Nh otteniamo nh/Nh=n/N=f. n/N l’abbiamo
definito come tasso di campionamento (f). Es N=1000 e n=100 il tasso di campionamento sarà 0,10 o 10%. In
base a questo risultato, nel CST con allocazione proporzionale, il tasso di campionamento è uguale e costante
in tutti gli strati ed è uguale ad f. Se nel primo strato ci sono 100 unità Nh=100, otteniamo nh applicando 0,10 a
100, il tasso di campionamento alla numerosità dello strato.

- ALLOCAZIONE OTTIMALE: nell’allocazione ottimale la numerosità campionaria nh, è il risultato di un


problema di minimizzazione vincolata. Vogliamo minimizzare qualcosa sotto un vincolo. Vogliamo ottenere
una minimizzazione della varianza dello stimatore della media (stimatore media campionaria) ottenuto nel caso di
campionamento stratificato. Il vincolo è il vincolo di budget. Vogliamo che il costo complessivo della rilevazione
campionaria che indichiamo con C sia uguale alla somma di costi fissi + costi variabili = c 0+ch.
Quindi, abbiamo che queste rilevazioni di indagini statistiche devono sempre fare i conti con dei limiti di tipo
economico, il vincolo di budget è il vincolo principale. Noi vogliamo, dato questo vincolo, questa soglia massima
di spesa, riuscire ad ottenere quell’allocazione, quel numero di unità statistiche estratte che permettano di ottenere
la stima più precisa in assoluto, quella con la varianza più bassa.
Si chiama ottimale proprio perché dice quante unità statistiche estrarre da ogni singola urna per avere la stima più
precisa possibile senza sforare il budget. Il budget complessivo si divide in costi fissi c0 (es. affitto, acquisto di un
pc), che non dipendono dalla numerosità e dobbiamo sostenere in ogni caso, e costi variabili ch, ottenuti
considerando un costo diverso a livello di ogni singolo strato. Ad esempio, immaginiamo di voler fare un’indagine
a livello regionale sulle aziende che hanno sede legale in Veneto e di voler stratificare sulla base delle 7 province
del Veneto. Abbiamo 7 strati e ipotizziamo di voler indagare con indagine
diretta e di voler somministrare un questionario diverso alle diverse province
in base anche al costo che implica ciascuna provincia. Il costo, dunque,
cambia a seconda dello strato, c’è un costo individuale di rilevazione che va
moltiplicato per la numerosità campionaria di quello strato.
Se risolviamo questo problema di minimizzazione otterremo gli n h che consentono la stima più efficiente dato il
vincolo di budget. Adesso vedremo l’allocazione ottimale di Neyman (uno dei padri della statistica inferenziale
classica). Questa prevede che il costo individuale di somministrazione del questionario all’interno di ogni strato sia
costante Ch=C*, ciò vuol dire che il costo per intervistare un’azienda a Padova o a Venezia è uguale e si indica con
C*. Se vale questo, allora possiamo riscrivere la somma che restituisce il budget totale in funzione non più di C h,
ma di C* x nh. C* può essere portato al di fuori della sommatoria perché è indipendente. Questa sommatoria si
ottiene sommando le numerosità campionarie di tutti gli strati, che corrisponde alla numerosità complessiva n. e
possiamo dunque scrivere che C= C0 + nC* = C-C0=nC*. Questo è quello che otteniamo sul vincolo di budget
partendo dall’assunzione di Neyman.

Si può dimostrare che la numerosità ottimale nh si ottiene come funzione dei costi, del peso relativo di ogni singolo
strato e della variabilità della vo nell’h-esimo strato. Se partiamo da questa formula e sostituiamo a C-C0 quello che
abbiamo trovato nel caso di allocazione di Neyman possiamo scrivere (riscrivere la formula qua sotto) che questo è
uguale a nC*.

C* sotto radice per C* sotto radice dà C*, si semplifica C* a numeratore e denominatore. Si ottiene che la numerosità
ottimale nello stato h-esimo sarà uguale alla formula nel riquadro:

Questa allocazione è importante perché considera sigmah, che dà un’idea del grado di eterogeneità delle unità
statistiche all’interno di quello strato rispetto alla variabile obiettivo. Se prendiamo l’esempio delle aziende con 3 strati,
la vo è il fatturato, sigmah (avremo sigma 1 del primo strato, sigma 2 dello strato delle medie aziende…).
Sigma 1 indica quanto sono diverse le piccole aziende in termini di fatturato, così come sigma 2 e 3 per le medie e le
grandi in termini di fatturato. Decidere l’allocazione, quante unità campionarie estrarre da ogni singolo strato in
proporzione al peso ma anche alla variabilità della vo, significa che dovremmo estrarre più unità statistica a parità di
altre condizioni laddove lo strato è più eterogeneo. Considerare la variabilità della vo nell’allocazione, significa che
dovremmo estrarre più unità da quegli strati che sono più eterogenei.

Nel caso delle aziende, ipotizziamo che nello strato delle piccole aziende tutte le aziende abbiano un fatturato annuo
pari a 100.000 e quindi sigma 1 in questo caso sarà uguale a 0, perché sono tutte uguali tra di loro in termini di vo.
Questo vuol dire che in questo caso estremo addirittura non ci servirà estrarre neanche un’azienda, non dobbiamo
misurare nulla. Ipotizziamo che le aziende, però, abbiano tutte un fatturato simile e che sigma h sia prossimo a 0, in
questo caso il numero di unità statistiche da estrarre da questo strato molto omogeneo sarà molto basso e basteranno
pochissime unità statistiche. Più la vo è eterogenea all’interno dello strato, maggiore sarà il numero di unità
campionarie da estrarre da quel gruppo per rappresentare bene la popolazione, a parità di altre condizioni.
L’allocazione di Neyman, quindi, è importante perché tiene conto del peso e della variabilità della variabile obiettivo
negli strati, consentendo di ridurre la numerosità campionaria in quegli strati maggiormente omogenei, a pac (parità di
altre condizioni) perché consente di ottenere stime più precise possibili sotto il vincolo di budget.

C’è però un problema, ovvero che per effettuare un’allocazione ottimale dobbiamo conoscere qualcosa a livello di
popolazione, in particolare dobbiamo conoscere i sigmah che sono parametri a livello di popolazione. Quindi
dovremmo conoscere il valore della variabilità del fatturato per ogni singolo strato ed è un fabbisogno informativo
non indifferente. Bisognerebbe avere informazioni su tutte le unità statistiche, ma in questa fase ancora non abbiamo
effettuato neanche la rilevazione campionaria perché stiamo ancora decidendo quante unità estrarre da ogni strato e
abbiamo bisogno di informazioni ulteriori provenienti da indagini pilota o fonti secondarie. Quindi l’allocazione di
Neyman è preferibile ma necessità di un elevato fabbisogno informativo.

Una volta deciso come allocare le unità statistiche, possiamo definire gli stimatori media campionaria e varianza nel CST.

A livello di CSTRA, la media campionaria (x sopra segnato) sarà


uguale alla media aritmetica della variabile quantitativa nell’h-esimo
diviso per la numerosità di quello strato.
Per quanto riguarda sigma2h usiamo lo stimatore corretto che è la
varianza corretta s2h. Si otterranno tante stime della varianza del
fatturato quanti sono gli strati.

Nel primo strato per h=1 la numerosità è 10, applichiamo il tasso di campionamento di 1/5, moltiplichiamo e avremo il
numero di unità statistiche da estrarre, ovvero 2. E così per tutti gli strati. Le palline blu sono quelle che devono essere
estratte dalle rispettive urne. Anche nel CST il tasso di campionamento è dato dalla numerosità del campione diviso per la
numerosità della popolazione n/N. Il campione finale sarà composto dalle unità statistiche estratte da ogni singolo strato.

Per quanto riguarda x sopra segnato, questo si ottiene come media ponderata delle medie dello stimatore della media nei
singoli strati, dove il peso è rappresentato dal peso relativo di ogni singolo strato a livello di popolazione Wh. Abbiamo
ottenuto una stima del fatturato medio per le piccole aziende uguale a 100.000, 200.000 per le medie e 500.000 per le
grandi aziende e abbiamo dei pesi relativi rispettivamente di 0,70 0.20 0.10. I valori del fatturato per le diverse categorie di
aziende (strati) sarà dunque:

- FATTURATO MEDIO TRA LE PICCOLE AZIENDE: 0.70*100.000= 70.000


- FATTURATO MEDIO TRA LE MEDIE AZIENDE: 0.20*200.000= 20.000
- FATTURATO MEDIE TRA LE GRANDI AZIENDE: 0.10*500.000= 50.000

Il fatturato medio complessivo a livello di campione (x sopra segnato) sarà dato dalla sommatoria di questi risultati. Se
vogliamo passare da uno stimatore puntuale ad uno stimatore intervallare dobbiamo fissare l’IC, i quantili e avere anche
uno stimatore della varianza della media campionaria (V di x sopra segnato). Quando usiamo un CST dobbiamo vedere
quale formula consente di ottenere V di x sopra segnato.

La prima è la formula generale che vale sia nel caso di campionamento


proporzionale sia nel caso di campionamento non proporzionale.

Nh-nh/Nh è il fattore di correzione per popolazioni finite a livello di


strato h-esimo (numerosità della popolazione nello strato –
numerosità del campione nello strato/ numerosità della popolazione
nello strato)

FORMULA GENERALE

Che può essere riscritta

come:

Nel caso di allocazione proporzionale, la varianza di x sopra segnato può essere scritta in modo semplificato come sopra,
tenendo conto della considerazione di cui sopra. Questa formula non si può semplificare nel caso di allocazione non
proporzionale.

Questa è la varianza dello stimatore media campionaria che ha al suo interno il valore del parametro, sigma2 all’interno
della popolazione, quindi dovremo sostituire a sigma2h il suo stimatore a livello di campione s2h. In questo modo passiamo
da V di x sopra segnato a V di x sopra segnato cappello, che può essere utilizzato per costruire l’intervallo di confidenza
per mi nel caso di campionamento stratificato.
Le unità statistiche, in questo esercizio, sono i proprietari di automobili registrati nel PRA (pubblico registro
automobilistico). Questi sicuramente devono essere maggiorenni.

Possibile DOMANDA ESAME: da quale lista si può partire in questo caso? R: Una lista idonea da cui si può partire per
lo svolgimento di questo esercizio è il PRA.

La variabile obiettivo (X) sarà la spesa annua per manutenzione dell’automobile, una variabile quantitativa e il parametro da
stimare mi sarà la spesa media annua sostenuta dai proprietari di automobili residenti in quella determinata regione. Le
variabili di stratificazione o ausiliarie sono il sesso e l’età. Si ipotizza che le spese di manutenzione cambino in base al sesso
e all’età. C’è un’associazione tra la vo e le due variabili ausiliarie, quindi utilizzando le informazioni a livello di popolazione
su queste due variabili, otterremo una suddivisione della popolazione in strati all’interno dei quali la spesa per
manutenzione sarà più omogenea rispetto a quanto avviene a livello generale nella popolazione.

X sopra segnato, in questo esempio, è di 134 € e si ottiene dopo aver fatto l’estrazione campionaria. Vengono riportati
alcuni dati sull’universo e sui risultati della rilevazione, in particolare vengono riportati i pesi W h (Nh/N) e lo stimatore
della varianza sh , la standard deviation corretta della vo in ogni singolo strato, un indicatore di eterogeneità della vo nei
singoli strati. 22 indica ad esempio di quanto varia la spesa nello strato di maschi sotto i 30 anni. Il sesso si divide in due
classi, l’età viene suddivisa in 3 classi (la seconda classe d’età va da 31 a 50): gli strati saranno, quindi, 2x3=6. Per ogni
classe abbiamo il peso relativo. Ad esempio, il 20% della popolazione è costituita da maschi con meno di 30 anni.

Sommando tutti i Wh per h che va da 1 fino a 6 otterremo un valore pari ad 1. È un’informazione che abbiamo
preliminarmente all’estrazione. Nella seconda tabella abbiamo valori che otteniamo solo dopo l’estrazione e la rilevazione.
Il tasso di campionamento è n/N= 0.03 → 3% e la popolazione totale è 20.000 → applicando il tasso di campionamento
alla popolazione individuiamo anche la numerosità campionaria (600) → per trovare la numerosità dei singoli strati basta
applicare ciascun peso alla numerosità campionaria di 600. La numerosità dei maschi sotto i 30 anni con il valore di Wh
uguale a 0.2 sarà n=0.20*600= 120 e così per tutti gli strati. La somma dei valori di tutti gli strati dovrà restituire 600. Il
punto 2 chiede di calcolare la stima della varianza media campionaria, applichiamo la formula semplificata nel caso di
allocazione proporzionale (V di x sopra segnato cappello).
Vogliamo utilizzare un CCS senza ripetizione e nel punto 1 si dice che si vuole stimare la percentuale di consumatori
interessati ad acquistare un determinato prodotto per l’igiene dentale. 30.000 consumatori indica la numerosità della
popolazione sulla quale vogliamo effettuare l’indagine. Il parametro di interesse sarà la proporzione degli interessati
rispetto al totale della popolazione (P → frequenza relativa), di conseguenza la vo sarà una variabile qualitativa dicotomica
che può essere definita come “interesse nell’acquisto del dentifricio”.

Viene chiesto di indicare la numerosità campionaria appropriata data una determinata precisione della stima e un certo
livello di confidenza. Siamo nel caso di numerosità minima campionaria quando il parametro d’interesse è la frequenza
relativa o proporzione. Dobbiamo applicare la formula del calcolo della numerosità minima nel caso di frequenza relativa
in un CCS senza ripetizione. Il punto 2 chiede di stimare la spesa media annua di una famiglia per cure dentarie. Anche qui
dovremo calcolare la numerosità campionaria minima che consente di stimare il parametro con un certo grado di
precisione e un certo livello di confidenza. Cambia però la variabile obiettivo, perché adesso la vo è la spesa annua,
variabile quantitativa, e cambierà anche il parametro, che sarà la spesa media annua della popolazione di famiglie. Dovremo
applicare la formula per il calcolo della numerosità campionaria minima quando il parametro di interesse è la media e la
variabilità del fenomeno indicata dallo scarto quadratico medio è pari a 400 €. Basta applicare direttamente la formula per
la determinazione della numerosità minima. Ancora, l’anno dopo cambia la tipologia di rilevazione che non sarà più con
CCS senza ripetizione, bensì con CSTR. Con allocazione ottimale di Neyman. La vo sarà sempre la spesa annua per
l’igiene dentale ma cambia il tasso di campionamento, che si vuole incrementare del 10%. Al punto 3 quindi si chiede di
calcolare la numerosità campionaria nei singoli strati sapendo che in base alla rilevazione dell’anno precedente si sono
ottenute le informazioni presenti nella tabella. Abbiamo due strati e ogni strato ha un determinato peso relativo e una
stima della varianza della spesa per cure dentarie.

Visto che non abbiamo alcuna informazione sulla varianza della variabile dicotomica, al posto di sigma 2 mettiamo 0.25.
Abbiamo due numerosità minime diverse per raggiungere 2 obiettivi.
3) 1,1 sta per (244+0.10 → il prof ha raccolto 244 fuori e ha moltiplicato per 1.10). Per trovare il numero delle famiglie
con e senza figli dovremo applicare la formula per il calcolo della numerosità tramite allocazione ottimale di Neyman sulla
base dei risultati ottenuti l’anno precedente. Vediamo come il numero di famiglie con figli da estrarre sarà 253 e il numero
di famiglie senza figli da estrarre sarà 16. La somma delle unità allocate nei diversi strati deve restituire, alla fine, la
numerosità campionaria complessiva.

13/11/2020 pomeriggio

La numerosità delle famiglie senza figli non rispetta la proporzione iniziale (20%). Questo perché sono diversi anche i
livelli di eterogeneità, che sono molto più omogenei nel caso di famiglie senza figli. In base all’allocazione ottimale di
Neyman, gli strati con omogeneità maggiore hanno bisogno di una numerosità campionaria inferiore. A fronte di un 20%
di famiglie senza figli nella popolazione occorre una numerosità campionaria minore del 20% per rappresentare bene
quello strato in termini di comportamento d’acquisto.
In questo esempio si parte da una popolazione di tutti i clienti di
una determinata banca che in totale sono pari a 100.000 unità (N).
Questi vengono distinti in 6 strati, divisi in base alla disponibilità di
denaro in banca. Man mano che ci si sposta dalle classi più basse a
quelle più alte diminuisce la numerosità, un modo per rappresentare
la ricchezza che è, di per sé, fortemente asimmetrica. A partire da
queste informazioni Nh possiamo calcolare il peso relativo dei
singoli strati dividendo i singoli Nh per N. Il peso del primo strato,
ad esempio, è pari a 39.54%. immaginiamo che si voglia stimare la
capacità d’investimento in titoli finanziari. La vo è l’investimento
annuo in attività finanziarie da parte dei clienti della banca e
vogliamo stimare quanto mediamente i clienti investono sul mercato azionario. Il parametro da stimare sarà, pertanto,
l’investimento medio annuo. Ci sono delle informazioni sul grado di variabilità dell’investimento nei singoli strati. La
variabilità più bassa si ha nello strato dei meno abbienti e quella più alta nello strato dei più ricchi.

Vogliamo stimare il parametro attraverso una rilevazione campionaria dei clienti per chiedere loro quanto hanno investito
nei mercati azionari ed estraiamo un campione di 2500 clienti (n), il tasso di campionamento sarà 2500/100000= 0.025 e
vogliamo allocarli sfruttando l’allocazione proporzionale di Neyman, e possiamo farlo perché abbiamo a disposizione
informazioni sui singoli strati.

Possiamo notare come lo strato dal quale si estrae il numero maggiore di unità statistiche sia il quarto. Nel caso di
allocazione proporzionale, il tasso di campionamento è uguale in tutti gli strati, ma potremmo calcolare il tasso di
campionamento nel caso di allocazione non proporzionale (es. 271/39.540= 0.007). Nell’ultimo strato il tasso di
campionamento è quasi completo (perché prossimo all’1), perché la variabilità in questo strato è molto alta e dovremo
estrarre molti più elementi, questo viene comunicato proprio dal tasso di campionamento.

Abbiamo una tabella a doppia entrata in cui sulle colonne vengono


riportate le modalità in cui si presenta la variabile “sesso” e sulle
righe le modalità in cui si presenta la variabile “professione”. Si
vuole esplorare le potenzialità del mercato dei prodotti per la pulizia
delle automobili. Si sceglie una popolazione da indagare, costituita da
unità statistiche (costituite da individui) per le quali possiamo
individuare delle informazioni aggiuntive da utilizzare per stratificare
la popolazione. In questo caso si utilizzano sesso e professione,
ipotizzando che ci sia un’associazione diretta tra queste due variabili
e la vo. La vo è la spesa annua per prodotti per la pulizia delle
automobili. La vo in questo esercizio si individua solo al terzo punto. Il parametro da stimare sarà la spesa media annua per
la pulizia delle automobili. La vo sarà una variabile di tipo dicotomico perché si vuole indagare l’interesse nei prodotti per
la pulizia (sei interessato o no? SI o NO) e il parametro da stimare sarà P (frequenza relativa o proporzione).

Dobbiamo vedere se le informazioni utilizzate per stratificare possono essere considerate come correlate con la vo. Per
quanto riguarda femmine e maschi la correlazione ci potrebbe essere, gli uomini sono più legati alla manutenzione
dell’automobile e potrebbe esserci una maggiore propensione all’acquisto. Per quanto riguarda la professione, in questo
esempio, è una variabile di stratificazione poco correlata con la vo e la scelta di questa variabile potrebbe essere discussa. In
ogni caso, vengono individuati 6 possibili strati con le rispettive numerosità.

Si vuole utilizzare un CST con allocazione proporzionale. Una buona lista di campionamento potrebbe essere quella del
pubblico registro automobilistico o la lista elettorale, il PRA, tuttavia, è sicuramente la lista preferibile in questo caso.
Sapendo che la numerosità campionaria complessiva deve essere pari a 750 dobbiamo applicare la formula di allocazione
proporzionale in cui sappiamo che n=750, per calcolare tutti i nh basterà moltiplicare 750 per il peso relativo di ogni strato
nella popolazione (valore di ogni singola cella/totale della popolazione). Per prima cosa calcoliamo la numerosità totale
della popolazione N dato dalla somma di tutti i valori nella tabella (20.476). Dividendo ogni singolo valore nelle celle per il
totale appena trovato otterremo i pesi di ogni singolo strato sulla popolazione. Sommando tutti i pesi relativi dovremo
ottenere un valore pari ad uno. La numerosità campionaria, moltiplicata per i singoli pesi, restituirà la numerosità di ogni
singolo strato.

Quando facciamo le approssimazioni, dobbiamo stare


attenti perché dobbiamo avere la numerosità campionaria
uguale alla somma delle numerosità dei singoli strati.

Nel caso della frequenza relativa, la formula per stimare la


varianza è uguale a quella vista nel caso del CCS senza
reimmissione.

Possiamo dire che, con un livello di confidenza del 95%, la percentuale di interessati a questi prodotti è compresa tra il
34.6 e il 41.4 %. Nonostante la variabile di stratificazione utilizzata (professione) sia discutibile, la variabile di
stratificazione sesso è riuscita a stimare adeguatamente.
A destra abbiamo un esempio di applicazione della stratificazione al fatturato. Abbiamo una popolazione di 24 aziende
sulle quali vogliamo stimare il fatturato medio e lo facciamo attraverso un CST e da ognuna di questa ricaviamo un numero
di unità statistiche attraverso l’allocazione proporzionale, applicando il tasso di campionamento ad ogni strato.
IL CAMPIONAMENTO A GRAPPOLI
Pro:
– Vantaggioso quando i grappoli costituiscono una naturale aggregazione delle unità finali per le quali invece non si possiede una lista. Se vogliamo
studiare una popolazione in cui le us possono essere considerate come raggruppate ed unite tra loro da un vincolo naturale, con il CGRA possiamo
evitare di reperire una lista completa di campionamento a livello di unità elementari, ci basta una lista di CGRA.
– Se le unità sono caratterizzate da dispersione sul territorio e si rende necessario un contatto diretto, studiare solo alcuni grappoli è molto meno
dispendioso rispetto al CCS. 89
Contro: affinché il CGRA sia efficiente SERVE che i grappoli siano molto eterogenei al loro interno e omogenei tra essi – alcuni di essi
rappresentano infatti anche quelli non selezionati – in realtà si verifica più frequentemente il contrario. Per avere una buona rappresentatività,
idealmente sarebbe bello che ogni grappolo rappresentasse un microcosmo che rispecchi la popolazione da cui il grappolo è estratto. Ci dovrebbe
essere eterogeneità tra le us del grappolo a parità di numerosità campionaria, questa caratteristica fa sì che le stime ottenute siano meno efficienti
rispetto a quelle efficienti ottenute da un CCS.

CAMPIONAMENTO A GRAPPOLI
• NUMERO DI UNITA’ ELEMENTARI NELLA POPOLAZIONE: N= ∑𝐿ℎ=1 𝑁ℎ
• NUMERO DI UNITA’ ELEMENTARI NEL CAMPIONE: n= ∑𝑙ℎ=1 𝑛ℎ
1 ∑𝑙ℎ=1 ∑𝑁ℎ
𝑖=1 𝑥𝑖ℎ
• STIMATORE DELLA MEDIA: 𝑥̅ ℎ = ̅
𝑁 𝑙

1
• ̅ = ∑𝐿ℎ=1 𝑁ℎ
NUMEROSITA’ MEDIA DI OGNI GRAPPOLO: 𝑁 𝐿
𝑙
• ̂)= 1 ∑ℎ=1(𝑁ℎ𝑥̅ h−𝑁̅ 𝑥̅ )2 (1 - 𝑙 )
VARIANZA DELLO STIMATORE MEDIA CAMPIONARIA: 𝑉(𝑥̅ ̅2
𝑁 𝑙(𝑙−1) 𝐿
∑𝑁ℎ
𝑖=1 𝑥𝑖ℎ
• STIMATORIA MEDIA CAMPIONARIA A LIVELLO DI GRAPPOLO: 𝑥̅ h=
𝑁ℎ

• ̂) ≤ μ ≤ 𝑥̅ + z α/2 √𝑉(𝑥̅
INTERVALLO DI CONFIDENZA: P {𝑥̅ – z α/2 √𝑉(𝑥̅ ̂) } = 1- α
19/11/2020

IL CAMPIONAMENTO A GRAPPOLI

Passiamo ad un’altra tipologia di campionamento complesso: il campionamento a grappoli.

Anziché estrarre direttamente i singoli individui potremmo pensare di


estrarre, ad esempio, le famiglie. La particolarità è che, anziché spingersi a
livello di singola unità statistica, ci fermiamo ad un livello superiore di
aggregazione, selezionando gruppi di unità statistiche. C’è una relazione,
ovviamente, tra gli individui e il gruppo di appartenenza (relazione di
parentela, convivenza nella stessa abitazione), c’è un vincolo naturale che
lega le singole unità statistiche al gruppo a cui appartengono.

Visto che l’indagine deve essere fatta rilevando le informazioni sulle singole unità statistiche, i gruppi selezionati daranno
luogo ad un campione formato da tutte le unità statistiche che appartengono ai gruppi selezionati. Se selezioniamo 100
gruppi, il campione finale sarà formato da tutti gli individui che appartengono a queste 100 famiglie. È lecito aspettarsi che
le informazioni che rileviamo siano abbastanza simili in relazione ai membri del nucleo familiare → c’è omogeneità sulle
informazioni che rileviamo tra gli individui di uno stesso gruppo.

C’è un vincolo, un legame che unisce le singole unità statistiche (ad esempio i dipendenti) al gruppo (ad esempio l’azienda)
e questa relazione è, ad esempio, il rapporto di lavoro. La relazione definisce l’appartenenza dell’individuo al gruppo. Le
informazioni rilevate sui singoli lavoratori presentano una certa omogeneità tra lavoratori che lavorano per la stessa
azienda.

I gruppi in questo schema vengono chiamati “grappoli”. Nel campionamento a grappoli, la popolazione intesa come
insieme di unità statistiche elementari è costituita da sottoinsiemi di queste unità elementari, che hanno le due
caratteristiche già viste per gli strati: esaustività e mutua esclusività.

L’estrazione casuale nel caso del CGRA (Campionamento a grappoli),


avviene sui grappoli. Prendiamo i grappoli, che insieme costituiscono la
popolazione, e sui grappoli della popolazione estraiamo un sottoinsieme di
questi grappoli. Il campione finale è formato da tutte le unità statistiche
fondamentali che appartengono ai grappoli estratti. Nel CGRA, la numerosità
campionaria sui grappoli si definisce prima dell’estrazione: decidiamo quanti
grappoli selezionare. A priori, però, non conosciamo la numerosità del
campione a livello di unità elementari, perché dipende da quali grappoli
selezioniamo. Se decidiamo di costruire un campione estraendo due famiglie,
2 è definito a priori, se estraiamo 2 famiglie molto numerose quelle due
famiglie estratte daranno luogo ad una numerosità maggiori rispetto
all’estrazione di due famiglie più piccole. Si verifica omogeneità nel grappolo ed eterogeneità rispetto agli altri
grappoli. In quest’urna non abbiamo le singole unità statistiche. Avremo un
bussolotto per singolo grappolo. Quindi nell’urna del CGRA mettiamo tante
palline quanti sono i grappoli della popolazione. Se ci sono 20.000 famiglie nella
provincia, metteremo nell’urna 20.000 palline. “L” (Elle grande) indica il numero
totale di grappoli nella popolazione. Il numero di grappoli che vengono
selezionati, la numerosità campionaria a livello di grappoli la indichiamo con “l”
(elle minuscolo). In quest’urna avremo 7 grappoli (come si può vedere nella foto a
sinistra tutte le palline vengono racchiuse in 7 riquadri), 7 palline che identificano ogni singolo grappolo. Ognuno dei
grappoli ha una numerosità interna in termini di unità elementari diversa.
L=7

Decidiamo di estrarre 3 grappoli, quindi l=3. Pensiamo di estrarre il terzo, il quarto e il settimo grappolo (la somma di tutte
le palline dentro il terzo, il quarto e il settimo grappolo è uguale a 20. Si hanno dunque 20 unità elementari). Il campione
finale sarà formato da tutte le unità elementari che compongono i 3 grappoli estratti (20) e la rilevazione verrà effettuata su
tutte le unità elementari appartenenti ai grappoli estratti. La numerosità di ogni singolo grappolo, data dal numero di unità
elementari che costituiscono ogni singolo grappolo, viene indicata con Nh. (N3=6; N4=4; N7=10 → N=20)

Sia per definire la numerosità della popolazione


sia per definire la numerosità del campione usiamo Nh.
xih è il valore che assume la variabile x in corrispondenza dell’unità i-esima che appartiene al grappolo h-esimo. Se
prendiamo come esempio i costi di spostamento da casa allo studio, e prendiamo come riferimento l’i-esimo individuo, il
costo potrebbe essere l’abbonamento all’autobus e il valore dell’abbonamento mensile è dato da xih dove h è la famiglia alla
quale l’individuo appartiene. La sommatoria va da 1 a Nh (numerosità dell’h-esimo grappolo). Se parliamo di lavoratori, ad
esempio, l’h-esima azienda avrà Nh lavoratori e con la sommatoria andiamo a calcolare quanto in totale l’azienda ha
retribuito in termini di ore straordinarie i suoi dipendenti. La sommatoria indica, dunque, la spesa totale per straordinari
effettuata dall’h-esima azienda. Alla fine, questa doppia sommatoria dà il totale di retribuzione per straordinario pagato da
tutte le aziende del campione in un mese.

N sopra segnato è la numerosità media di ogni grappolo a livello di popolazione. Se dividiamo la sommatoria di tutti gli Nh
per il numero di grappoli otteniamo la numerosità media in ogni grappolo. La prima formula che vediamo nella foto è la
media di una variabile quantitativa in un CGRA. Per passare ad una stima intervallare abbiamo bisogno di alpha,
dovremmo avere una formula per calcolare la varianza dello stimatore media campionaria. Dobbiamo dunque dare un
valore a V di x sopra segnato cappello. In ogni varianza dobbiamo prendere gli scostamenti dei valori rispetto al valore
medio, elevarli al quadrato e farne la sommatoria. La sommatoria fa riferimento ai grappoli che andranno a comporre il
campione in termini di unità elementari.

Lo scostamento è, dunque, a livello di grappolo. Viene utilizzato per semplicità il simbolo della media aritmetica della vo a
livello di grappolo, che significa, ad esempio, quanto mediamente un membro di una famiglia h-esima spende al mese per il
trasporto. Se moltiplichiamo questo xh sopra segnato per Nh abbiamo il numeratore della formula di V di x sopra segnato
(sommatoria degli xih) e questo è il totale della variabile nell’h-esimo gruppo, ovvero quanto in complesso l’azienda
retribuisce per gli straordinari i suoi dipendenti. La parentesi al numeratore è lo scostamento del livello della variabile x in
un grappolo rispetto al livello medio su tutti i grappoli del campione, valori che possiamo ottenere ovviamente dal
campione, poi li eleviamo al quadrato. Il numeratore poi lo dividiamo per il numero di grappoli estratti per il numero di
grappoli estratti meno uno, dividiamo ancora per la numerosità media dei grappoli al quadrato e poi, visto che l’estrazione
dei grappoli avviene senza reimmissione, per stimare la varianza di V di x sopra segnato dobbiamo applicare il solito

fattore di correzione per popolazioni finite, ovviamente a livello di grappoli (1- l/L).

l/L è il tasso di campionamento a livello di grappoli. 1- l/L otteniamo il fattore di correzione per popolazioni finite da
applicare per il calcolo di V di x sopra segnato.

In questo caso, le unità statistiche elementari sono i punti


vendita perché vogliamo rilevare informazioni sul numero di
bottiglie vendute a livello di punto vendita (il singolo negozio
che tratta gli alcolici) e questi punti vendita vengono
raggruppati a livello geografico e i grappoli sono
rappresentati dalle province. Il vincolo è di tipo
amministrativo, il negozio è legato alla provincia.

Si decide di estrarre non tanto i singoli punti vendita, bensì le


singole province (in questo caso 8). Tutti i punti vendita che
vendono alcolici e hanno la loro sede in queste province
entreranno a far parte del campione finale.

Abbiamo una tabella in cui vengono riportati i dati relativi alle singole province selezionate, abbiamo la numerosità in
termini di unità elementari (nella prima provincia ci sono 23 punti vendita). A partire dagli otto punti vendita estratti il
campione finale sarà dato dalla sommatoria di tutti gli Nh per h che va da uno ad otto che troviamo nella seconda colonna
della tabella. Andiamo poi in tutti i punti vendita e ad ognuno chiediamo quante bottiglie di spumante sono state vendute
nell’ultimo anno, dopodiché nell’ultima colonna vengono riportati i dati rilevati su ogni singolo punto vendita aggregati,
però, a livello di grappoli. 3978 (punti vendita presenti nelle 103 province italiane) rappresenta N. 103 è L (le province
sono i grappoli). Viene chiesto di fornire una stima puntuale delle bottiglie vendute mediamente in ogni punto vendita in
un anno. Chiede anche di fare una stima intervallare con un livello di confidenza al 95%.

Prima di tutto, calcoliamo il numero medio di punti vendita che ci


sono in ogni singola provincia (numero totale di punti vendita fratto il
numero di province) e troviamo il valore 38.62.

Per quanto riguarda x sopra segnato applichiamo la formula vista


prima: i valori della doppia sommatoria li abbiamo nell’ultima colonna
della tabella (sommatoria di tutti i xih), lo dividiamo per il numero di
province estratte e lo dividiamo anche per il numero medio di punti
vendita trovato prima. Il valore 149.81 è una stima puntuale del
parametro e indica che nell’ultimo anno ogni punto vendita
mediamente ha venduto 149.81 bottiglie di spumante di quel tipo.

Adesso passiamo alla stima intervallare e per questo serve la formula di V di x sopra segnato cappello (prima formula del
punto due → nella foto in alto manca il cappello sulla V per un refuso; altro refuso aggiungere il quadrato nella parentesi
4477-5785.87). Per quanto riguarda il valore Nx sopra segnato, questo rappresenta quante bottiglie di spumante sono state
vendute mediamente in ogni provincia. Il fattore di correzione è (1-8/103). La stima di V di x sopra segnato è di 202.61
Con un livello di confidenza del 95% il numero medio di bottiglie di
spumante vendute in ogni singolo punto vendita sul suolo nazionale si
colloca in un intervallo che ha come estremo inferiore 121.91 e come
estremo superiore il valore
177.71

Quando effettuiamo l’estrazione


dei grappoli ci serve una lista dei singoli grappoli. Quindi, non ci serve
una lista di campionamento delle singole unità elementari, ma solo dei
singoli grappoli, e questo è molto vantaggioso. Se volessimo usare
un CCS ci servirebbero gli elenchi di tutti i lavoratori dipendenti del Veneto
(per seguire l’esempio di prima). Nel momento in cui andiamo a fare
il CGRA, quello che ci serve è un elenco delle aziende, che si può
facilmente reperire presso le Camere di Commercio.

È vantaggioso anche quando le unità elementari sono molto disperse sul territorio. Se facessimo un’indagine sui
dipendenti dell’azienda a livello nazionale, se facessimo un’estrazione a livello di singoli dipendenti senza vincoli di
appartenenza, potremmo estrarre dipendenti tutti dispersi. È chiaro che ci sarebbe una grossa dispersione. Effettuando
l’estrazione di singoli grappoli possiamo raggiungere la stessa numerosità a livello di unità elementari estraendo una limitata
quantità di grappoli più raggiungibili. Prima intervistiamo tutti i dipendenti di un’azienda, poi tutti i dipendenti di un’altra e
così via.

Il problema, però, che costituisce lo svantaggio del CG è dato dal fatto che le informazioni che noi traiamo dalle unità
statistiche elementari del grappolo sono molto omogenee tra di loro e quindi, quando andiamo a rilevare informazioni su
tutte le unità elementari che appartengono ad un grappolo, rischiamo di rilevare più volte un’informazione che si
sovrappone. Se rileviamo la retribuzione per straordinari dei dipendenti nella stessa azienda, ad esempio, potremmo avere
dei doppioni di informazione, per via delle unità molto omogenee all’interno dei grappoli.

Allo stesso tempo ci impedisce di avere informazioni di altre unità elementari appartenenti a grappoli non estratti, che
avrebbero potuto rappresentare la popolazione in maniera adeguata. Dunque, nel CGRA l’omogeneità naturale che
troviamo a livello di unità elementari nei grappoli è un limite. Con un CCS con la stessa numerosità campionaria,
otterremmo una migliore rappresentatività della popolazione in generale. Dal punto di vista della precisione delle stime e
della rappresentatività, spesso il CGRA è meno efficiente rispetto al CCS. Perché sceglierlo allora? Perché i vantaggi del
CG non sono indifferenti, c’è un guadagno in termini di sforzo organizzativo. Solitamente il CG è privilegiato se
vogliamo fare una procedura snella con una certa numerosità. Il limite appena discusso relativo al CG ci porta a parlare di
un’altra tipologia di campionamento complesso:
CAMPIONAMENTO A PIÙ STADI

CAMPIONAMENTO A PIU’ STADI


• POPOLAZIONE: N = ∑𝐴𝑖=1 𝑁𝑖 dove A= n° unità totali (di 1° stadio); Ni= n° di elementi del livello i
1 ∑𝐴 𝑁𝑖
𝑖=1 ∑𝑗=1 𝑥𝑖𝑗
• MEDIA NELLA POPOLAZIONE: µ= 𝑁 ∑𝐴𝑖=1 ∑𝑁𝑖
𝑗=1 𝑥𝑖𝑗= ∑𝐴
𝑖=1 𝑁𝑖
∑𝑎 ∑𝑎 𝑛𝑖
𝑖=1 ∑𝑗=1 𝑥𝑖𝑗
𝑖=1 𝑥𝑖
• MEDIA CAMPIONARIA: 𝑥̅ = 𝑛 = → numerosità campionaria: n= ∑𝑎𝑖=1 𝑛𝑖
𝑛
dove “a” è il n° di unità totali di secondo stadio
Pro e contro del CSTA
Pro:
– Il CSTA può rivelarsi più efficiente del CCS – nella situazione ideale che le UPS siano omogenee tra loro ed
eterogenee al loro interno – in tal caso diminuirebbe la numerosità campionaria necessaria a parità di errore campionario
ammissibile. Si usa soprattutto nelle indagini con rilevazione diretta, perché consente di ridurre notevolmente la
dispersione territoriale. – Il CSTA consente di ridurre notevolmente la dispersione territoriale della rilevazione e
quindi la sua complessità organizzativa e i suoi costi. Può rivelarsi più efficiente del CCS quando le UPS sono
omogenee tra di loro ed eterogenee al loro interno → n piccolo.
Contro: di norma si verifica che le UPS siano molto omogenee al loro interno ed eterogenee tra esse, di
conseguenza il CSTA risulta meno efficiente del CCS.

Arriviamo alla definizione del CAMPIONAMENTO A PIÙ STADI (CPS). Nel CPS, anziché esaminare tutte le unità
campionarie dei grappoli estratti nella prima fase, si effettua un’ulteriore estrazione, in modo tale da limitare poi l’indagine
ad un sottoinsieme di unità elementari all’interno di ogni singolo grappolo. In termini pratici, questo vuol dire che, in un
campionamento a due stadi (ad esempio), nel primo stadio estraiamo un certo numero di aziende, nel secondo stadio
andiamo in ogni azienda ed estraiamo un certo numero di dipendenti. Si effettuano due estrazioni casuali (nel CPS a due
stadi). Si evitano problemi legati alla forte omogeneità a livello di unità elementari. Nel CPS si usa una terminologia diversa:
si parla di unità di primo e di secondo (e così via…) stadio, non più di grappoli e unità elementari. Il CPS viene spesso
utilizzato dall’Istat che, nelle sue indagini campionarie, effettua un CPS in cui gli stadi solitamente sono definiti a livello
territoriale. Di solito l’Istat prende tutte le province italiane e ne estrae un sottoinsieme. Mettiamo che ne estragga 20 e da
ognuna di queste 20 prende tutti i comuni che appartengono a ciascuna provincia e ne estrae un sottoinsieme, facendo una
seconda estrazione (secondo stadio → estrae 10 comuni dalla prima provincia ad esempio), in ogni comune estratto al
secondo stadio prende tutti i punti vendita al dettaglio e ne estrae un sottoinsieme (terzo stadio). Il campione finale è
rappresentato dai punti vendita al dettaglio e la rilevazione sui prezzi applicati al dettaglio viene effettuata sui singoli punti
vendita, rispettando questi stadi.

Attraverso questa articolazione di estrazioni successive evitiamo di


rilevare l’effetto (ad esempio) dell’inflazione duplicata (è plausibile che
negozianti dello stesso comune applicheranno prezzi uguali o simili).
Abbiamo applicato un tasso di campionamento pari a 0.5 e le palline
blu saranno quelle che andranno a formare il campione finale.
20/11/2020 pomeriggio

CAMPIONAMENTO A PIÙ STADI - CONTINUO

L’estrazione casuale viene effettuata in due momenti chiamati stadi. Nel


primo stadio vengono effettuate le estrazioni dall’urna delle unità di
primo stadio (ad esempio le aziende, da 10.000 aziende presenti nell’urna
ne estrarremo 100). Nella seconda fase ogni singola unità di primo stadio
diventerà a sua volta una nuova urna. Le urne conterranno: la prima sei
unità, la seconda 4 e la terza 10. Estrarremo la metà delle unità da ciascuna
delle nuove urne. Il campione finale sarà formato da tutte le unità
elementari (le metà di ciascuna urna). Il campione finale sarà di 10 unità.

Nel CGRA c’è una sola estrazione, nel CSTA molteplici.

Il numero di unità di primo stadio lo indichiamo con A. Al primo stadio


selezioniamo da A un numero di unità di primo stadio che chiameremo “a”.
Ogni unità di primo stadio diventa una nuova urna, nella quale definiamo
un tasso di campionamento costante in tutte le unità di primo stadio
(nell’esempio precedente era 0.5, con l’estrazione della metà delle unità
elementari). La popolazione la definiamo come al solito con N, Ni è il
numero di unità elementari all’interno dell’i-esima unità di primo stadio.
Con xij indichiamo la modalità con cui si presenta la vo in relazione alla j-
esima unità elementare che appartiene alla i-esima unità di primo stadio (il j-
esimo dipendente della i-esima azienda). Lo stimatore puntuale media
campionaria sarà dato da x sopra segnato. Ni (n piccolo di i) è il numero di unità estratte nell’i-esima unità di primo stadio.
Esempio dell’urna da 6 dalla quale viene estratta la metà Ni=N1=6; ni=n1=3.
Nella tabella abbiamo riportato i dati relativi alle 5 case
discografiche che sono state estratte. L’estrazione è stata fatta
dall’universo di 74 unità di primo livello. Da questo universo ne
sono state estratte 5, per le quali rileviamo alcune informazioni:
numero di siti che gestiscono direttamente (la prima, ad
esempio, ne gestisce 6) e li indichiamo con Nh. Nell’ultima
colonna abbiamo il numero di brani scaricati annualmente dai
siti delle case discografiche (in un anno dai siti gestiti dalla
prima casa discografica vengono scaricati 154 mila). REFUSO
→ Penultima colonna 102, non 02.

Si parla di unità di primo livello, ma non si può trattare di un


CSTA, perché c’è un’unica estrazione e non vengono
menzionate altre estrazioni. La tipologia di campionamento
adottata in questo esempio è il CGRA. Tutte le singole case
discografiche devono essere considerate come dei grappoli, i singoli
siti internet sono le singole unità elementari (il primo grappolo è la
prima casa discografica che è formata da 6 unità elementari). È un
CGRA perché poi controlliamo su tutti i siti i brani scaricati nell’ultimo anno. 405 è N, il numero totale di unità elementare
nella popolazione.

Mediamente ogni singola casa discografica gestisce 5.47 siti. Se inseriamo questo
calore nella formula di x sopra segnato otteniamo il numero medio in migliaia stimato di brani scaricati da ogni sito.

Nhx sopra segnato h sono i valori che troviamo nell’ultima colonna. 147.58 lo usiamo per calcolare gli scostamenti dagli
ultimi valori della tabella (lo scostamento di ogni singola casa discografica – il valore medio 147.58). Il fattore di correzione
l/L è 5/74. Ogni anno da ogni sito viene scaricato un numero di brani compreso tra 21.36 mila e 32.61 mila.

ESERCIZIO 2 (FOTO A DESTRA)

La vo è la spesa annua per integratori alimentari. L’unità elementare è l’individuo tra i 18 e i 35 anni. Le unità statistiche
elementari saranno raggruppate in grappoli che, in questo caso, saranno costituiti dalle palestre. Si dice anche quante sono
le palestre del Veneto (176) e questo significa che il numero totale di grappoli (dato dalle palestre presenti in Veneto) sarà
176 (L=176). Abbiamo bisogno di una lista dei grappoli, un elenco delle 176 palestre, con ragione sociale e recapiti per
contattare e chiedere a ciascuna palestra (quelle che saranno estratte) un elenco dei clienti che la frequentano. Per effettuare
l’estrazione ci basta, dunque, l’elenco delle palestre.

I giovani che in totale frequentano queste 176 palestre sono 38.000, che sarebbe la numerosità della popolazione in
termine di unità elementari (N). Una volta estratte le palestre, intervistiamo i singoli clienti delle 6 palestre estratte e
chiediamo loro quanto hanno speso nell’ultimo anno per integratori alimentari. I clienti della prima palestra di numerosità
N1 = 105, ad esempio, spendono mediamente 45 €. Abbiamo già una spesa media a livello di singolo utente.
Il primo punto chiede di stimare x sopra segnato.

Nella prima tabella di prima abbiamo tutti gli Nh nella seconda tabella
abbiamo la spesa media dei clienti di ogni singola palestra. Quando
effettuiamo il calcolo di x sopra segnato dobbiamo tenere conto del
fatto che i valori della seconda tabella sono già stati divisi per la
numerosità, quindi per conoscere il totale della spesa per integratori
alimentari da parte di tutti i clienti dovremo moltiplicare (es. 45*105).

Abbiamo aggiunto una riga data dal prodotto tra le due precedenti (es
45*105) che identifica la spesa totale per palestra. Ogni giovane
mediamente spende 65,2154 €.

La vendita media di tonno nel Paese è il parametro da stimare. La vo è la vendita annua di tonno nel paese.
Potremmo pensare che, se vogliamo fare un’indagine a livello nazionale, queste siano delle unità amministrative.
In questo esercizio abbiamo un’azienda che produce articoli sanitari che vuole stimare il parametro media annua d’utilizzo
di un farmaco. La vq è l’utilizzo annuo di un farmaco generico in termini di numero di confezioni utilizzate. Questa
variabile vuole essere rilevata all’interno dell’ospedale considerando i medici che vi lavorano. I medici sono le unità
elementari e vorremmo calcolare l’utilizzo medio di questo farmaco, quanto ne prescrivono e ne utilizzano con i loro
pazienti, i grappoli sono rappresentati dagli ospedali. Per ogni ospedale vengono riportati: la numerosità delle unità
elementari (nel primo ospedale ci sono 28 medici) e poi abbiamo il totale della vo in ogni singolo ospedale. Quindi se la vo
è il numero di confezioni usate per quel farmaco, 740 indica quante confezioni vengono usate dai 28 medici dell’ospedale
A.

La popolazione delle unità elementari è data da tutti i medici che lavorano negli ospedali del Nord Italia. Il campione è
costituito da tutti i medici unità elementari che fanno parte degli ospedali (grappoli) estratti. Abbiamo bisogno di una lista
di tutti gli ospedali che ci sono nelle regioni del Nord Italia.
MODELLO DI REGRESSIONE LINEARE
∑𝑛
𝑖=1(𝑥𝑖−𝑀𝑥)(𝑦𝑖−𝑀𝑦)
• COVARIANZA - RELAZIONE LINEARE TRA DUE VARIABILI: COV (X, Y) = 𝑛
𝐶𝑂𝑉 (𝑋,𝑌)
• COEFFICIENTE DI CORRELAZIONE LINEARE rxy: rxy =
√𝑉𝐴𝑅(𝑋)𝑉𝐴𝑅(𝑌)
Normalizzato tra -1 e + 1:
+VALORI POSITIVI: RELAZIONE LINEARE DIRETTA
-VALORI NEGATIVI: RELAZIONE LINEARE INVERSA
=+1: RELAZIONE LINEARE DIRETTA PERFETTA
=-1: RELAZIONE LINEARE INDIRETTA PERFETTA
=0: NON ESISTE RELAZIONE LINEARE TRA X E Y
dove si può dimostrare che |COV (X, Y)| ≤ √𝑉𝐴𝑅 (𝑋)𝑉𝐴𝑅(𝑌)
• RETTA DI REGRESSIONE: 𝑦𝑖 ̂ = b0 + b1xi
• RESIDUI: ei= yi-𝑦𝑖
̂
• METODO DEI MINIMI QUADRATI: ∑𝑁 𝑁 𝑛
̂ ) 2 = ∑𝑁
𝑖=1 𝑒𝑖 = min → ∑𝑖=1 𝑒𝑖 = ∑𝑖=1(𝑦𝑖 − 𝑦𝑖
2 2
𝑖=1[𝑦𝑖 − ( b0 + b1xi)]
2
∑ 𝑦𝑖 ∑ 𝑥𝑖 2 − ∑ 𝑥𝑖 ∑ 𝑥𝑖𝑦𝑖
• INTERCETTA ALL’ORIGINE: b0 = = 𝑦̅ – b1𝑥̅
𝑛 ∑ 𝑥𝑖 2 −(∑ 𝑥𝑖 )2
M(y)= 𝑦̅; M(x)= 𝑥̅
𝑛 ∑ 𝑥𝑖𝑦𝑖− ∑ 𝑥𝑖 ∑ 𝑦𝑖 𝐶𝑂𝑉 (𝑋,𝑌)
• PENDENZA DELLA RETTA DI REGRESSIONE: b1 = 𝑛 ∑ 𝑥𝑖 2 − (∑ 𝑥𝑖 )2 = 𝑉𝐴𝑅 (𝑋)
• MODELLO DI REGRESSIONE LINEARE SEMPLICE: Yi= β0 + β1 xi + Ei
• IPOTESI DEL MODELLO → esiste una relazione lineare tra β0 e β1→ Yi= β0 + β1 xi + Ei [pag. 81]
• IPOTESI DEL MODELLO→ valore atteso della componente accidentale nullo→ E(Ei)=0
• IPOTESI DEL MODELLO→ varianza costante→ VAR (Ei)= σ2
• IPOTESI DEL MODELLO→ incorrelazione tra coppie di v.c. → COV (Ei, Ej) = 0
• IPOTESI DEL MODELLO→ distribuzione normale dei disturbi→ Ei~ N (0, σ2)
• IPOTESI DEL MODELLO→ X non è una v. aleatoria (è controllata)→ Se le ipotesi sono vere E(Yi)= β0 + β1 xi
σ2
• VARIANZA DI B1: VAR (B1) =
𝐷𝐸𝑉 (𝑋)
1 1
• VARIANZA RESIDUA - STIMA CORRETTA DI 𝛔2: s2COR= 𝑛−2 ∑𝑛𝑖=1(yi − 𝑦𝑖
̂ ) 2 = 𝑛−2 ∑𝑛𝑖=1 𝑒𝑖 2
infatti E(s2COR) = σ2
s2COR
• ̂
VARIANZA CORRETTA DI B1: 𝑉𝐴𝑅 (𝐵1)= ∑𝑛 (𝑥𝑖− 𝑥̅ )2 →
𝑖=1
s2COR 𝑠 𝐶𝑂𝑅
• → ERRORE STANDARD DI B1(scarto quad. medio): s(B1) = √∑𝑛 2 =
𝑖=1(𝑥𝑖− 𝑥̅ ) √∑𝑛 2
𝑖=1(𝑥𝑖− 𝑥̅ )

• DEVIANZA DI X: DEV (X)= ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2


• INTERVALLO DI CONFIDENZA PER B1 (GRANDI CAMPIONI → n>30): P {b1- z (α) S(B1) ≤ β1 ≤ b1 + z (α) S(B1)}
= 1- α
• INTERVALLO DI CONFIDENZA PER B1 (PICCOLI CAMPIONI → n<30): P {b1 – t (α) S(B1) ≤ β1 ≤ b1 + t (α) S(B1)}
= 1- α
• IPOTESI NULLA: H0 : β1 = 0
• IPOTESI ALTERNATIVA: H1 : β1 ≠ 0
𝑏1− β1HO 𝑏1
• STATISTICA TEST PER SOTTOPORRE A VERIFICA L’IPOTESI NULLA: z(b1) = = 𝑠 𝐶𝑂𝑅
𝑠(𝑏1)
√∑𝑛
𝑖=1 ̅ )2
(𝑥𝑖− 𝑥

𝐵1−𝐸(𝐵1) 𝐵1− β1
• SCOSTAMENTO STANDARDIZZATO (COEFFICIENTE DI REGRESSIONE): Z(B1) = = 𝑠 𝐶𝑂𝑅
𝑠 (𝐵1)
√∑𝑛
𝑖=1 ̅ )2
(𝑥𝑖− 𝑥

→ E(B1) = β1
GRANDI CAMPIONI n> 30: Z(B1) ~ N (0, 1) ; PICCOLI CAMPIONI: Z(B1) ~ t (n-2)
• ̂ + DEV (E)
DEVIANZA DELLA VARIABILE DIPENDENTE: DEV(Y)= ∑𝑛𝑖=1(𝑦𝑖 − 𝑦̅) 2 → DEV(Y)= DEV (𝑌)
• ̂ = ∑𝑛𝑖=1(𝑦𝑖
DEVIANZA DI REGRESSIONE: DEV (𝑌) ̂ - 𝑦̅) 2
• DEVIANZA RESIDUA: DEV (E)= ∑𝑛𝑖=1 𝑒𝑖2= ∑( 𝑦𝑖 − 𝑦𝑖 ̂)2
∑𝑛 (𝑦𝑖
̂ − 𝑦̅) 2 ∑𝑛
𝑖=1 𝑒𝑖 2
• INDICE DI DETERMINAZIONE LINEARE (R2 o δ): R2= δ= ∑𝑖=1
𝑛 (𝑦𝑖− 𝑦 = 1- ∑𝑛 → ricorda che My= 𝑦̅;
̅) 2 𝑖=1 𝑖=1(𝑦𝑖−𝑀𝑦)2
̂
DEV (𝑌) DEV (E)
si può scrivere come R2= δ= DEV(Y) = 1- DEV(Y)
Più la devianza di E è alta, minore sarà la devianza di regressione, quella spiegata dalla retta di regressione, e peggiore sarà
l’adattamento. Più piccola è la devianza residua, maggiore sarà la quota della devianza spiegata dalla retta di regressione e
migliore sarà l’adattamento. Si ha un caso limite quando i residui (DEV(E)) sono uguali a 0 e delta assume valore 1, in quel
caso tutta la variabilità della y viene spiegata dalla retta di regressione.
20/11/2020

Gli errori campionari non saranno oggetto d’esame. Faremo solo il modello di regressione semplice.

RELAZIONE TRA 2 FENOMENI QUANTITATIVI

Il modello di regressione lineare semplice prende in considerazione due variabili. Si parla di relazione tra due variabili di
tipo quantitativo. Parleremo di analisi bivariata in cui entrambe le variabili sono quantitative.

Per ognuna di queste unità statistiche vengono rilevate due variabili. Le


due variabili riguardano la spesa per due prodotti diversi, espresse con
l’unità monetaria €, e sono due variabili quantitative. Possiamo passare
all’analisi dei dati veri e propri. Conviene sintetizzarle con l’indice classico
della media. Calcoliamo la media sulla prima e sulla seconda variabile e
otteniamo che il campione di sei famiglie ha mediamente speso 132.5€
per il latte e 119.2€ per i biscotti. Questi due indici sintetici rappresentano
un primo assaggio di analisi bivariata applicata ad ognuna delle due
variabili. Potremmo vedere se c’è una relazione del comportamento delle
famiglie in relazione all’acquisto dei due prodotti.

Quando vogliamo vedere la relazione tra due variabili, una delle cose che conviene fare è calcolare l’indice di
correlazione tra le due variabili, ma prima ancora può convenire rappresentare le variabili su un piano bidimensionale.

In questo piano, sull’asse delle ascisse troviamo la spesa per il latte e sulle
ordinate la spesa per biscotti. Una volta deciso dove collocare le due variabili, i
punti possono essere individuati dall’incrocio dei valori delle modalità con le
quali le variabili si manifestano tra le unità statistiche. Questo grafico a
dispersione viene anche chiamato scatter plot. Lo scatter plot è utile perché dà
una prima idea sulla relazione tra le due variabili e qual è la direzione di questa
relazione. Quando aumenta la spesa per il latte fresco vediamo che tende anche
ad aumentare anche la spesa per biscotti. Sembrerebbe dunque che vi sia una
relazione diretta tra le due variabili. Quando vediamo una nuvola dei punti come
questa, orientata in maniera crescente dall’angolo in basso a sinistra verso l’angolo in alto a destra, il grafico suggerisce una
relazione diretta. Potremmo tracciare una retta per interpolare i cinque punti, lasciando fuori la famiglia C. Quando siamo
di fronte ad una rappresentazione di questo tipo e individuiamo una relazione lineare, è possibile misurare, dal punto di
vista matematico, quanto è forte la relazione tra queste due variabili? ed avere un indicatore statistico che ci dica della
relazione esistente tra due variabili quantitative? Ovviamente sì, gli indicatori statistici più utilizzati sono quelli che
misurano la relazione lineare tra due variabili quantitative.

.
L’indicatore più utilizzato è il coefficiente di correlazione lineare rxy. È una misura della relazione lineare fra due
variabili quantitative.

La covarianza si calcola prendendo la sommatoria dei valori, per i che va da 1 fino ad n, e la sommatoria riguarda il
prodotto degli scostamenti dei valori di una variabile rispetto alla corrispondente media. Prendiamo gli scostamenti della
variabile x rispetto alla sua media e li moltiplichiamo per gli scostamenti di y rispetto alla sua media. Questo prodotto poi
lo dividiamo per n.
La covarianza è l’indice più semplice per le associazioni bivariate. Può assumere valori positivi e negativi. Ad esempio, per
la prima famiglia la differenza tra 105 e la media di 132.5 è un valore negativo perché il consumo di quella famiglia è
inferiore alla media. Avremo segno negativo per gli scostamenti di x e y rispetto alle loro medie per la famiglia A, il loro
prodotto restituisce un numero positivo. Per quanto riguarda la famiglia C, vediamo che spendono 80 € per la spesa per
latte, inferiore alla media, e darà un valore negativo, la spesa per biscotti superiore alla media, quindi la differenza rispetto
alla media restituisce un numero positivo. + per – fa meno. Tutti gli altri spostamenti hanno valore positivo quindi ci
aspettiamo che il valore del coefficiente di covarianza sia positivo al numeratore perché ho, perlopiù, prodotti che danno
risultati positivi. Quando la cov restituisce un valore positivo significa che esiste una relazione lineare diretta.
Quando la covarianza assume valore negativo indica la presenza di una relazione lineare inversa tra le due variabili e
otterremmo una nuvola dei punti con l’inclinazione totalmente opposta a quella vista prima, dove al crescere di una
variabile decresce l’altra.

Vediamo che all’aumentare del prezzo si riduce il consumo dei beni venduti, siamo in corrispondenza di una relazione
lineare inversa. Ci aspetteremmo di avere un coefficiente di covarianza negativo. Quindi, il coefficiente di covarianza dà già
un’idea sul verso della relazione, ma non è l’indicatore solitamente utilizzato per misurare la relazione lineare tra le due
variabili, perché risente dell’ordine di grandezza e l’unità di misura in cui sono espresse le variabili. Il problema associato
alla covarianza è che spesso non consente di fare dei confronti in maniera adeguata, soprattutto se le unità di misura delle
due variabili sono diverse. Il coefficiente di covarianza non si può usare per confronti tra le stesse variabili in situazioni
diverse e dobbiamo passare a qualcosa di standardizzato, qualcosa che normalizzi i valori e li renda interpretabili
indipendentemente dalla situazione in cui applichiamo l’analisi. Quindi passiamo dall’analisi di covarianza all’analisi di
CORRELAZIONE LINEARE.

Per fare questo passaggio partiamo da questa relazione di covarianza per cui il valore della covarianza preso in valore
assoluto (due linee verticale), si può dimostrare, è sempre inferiore o uguale a prodotto delle varianze delle due variabili
sotto radice quadrata.

Quindi il coefficiente di correlazione viene calcolato tenendo conto di questa relazione, come rapporto tra il coefficiente (o
indice) di covarianza al numeratore e la radice del prodotto delle varianze al denominatore. Il risultato di questa operazione
di normalizzazione è quello di ottenere un indicatore che, indipendentemente dall’ordine di grandezza e dalle unità di
misura, assuma sempre dei valori compresi tra -1 e 1. In particolare, quando per xy assume valore di +1 si parla di
relazione lineare diretta perfetta tra le due variabili x e y mentre invece se assume valore -1 si parla di relazione lineare
indiretta perfetta tra x e y. Chiaramente tutte le volte in cui rxy è maggiore di 0 ma minore di 1 si parlerà di relazione
lineare diretta non perfetta. Quando è maggiore di -1 e inferiore a zero si parlerà di relazione lineare indiretta non
perfetta.
Se rxy è pari a 0 non esiste una relazione lineare tra le due variabili, però il valore uguale a zero tra le due variabili non
esclude che vi siano altri tipi di relazione non lineare (ad esempio quadratica). Adesso si deve vedere come calcolare il
coefficiente di correlazione a partire dai dati.

Il numeratore della covarianza viene chiamato anche codevianza. Mentre in numeratore della varianza di X si chiama
devianza di x e il numeratore della varianza di Y si chiama devianza di Y. Il risultato ottenuto dall’esercizio precedente è
0.73.

Questo indicatore ci permette anche di fare dei confronti (ad esempio tra la relazione tra reddito e tempo libero in Italia e
USA). Il coefficiente di correlazione lineare è indicatore dell’interdipendenza tra le due variabili quantitative. Guardiamo
qual è la direzione della relazione, ma non sappiamo se c’è una variabile che causa l’altra, non sappiamo niente sull’effetto
di trasmissione della relazione da una variabile all’altra, o meglio non sappiamo niente sulla relazione di eventuale causalità
di una variabile rispetto all’altra. Possiamo dire che è il consumo di latte che causa quello di biscotti o viceversa? Questo
può dipendere dalle abitudini alimentari delle singole persone. In questo senso abbiamo un’interrelazione ma non
sappiamo niente circa la causalità. Potremmo imporre un nesso di causalità.

Si potrebbe impostare una relazione di causalità, ad esempio, tra il voto di maturità e il rendimento dei primi due anni di
corso all’università. In qualche modo, si può pensare che un buon voto alla maturità potrebbe “causare” un buon
rendimento alla triennale. Oppure, sappiamo che all’aumentare del prezzo di un bene, a parità di altre condizioni, la
quantità acquistata di quel bene diminuisce. Il prezzo causa le quantità vendute del bene. Sicuramente possiamo partire
dall’interdipendenza tra le due variabili, ma possiamo anche stimare la relazione con cui i dati di una variabile causano i dati
dell’altra variabile. Nella regressione attribuiamo un ruolo fisso ad ognuna delle due variabili, dicendo quale variabile causa
l’altra. Nella regressione avremo, infatti, una variabile dipendente e una indipendente (→quella che causa la variabile
dipendente). Nella relazione tra reddito e consumo, il reddito sarà la variabile indipendente o il regressore. Il voto alla
maturità sarà la variabile esplicativa (o indipendente o regressore) x e il numero di esami dati in triennale sarà y, la variabile
dipendente. Il prezzo è la variabile esplicativa, la quantità venduta è la variabile dipendente y.
In questo esempio, si prende come riferimento un campione di punti vendita (20) e in relazione a questi vengono rilevate
due variabili:

• il prezzo a cui viene venduta la confezione di un determinato bene


• il numero di confezioni vendute in un determinato intervallo di tempo.

Questo esempio è un caso classico nell’ambito degli studi di marketing perché è un esempio di calibrazione del prezzo a
cui viene venduto un nuovo bene che viene lanciato sul mercato. Immaginiamo che ci sia un’azienda che produce cereali
per la colazione e vuole lanciare un nuovo prodotto con una nuova ricetta, confezione o altro, e chiaramente vuole
metterlo sul mercato per venderlo ai punti vendita al dettaglio stabilendo il prezzo migliore, quello che consente di
massimizzare i ricavi e i guadagni derivanti dalla vendita.

In questa fase di calibrazione, solitamente si sceglie un campione di punti vendita come nell’esempio e si comincia a
distribuire il prodotto presso gli stessi, stabilendo, però, prezzi diversi per poi verificare le quantità vendute in ciascun
punto vendita. Nel primo punto vendita, ad esempio, viene offerto al prezzo più basso di 2.7 €, fino ad arrivare all’ultimo
punto vendita in cui viene offerto a 3.5 €, uno scarto di circa 0.70 € sul prezzo individuale. Vengono rilevate quante
confezioni di quel bene sono state vendute e si può notare come ad un prezzo più basso corrispondono quantità vendute
maggiori. All’aumentare del prezzo, in effetti, diminuisce il numero di confezioni vendute. Se ci concentriamo sulla nuvola
dei punti nello scatter plot in cui il prezzo è sull’asse delle ascisse, in quanto variabile esplicativa (che viene solitamente
posta proprio sull’asse delle ascisse), vediamo che questa è orientata in modo decrescente (dall’angolo in alto a sx a quello
in basso a dx) e intuiamo che tra le due variabili ci sarà una relazione di tipo inverso, perché al crescere dell’una (prezzo)
tende a decrescere l’altra (acquisto del bene). Si può anche ipotizzare una relazione lineare. Fissando i prezzi nei diversi
punti vendita entriamo in un ambito molto simile a quello degli esperimenti in laboratorio perché scegliamo degli ambienti
(i diversi supermercati) in condizioni il più possibile omogenee tra loro e vediamo come la modificazione del prezzo
influisce sulle vendite e sul mercato finale.

Quindi, la retta di regressione dà già un’idea della forza con cui i consumatori rispondono e possiamo misurare anche
quanto è buona l’approssimazione della retta di regressione. È anche utile a comprendere meglio il comportamento del
consumatore. Ha anche un grosso impatto dal punto di vista previsivo → se ci mettiamo dal punto di vista del punto
vendita al quale proponiamo il nostro prodotto, lui chiederà il prezzo e quali vendite ci possiamo aspettare e, se il modello
di regressione è affidabile, noi potremmo prevedere le quantità vendute corrispondenti alla fissazione di un determinato
prezzo (previsione delle vendite).

Col modello di regressione lineare vogliamo trovare una retta che misuri in maniera ottimale l’andamento della nuvola dei
punti, una retta che interpoli al meglio le osservazioni rappresentate nello spazio bidimensionale. Se c’è una relazione di
tipo inverso, la retta avrà una pendenza negativa (con segno -). Dovremmo vedere come possiamo individuare questa retta,
perché ne esistono tante, come possiamo individuare questa retta in maniera univoca, se ci sono degli elementi aleatori che
possono influenzare l’individuazione di questa retta.

Per trovare la retta ottimale lo faremo attraverso l’individuazione dei parametri col metodo dei minimi quadrati. Ci sono
elementi di aleatorietà che possono influenzare i parametri e passeremo dalla retta di regressione al modello di regressione
con elementi aleatori → si fa un passaggio da un’analisi descrittiva ad un’analisi inferenziale. La retta di regressione
descrive l’interpolazione, il modello di regressione ci dà la possibilità di interpretare dal punto di vista probabilistico
l’affidabilità della stima della retta stessa. Dobbiamo valutare se e quanto la pendenza della retta di regressione è
accettabile. Intanto ci occupiamo del sistema per individuare la retta dello spazio una volta osservati i dati. Vogliamo
stimare un modello in cui l’aumento del numero di dipendenti generi un aumento del fatturato. La variabile esplicativa è
dunque il numero di dipendenti. Ci possiamo aspettare una relazione diretta tra le due variabili perché all’aumentare il
numero di dipendenti è verosimile aspettarsi un aumento nel fatturato.
b0 è l’intercetta della retta di regressione e b1 è la pendenza,
entrambi elementi che consentono di trovare dei valori teorici della variabile dipendente in corrispondenza dell’unità
statistica i (y di i cappello).
Si parla di valore teorico perché è il valore che dovrebbe assumere la variabile dipendente nel caso in cui valesse in
maniera perfetta la relazione lineare con la variabile esplicativa. Vuol dire che, in questo caso, se misurassimo il coefficiente
di correlazione tra i valori teorici e i valori osservati nella variabile esplicativa, troveremo sempre valori pari a -1 o 1.
Quindi, i valori teorici si collocano sempre sulla retta di regressione. Se prendiamo il supermercato che aveva fissato
un prezzo di 2.7 €. Il valore di 61.9 è l’intercetta b0 e -17.3 è b1 (pendenza negativa). Se prendiamo il primo supermercato e
applichiamo questi valori per un valore della x pari a 2.7 € otterremo un valore di y con i cappello circa pari a 15.1, un
valore che si trova esattamente sulla retta. Y cappello in relazione al primo supermercato con 2.7 indica il punto in
corrispondenza di 2.7 che si colloca esattamente sulla retta. Questi y con i cappello sono i valori che teoricamente
dovrebbe assumere la variabile dipendente se la relazione lineare fosse perfetta.

Questi valori teorici che derivano dall’applicazione della retta di regressione, possono essere confrontati con gli y con i
osservati. Questo serve per vedere la differenza tra quanto si è osservato e quanto si sarebbe dovuto osservare se la
relazione lineare valesse in maniera perfetta. La differenza tra i valori osservati della variabile dipendente e quelli teorici
della stessa variabile viene chiamata “residuo” (i residui sono realizzazioni di variabili aleatorie). Nell’esempio, ei
rappresenta la differenza tra numero di pezzi effettivamente venduti (19) al prezzo di 2.7 e i pezzi che avrebbe dovuto
vendere teoricamente (segmento verticale e parallelo all’asse delle ordinate che va dal punto in alto a sinistra in
corrispondenza di 2.7 e il punto più in alto della retta sempre corrispondente a 2.7). A seconda che il punto si trovi sopra o
sotto la retta di regressione i residui possono assumere valori positivi o negativi.
È dai residui che ricaviamo il metodo che consente di individuare in maniera univoca la retta ottimale che interpola al
meglio la nuvola dei punti. Questo metodo viene chiamato “il metodo dei minimi quadrati” che consente di attribuire
dei valori a b0 e b1 in modo tale che la retta che individuiamo minimizzi la somma dei quadrati dei residui. Vogliamo
trovare i valori di b0 e b1 tali per cui valga che la somma dei quadrati dei residui sia la più bassa possibile.

27/11/2020
La retta che individueremo sul piano cartesiano sarà quella che minimizza i quadrati dei residui. I residui danno una misura
della distanza, misurata come “scarto”.

Questa è la condizione dalla quale si parte. Quando vogliamo minimizzare una quantità in funzione di due parametri,
dobbiamo impostare un sistema di due equazioni, in cui la prima è quella in cui poniamo =0 la derivata prima parziale della
quantità che vogliamo minimizzare rispetto al primo parametro. La terza foto è lo sviluppo dei quadrati dei residui. Adesso
la prima equazione sarà la derivata prima parziale di questa equazione eguagliata a zero, come si vede sotto. Prima si fa
quindi la derivata prima parziale di ci2 (tutta l’espressione foto a destra) rispetto a b0 e poi rispetto a b1.

Risolvendo questa equazione, i valori che si ottengono per b0 sono quelli che si possono vedere nella foto a destra. Non
sono stati eseguiti tutti i passaggi. La prima parte non è altro che la media di y sopra segnato e la seconda parte è la media
di x sopra segnato. M sta per media. In questo modo determiniamo b0 e b1 sotto la condizione dei minimi quadrati a
partire dai dati osservati sulle due variabili del modello.

Le cose si complicano quando passiamo dalla retta di regressione al modello di regressione. Nel modello di regressione i
residui (ei) definiti come differenza tra valori osservati e teorici della variabile dipendente, assumono natura aleatoria
e gli ei vengono considerati come realizzazione di variabili aleatorie sottostanti e vengono indicati con Ei. Il modello di
regressione lo studiamo a partire da questa considerazione: la variabile dipendente x i, diventa essa stessa una vc e la
indichiamo, infatti, con la lettera maiuscola Xi. Al posto di b0 e b1 abbiamo Beta0 e Beta1. Per stimare questi parametri
utilizziamo gli stimatori dei minimi quadrati. Gli stimatori dei parametri incogniti, come abbiamo detto quando si è parlato
della variabile aleatoria media campionaria o varianza campionaria, sono delle variabili aleatorie che indichiamo con B 0 (b
grande) e B1. Le realizzazioni di queste v.a. in corrispondenza dei valori osservati di x e y sono le stime dei valori che
otteniamo dai minimi quadrati.
Abbiamo dei parametri incogniti che dipendono da elementi di incertezza, in virtù del fatto che consideriamo le variabili
aleatorie. Le realizzazioni di queste variabili aleatorie si ottengono con b0 e b1 col metodo dei minimi quadrati. Ma perché
abbiamo inserito degli elementi di aleatorietà nel modello di regressione? Cosa ci porta ad assumere che ci siano elementi
di aleatorietà nella relazione tra variabile dipendente ed esplicativa? La prima considerazione che dobbiamo fare è che
(pensiamo alla calibrazione del prezzo) in base ad un prezzo per un punto vendita abbiamo rilevato dopo una settimana il
numero di pezzi venduti.

Vogliamo vedere cosa succede quando cambiamo il prezzo. Abbiamo rilevato


questi dati, ma avremmo potuto rilevarne altri e la relazione esistente tra prezzo
e quantità può essere influenzata anche da altri fattori che rendono aleatoria la
relazione tra le variabili prese in considerazione. Può dipendere ad esempio
dalla zona in cui si trovano i punti vendita, magari i punti vendita sono in
quartieri a reddito elevato, questo sicuramente avrà altri dati rispetto ad un
punto vendita in un quartiere più povero. Le quantità vendute, al di là del
prezzo applicato, possono essere condizionate anche dalla concorrenza
(distanza tra punti vendita). Questo induce ad elementi di aleatorietà, che
induce a sua volta a passare dalla retta al modello di regressione.

Altri elementi che possono influenzare il numero di pezzi venduti e possono determinare comportamenti d’acquisto sono
una miriade di altre variabili. Inoltre, noi stiamo considerando solo un campione di punti vendita rispetto a tutti i punti
vendita che ci sono in Italia. Stiamo, dunque, stimando che, il fatto di considerare un sottoinsieme di unità statistiche
rispetto alla popolazione, induce elementi di aleatorietà, se tale campione è stato estratto casualmente. Ultimo punto che
può aiutare a capire l’aleatorietà sono gli errori di misura.

Si ipotizza che non ci siano elementi di errore sistematico nella relazione tra le due
variabili, gli errori sono puramente casuali per cui il valore atteso del disturbo è sempre
uguale a 0. La seconda ipotesi riguarda la varianza dei disturbi che è costante (sigma
2): tutti gli elementi di variabilità dei disturbi sono controllati dal ricercatore. Il fatto che la
variabilità dei disturbi sia costante significa che chi analizza il modello controlla tutti gli
elementi di variabilità degli errori. Ancora, la covarianza tra il disturbo relativo all’u.s.
i-esima e quello relativo all’u.s. j-esima (dove i è diverso da j) è uguale a 0 → noi
consideriamo le unità statistiche indipendenti tra di loro. Quello che osserviamo su
un’unità statistica non condiziona quello che succede sull’altra.

Un’assunzione che spesso si fa è che questi disturbi si considerano distribuiti secondo una Gaussiana (v.c. di Gauss).
Si assume anche che la variabile esplicativa non sia aleatoria → ipotizziamo che i valori della v.e. siano controllati dal
ricercatore. È l’azienda che decide di mettere sul mercato il prodotto, è l’azienda che decide il prezzo. Non sempre questa
assunzione risulta chiara come nell’esempio sul prezzo. Noi agiamo come se la v.e. fosse non aleatoria, assunzione di
base del modello di regressione.
Ipotesi del modello: Le ipotesi del modello sono diverse:
– Y i = β0 + β1 xi + Ei → esiste una relazione lineare tra b0 e b1.
– E (Ei) = 0 → componente accidentale. Il valore atteso della componente accidentale è nullo. Il significato di questa assunzione è che nella
determinazione della relazione lineare tra le due variabili, non esistono errori di tipo sistematico. Assumere che il valore atteso dei disturbi sia zero
significa che la relazione lineare tra variabile dipendente e esplicativa viene determinata senza l'influenza di errori sistematici. L'unico margine di errore
che esiste è di carattere accidentale/casuale. I parametri non li conosceremo mai con precisione assoluta, ma potremo solamente stimarli ed
approssimarli. Questa approssimazione è caratterizzata dal fatto che ci siano errori accidentali, ma mai di tipo sistematico. Il valore atteso di una
costante è sempre pari alla costante.
– VAR (Ei) = σ 2 → costante. Il valore della varianza è costante, non cambia al cambiare dell'osservazione, dell'us a cui far riferimento. Il significato
di questa assunzione è che tutti gli elementi di variabilità dell'elemento di disturbo dipendono da fattori che sono completamente controllati dal
ricercatore che vuole misurare questa relazione.
– COV (Ei, Ej ) = 0 → incorrelazione tra le us. La covarianza tra coppie di variabili casuali, tra i disturbi Ei e Ej è nulla. Sono due disturbi relativi a
due us diverse. La relazione lineare tra queste due variabili è sempre, qualunque sia la coppia di us (i ≠ j), nulla. C'è incorrelazione tra le us.
Assumiamo di voler misurare la relazione lineare tra reddito e consumo in n individui. Misuriamo il reddito ed il consumo per qualsiasi bene/servizio.
Questa assunzione dice che il consumo ed il reddito osservati su due individui presi a caso sono indipendenti l'uno dall'altro. Il reddito di uno non
indice sul reddito dell'altro, ed il consumo del primo è indipendente dal consumo del secondo. Quello che guadagno è indipendente dal guadagno di
un altro, stessa cosa per il consumo. Questa assunzione non funziona quando i dati sono ordinati secondo serie storica. Se calcoliamo una relazione
lineare sui fenomeni consumo e reddito, prendiamo come riferimento una collettività, e misuriamo nel tempo. Misuriamo la serie aggregata dei redditi
e una serie storica dei consumi, entrambi dal 1980 al 2017. In questo caso le us non sono individui, ma tempi. Quando le us sono tempi, diventa
difficile assumere che questa ipotesi di incorrelazione tra i disturbi di us diverse sia nulla, perché è abbastanza difficile che il reddito di una nazione,
osservato in un tempo, non sia influenzato dal reddito del passato. In questo caso applicare un modello di regressione è abbastanza complesso, si
ottengono stime che non hanno le proprietà che vorremmo, perché questa assunzione non vale. Servono fattori di correzione. 99
– Ei → ha una distribuzione normale. I disturbi sono distribuiti normalmente, con una distribuzione gaussiana → Ei ~ N (0, σ 2 ) → media 0 e
varianza costante.
– X → non è aleatoria (è controllata). La variabile esplicativa, o regressore, o semplicemente X, è controllata dal ricercatore.

Il valore atteso della variabile dipendente è uguale ai parametri da stimare con Beta1 che moltiplica la v.e. Il valore atteso
non è più una costante, ma qualcosa che dipende da un’altra variabile attraverso i parametri incogniti.

→ calcolo di b0

Allora b0 è la stima di Beta0 e b1 è la stima di Beta1. Due modi per scrivere la retta
di regressione.

Ora abbiamo detto che, dal punto di vista geometrico, l’intercetta all’origine indica il valore teorico della variabile
dipendente quando la v.e. è uguale a zero.
0.17 è il fatturato teorico che si ottiene quando il numero di dipendenti è uguale a 0 (vendite negative) economicamente
parlando. Questo b0 è l’intercetta, ora vediamo come si interpreta b1, che determina la pendenza della retta di regressione.
Dal punto di vista economico, un valore pari a 0.198 indica l’incremento teorico della variabile dipendente corrispondente
all’incremento unitario della variabile esplicativa x o all’aumentare di una unità della variabile esplicativa. Teoricamente,
incrementando di un dipendente il numero di dipendenti in quei supermercati, il fatturato aumenta di 198.000 € (0.198).
Questa è l’interpretazione economica che possiamo capire osservando la foto a destra.

Il valore di y con i cappello, si trova scendendo o salendo da un punto perpendicolarmente sulla retta di regressione. I
residui sono sempre rappresentati da segmenti paralleli all’asse delle ordinate e perpendicolari all’asse delle ascisse. Il
residuo si deve tracciare PERPENDICOLARE ALL’ASSE DELLE ASCISSE (SEGMENTO NERO). NON si deve
tracciare perpendicolare alla retta di regressione (segmento rosso) perché è un errore grave.

La sommatoria dei residui è sempre uguale a zero. Per questo non dobbiamo minimizzare la somma dei residui (in
quanto quantità nulla) bensì i quadrati della somma dei residui. X sopra segnato e y sopra segnato sono rispettivamente la
media della variabile indipendente e la media della variabile dipendente.
B= a fronte di un fatturato osservato di 3.1 abbiamo un fatturato teorico di 3.40. se calcoliamo i valori teorici su tutti i
supermercati e i rispettivi residui alla fine otteniamo un valore pari a 0.

Vogliamo misurare la relazione tra spesa/consumo e reddito, indicate con le lettere Z e Y. Perché non indichiamo con X?
Perché qui dobbiamo decidere qual è la variabile dipendente e la variabile esplicativa. Dobbiamo sempre interrogarci su
quale variabile causi l’altra. Sappiamo che, solitamente, il consumo viene influenzato dal reddito. Il reddito sarà la variabile
esplicativa e la spesa per manifestazioni culturali sarà la variabile dipendente.

Come interpretare i due parametri della foto a dx dal punto di vista economico? → nel caso in cui una famiglia avesse
reddito = 0 la spesa è negativa, pari a -100.24 € e dal punto di vista economico non ha senso perché una spesa non può
essere negativa. Per quanto riguarda il parametro b1, questo indica che all’aumentare unitario del reddito (in questo
esempio l’incremento unitario è espresso in migliaia di € → +1000€) la spesa per manifestazioni culturali aumenta di
134.65 €, se vale la relazione lineare tra le due variabili.

VALUTAZIONE DELLA SIGNIFICATIVITA’ STATISTICA DEL COEFFICIENTE DI REGRESSIONE

Dobbiamo stimare i parametri incogniti con gli stimatori B0 e B1. Ora ci poniamo il
problema di come valutare la significatività del parametro Beta1 (coefficiente di
regressione). Per stimare Beta1 prendiamo lo stimatore b1 che è una variabile aleatoria,
per la quale, dunque, possiamo calcolare il valore atteso. Si può dimostrare che lo
stimatore B1 è uno stimatore corretto di Beta1, quindi il suo valore atteso sarà uguale al
parametro da stimare.

Per quanto riguarda la varianza, si può dimostrare che è uguale a sigma2 fratto la varianza della variabile x (esplicativa)
Sigma2 è un parametro della popolazione (la varianza nella popolazione) e dobbiamo stimarla. Come facciamo a stimare la
varianza sigma2? Sigma2viene stimata attraverso la varianza corretta che è s2COR.

Dividiamo per n-2 perché entrano in gioco i gradi di libertà della stima (gdl). Il numero di gdl, in ambito inferenziale,
viene definito come la numerosità campionaria meno il numero di parametri da stimare. Nei modelli precedenti c’era un
solo parametro da stimare, nel modello di regressione lineare semplice i parametri da stimare sono 2. Inoltre, ipotizziamo
che la media della variabile dipendente sia data dalla relazione con la v.e. secondo una relazione lineare, quindi il valore
medio cambia al variare di y in base agli y con i cappello sulla retta di regressione. Quindi, y con i cappello è il valore medio
della variabile dipendente, che cambia in relazione ai valori della variabile esplicativa. Questa s 2COR viene chiamata
“varianza residua” (sommatoria dei residui al quadrato) ed è uno stimatore corretto di sigma2. Il valore di s2COR è, infatti,
proprio sigma2.

Adesso, come abbiamo fatto per l’IC costruito su mi (eravamo passati dalla variabile aleatoria [v.a.] media campionaria alla
v.a. media campionaria standardizzata), facciamo qualcosa di simile per la variabile aleatoria B 1, passando da B1 alla sua
standardizzazione (sottraendogli il valore atteso e dividendolo per la sua varianza).

Si può dimostrare che questo stimatore standardizzato Z(B1) si distribuisce in base al TCL secondo due distribuzioni
diverse, a seconda che si possa parlare di grandi campioni (numerosità almeno superiore a 30 unità) o piccoli campioni. Se
n>30 allora Z(B1) si distribuisce come una normale standardizzata. Per i piccoli campioni Z(B1) si distribuisce come una t
di student. Il quantile, dunque, si dovrà ricercare nella tavola della t-di student.

3/12/2020

A partire dai dati osservati, utilizzando il metodo dei minimi quadrati, otteniamo b1,
la stima puntuale del parametro e poi utilizzando la stima della varianza dello
stimatore (prendendo la radice quadrata di B1) possiamo costruire l’IC, che ci consente di determinare l’estremo inferiore e
superiore dell’IC.

Ora vediamo come verificare alcune ipotesi sul valore incognito del parametro Beta 1. L’ipotesi che vogliamo verificare
statisticamente (l’ipotesi nulla) è che Beta1 sia uguale a 0, quindi che il parametro sia uguale a 0. Questo vuol dire ipotizzare
che non vi è nessuna relazione di causalità tra la variabile dipendente e la variabile indipendente, non c’è alcuna relazione
lineare tra x e y se vale questa assunzione. Vogliamo sottoporre a verifica statistica questa ipotesi nulla (H0)
contrapponendo a tale ipotesi nulla un’ipotesi alternativa che chiameremo H1.

L’ipotesi alternativa si chiama più precisamente “Ipotesi alternativa bilaterale”. Si chiama così perché non ci preoccupiamo
del segno della relazione; ci potrebbe essere una relazione lineare diretta o inversa tra le due variabili. Significa ipotizzare
che esiste una relazione senza, tuttavia, preoccuparsi del verso di tale relazione. Quando vogliamo sottoporre a verifica
un’ipotesi statistica dobbiamo prima di tutto costruire la c.d. “statistica test”. La statistica test che utilizziamo per
sottoporre a verifica l’ipotesi nulla H0 è questa:

Sotto l’ipotesi nulla Beta1 vale 0 (come nel caso della foto in alto),
quello che rimane è il rapporto tra la stima puntuale e lo scarto quadratico medio stimato dello stimatore B 1 (foto a dx).
Questo è il modo per costruire la statistica test z(b1) a partire dai dati osservati.

L’ipotesi nulla può essere accettata, che implica che non vi sia relazione lineare tra le variabili, o possiamo rifiutarla.
Possiamo rifiutare l’ipotesi nulla e dire che il parametro è statisticamente significativo? I valori che otteniamo sul nostro
z(b1) devono essere confrontati con la distribuzione della normale standardizzata. Da questo grafico possiamo vedere
come f(z) sia la funzione di densità di probabilità di z. Rifiutare l’ipotesi nulla quando è vera è un errore grave, quindi di
solito manteniamo alpha molto basso (0,05 o 0,01). Quando abbiamo una normale standardizzata i valori si conoscono
abbastanza bene perché se poniamo un livello di alpha uguale a 0.05 allora z di 0.05 sappiamo essere uguale a 1.96; se alpha
è uguale a 0.01 sappiamo che il quantile corrispondente, z di 0.01 è uguale a 2.58.

Se z(b1) assume valori inferiori o superiori a z alpha, ci collochiamo nella zona di rifiuto H0. Se si colloca all’interno
dell’intervallo – z alpha e + z alpha saremo nella zona di accettazione di H 0. La ragione che sottostà a questo ragionamento
è che questo valore z(b1) è costruito sotto l’ipotesi nulla che Beta1 sia uguale a 0. Se questo è vero e vengono assunti valori
molto alti o molto bassi, c’è una bassa probabilità che si verifichi questo valore, se vale l’ipotesi nulla. Al contrario, quando
i valori sono molto prossimi allo zero, c’è un’elevata probabilità che si verifichi questo valore, se vale l’ipotesi nulla.
Dipende tutto dal valore fissato per Beta1 nell’ipotesi nulla. Se i valori che otteniamo sono molto alti o molto bassi, la
probabilità che questo si verifichi se vale l’ipotesi nulla è molto bassa (area rossa) e in quel caso rifiutiamo l’ipotesi nulla.
Quando troviamo valori all’interno dell’intervallo accettiamo l’ipotesi nulla.

Se siamo nel caso di piccoli campioni con n < 30, affinché possiamo assumere che lo stimatore standardizzato segue una
particolare distribuzione t di student, è necessario che gli errori si distribuiscano normalmente. Senza questa assunzione,
non possiamo neanche fare la verifica dell’ipotesi. Si deve anche assumere che la varianza dei residui (forse varianza residua
→ varianza degli errori) sia ignota, affinché valga questo risultato teorico. La distribuzione di riferimento non è più la
normale, ma la t di student, che dipende dai gradi di libertà e dal numero di osservazioni del campione. L’intervallo non
sarà più fisso, ma dipende da n (enne piccolo) e dobbiamo andare a consultare la tabella della normale standardizzata.

Quindi dovremmo guardare ad alpha nella tabella t di student. I limiti dell’intervallo vengono dati all’interno della tabella in
corrispondenza dei gradi di libertà. 2.228 sarà il valore t alpha (non più zeta alpha visto che abbiamo un’altra distribuzione,
diversa dalla normale) se i gradi di libertà sono, ad esempio, 10 e alpha 0.05.

Partendo sempre dalla stessa ipotesi nulla, quindi che non vi sia una relazione lineare tra le due variabili x e y, ipotizziamo,
in questo caso, che l’ipotesi alternativa sia di tipo unilaterale destro: ipotizziamo che esista una relazione lineare tra le due
variabili, però di tipo diretto, esiste dunque una relazione lineare diretta tra x e y (all’aumentare di x aumenta y) se vale
l’ipotesi alternativa. La statistica test è sempre quella, calcoliamo sempre z(b 1), quello che cambia è la fissazione della zona
di accettazione e di rifiuto in relazione al livello di significatività. Ci muoviamo nell’ambito dei piccoli campioni. Ora
prendiamo f(t) che è la funzione di densità di probabilità della t di student, fissiamo alpha (livello di significatività del test) e
poi se siamo interessati alla relazione diretta vuol dire che vogliamo concentrare la nostra attenzione sulla coda di destra
della distribuzione.

Qui si ipotizza l’esistenza di una relazione lineare diretta significativa. Rifiutiamo l’ipotesi nulla che non esista, quindi c’è.
Nel caso, invece, di ipotesi alternativa unilaterale sinistra siamo interessati a sapere cosa succede nella coda sinistra della
distribuzione, una relazione lineare inversa tra x e y.
Ragioneremo sulla coda di sinistra invece che su quella di destra. Il valore di alpha nella coda sinistra sarà dato da -t 2
alpha. La zona rossa (da t [2alpha] verso sinistra) sarà la zona di rifiuto di H0 → esiste una relazione inversa tra x e y.

Questo è un esercizio di esempio della calibrazione del prezzo. Abbiamo stimato


b0 e b1 con il metodo dei minimi quadrati. È chiaro che ci sono degli esempi
economici in cui ci sono delle leggi economiche che legano, in base alla teoria,
due variabili in maniera netta (ad esempio la relazione tra prezzo e quantità
vendute → se aumenta il prezzo le vendite diminuiscono). Tra il prezzo e il
numero di confezioni vendute esiste sempre una relazione inversa, per cui in
questo caso l’ipotesi nulla è che Beta1 sia uguale a zero e non vi sia una relazione
lineare tra prezzo e unità vendute a livello di universo. H1, l’ipotesi alternativa,
sarà dunque unilaterale sinistra. Siamo interessati a vedere se c’è una relazione
lineare inversa, che sappiamo essere l’unica che può esistere tra prezzo e confezioni vendute. Quindi impostiamo
un’ipotesi alternativa in maniera unilaterale sinistra. ESAME: potrebbe chiedere di impostare l’ipotesi (bilaterale,
unilaterale dx o sx) in base alla logica sottostante al problema. Qualunque sia la forma dell’ipotesi, per calcolare z(b 1)
eseguiamo i passaggi che si vedono nella foto sopra.

Alpha (livello di significatività), in questo esercizio, è uguale a 0.05. Per trovare la soglia che distingua la zona di
accettazione da quella di rifiuto, intanto dobbiamo ragionare sulla coda sx della distribuzione, perché l’ipotesi alternativa è
unilaterale sx. Il numero di gdl dipende dalla numerosità del campione → sappiamo che il numero di supermercati è uguale
a 20 (quelli sui quali abbiamo effettuato l’indagine) → gdl= 20-2. Andiamo sulla t di student, prendiamo la colonna
corrispondente ad alpha 0.10 e incrociarla con la riga 18, che indica appunto i 18 gdl. Il valore corrispondente t (2 alpha)
→ t (0.10) sarà 1.734. la nostra zona di accettazione sarà data da tutti i valori superiori a – 1.734 (meno 1.734).

Abbiamo trovato un -5.11 (valore della statistica test) che è un valore inferiore a -1.734 e ci troviamo nella coda sx, nella
zona di rifiuto → rifiutiamo l’ipotesi nulla e accettiamo l’ipotesi alternativa → esiste una relazione lineare inversa tra il
prezzo e il numero di confezioni vendute, non più nel solo campione, ma a livello di popolazione con un livello di
significatività del 5%. Dobbiamo sempre prendere il valore di z(b1) e confrontarlo con H1. Caso di confronto con H1
bilaterale → se z(b1) è inferiore a – t(alpha) o superiore a + t (alpha) rifiuto H0 → Beta1 è statisticamente significativo (a
livello alpha). Se è contenuta tra – e + t alpha ovviamente accetto H0.

La calibrazione del prezzo, in senso economico, è proprio un problema di stima dell’elasticità della domanda. Per vedere se
c’è elasticità significativa dobbiamo impostare il test e, se troviamo dei valori della statistica test nella zona di rifiuto di H 0,
diciamo che c’è una elasticità significativa della domanda al prezzo (esiste una risposta negativa della domanda al prezzo).

Dobbiamo quindi vedere se la statistica test è esterna all’intervallo. Se prendiamo il caso di ipotesi alternativa unilaterale
destra, in questo caso dobbiamo guardare se z(b1) è maggiore di +t(2alpha) allora in questo caso se accade questo,
rifiutiamo l’ipotesi nulla H0 e quindi Beta1 è statisticamente maggiore di 0 in maniera statisticamente significativa ad un
livello alpha.
Prendiamo l’ultimo caso di ipotesi alternativa unilaterale sinistra, e se z(b1) è minore di – t(2alpha) rifiuto H0 e Beta1, quindi,
è statisticamente minore di zero, a livello alpha.

Valutare la bontà di adattamento di un modello di regressione, significa vedere quanto bene la retta di regressione interpola
i dati. Quanto bene la retta si accosta rispetto ai dati osservati.

Immaginiamo una relazione lineare diretta perfetta tra la variabile esplicativa e la variabile dipendente, questo significa che
tutti i punti si collocano su una retta. Quindi, quando interpoliamo una retta, in questo caso, basta trovare quella retta che
si sovrappone perfettamente ai punti osservati. Se andassimo a guardare i residui, i valori osservati e teorici sono uguali, i
residui saranno uguali a zero e si parla di “adattamento perfetto del modello ai dati”. I residui sono, dunque, cruciali per
costruire questo indicatore di bontà di adattamento. Più sono bassi migliore sarà l’adattamento e viceversa.

Un indicatore è sicuramente la somma dei quadrati dei residui. Più è alta peggiore sarà l’adattamento. Non possiamo usare
la somma dei residui perché questa dà sempre 0. Una delle proprietà dei residui è proprio che la loro somma dà sempre 0,
quindi la somma dei quadrati è uno dei primi indicatori a cui pensiamo, ma risente del livello di grandezza delle variabili e
delle unità di misura in cui sono espresse, quindi non è molto utile per i confronti. Un indicatore alternativo deriva dalla
scomposizione della devianza di regressione. Noi abbiamo un risultato teorico che ci dice che la devianza della variabile
dipendente (y) è uguale alla devianza calcolata sui valori teorici (y cappello) + la devianza residua. Questo vale sempre, per
qualsiasi modello di regressione.

Dovremmo trovare un indicatore che si basi su questa scomposizione e che assuma un valore molto alta quando la
devianza residua è molto piccola e un valore basso quando la devianza residua è molto alta. Questo indice è R2, dato dal
rapporto tra la devianza di regressione e la devianza della variabile dipendente che non è altro che il complemento ad uno
del rapporto tra devianza residua e totale della variabile dipendente. È un buon indicatore della bontà di adattamento
perché se la devianza residua è zero (adattamento perfetto) l’indicatore sarà uguale a 1. Più la devianza residua aumenta più
l’indicatore tenderà a zero e peggiore sarà l’adattamento.

11/12/2020

ESERCIZI SULLA REGRESSIONE


Abbiamo detto che, per valutare la bontà d’adattamento del modello ai dati, dobbiamo partire dalla considerazione
sull’impatto dei residui, ovvero vedere quanto le osservazioni della variabile x si discostano dai valori teorici sulla retta di
regressione. Quando questi due valori coincidono, abbiamo un adattamento lineare perfetto e i residui sono pari a 0. Nelle
situazioni reali ci possono essere diversi livelli di bontà che devono, in qualche modo, essere sintetizzati. Si può partire
dalla somma dei quadrati dei residui, una misura di adattamento, la cosiddetta devianza residua (DEV(E)). Abbiamo
bisogno di fare un passaggio ulteriore, ovvero la scomposizione della devianza di Y. Sappiamo che la devianza della
variabile dipendente y è data dalla somma tra la devianza dei valori teorici di y e la varianza residua.

A partire da questa scomposizione, possiamo costruire l’indice di determinazione lineare, solitamente indicato col
simbolo delta o con R2, che è dato dal rapporto tra la devianza di regressione e la devianza totale. Più la devianza di E è
alta, minore sarà la devianza di regressione, quella spiegata dalla retta di regressione, e peggiore sarà l’adattamento. Più
piccola è la devianza residua, maggiore sarà la quota della devianza spiegata dalla retta di regressione e migliore sarà
l’adattamento. Si ha un caso limite quando i residui (DEV(E)) sono uguali a 0 e delta assume valore 1, in quel caso tutta la
variabilità della y viene spiegata dalla retta di regressione. Nel caso opposto, quando la devianza di regressione è uguale a 0,
tutta la devianza è spiegata dai residui e il modello di regressione non spiega nulla. In questo caso, si parla di adattamento
nullo del modello di regressione rispetto ai dati. Nella maggior parte dei casi ci si collocherà in una situazione intermedia,
trovando valori che vanno da 0 ad 1. Più delta si avvicina ad 1, migliore sarà l’adattamento. Ad esempio, delta uguale a 0,9
significa che il modello di regressione lineare spiega il 90 % della variabilità della variabile dipendente y.

Se xi è uguale a 10, abbiamo che il fatturato teorico, che deriva dalla formula sopra, sarà 1,81. La differenza tra y osservato
e y teorico restituisce il residuo, che poi si eleva al quadrato, ottenendo un valore pari a 0.008. Ci serve il valore della
devianza di regressione nella penultima colonna. Sommando tutti gli scostamenti al quadrato otteniamo la devianza di
regressione (13.201). In questo esempio, il modello di regressione spiega il 92,4 % della variabilità della variabile
dipendente Y che, in questo caso, è il fatturato. Nel modello di regressione semplice in cui abbiamo una sola variabile
esplicativa x esiste una particolare relazione tra il coefficiente di determinazione e il coefficiente di correlazione lineare, tale
per cui questi due valori sono uguali.
Questa relazione esiste solamente nel caso di modello di regressione lineare semplice, ovvero in cui abbiamo una sola
variabile esplicativa. L’estrapolazione è una delle applicazioni del modello di regressione, che consiste nello sfruttare la
capacità previsionale del modello di regressione. Possiamo determinare il valore teorico che assumerà la variabile
dipendente nel caso in cui facessimo un’assunzione sul valore della variabile esplicativa. Affinché si possa fare questo
esercizio di estrapolazione, sono necessarie alcune condizioni:

• che la retta di regressione abbia un buon adattamento sui dati utilizzati per stimare i parametri. Questi si ha
se delta ha un valore che spiega una buona quota della variabilità della variabile dipendente, il più possibile
prossimo a 1.
• il valore noto della variabile esplicativa non sia lontano rispetto ai valori utilizzati nel calcolo della retta.

ESERCIZIO 1

All’esame, un esercizio di questo tipo in modalità integrale non verrà mai dato. In questo esercizio, abbiamo dal 2005 al
2013 dei dati riferiti a due variabili per ciascuna delle due aziende. Si chiede di costruire i grafici di dispersione,
considerando come variabile esplicativa la spesa in pubblicità e come variabile dipendente il fatturato. Ci si può aspettare
che all’aumentare delle spese in pubblicità, a parità di altre condizioni, aumenti anche il fatturato. Se vogliamo confrontare
l’andamento delle variabili su due realtà diverse, per fare un confronto adeguato, dobbiamo stabilire delle scale (quelle
presenti sugli assi) che devono essere uguali per entrambe le realtà, che in questo caso sono costituite dalle aziende. Se
utilizziamo questo accorgimento, abbiamo già indicazioni abbastanza precise sul confronto tra le due aziende per quanto
riguarda la relazione esistente tra spesa in pubblicità e fatturato. Si può, infatti, vedere come vi sia una relazione diretta in
entrambe le aziende, sicuramente, però, la pendenza della retta per l’azienda B dovrà essere molto più alta rispetto alla
pendenza della retta per l’azienda A. Questo significa che la reazione del fatturato alla spesa per pubblicità è molto più
forte per l’azienda B, questa, infatti, ottiene una produttività più elevata dell’azienda A. Al secondo punto dell’esercizio
viene chiesto di determinare il coefficiente di correlazione lineare per entrambe le aziende. La formula è questa:

Intanto calcoliamo il valore medio delle due variabili (pubblicità sia per A che per B).
L’azienda A ha una spesa maggiore di B, ma il fatturato di B è maggiore del fatturato di A. Al numeratore di r xy troveremo
la codevianza. Per l’azienda A, il coefficiente di correlazione lineare ha segno positivo ed è pari a 0.9787, quindi, come ci
aspettavamo, c’è una relazione diretta tra spesa e fatturato e la relazione è quasi perfetta. Per l’azienda B, il coefficiente è un
po’ più basso rispetto al coefficiente di A, quindi la relazione è meno forte tra le due variabili.

Adesso stimiamo b0 e b1 per le due aziende:

Per calcolare il coefficiente di regressione beta1, usiamo il suo stimatore dei minimi quadrati b1 e otteniamo un valore che è
dato dal rapporto tra la covarianza e la varianza della variabile esplicativa. Sulla base dei dati appena visti, la retta di
regressione stimata per l’azienda A è data dalla formula nella foto centrale. Se mettiamo il valore osservato (yi), dobbiamo
aggiungere il residuo (ei) nella formula, se mettiamo il valore teorico (yi cappello), il residuo non si deve mettere.
Per quanto riguarda l’azienda B, invece, la retta di regressione stimata avrà la forma che si vede nella foto a destra.
Abbiamo detto che b0 è la stima dell’intercetta all’origine, mentre b1 è la stima del coefficiente di regressione, che comunica
la pendenza della retta. Dal punto di vista economico, il valore di b0 dice quanto vale la variabile dipendente quando la
variabile esplicativa assume valore uguale a 0. Quindi 39070 è il fatturato che ci attenderemmo dal punto di vista teorico, se
l’azienda non investisse soldi in pubblicità, mentre 2,62 ci comunica l’incremento teorico del fatturato a seguito di un
incremento unitario in spese per pubblicità. Per quanto riguarda l’azienda B, dal punto di vista economico, si può dire che,
se le spese pubblicitarie in B fossero pari a 0, ci aspetteremmo un fatturato di 17556, mentre a seguito di un incremento
unitario in spese per pubblicità, otterremmo un incremento teorico del fatturato pari a 24.18€.
La differenza tra le due aziende è data soprattutto dal coefficiente stimato di regressione, un’inclinazione molto più alta per
la seconda azienda e una produttività maggiore sempre nella seconda azienda.
I valori teorici si calcolano prendendo i valori che abbiamo stimato all’inizio (39069.76 e 2.62) e moltiplicando questi per le
spese in pubblicità associate ad un determinato anno (sostituendo il valore della spesa di anno in anno al posto
dell’incognita). In questo modo, troviamo gli y con i cappello per tutti gli anni. La differenza tra i valori osservati e i valori
teorici restituisce i residui, che troviamo nell’ultima colonna di queste tabelle in giallo. Veniva anche chiesto di dire quale
fatturato si prevede di avere nel 2014. I dati a nostra disposizione arrivano fino al 2013, però, avendo i valori della spesa
per entrambe le aziende possiamo e dobbiamo fare un’operazione di ESTRAPOLAZIONE. Utilizzando il modello di
regressione stimato, il fatturato assumerà un determinato valore (valori in giallo sotto “fatturato previsto nel 2014”).

Unendo i punti rossi troviamo la retta di regressione. Per rappresentare i residui, invece, si devono unire i puntini blu ai
puntini rossi tracciando segmenti perpendicolari all’asse delle ascisse (NON perpendicolari alla retta di regressione).

Al punto 5 viene chiesto di valutare la significatività statistica, ipotizzando di adottare una ipotesi alternativa H1 bilaterale,
quindi, nel nostro caso, avremo quanto si può vedere dalla foto a destra (qui sopra). Nel caso di ipotesi alternativa
bilaterale, devo prendere il valore del quantile tale per cui la probabilità sottesa dalla curva a destra del valore positivo del
quantile e a sinistra del valore negativo del quantile sia pari ad alpha/2. Nel caso di 7 gradi di libertà (9 osservazioni) ed
alpha pari a 0.05, allora il quantile corrispondente sarà 2.365 (questo valore si deve cercare nella tabella della t di student), il
valore che utilizzeremo per vedere se la t statistica si colloca all’interno dell’intervallo e per valutare se accettiamo o meno
l’ipotesi nulla.
Dai valori di t vediamo come, nel caso dell’azienda A, siamo nella zona di rifiuto dell’ipotesi nulla. Beta 1, dunque, è
statisticamente diverso da 0 e significativo. Per l’azienda B, anche in questo caso, siamo in una zona molto a destra rispetto
a +2.365, zona di rifiuto dell’ipotesi nulla, il coefficiente di regressione è statisticamente diverso da 0 e significativo.

Punto 6. Applichiamo la formula per calcolare R2. I dati li troviamo nelle tabelle precedenti. Gli stessi valori di R2 possiamo
ottenerli facendo il quadrato dei coefficienti di correlazione di entrambe le aziende trovati precedentemente.

L’adattamento è sicuramente migliore per l’azienda A, perché il modello di regressione spiega circa il 96% della variabilità
del fatturato, mentre il modello di regressione lineare semplice in cui le spese sono la variabile esplicativa spiegano l’85,5%
della variabilità del fatturato per l’azienda B.

ESERCIZIO 2

Ci aspettiamo che all’aumentare dell’età aumenti anche la % di


difettosità. Viene chiesto di calcolare la funzione di regressione
che lega la variabile difettosità y (variabile dipendente) all’età
delle macchine (variabile esplicativa) → la difettosità dipende
dall’età delle macchine. Dobbiamo stimare, dunque, i
coefficienti beta0 e beta1 che legano l’età alla difettosità.

Per quanto riguarda la covarianza, in questa circostanza conosciamo R2, ma considerato che questo è il quadrato del
coefficiente di correlazione se mettiamo sotto radice il coefficiente di determinazione (R2) possiamo trovare il coefficiente
di correlazione (rxy).

Sappiamo anche che il coefficiente di correlazione (rxy) è dato dal rapporto tra la covarianza e la radice quadrata del
prodotto delle due varianze. Queste ultime le conosciamo, per cui possiamo anche ottenere la covarianza moltiplicando il
coefficiente di correlazione per la radice quadrata del rapporto tra le due varianze. A questo punto, possiamo scrivere che
la covarianza è pari a 12.23 e che la varianza di x è 170.86/7 nella formula di b 1.
Calcoliamo anche il valore di b0:
Il tasso di difettosità % atteso per una nuova macchina (età 0) sarà lo 0.2%, mentre 0.501 è la pendenza della retta di
regressione e ci comunica che all’aumentare di un anno dell’età del macchinario ci aspettiamo un incremento teorico del
tasso di difettosità teorico pari a 0.501%.

Punto 3. Sappiamo che c’è una relazione diretta tra le due variabili, quindi possiamo mettere come ipotesi alternativa che
beta1 (che sarà unilaterale destra) sia maggiore di 0. In questo caso, il test avrà una struttura di questo tipo (foto sotto a
sinistra). Ci concentreremo sulla parte della coda evidenziata in nero e, per trovare il quantile che ci consente di distinguere
la zona di accettazione da quella di rifiuto, dovremo prendere quel quantile tale per cui nella coda rimanga lo 0.05, quindi il
quantile dovrà essere t (2 alpha) ovvero t (0.10). I gdl sono 5 (7-2), nella tabella dovremo prendere il quantile di incrocio tra
5 gdl e alpha uguale a 0.1 (2x0.05). Rifiuteremo l’ipotesi nulla se la t statistica è superiore a 2.015.

La t che abbiamo trovato (12.25856) è molto superiore a 2.015, quindi diciamo rifiutiamo l’ipotesi nulla e diciamo che il
coefficiente di regressione è statisticamente maggiore di 0.

All’ultimo punto viene chiesto di effettuare l’operazione di estrapolazione. Sapendo che abbiamo una macchina con 4 anni
di età si vuole sapere il tasso di difettosità atteso. Possiamo estrapolare il tasso di difettosità per una macchina con 4 anni di
età tramite la retta di regressione, mettendo 4 al posto di xi.
ESERCIZIO 3

Al primo punto viene chiesta la relazione lineare esistente tra le due variabili, quindi dovremo calcolare il coefficiente di
regressione. Più aumentiamo i contatti (variabile x) più ci si aspetta un aumento negli ordini. Calcoliamo il numero di
contatti medio e il numero di ordini medio. C’è una relazione lineare diretta tra le due variabili ed è pari al 74.6% (rxy) del
valore massimo assumibile nel caso di perfetta relazione lineare diretta tra le due variabili.

Dal punto di vista geometrico, il valore 108.87 è l’intercetta all’origine e 0.494 è la pendenza della retta (positiva). Nel
momento in cui non ci sono contatti (contatti uguali a 0), ci aspettiamo 108.87 ordini, mentre a seguito dell’incremento di
un contatto ci aspettiamo un incremento di ordine pari a 0.494.
Al punto 3 viene chiesto di calcolare l’intervallo di confidenza. Il coefficiente di determinazione possiamo trovarlo dal
quadrato del coefficiente di correlazione (0.557) → l’adattamento non è il massimo perché il numero di contatti spiega
solamente il 55.7 % della variabilità del numero di ordini. L’intervallo trovato è molto ampio e difficilmente darà elementi
per valutare il vero legame tra il numero di ordini e il numero di contatti.

Potrebbero piacerti anche