Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Introduzione
Le ricerche di mercato
Il campionamento
estrazione con ripetizione, ogni volta viene reintrodotta l’unità già estratta
dalla popolazione;
estrazione senza ripetizione, tutte le unità già selezionate non possono più
essere estratte.
Metodi di campionamento
2
Metodi quantitativi
Gli aspetti principali che influenzano la dimensione del campione sono: il costo e il
tempo della raccolta dei dati elementari e il livello di accuratezza delle stime, e cioè
la variabilità dei caratteri investigati nella popolazione target, gli errori di
3
Metodi quantitativi
Tipologie di dat
La statstca descrittiva
4
Metodi quantitativi
5
Metodi quantitativi
La media è la misura di tendenza centrale più comune ed è uguale alla somma dei
valori diviso il numero dei valori. Essa risulta influenzata da valori estremi (outlier).
La mediana è in una lista ordinata il valore centrale (50% sopra e 50% sotto) e quindi
non risulta influenzata da valori estremi. La moda è il valore che occorre più
frequentemente, non è influenzata da valori estremi ed è usata sia per dati numerici
che per dati categorici. Può non esserci una moda e può esserci più di una moda.
6
Metodi quantitativi
Alcune volte è opportuno studiare le relazioni tra due variabili per evidenziare
meglio le caratteristiche del fenomeno indagato. Le tecniche di statistica descrittiva
si differenziano a seconda del livello di misura delle variabili incrociate. Se la
relazione indagata è tra variabili entrambe qualitative si utilizzano le tavole di
contingenza o a doppia entrata (Crosstabulation Analysis); se si utilizzano due
variabili entrambe quantitative si usa l’analisi di correlazione lineare; se si incrociano
una variabile quantitativa con una qualitativa si conduce un confronto fra le medie.
Crosstabulation Analysis
Questa analisi si basa sulle tabelle a doppia entrata. I valori interni alla tabella
prendono il nome di frequenze assolute congiunte e la somma di tali frequenze è
pari al valore N dei casi osservati. Dalla tabella si possono ricavare le distribuzioni
7
Metodi quantitativi
statistiche all’analisi del grado di linearità della relazione stessa. In questo senso, il
valore della covarianza, trattandosi di un indice assoluto, da solo non fornisce
indicazioni sull’applicabilità del modello lineare. Risulta perciò utile definire il
seguente indice relativo, detto correlazione lineare ρ xy=cov (X,Y)/σxσy, che può
essere compreso tra -1 e 1. Il coefficiente di correlazione lineare vale 1 se e solo se Y
è funzione lineare di X e viceversa; in questo caso la retta è inclinata positivamente e
c’è perfetta dipendenza lineare positiva. Vale -1 se c’è perfetta dipendenza lineare
negativa e in questo caso la retta è inclinata negativamente. Se X e Y sono
statisticamente indipendenti allora cov(X,Y)=0 e perciò anche ρ xy=0 e quindi non c’è
relazione lineare tra X e Y.
Per incrociare una variabile qualitativa con una qualitativa, la relazione può essere
descritta confrontando le medie della variabile numerica all’interno delle categorie
definite dalla variabile misurata a livello nominale o ordinale. Un indice sintetico
dell’intensità della relazione si basa sulla scomposizione della varianza (ANOVA:
Analysis of Variance)per la variabile quantitativa Y, di cui viene studiata la
dipendenza nei confronti della variabile categorica X. La variabilità totale di Y (SQT y)
è uguale alla variabilità tra i gruppi (SQtra) più la variabilità nei gruppi (SQnei). La
somma dei quadrati tra i gruppi esprime quanta variabilità di Y può essere legata al
variare delle categorie di X, mentre la somma dei quadrati nei gruppi esprime la
variabilità nell’andamento di Y indipendente da X. Si calcola così un indice relativo η 2
il cui valore è compreso tra 0 ed 1; si avvicina ad 1 quanto più forte è il legame tra le
due variabili considerate η2= SQtra/SQTy . Se η2=0 c’è indipendenza in media, se
η2>0 c’è dipendenza in media, se η2=1 c’è massima dipendenza media.
problema in oggetto, dette ipotesi nulla (H 0) e ipotesi alternativa (H1) che non
possono risultare vere allo stesso tempo. L’obiettivo della teoria dei test è utilizzare
informazioni empiriche per decidere a favore di una delle due ipotesi. Questo
processo decisionale è soggetto a due tipologie di errori: rifiutare l’ipotesi nulla
quando essa è vera (errore di 1° tipo) e accettare l’ipotesi nulla quando essa è falsa
(errore di 2°tipo) .La probabilità d’errore di primo tipo è α, chiamato livello di
significatività del test, fissato a priori dal ricercatore (di solito può essere 0.05, 0.01).
La probabilità d’errore di 2° tipo è β, ed (1-β) è chiamato potenza del test.
ACCETTO H0 RIFIUTO H0
H0 vera No errore (prob 1-α) Errore 1° tipo (prob α)
H0 falsa Errore 2°tipo (prob β) No errore (prob 1-β)
Dal punto di vista dell’inferenza statistica, per ogni problema decisionale esiste una
procedura di verifica di ipotesi ottimale basata su una funzione degli elementi del
campione, detta statistica test, e sulla distribuzione di probabilità della statistica test
stessa. Fissando un livello di significatività si ottiene una partizione dell’insieme dei
valori possibili in due regioni, dette di accettazione e di rifiuto dell’ipotesi nulla. Se il
valore campionario della statistica test si trova nella regione di accettazione, la scelta
del ricercatore cade nell’ipotesi nulla, in caso contrario nell’ipotesi alternativa. Dal
punto di vista operativo, la procedura più comune per condurre un test di ipotesi
prevede l’uso del p-value che rappresenta la probabilità che H 0 sia vera in base al
valore osservato dalla statistica test. Se tale statistica cade nella regione di rifiuto
dell’ipotesi nulla, il p-value risulterà inferiore al livello di significatività fissato (se p-
value<α rifiuto H0); se tale statistica cade nella regione di accettazione, il p-value
risulterà superiore al livello di significatività prescelto. I test si definiscono a una coda
quando la regione di rifiuto cade in una sola coda della distribuzione, e a due code se
cade in entrambe le code della distribuzione.
Test F per la verifica di ipotesi sulla differenza fra le medie: la scomposizione della
varianza è utile per introdurre un test di significatività in cui:
H0=μ1= μ2=… μn
Almeno due μ diverse tra loro
La selezione dei regressori può basarsi su: valutazioni soggettive, confronto tra tutti i
possibili modelli, algoritmi di selezione automatica. La procedura di calcolo
automatico seleziona il sottoinsieme di variabili ottimo tra quelli possibili:
12
Metodi quantitativi
Dalla formula generale si ricava che, essendo ε i una variabile casuale, anche Yi è una
variabile casuale e pertanto la sua relazione con le variabili esplicative non è
deterministica: per ogni xi fissato, il valore yi corrispondente si posizionerà in modo
casuale intorno alla sua media.
È funzione di Y ed X
Ha media E(ββLS)=β
Ha varianza Var(ββLS)=(X!X)-1σ2
Non distorto
Consistente
Coincide con lo stimatore di massima verosimiglianza sotto Hp forti
Uno dei punti nodali dell’analisi di regressione è comprendere quanto siano influenti
le variabili esplicative nel determinare l’andamento della dipendente, cioè quanta
13
Metodi quantitativi
parte della variabilità di Y sia colta dalla variazione delle variabili esplicative X. Si
consideri la variabilità delle osservazioni yi intorno alla sua media data da ∑(yi-ȳ)2.
Tale quantità viene detta somma totale dei quadrati ed è indicata con SST (total sum
of squares). L’idea è scomporre SST in due parti: la prima misura la variabilità dei
valori stimati yi intorno alla media ȳ ed è detta somma dei quadrati dovuta alla
regressione (SSM, model sum of squares). La parte rimanente, detta somma dei
quadrati dovuta all’errore (SSE, error sum of squares), misura la variabilità delle
osservazioni intorno ai valori stimati, ovvero la parte di variabilità non spiegata dal
modello. SST= ∑(yi - ȳ)2 SSM= ∑(yi - ȳ)2 SSE= ∑(yi-yi)2 SSTO=SSR+SSE
14
Metodi quantitativi
Leverage H: misura quanto un’osservazione è lontana dal centro dei dati (ma
tende a segnalare troppe osservazioni influenti e tratta tutti i regressori nello
[diag( H )]i =[diag( X ( X ' X )−1 X ' )]i
stesso modo). L’osservazione è influente se lev H>2*(p+1)/n.
(Leverage alto per i-esima ossà la correlazione tra Yi e il suo valore previsto è
quasi 1àYi ha forte influenza sulla stima del valore previsto. Se il valore è
piccolo vuol dire che ci sono tante oss che contribuiscono alla stima del valore
previsto. Un’oss con alto leverage fa spostare di tanto la retta stimata).
15
Metodi quantitativi
In conclusione, per verificare la bontà delle stime utilizziamo i test statistici; per
l’adattamento del modello ai dati usiamo gli indicatori di performance e l’analisi dei
residui; per l’impatto delle singole osservazioni usiamo l’analisi degli outliers e
l’analisi di influenza; per l’impatto dei regressori usiamo la valutazione dei
coefficienti e correlazioni parziali.
L’analisi fattoriale
L’Analisi Fattoriale è una tecnica statistica multivariata per l’analisi delle correlazioni
esistenti tra variabili quantitative. A partire da una matrice di dati : X(nxp), con “n”
osservazioni e “p” variabili originarie, consente di sintetizzare l’informazione in un
set ridotto di variabili trasformate (le componenti/i fattori latenti). Quindi
quest’analisi studia le interrelazioni tra variabili di dimensione minore rispetto a
quelle originarie, al fine di trovarne una sintesi che esprima ciò che è in comune tra
le variabili stesse. Tale sintesi viene fatta perché se l’informazione è condivisa tra più
variabili correlate tra loro è ridondante utilizzarle tutte, e perché si facilitano le
successive analisi. Per estrarre i fattori e quindi stimare dei coefficienti (i LOADINGS),
uno dei metodi possibili è il Metodo delle Component Principali. Alla matrice dei
dati X (nxp) possono essere associate p nuove variabili (componenti principali),
ottenute come combinazioni lineari della variabili originali, mentre le componenti
non sono correlate tra loro e apportano quindi un contenuto differenziato.
La rotazione opera sulla matrice dei loadings ed esistono diversi metodi per
effettuarla:
18