Sei sulla pagina 1di 18

Metodi quantitativi

Introduzione

La business intelligence è l’insieme delle competenze, conoscenze e tecnologie che si


usano per acquisire al meglio le informazioni sul comportamento di mercato e sul
contesto commerciale. Essa perciò si impegna nella collezione, integrazione, analisi e
presentazione di informazioni del business fornendo così visioni storiche, presenti e
future delle operazioni ad esso relative. Essa utilizza dati interni e dati esterni
all’impresa. I primi sono numerosissimi e fanno riferimento al Data Warehousing, al
Data Mining e customer profiling; i secondi comprendono i database pubblici e
privati e le ricerche di mercato.

Le ricerche di mercato

Le ricerche di mercato possono essere qualitative e quantitative. Le ricerche


qualitative hanno l’obiettivo di approfondire la conoscenza di un fenomeno di
mercato attraverso la raccolta e l’analisi di dati qualitativi destrutturati. Le ricerche
quantitative hanno l’obiettivo di misurare un fenomeno attraverso la raccolta e
l’analisi di dati quantitativi e/o qualitativi strutturati. L’esecuzione di una ricerca di
mercato può essere schematizzata in quattro fasi: fieldwork, che consiste nella
raccolta di dati elementari, trattamento elementare dei dati raccolti, analisi dei dati e
presentazione dei risultati. Nell’ambito del fieldwork possiamo distinguere tra
sondaggio e questionario. Il sondaggio è assimilabile ad un’intervista individuale
veicolata su un campione di una popolazione. L’intervista ha forma strutturata, ci
sono poche domande aperte e molte domande chiuse e presenta diverse modalità di
contatto. Esso è diretto se l’intervistato conosce il vero scopo del sondaggio, in caso
contrario è indiretto. Il sondaggio è il più importante metodo di indagini quantitative
nelle ricerche. Il questionario è invece il format con cui si raccolgono dati qualitativi
strutturati e/o dati quantitativi e viene costruito attraverso il disegno del suo schema
concettuale, la redazione e la verifica. Le domande devono essere uguali per tutti gli
intervistati, e non devono lasciare spazio ad interpretazioni soggettive. Le
informazioni contenute riguardano dati personali, culturali, sociali, comportamentali,
scale di soddisfazione. Le domande qualitative devono avere un range definito di
risposte e non devono essere aperte, quelle quantitative devono essere almeno 30-
40 e non ambigue. Alla fine si ottiene una matrice di dati in cui ogni riga rappresenta
un questionario o un consumatore (unità statistica) e ogni colonna rappresenta una
risposta (variabile). Questa matrice rappresenta l’input per l’analisi.
1
Metodi quantitativi

Il campionamento

Il fine di un’indagine campionaria è generalizzare i risultati ottenuti sul campione


all’intera popolazione di riferimento. Il problema di tale approccio consiste
nell’approssimazione con cui è possibile descrivere la popolazione attraverso il
campione. Oggetto di studio di un’indagine campionaria è una popolazione finita
Ω=(1,2…N) le cui unità presentano tutte un medesimo carattere U. Si definisce
campione di dimensione n della popolazione Ω un suo qualsiasi sottoinsieme c
contenente n unità. Per ottenere tale campione si possono estrarre dalla
popolazione n unità secondo due modalità principale:

 estrazione con ripetizione, ogni volta viene reintrodotta l’unità già estratta
dalla popolazione;
 estrazione senza ripetizione, tutte le unità già selezionate non possono più
essere estratte.

Metodi di campionamento

I metodi di campionamento si dividono in probabilistici e non probabilistici. Nei


metodi di campionamento probabilistici ogni unità della popolazione ha una
probabilità nota e diversa da zero di essere selezionata e quindi entrare nel
campione. Essi richiedono un piano di campionamento, cioè un insieme di regole
note a priori per formare il campione. Nei metodi di campionamento non
probabilistici invece la selezione delle unità avviene in base a criteri soggettivi, e la
probabilità di selezione non è nota a priori. Fra i metodi di campionamento
probabilistici abbiamo:

1. campionamento casuale semplice: a ogni estrazione un elemento della


popolazione ha la stessa probabilità di essere selezionato, secondo un
meccanismo che garantisce la casualità delle estrazioni. La probabilità di
estrazione è 1/N se il campionamento è con ripetizione, 1/N * (N-
1) * (N-2)*… (N-i+1) se il campionamento è senza ripetizione;
2. campionamento stratificato: si suddivide la popolazione a strati, sulla base di
informazioni suppletive, al cui interno le unità sono omogenee secondo un

2
Metodi quantitativi

criterio. Da ogni strato viene estratto in modo indipendente un campione


casuale;
3. campionamento a grappoli: le unità elementari della popolazione sono
raggruppate in sottoinsiemi di unità contigue di osservazione, dette grappoli.
Data una popolazione viene estratto un certo numero di grappoli, e tutti gli
elementi appartenenti vengono selezionati;
4. campionamento a due o più stadi: data una popolazione le cui unità
elementari sono divise in gruppi, dapprima si seleziona un campione casuale
di gruppi e poi si estrae un certo numero di unità elementari dai gruppi
selezionati. Vi sono allora due livelli di campionamento: al primo vengono
scelti i gruppi, o unità di primo stadio; al secondo vengono scelte le unità
elementari o secondarie;
5. campionamento sistematico: è necessario che le unità siano ordinate secondo
un criterio qualsiasi, solo la prima unità verrà estratta in maniera casuale dalla
popolazione, le altre verranno selezionate in maniera automatica secondo un
criterio prefissato (ad esempio una ogni tre).

Tra i metodi di campionamento non probabilistici abbiamo:

1. campionamento per quote: la popolazione è divisa in gruppi omogenei in base


ad alcune variabili strutturali (sesso, età..). Si individua il numero di
osservazioni da raccogliere in ogni gruppo e gli intervistatori scelgono il
campione all’interno delle classi, in modo da rispettare le proporzioni
prescelte, e hanno totale arbitrarietà nella scelta delle unità da intervistare
nelle quote assegnate;
2. campionamento a scelta ragionata: le unità campionarie sono selezionate solo
in certe aree d’analisi, in base ad informazioni preliminari sulla popolazione
indagata;
3. campionamento per convenienza: la selezione delle unità si basa su elementi
di convenienza temporale, economica o di altro genere.

Dimensione del campione

Gli aspetti principali che influenzano la dimensione del campione sono: il costo e il
tempo della raccolta dei dati elementari e il livello di accuratezza delle stime, e cioè
la variabilità dei caratteri investigati nella popolazione target, gli errori di

3
Metodi quantitativi

campionatura, il tipo di campionatura e la scelta dell’estimatore. Gli estimatori a


varianza uguale a 0 danno la minor percentuale d’errore.

Tipologie di dat

I dati si distinguono in primo luogo in qualitativi e quantitativi. I dati qualitativi sono


di solito espressi in forma verbale e danno origine a classificazioni in categorie (ad
esempio le risposte fornite a domande relative alla professione). I dati quantitativi
sono invece legati a quantità intrinsecamente numeriche (ad esempio il livello di
soddisfazione dei clienti). Tra i dati quantitativi abbiamo quelli discreti, caratterizzati
da una quantità finita o infinita numerabile di classi di misura, e quelli continui, la cui
risposta numerica deriva da un processo di formulazione all’interno di un continuum
(ad esempio il livello di soddisfazione è discreto perché può assumere valori da 1 a 9,
la distanza è un dato continuo perché può assumere qualsiasi valore all’interno di un
continuum). Se i dati qualitativi vengono classificati in varie categorie distinte senza
alcun ordine implicito si ottiene un livello di misurazione nominale (ad esempio: da
dove vieni? 5risposte: nord, sud, est ecc.); se le categorie presentano un ordine
implicito il livello di misurazione risulta ordinale (ad esempio la frequenza di visite,
suddivise nelle classi bassa-medio-alta). La scala ordinale, pur consentendo di
stabilire una relazione d’ordine, non consente alcuna asserzione numerica (cioè si
può dire quale categoria è più grande ma non di quanto). I dati quantitativi possono
prevedere una scala di rapporti o di intervalli: con la scala di rapporti si può dire di
quanto una categoria è più grande di un’altra perché è fissato un valore “0” (scale di
valutazione comparativa); le scale di intervalli presentano le stesse caratteristiche
della precedente tranne lo “0”.

La statstca descrittiva

La statistica descrittiva è l’insieme dei metodi che riguardano la raccolta, la


presentazione e la definizione di un insieme di dati per descriverne le caratteristiche.
La statistica inferenziale è l’insieme dei metodi per stimare una caratteristica della
popolazione basandosi sull’analisi di un campione. Nella statstca descrittiva
univariata ci sono due principali metodologie per rappresentare i dati analizzati:
distribuzione di frequenza e misure di sintesi.

4
Metodi quantitativi

Le distribuzioni di frequenza. La premessa di una qualsiasi analisi statistica


descrittiva è costituita da una procedura di classificazione. Tale procedura consiste
nell’associare ogni osservazione ad una classe di misura. Se interessa un primo livello
di sintesi del carattere si può associare a ciascuna classe di misura il numero di
osservazioni le cui misure appartengono alle classi. Questo numero viene detto
frequenza assoluta. L’insieme delle classi di misura e delle loro frequenze costituisce
una distribuzione di frequenza o variabile statistica. Si definisce frequenza relativa
(espressa in percentuale) della classe, il rapporto tra la frequenza assoluta e il
numero complessivo delle osservazioni effettuate. Essa consente di effettuare
confronti tra le diverse classi di una stessa variabile, o fra le stesse classi di variabili
statistiche. Nel caso di variabili qualitative le distribuzioni di
frequenza possono essere riportate in forma tabellare, riportando accanto alla
modalità la frequenza assoluta e relativa, oppure tramite grafici. Nei diagrammi a
barre verticali, l’asse orizzontale riporta le categorie della variabile qualitativa e l’asse
verticale le frequenze assolute corrispondenti alle varie modalità. Nel caso dei grafici
a torta, la torta è divisa in tante fette quante sono le categorie della variabile
qualitativa considerata, le cui ampiezze sono proporzionali alle frequenze
corrispondenti alla categoria. Ne caso di variabili quantitative, la distribuzione di
frequenza può essere rappresentata anch’essa in forma tabellare oppure tramite
grafici. Nel grafico del diagramma delle frequenze, l’asse orizzontale ha un significato
quantitativo, segnalando i valori assunti dalla variabile discreta; a ciascun valore si
associa un’asta di lunghezza proporzionale alle frequenze relative o assolute del
valore stesso. Se le variabili statistiche sono continue per intervallo si rappresentano
graficamente tramite istogrammi: sull’asse x si riportano le classi d’intervallo
considerate e sopra ogni intervallo si costruisce un rettangolo con area = alla
frequenza relativa della classe stessa. Le altezze dei rettangoli si ottengono dividendo
l’area per l’ampiezza di tale intervallo e prendono il nome di densità di frequenza.

Le misure di sintesi. Le misure di sintesi si dividono in: misure di tendenza centrale


(media aritmetica, mediana e moda), non centrale (quantili e percentili), variabilità o
dispersione (campo di variazione, differenza interquartile, varianza, scarto
quadratico medio e coefficiente di variazione), forma della distribuzione (indice di
Skewness e indice di Kurtosis).

Misure di tendenza centrale

5
Metodi quantitativi

La media è la misura di tendenza centrale più comune ed è uguale alla somma dei
valori diviso il numero dei valori. Essa risulta influenzata da valori estremi (outlier).
La mediana è in una lista ordinata il valore centrale (50% sopra e 50% sotto) e quindi
non risulta influenzata da valori estremi. La moda è il valore che occorre più
frequentemente, non è influenzata da valori estremi ed è usata sia per dati numerici
che per dati categorici. Può non esserci una moda e può esserci più di una moda.

Misure di tendenza non centrale

I quartili dividono la sequenza ordinata di dati in quattro segmenti contenenti lo


stesso numero di valori. Il primo quartile Q1 è il valore per il quale il 25% delle
osservazioni sono minori e il 75% delle osservazioni sono maggiori di esso; Q2
coincide con la mediana in quanto il 50% delle osservazioni sono minori e il 50%
maggiori; Q3 è quel quartile per cui il 25% delle osservazioni sono maggiori e il 75%
minori. Q3-Q1= differenza interquartile.

Misure di variabilità (o dispersione)

Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei


valori. Il campo di variazione è la più semplice misura di variabilità ed è uguale alla
differenza tra il massimo e il minimo dei valori osservati (Campo di variazione= Xmax
– Xmin). Esso ignora il modo in cui i dati sono distribuiti, ed è sensibile agli outlier. La
differenza interquartile serve per eliminare il problema degli outlier, in quanto
elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50%
centrale dei dati, essendo uguale a Q3-Q1. La varianza è la media dei quadrati delle
differenze fra ciascuna osservazione e la media

Lo scarto quadratico medio mostra la variabilità rispetto alla media e ha la stessa


misura dei dati originali. Viene calcolato usando tutti i valori nel set di dati e i valori
più lontani dalla media hanno più peso perché si elevano al quadrato. Il coefficiente
di variazione misura la variabilità relativa rispetto alla media, è sempre espresso in
percentuale e può essere usato per confrontare due o più set di dati con unità di
misura diverse CV= (σ/xmedio)*100. (esempio azione A prezzo medio 50 e scarto
quadratico medio5; azione B prezzo medio100 e scarto quadratico medio 5;
entrambe le azioni hanno lo stesso scarto quadratico medio, ma l’azione B è meno
variabile rispetto al suo prezzo).

Misure di forma della distribuzione

6
Metodi quantitativi

La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate o


distribuite in modo approssimativamente regolare rispetto al centro; si dice
asimmetrica se le informazioni non sono distribuite in modo simmetrico rispetto al
centro. Una distribuzione con asimmetria positiva (obliqua a destra) ha una coda che
si estende verso destra nella direzione dei valori positivi. Una distribuzione con
asimmetria negativa (obliqua a sinistra) ha una coda che si estende verso sinistra
nella direzione dei valori negativi.

Le misure di forma della distribuzione descrivono il modo in cui si distribuiscono i


dati. In una distribu zione simmetrica la media è uguale alla mediana; in una
distribuzione obliqua a destra la media è maggiore della mediana; in una
distribuzione obliqua a sinistra la media è minore della mediana.
L’indice di Skewness informa sul grado di simmetria o asimmetria di una
distribuzione: se Y=0 la distribuzione è simmetrica; se Y<0 c’è asimmetria negativa
(media<mediana); se Y=0 c’è asimmetria positiva (media>mediana). L’indice di
Kurtosis permette di verificare se i dati seguono una distribuzione normale
(simmetrica): se β=3 la distribuzione è normale; se β<3 la distribuzione è iponormale
(rispetto alla distribuzione di una normale ha densità di frequenza minore per valori
molto distanti dalla media); se β>3 la distribuzione è ipernormale (rispetto alla
distribuzione di una normale ha densità di frequenza maggiore per valori molto
distanti dalla media).

La statstca descrittiva bivariata

Alcune volte è opportuno studiare le relazioni tra due variabili per evidenziare
meglio le caratteristiche del fenomeno indagato. Le tecniche di statistica descrittiva
si differenziano a seconda del livello di misura delle variabili incrociate. Se la
relazione indagata è tra variabili entrambe qualitative si utilizzano le tavole di
contingenza o a doppia entrata (Crosstabulation Analysis); se si utilizzano due
variabili entrambe quantitative si usa l’analisi di correlazione lineare; se si incrociano
una variabile quantitativa con una qualitativa si conduce un confronto fra le medie.

Crosstabulation Analysis

Questa analisi si basa sulle tabelle a doppia entrata. I valori interni alla tabella
prendono il nome di frequenze assolute congiunte e la somma di tali frequenze è
pari al valore N dei casi osservati. Dalla tabella si possono ricavare le distribuzioni
7
Metodi quantitativi

marginali, sommando i valori di ciascuna riga o di ciascuna colonna. Dalle frequenze


assolute congiunte è possibile ricavare le frequenze marginali congiunte, dividendo
per il totale dei casi osservati le frequenze assolute congiunte. Dalle frequenze
relative congiunte si ricavano le frequenze marginali relative. È inoltre possibile
ricavare ulteriori distribuzioni unidimensionali, le cosiddette distribuzioni
subordinate, e cioè la frequenza di osservare il carattere X al variare del carattere Y e
viceversa. Dalla nozione di frequenza subordinata discende quella di indipendenza
statistica: se al variare di X, le distribuzioni subordinate sono tutte uguali tra loro,
possiamo dire che la distribuzione del carattere Y non dipende da X. In altri termini,
in caso di indipendenza statistica, la frequenza relativa congiunta è pari al prodotto
delle marginali corrispondenti. L’indipendenza stat. è un concetto simmetrico: se
vale per X, vale anche per Y. Se si verifica, vuol dire che l’analisi bivariata di X (Y) non
dà informazioni aggiuntive rispetto all’analisi univariata. All’estremo opposto
dell’indipendenza statistica troviamo la situazione di perfetta dipendenza. Nel caso
di perfetta dipendenza unilaterale, si ha che a ogni valore di X corrisponde un solo
valore di Y (quando il numero di colonne, cioè i valori assunti da Y, è inferiore al
numero delle righe, cioè i valori di X, non è mai possibile che X dipenda
perfettamente da Y). Nel caso di perfetta dipendenza bilaterale, ad ogni valore di x
corrisponde un sono valore di Y e viceversa (ciò è possibile solo per matrici
quadrate). Lo scostamento dall’ipotesi di indipendenza si misura con l’indice Chi-
Quadrato (X2). Il valore Chi-quadrato tende a diminuire quanto più ci si avvicina alla
situazione di indipendenza ed è nullo in questa situazione; tende a crescere
all’aumentare del numero di osservazioni di righe e di colonne e perciò non è subito
chiaro se un certo valore dell’indice costituisce un segnale di forte connessione tra le
variabili. Per avere una misura di sintesi più efficace è opportuno considerare indici
non assoluti ma relativi, come l’indice V di Cramer compreso tra 0 (indipendenza
statistica) ed 1 (perfetta dipendenza in almeno una delle due direzioni), che tende a
crescere all’aumentare del grado di dipendenza delle variabili considerate

Analisi di correlazione lineare

Qualora si voglia studiare il grado di associazione tra due variabili statistiche


quantitative si utilizza l’analisi della concordanza, realizzata con una misura di sintesi
nota come covarianza. Essa assumerà valori positivi in presenza di un’associazione
diretta tra le due variabili, valori negativi in presenza di un’associazione inversa,
valore nullo nel caso di indipendenza o relazione non concordante. Per ragioni di
semplicità, spesso si riduce lo studio dell’intensità dell’associazione tra due variabili
8
Metodi quantitativi

statistiche all’analisi del grado di linearità della relazione stessa. In questo senso, il
valore della covarianza, trattandosi di un indice assoluto, da solo non fornisce
indicazioni sull’applicabilità del modello lineare. Risulta perciò utile definire il
seguente indice relativo, detto correlazione lineare ρ xy=cov (X,Y)/σxσy, che può
essere compreso tra -1 e 1. Il coefficiente di correlazione lineare vale 1 se e solo se Y
è funzione lineare di X e viceversa; in questo caso la retta è inclinata positivamente e
c’è perfetta dipendenza lineare positiva. Vale -1 se c’è perfetta dipendenza lineare
negativa e in questo caso la retta è inclinata negativamente. Se X e Y sono
statisticamente indipendenti allora cov(X,Y)=0 e perciò anche ρ xy=0 e quindi non c’è
relazione lineare tra X e Y.

Confronto tra le medie

Per incrociare una variabile qualitativa con una qualitativa, la relazione può essere
descritta confrontando le medie della variabile numerica all’interno delle categorie
definite dalla variabile misurata a livello nominale o ordinale. Un indice sintetico
dell’intensità della relazione si basa sulla scomposizione della varianza (ANOVA:
Analysis of Variance)per la variabile quantitativa Y, di cui viene studiata la
dipendenza nei confronti della variabile categorica X. La variabilità totale di Y (SQT y)
è uguale alla variabilità tra i gruppi (SQtra) più la variabilità nei gruppi (SQnei). La
somma dei quadrati tra i gruppi esprime quanta variabilità di Y può essere legata al
variare delle categorie di X, mentre la somma dei quadrati nei gruppi esprime la
variabilità nell’andamento di Y indipendente da X. Si calcola così un indice relativo η 2
il cui valore è compreso tra 0 ed 1; si avvicina ad 1 quanto più forte è il legame tra le
due variabili considerate η2= SQtra/SQTy . Se η2=0 c’è indipendenza in media, se
η2>0 c’è dipendenza in media, se η2=1 c’è massima dipendenza media.

Test per lo studio dell’associazione tra variabili

Tali tecniche prevedono la possibilità di individuare la stima puntuale a livello di


intera popolazione di una caratteristica del fenomeno indagato. Da un punto di vista
formale, la teoria dei test prevede che il ricercatore formuli specifiche ipotesi sulla
distribuzione della popolazione. Tali ipotesi sono parametriche se riguardano il
valore di uno o più parametri della popolazione partendo dalla conoscenza della
distribuzione, non parametriche se invece prescindono dalla distribuzione della
popolazione. Il ricercatore opera formulando due ipotesi complementari sul
9
Metodi quantitativi

problema in oggetto, dette ipotesi nulla (H 0) e ipotesi alternativa (H1) che non
possono risultare vere allo stesso tempo. L’obiettivo della teoria dei test è utilizzare
informazioni empiriche per decidere a favore di una delle due ipotesi. Questo
processo decisionale è soggetto a due tipologie di errori: rifiutare l’ipotesi nulla
quando essa è vera (errore di 1° tipo) e accettare l’ipotesi nulla quando essa è falsa
(errore di 2°tipo) .La probabilità d’errore di primo tipo è α, chiamato livello di
significatività del test, fissato a priori dal ricercatore (di solito può essere 0.05, 0.01).
La probabilità d’errore di 2° tipo è β, ed (1-β) è chiamato potenza del test.

ACCETTO H0 RIFIUTO H0
H0 vera No errore (prob 1-α) Errore 1° tipo (prob α)
H0 falsa Errore 2°tipo (prob β) No errore (prob 1-β)

Dal punto di vista dell’inferenza statistica, per ogni problema decisionale esiste una
procedura di verifica di ipotesi ottimale basata su una funzione degli elementi del
campione, detta statistica test, e sulla distribuzione di probabilità della statistica test
stessa. Fissando un livello di significatività si ottiene una partizione dell’insieme dei
valori possibili in due regioni, dette di accettazione e di rifiuto dell’ipotesi nulla. Se il
valore campionario della statistica test si trova nella regione di accettazione, la scelta
del ricercatore cade nell’ipotesi nulla, in caso contrario nell’ipotesi alternativa. Dal
punto di vista operativo, la procedura più comune per condurre un test di ipotesi
prevede l’uso del p-value che rappresenta la probabilità che H 0 sia vera in base al
valore osservato dalla statistica test. Se tale statistica cade nella regione di rifiuto
dell’ipotesi nulla, il p-value risulterà inferiore al livello di significatività fissato (se p-
value<α rifiuto H0); se tale statistica cade nella regione di accettazione, il p-value
risulterà superiore al livello di significatività prescelto. I test si definiscono a una coda
quando la regione di rifiuto cade in una sola coda della distribuzione, e a due code se
cade in entrambe le code della distribuzione.

Test Chi-quadrato per l’indipendenza statstca: l’indice X2 può essere utilizzato


anche come statistica test nella prova d’ipotesi caratterizzata da:

 H0 indipendenza statistica tra X ed Y


 H1 dipendenza statistica tra X ed Y

Sotto l’ipotesi H0 la statistica Chi-quadrato si distribuisce secondo una distribuzione


detta appunto chi-quadrato, con un numero di gradi di libertà pari a (k-1)(h-1) dove k
e h rappresentano le righe e le colonne della tavola di contingenza. La regione di
10
Metodi quantitativi

rifiuto cade nella coda di destra della distribuzione, se il livello di significatività è al


5% si rifiuta per X2>X20,95.

Test T per l’indipendenza lineare: a partire da ρ è possibile costruire un test per


verificare l’ipotesi di indipendenza lineare tra le due variabili:

 H0 indipendenza lineare tra X e Y (ρ=0)


 H1 no indipendenza lineare tra X e Y (ρ≠0)

La statistica test è data da t= ρ[(n-2)/(1-ρ 2)]1/2 ed è distribuita secondo una legge t-


student con n-2 gradi di libertà. La regione di rifiuto dell’ipotesi nulla cade nelle due
code della distribuzione. Se il livello di significatività è al 5% si rifiuta per ǀtǀ>t0,975

Test F per la verifica di ipotesi sulla differenza fra le medie: la scomposizione della
varianza è utile per introdurre un test di significatività in cui:

 H0=μ1= μ2=… μn
 Almeno due μ diverse tra loro

La statistica test utilizzata è pari a F= [(SQtra/c-1)/(SQnei/n-c)], che sotto l’ipotesi H0 ha


una distribuzione F di Fisher con (c-1, n-c) gradi di libertà. La regione di rifiuto
dell’ipotesi nulla cade nella coda di destra della distribuzione, se il livello di
significatività è al 5% si rifiuta per F>F0.95

La statistica test T tende a crescere all’aumentare dell’ampiezza campionaria; la


statistica test F tende a crescere all’aumentare dell’ampiezza campionaria,
all’aumentare della varianza tra le medie e al diminuire della variabilità interna alle
categorie.

Statstca descrittiva multvariata

Il motivo per cui viene introdotta l’analisi multivariata è che raramente il


comportamento oggetto di studio è determinato da un solo fattore ma
comunemente diverse cause si affiancano nel determinare gli esiti di una misura.
L’analisi multivariata svolge il compito di descrivere la relazione esistente tra più di
due variabili in modo congiunto attraverso: 1) analisi della dipendenza, una o più
delle p variabili considerate vengono scelte come variabili obiettivo (dipendenti), il
cui andamento si desidera spiegare sulla base delle variabili rimanenti (esplicative o
indipendenti); 2) analisi dell’interdipendenza, non si crea nessuna differenziazione
11
Metodi quantitativi

tra tipologie di variabili e se ne studia semplicemente l’interdipendenza. Il tipo di


analisi che si effettua cambia a seconda del tipo di variabile:

 Analisi della dipendenza: regressione lineare multipla (X quant, Y quant),


Conjoint Analysis (Xqual, Yquant), Discriminant Analysis (X quant, Y qual);
 Analisi dell’interdipendenza: cluster analysis (set X quant) ai fini della
classificazione, Factor Analysis (set X quant) ai fini di ridurre le dimensioni.

I modelli di regressione lineare

L’analisi di regressione è una tecnica d’analisi statistica multivariata che ha lo scopo


di individuare la relazione esistente tra una variabile considerata come obiettivo
della ricerca (variabile dipendente) e un insieme di variabili esplicative indipendenti.
Non sempre però si conoscono tutte le variabili esplicative rilevanti e alcune di
essere possono non essere misurabili o esserlo solo con errore. Può non essere nota
la forma funzionale della relazione. Per tener conto di tali relazioni, occorre utilizzare
modelli probabilistici di cui il modello di regressione ne è un esempio. Gli obiettivi
del modello di regressione lineare possono essere di natura esplicativa (stimare
l’influenza dei regressori sulla variabile target), predittiva (stimare il valore non
osservato della variabile target in corrispondenza di valori osservati dei regressori),
comparativa (confrontare la capacità di più regressori di influenzare il target).
Raramente considerare un’unica variabile esplicativa consente di definire un modello
efficace e quindi per spiegare l’andamento di una variabile dipendente, è necessario
considerare p variabili esplicative.

Il modello di regressione lineare è: Yi=β0+ β1Xi1+ ….+ βpXip+ εi (dove il termine εi


rappresenta il termine d’errore, Yi è l’ i-esima osservazione su Y, β0 è l’intercetta; la
matrice X=[1,X1,…,Xp]è detta matrice del disegno). Si vuole modellare una relazione
di tipo lineare tra una variabile dipendente e un insieme di regressori che si ritiene
influenzino la variabile dipendente. Tra le infinite rette che esprimono tale relazione
si stima quella che fornisce la migliore interpolazione stimando i coefficienti associati
ai regressori che entrano nel modello, minimizzando gli errori di approssimazione.

La selezione dei regressori può basarsi su: valutazioni soggettive, confronto tra tutti i
possibili modelli, algoritmi di selezione automatica. La procedura di calcolo
automatico seleziona il sottoinsieme di variabili ottimo tra quelli possibili:

12
Metodi quantitativi

 Forward selection: inserisce nell’equazione una variabile per volta, basandosi


sul contributo del regressore inserito alla spiegazione della variabilità di Y;
 Backward selection: rimuove dall’equazione una variabile per volta, basandosi
sulla perdita di capacità esplicativa della variabilità di Y conseguente
all’eliminazione del regressore;
 Forward+backward selection (stepwise selection): ogni variabile può
entrare/uscire dal modello

Questo modello è scritto in forma probabilistica perché il termine di errore ε i è una


variabile casuale. Le ipotesi fondamentali del modello sono le seguenti:

1. Gli errori hanno media nulla E(ε)=0


2. Gli errori hanno varianza costante (omoschedasticità) Cov(ε)=σ2In
3. Gli errori non sono correlati Cov(εi,εj)=0
4. La distribuzione degli errori è una normale

Dalla formula generale si ricava che, essendo ε i una variabile casuale, anche Yi è una
variabile casuale e pertanto la sua relazione con le variabili esplicative non è
deterministica: per ogni xi fissato, il valore yi corrispondente si posizionerà in modo
casuale intorno alla sua media.

I parametri β del modello di regressione sono coefficienti non noti, ed esiste


l’esigenza di stimarli. Stimando la retta di regressione si commette un errore di
previsione che risolviamo utilizzando il metodo dei minimi quadrati. L’obiettivo è
trovare la miglior approssimazione lineare della relazione tra Y ed X 1,…,Xp cioè
trovare le stime dei parametri β che identifichino la miglior retta di regressione. Nel
metodo dei minimi quadrati lo stimatore LS è la soluzione del problema min β ∑(yi-
Xiβ)2↔minβ ε!ε. Lo stimatore LS:

 È funzione di Y ed X
 Ha media E(ββLS)=β
 Ha varianza Var(ββLS)=(X!X)-1σ2

Per quanto riguarda le proprietà dello stimatore, esso è:

 Non distorto
 Consistente
 Coincide con lo stimatore di massima verosimiglianza sotto Hp forti

Uno dei punti nodali dell’analisi di regressione è comprendere quanto siano influenti
le variabili esplicative nel determinare l’andamento della dipendente, cioè quanta
13
Metodi quantitativi

parte della variabilità di Y sia colta dalla variazione delle variabili esplicative X. Si
consideri la variabilità delle osservazioni yi intorno alla sua media data da ∑(yi-ȳ)2.
Tale quantità viene detta somma totale dei quadrati ed è indicata con SST (total sum
of squares). L’idea è scomporre SST in due parti: la prima misura la variabilità dei
valori stimati yi intorno alla media ȳ ed è detta somma dei quadrati dovuta alla
regressione (SSM, model sum of squares). La parte rimanente, detta somma dei
quadrati dovuta all’errore (SSE, error sum of squares), misura la variabilità delle
osservazioni intorno ai valori stimati, ovvero la parte di variabilità non spiegata dal
modello. SST= ∑(yi - ȳ)2 SSM= ∑(yi - ȳ)2 SSE= ∑(yi-yi)2 SSTO=SSR+SSE

Gli indicatori sintetici di bontà del modello sono:

1. Il coefficiente di determinazione R2 è definito come il rapporto tra la somma


dei quadrati dovuta alla regressione (SSM) e la somma dei quadrati totale
(SST) R2=SSM/SST. Tale indice è compreso tra 0 ed 1 e misura la percentuale
di variabilità di Y spiegata dal modello. Più il valore è vicino ad 1 e più è
migliore il modello;
2. Test F viene introdotto per valutare la significatività congiunta dei coefficienti.
H0:β1= β2=…= βp=0 ; H1: βi≠0. La valutazione si effettua in base al p-value; se p-
value è piccolo rifiuto l’Hp di coefficienti tutti nulli, ed il modello ha buona
capacità esplicativa.
3. Test t viene introdotto per valutare la significatività dei singoli coefficienti.
H0:βi=0. Per la valutazione, il coefficiente è significativo se il corrispondente p-
value è piccolo e quindi rifiuto l’ipotesi nulla, da ciò segue che il regressore a
cui il coefficiente è associato è rilevante per la spiegazione del fenomeno (di
solito il p-value deve essere < 0.05).

Per quanto riguarda la stima del modello occorre considerare: l’impatto di X i su Y


posto che nel modello sono presenti altre variabili; il tasso di variazione di Y al
variare di Xi; come varia Y al variare di una unità di X i se gli altri regressori non
variano. Il segno del coefficiente: indica la direzione dell’impatto del regressore a cui
è associato; se il segno atteso è diverso da quello osservato può indicare interazione
tra i regressori: multicollinearità (quando un regressore è combinazione lineare di
altri regressori nel modello, le stime sono instabili e hanno standard error elevato.
Questo problema è chiamato multicollinearità). Per verificare la presenza di
multicollinearità si effettua la regressione lineare di Xj sui rimanenti p-1 regressori:

14
Metodi quantitativi

i. Rj2 misura la quota di varianza di Xj spiegata dai rimanenti p-1 regressori à


valori alt=multcollininearità.
ii. Variance Inflaton Index (VIFj) VIFj = 1 / (1 – Rj²) misura il grado di relazione
lineare tra Xj e i rimanenti p-1 regressori à valori alt=multcollininearità.

La soluzione al problema della multicollinearità si basa su:

1. Rimozione delle variabili correlate;


2. Selezione di una variabile rappresentativa dal gruppo di variabili legate da
relazione lineare;
3. analisi delle componenti principali à trasformazione dei regressori in
componenti non correlate (nella nuova regressione andranno incluse tutte le
componenti principali perché le ultime componenti possono essere rilevanti
da un punto di vista previsivo pur non essendolo dal punto di vista della
spiegazione della variabilità di X1,…,Xp.)

L’ordine di grandezza: dipende dall’unità di misura; per valutarlo usare coeff.


standardizzati.

Prima di poter dire se il modello è adeguato bisogna realizzare un’analisi di influenza,


cioè capire se osservazioni anomale rispetto alla variabilità di Y sono influenti oppure
no. L’analisi di influenza viene fatta per valutare l’impatto delle singole osservazioni,
considerando due possibilità: osservazioni outlier che creano distorsioni nella stima
del modello (plot dei residui, plot X/Y); osservazioni influenti che contribuiscono in
modo “sproporzionato” alla stima del modello (plot dei residui, statistiche di
influenza). Con riferimento alle statistiche di influenza abbiamo:

 Leverage H: misura quanto un’osservazione è lontana dal centro dei dati (ma
tende a segnalare troppe osservazioni influenti e tratta tutti i regressori nello
[diag( H )]i =[diag( X ( X ' X )−1 X ' )]i
stesso modo). L’osservazione è influente se lev H>2*(p+1)/n.
(Leverage alto per i-esima ossà la correlazione tra Yi e il suo valore previsto è
quasi 1àYi ha forte influenza sulla stima del valore previsto. Se il valore è
piccolo vuol dire che ci sono tante oss che contribuiscono alla stima del valore
previsto. Un’oss con alto leverage fa spostare di tanto la retta stimata).

 Distanza di Cook: : misura la variazione simultanea dei coefficienti quando


un’osservazione viene rimossa à oss influente se D>1

15
Metodi quantitativi

In conclusione, per verificare la bontà delle stime utilizziamo i test statistici; per
l’adattamento del modello ai dati usiamo gli indicatori di performance e l’analisi dei
residui; per l’impatto delle singole osservazioni usiamo l’analisi degli outliers e
l’analisi di influenza; per l’impatto dei regressori usiamo la valutazione dei
coefficienti e correlazioni parziali.

L’analisi fattoriale

L’Analisi Fattoriale è una tecnica statistica multivariata per l’analisi delle correlazioni
esistenti tra variabili quantitative. A partire da una matrice di dati : X(nxp), con “n”
osservazioni e “p” variabili originarie, consente di sintetizzare l’informazione in un
set ridotto di variabili trasformate (le componenti/i fattori latenti). Quindi
quest’analisi studia le interrelazioni tra variabili di dimensione minore rispetto a
quelle originarie, al fine di trovarne una sintesi che esprima ciò che è in comune tra
le variabili stesse. Tale sintesi viene fatta perché se l’informazione è condivisa tra più
variabili correlate tra loro è ridondante utilizzarle tutte, e perché si facilitano le
successive analisi. Per estrarre i fattori e quindi stimare dei coefficienti (i LOADINGS),
uno dei metodi possibili è il Metodo delle Component Principali. Alla matrice dei
dati X (nxp) possono essere associate p nuove variabili (componenti principali),
ottenute come combinazioni lineari della variabili originali, mentre le componenti
non sono correlate tra loro e apportano quindi un contenuto differenziato.

Stimare i loadings (cioè i coefficienti) utilizzando il metodo delle componenti


principali vuol dire ipotizzare che il patrimonio informativo specifico delle variabili
manifeste sia minimo, mentre sia massimo quello condiviso, spiegabile dai fattori
comuni. Per la stima dei loadings si ricorre agli autovalori e agli autovettori della
matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le
variabili manifeste e le componenti principali. I fattori calcolati mediante il metodo
delle componenti principali: sono combinazioni lineari delle variabili originarie; sono
tra loro ortogonali (non correlate); complessivamente spiegano la variabilità delle p
variabili originarie; sono elencate in ordine decrescente rispetto alla variabilità
spiegata. Il numero massimo di componenti principali è pari al numero delle variabili
originarie (p). La prima componente principale è una combinazione lineare delle p
variabili originarie ed è caratterizzata da varianza più elevata, e così via fino all’ultima
componente, combinazione sempre delle p variabili originarie, ma a varianza
minima. Se la correlazione tra le p variabili è elevata, un numero k<<p (k molto
16
Metodi quantitativi

inferiore a p) di componenti principali è sufficiente rappresenta in modo adeguato i


dati originari, perché riassume una quota elevata della varianza totale.

I principali problemi nell’impostare un’analisi fattoriale riguardano quante


componenti considerare e come interpretarle. Per quanto riguarda il numero di
componenti gli elementi di valutazione sono:

1. Il rapporto fra numero di component e di variabili. È opportuno sottolineare


che l’utilità dell’analisi fattoriale viene avvertita quando si realizza un’effettiva
riduzione di complessità. Secondo la regola degli autovalori, bisogna prendere
le componenti principali con varianza >1 tenendo sotto controllo la
percentuale di varianza spiegata dalle componenti,
2. La percentuale di varianza globale spiegata: qualunque pacchetto statistico
permetta di effettuare l’analisi delle componenti principali fornisce in output
indicazioni sulla varianza spiegata dalle componenti estratte. Una percentuale
del 60% 70% è da ritenersi già accettabile.
3. La comunalità: per decidere il numero di fattori da considerare è molto
importante la tabella della comunalità, ovvero della percentuale di varianza
spiegata dalle componenti estratte di ciascuna delle variabili originarie.
4. Lo scree plot (o grafico decrescente degli autovalori) è un grafico che riporta la
percentuale di varianza spiegata da ciascun fattore e può essere d’aiuto nella
scelta del numero dei fattori: è opportuno infatti fermarsi al numero di
componenti cui corrisponde sul grafico una diminuzione significativa della
pendenza della spezzata. Se il grafico mostra un gomito, i fattori rilevanti sono
quelli al di sopra di esso e a discrezione anche quello in corrispondenza. Se
non ci sono fattori dominanti il criterio è inadatto.
5. L’interpretabilità delle component e la loro rilevanza nel marketng del
prodotto/servizio. L’interpretabilità dei fattori avviene considerando la
matrice delle saturazioni che riporta le correlazioni tra le variabili originarie e
le componenti individuate (dette factor loading). Ciascuna variabile viene
associata al fattore con quale possiede la correlazione più elevata.

Per quanto riguarda la loro interpretazione si considerano:

1. Le correlazioni tra le component e le variabili originarie: l’interpretazione di


ogni fattore deve avvenire considerando le variabili con la più alta correlazione
al singolo fattore. Se la stessa variabile è però correlata con più fattori si
17
Metodi quantitativi

pongono problemi di interpretabilità e si crea la necessità di un passaggio


intermedio, cioè la rotazione degli assi.
2. La rotazione delle component: in una soluzione non ruotata, ogni fattore è
spiegato da due o più fattori comuni, mentre in seguito alla rotazione ogni
fattore è spiegato da un singolo fattore comune. La rotazione nello spazio non
influenza la validità del modello ma viene sfruttata per ottenere dei fattori più
facilmente interpretabili. Consiste nel cambiamento di posizione delle
dimensioni estratte nella prima fase d’analisi, mantenendo fissa l’origine.
Quello che è importante è che la percentuale di varianza complessiva dei
fattori ruotati rimane inalterata, mentre si modifica la percentuale di varianza
spiegata da ciascun fattore.

La rotazione opera sulla matrice dei loadings ed esistono diversi metodi per
effettuarla:

 VARIMAX: minimizza il numero di variabili che hanno alta correlazione con


un fattore
 QUARTIMAX: minimizza il numero di variabili che hanno alta correlazione
con una variabile
 EQUIMAX: è una combinazione dei due metodi precedenti.

18