Sei sulla pagina 1di 22

Metodi

quantitativi

METODI QUANTITATIVI

Indice

1. RICERCHE DI MERCATO à 5 FASI


2. CAMPIONAMENTO:
a. METODI PROBABILISTICI
b. METODI NON PROBABILISTICI
3. DIMENSIONE DEL CAMPIONE à ASPETTI D’INFLUENZA
4. TIPOLOGIA DI DATI:
a. QUANTITATIVI
b. QUALITATIVI
5. UNIVARIATA:
a. DISTRIBUZIONE DI FREQUENZA
b. MISURE DI SINTESI
6. BIVARIATA:
a. TAVOLE DI CONTIGENZA à TEST CHI-QUADRATO
b. CORRELAZIONE LINEARE à TEST T
c. CONFRONTO FRA LE MEDIE à TEST F
7. MULTIVARIATA:
a. ANALISI FATTORIARE à METODO DELLE COMPONENTI PRINCIPALI
i. PROPRIETA’
ii. METODO DI VALUTAZIONE
iii. INTERPRETAZIONE
b. REGRESSIONE LINEARE
i. OBIETTIVI
ii. EQUAZIONE à ERRORE à METODO MINIMI QUADRATI
iii. INDICATORI DI BONTA’
iv. MULTICOLLINEARITA’
v. SELEZIONE REGRESSORI
vi. ANALISI D’INFLUENZA
c. REGRESSIONE LOGISTICA

1

Metodi quantitativi

Introduzione

La business intelligence è l’insieme delle competenze, conoscenze, tecnologie, applicazioni, qualità, rischi,
problemi di sicurezza e pratiche che si usano per acquisire al meglio le informazioni sul comportamento di
mercato e sul contesto commerciale. Essa perciò si impegna nella collezione, integrazione, interpretazione,
analisi e presentazione di informazioni del business fornendo così visioni storiche, presenti e future delle
operazioni ad esso relative. Essa utilizza dati interni e dati esterni all’impresa. I primi sono numerosissimi e
fanno riferimento al Data Warehousing, al Data Mining e customer profiling; i secondi comprendono i
database pubblici e privati e le ricerche di mercato. Per questi motivi, la BI si può definire come un sistema
di supporto decisionale.

Le ricerche di mercato

Le ricerche di mercato possono essere qualitative e quantitative. Le ricerche qualitative hanno l’obiettivo di
approfondire la conoscenza di un fenomeno di mercato attraverso l’esecuzione di interviste individuali
approfondite e l’analisi di dati qualitativi destrutturati. Le ricerche quantitative hanno l’obiettivo di fornire
un’accurata misurazione del fenomeno oggetto di ricerca, mediante la compilazione di questionario e l’analisi
di dati quantitativi e/o qualitativi strutturati.

L’esecuzione di una ricerca di mercato può essere schematizzata in cinque macro-fasi:

1. Set-up: disegno e impostazione della Survey; nello specifico possiamo descriverlo come l’insieme di
decisioni di partenza, vale a dire la definizione degli obiettivi di ricerca, descrizione del contesto di
mercato, definizione del target su cui veicolare la ricerca e la definizione della modalità (canale) con
cui eseguire le interviste.
2. Fieldwork: che consiste nella raccolta di dati elementari. Nell’ambito del fieldwork possiamo
distinguere tra sondaggio e questionario. Il sondaggio è assimilabile ad un’intervista individuale
veicolata su un campione di una popolazione target di riferimento. L’intervista ha forma strutturata,
ci sono poche domande aperte e molte domande chiuse e presenta diverse modalità di contatto.
Esso è diretto se l’intervistato conosce il vero scopo del sondaggio, in caso contrario è indiretto. Il
sondaggio è il più importante metodo di indagini quantitative nelle ricerche. Il questionario è invece
il format con cui si raccolgono dati qualitativi strutturati e/o dati quantitativi e viene costruito
attraverso: il disegno del suo schema concettuale, la redazione e la verifica. Le domande devono
essere uguali per tutti gli intervistati, e non devono lasciare spazio ad interpretazioni soggettive. Le
informazioni contenute riguardano dati personali, culturali, sociali, comportamentali, scale di
soddisfazione. Le domande qualitative devono avere un range definito di risposte e non devono
essere aperte, quelle quantitative devono essere almeno 30-40 e non ambigue.
Alla fine, in seguito al Data entry, si ottiene una matrice di dati (tabella - file Excel) in cui ogni riga
rappresenta un questionario (osservazione) o un consumatore (record - unità statistica) e ogni
colonna rappresenta una domanda (variabile – campo). Questa matrice rappresenta l’input per
l’analisi.
3. Data Audit: la certificazione dei dati elementari;
4. Data Analysis: analisi dei dati;
5. Business presentation: presentazione dei risultati.


2

Metodi quantitativi

Il campionamento

Il fine di un’indagine campionaria è generalizzare i risultati ottenuti sul campione all’intera popolazione di
riferimento. Il problema di tale approccio consiste nell’approssimazione con cui è possibile descrivere la
popolazione attraverso il campione. Oggetto di studio di un’indagine campionaria è una popolazione finita
Ω=(1,2…N) le cui unità presentano tutte un medesimo carattere U. Si definisce campione di dimensione n
della popolazione Ω un suo qualsiasi sottoinsieme c contenente n unità. Per ottenere tale campione si
possono estrarre dalla popolazione n unità secondo due modalità principale:

• estrazione con ripetizione: ogni volta viene reintrodotta l’unità già estratta dalla popolazione;
• estrazione senza ripetizione: tutte le unità già selezionate non possono più essere estratte.

Metodi di campionamento

I metodi di campionamento si dividono in probabilistici e non probabilistici. Nei metodi di campionamento


probabilistici ogni unità della popolazione ha una probabilità nota e diversa da zero di essere selezionata e
quindi entrare nel campione. Essi richiedono un piano di campionamento, cioè un insieme di regole note a
priori per formare il campione. Nei metodi di campionamento non probabilistici invece la selezione delle
unità avviene in base a criteri soggettivi, e la probabilità di selezione non è nota a priori.

I metodi di campionamento probabilistici sono:

1. campionamento casuale semplice: a ogni estrazione un elemento della popolazione ha la stessa


probabilità di essere selezionato, secondo un meccanismo che garantisce la casualità delle estrazioni.
La probabilità di estrazione è 1/N se il campionamento è con ripetizione e
1/N * (N-1) * (N-2)*… (N-i+1) se il campionamento è senza ripetizione;
2. campionamento stratificato: si suddivide la popolazione a strati, sulla base di informazioni
suppletive, al cui interno le unità sono omogenee secondo un criterio. Da ogni strato viene estratto,
in modo indipendente, un campione casuale;
3. campionamento a grappoli: le unità elementari della popolazione sono raggruppate in sottoinsiemi
di unità contigue di osservazione, dette grappoli. Data una popolazione viene estratto un certo
numero di grappoli, e tutti gli elementi appartenenti ai gruppi selezionati entrano a far parte del
campione. Di solito come grappoli vengono utilizzati dei gruppi naturali o amministrativi già esistenti,
per contenere i costi;
4. campionamento a due o più stadi: data una popolazione le cui unità elementari sono divise in gruppi,
dapprima si seleziona un campione casuale di gruppi e poi si estrae un certo numero di unità
elementari dai gruppi selezionati. Vi sono allora due livelli di campionamento: al primo vengono scelti
i gruppi, o unità di primo stadio; al secondo vengono scelte le unità elementari o secondarie;
5. campionamento sistematico: è necessario che le unità siano ordinate secondo un criterio qualsiasi,
solo la prima unità verrà estratta in maniera casuale dalla popolazione, le altre verranno selezionate
in modo automatico secondo un criterio prefissato (ad esempio una ogni tre).

I metodi di campionamento non probabilistici sono:

1. campionamento per quote: la popolazione viene suddivisa in gruppi omogenei in base ad alcune
variabili strutturali (sesso, residenza, età..). Si individua il numero di osservazioni da raccogliere in
ogni gruppo (quote): gli intervistatori scelgono il campione all’interno delle classi, in modo da

3

Metodi quantitativi

rispettare le proporzioni prescelte, e hanno totale arbitrarietà nella scelta delle unità da intervistare
nelle quote assegnate;
2. campionamento a scelta ragionata: le unità campionarie sono selezionate solo in determinate aree
d’analisi, in base ad informazioni preliminari sulla popolazione indagata, risulta adatto per campioni
di piccole dimensioni;
3. campionamento per convenienza: la selezione delle unità si basa su elementi di convenienza
temporale, economica o di altro genere.

Dimensione del campione

Gli aspetti principali che influenzano la dimensione del campione sono:

1. il costo e il tempo della raccolta dei dati elementari;


2. il livello di accuratezza delle stime, e cioè:
a. la variabilità dei caratteri investigati nella popolazione target;
b. gli errori di campionatura;
c. il tipo di campionatura;
d. la scelta dell’estimatore.

Gli estimatori a varianza uguale a 0 danno la minor percentuale d’errore.

Tipologie di dati

I dati si distinguono in primo luogo in qualitativi e quantitativi.

Dati qualitativi sono di solito espressi in forma verbale e danno origine a classificazioni in categorie distinte
(ad esempio le risposte fornite a domande relative alla professione). Se i dati qualitativi vengono classificati
in varie categorie distinte senza alcun ordine implicito si ottiene un livello di misurazione nominale (ad
esempio: da dove vieni? 5 risposte: nord, sud, est ecc.); se le categorie presentano un ordine implicito il livello
di misurazione risulta ordinale (ad esempio la frequenza di visite, suddivise nelle classi bassa-medio-alta). La
scala ordinale, pur consentendo di stabilire una relazione d’ordine tra le diverse categorie, non consente
alcuna asserzione numerica (cioè si può dire quale categoria è più grande ma non di quanto).

Dati quantitativi sono invece legati a quantità intrinsecamente numeriche (ad esempio il livello di
soddisfazione dei clienti). Tra i dati quantitativi abbiamo quelli discreti, caratterizzati da una quantità finita o
infinita numerabile di classi di misura, e quelli continui, la cui risposta numerica deriva da un processo di
misurazione che fornisce indicazioni puntuali all’interno di un continuum (ad esempio il livello di
soddisfazione è discreto perché può assumere valori da 1 a 9, la distanza è un dato continuo perché può
assumere qualsiasi valore all’interno di un continuum). I dati quantitativi possono prevedere una scala di
rapporti o di intervalli: con la scala di rapporti si può dire di quanto una categoria è maggiore rispetto ad
un’altra ed è fissato un valore “0” (scale di valutazione comparativa); le scale di intervalli presentano le
medesime caratteristiche della precedente tranne lo “0”.

La tipologia di dati guida l’analisi.

La statistica descrittiva

La statistica descrittiva è l’insieme dei metodi che riguardano la rappresentazione e sintesi di un insieme di
dati per evidenziarne le caratteristiche principali. La statistica inferenziale è l’insieme dei metodi che
permettono la stima di una caratteristica della popolazione basandosi sull’analisi di un campione. Nella

4

Metodi quantitativi

statistica descrittiva univariata ci sono due principali metodologie per rappresentare i dati analizzati:
distribuzione di frequenza e misure di sintesi.

Le distribuzioni di frequenza. (insieme delle modalità e delle loro frequenze). La premessa di una qualsiasi
analisi statistica descrittiva è costituita da una procedura di classificazione. Tale procedura consiste
nell’associare ogni osservazione ad una classe di misura. Se interessa un primo livello di sintesi dei dati, si
deve associare a ciascuna categoria, o modalità il numero di volte in cui compare nei dati. Questo numero si
chiama frequenza assoluta. L’insieme delle classi di misura e delle loro frequenze costituisce una
distribuzione di frequenza o variabile statistica. Si definisce frequenza relativa (espressa in percentuale) della
classe, il rapporto tra la frequenza assoluta e il numero complessivo delle osservazioni effettuate pi= ni/ N
(Freq. Relativa=Freq. Assoluta/Tot. Osservazioni). Essa consente di effettuare confronti tra le diverse classi di
una stessa variabile, o fra le stesse classi di variabili statistiche. I due tipi di frequenze vengono usati con dati
qualitativi e quantitativi discreti. Nel caso di variabili qualitative le distribuzioni di frequenza possono essere
riportate in forma tabellare, riportando accanto alla modalità la frequenza assoluta e relativa, oppure tramite
grafici. Nei diagrammi a barre verticali, l’asse orizzontale riporta le categorie della variabile qualitativa, senza
un ordine preciso e l’asse verticale le frequenze assolute/relative corrispondenti alle diverse modalità. Nel
caso dei grafici a torta, la torta è divisa in tante fette quante sono le categorie della variabile qualitativa
considerata, le cui ampiezze sono proporzionali alle frequenze corrispondenti alla categoria. Nel caso di
variabili quantitative discrete, la distribuzione di frequenza può essere rappresentata anch’essa in forma
tabellare oppure tramite grafici. Nel grafico del diagramma delle frequenze, l’asse orizzontale ha un
significato quantitativo, segnalando i valori assunti dalla variabile discreta; l’altezza delle barre è
proporzionale alle frequenze relative o assolute del valore stesso. Se le variabili statistiche sono continue per
intervallo si rappresentano graficamente tramite istogrammi: sull’asse orizzontale si riportano le classi degli
intervalli considerati e sopra ogni intervallo si costruisce un rettangolo la quale area corrisponde alla
frequenza relativa della classe stessa. Le altezze dei rettangoli (corrispondente all’asse verticale) si ottengono
dividendo l’area per l’ampiezza di tale intervallo e prendono il nome di densità di frequenza.

Le misure di sintesi. Le misure di sintesi si dividono in: misure di tendenza centrale (media aritmetica,
mediana e moda), misure di tendenza non centrale (quantili e percentili), misure di dispersione o variabilità
(campo di variazione, differenza interquartile, varianza, scarto quadratico medio e coefficiente di variazione)
e misure di forma della distribuzione (indice di Skewness e indice di Kurtosis).

Misure di tendenza centrale (posizione)

La media è la misura di tendenza centrale più comune ed è uguale alla somma dei valori diviso il numero dei
valori. Essa risulta influenzata da valori estremi (outlier). La mediana in una lista ordinata è il valore ‘centrale’
(50% sopra e 50% sotto) e quindi non risulta influenzata da valori estremi. La moda è il valore che occorre
più frequentemente, non è influenzata da valori estremi ed è usata sia per dati numerici che per dati
categorici. Può non esserci una moda e può esserci più di una moda.

Misure di tendenza non centrale (posizione)

I quartili dividono la sequenza ordinata di dati in quattro segmenti contenenti lo stesso numero di valori. Il
primo quartile Q1 è il valore per il quale il 25% delle osservazioni sono minori e il 75% delle osservazioni sono
maggiori di esso; Q2 coincide con la mediana in quanto il 50% delle osservazioni sono minori e il 50%
maggiori; Q3 è quel quartile per cui il 75% delle osservazioni sono minori e solo il 25% delle osservazioni è
maggiore. (Q3-Q1= differenza interquartile).

5

Metodi quantitativi

Misure di variabilità (o dispersione)

Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori. Il campo di variazione
è la più semplice misura di variabilità ed è uguale alla differenza tra il massimo e il minimo dei valori osservati
(Campo di variazione= Xmax – Xmin). Esso ignora il modo in cui i dati sono distribuiti, ed è sensibile agli
outlier. La differenza interquartile serve per eliminare il problema degli outlier, in quanto elimina i valori
osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati, essendo uguale a Q3-
Q1. (Rappresentazione grafica: BOX PLOT solo per variabili quantitative di alcune misure di sintesi). La
varianza è la media dei quadrati delle differenze fra ciascuna osservazione e la media , dove μ =
imo
media della popolazione, N = dimensione della popolazione e xi = i valore della variabile X. Lo scarto
quadratico medio misura la variabilità comunemente usata, mostra la variabilità rispetto alla media e ha la
stessa misura dei dati originali. La formula è uguale a quella della varianza con la differenza che omega non
è elevata al quadrato e la formula è sotto radice quadrata. Viene calcolato usando tutti i valori nel set di dati
e i valori più lontani dalla media hanno più peso perché si elevano al quadrato. Il coefficiente di variazione
misura la variabilità relativa rispetto alla media, è sempre espresso in percentuale e può essere usato per
confrontare due o più set di dati con unità di misura diversa CV= (σ/xmedio)*100. (esempio azione A prezzo
medio 50 e scarto quadratico medio5, CV=10%; azione B prezzo medio 100 e scarto quadratico medio 5,
CV=5%; entrambe le azioni hanno lo stesso scarto quadratico medio, ma l’azione B è meno variabile rispetto
al suo prezzo).

Misure di forma della distribuzione

La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate o distribuite in modo
approssimativamente regolare rispetto al centro; si dice asimmetrica se le informazioni non sono distribuite
in modo simmetrico rispetto al centro. Una distribuzione con asimmetria positiva (obliqua a destra) ha una
coda che si estende verso destra nella direzione dei valori positivi. Una distribuzione con asimmetria negativa
(obliqua a sinistra) ha una coda che si estende verso sinistra nella direzione dei valori negativi. Le misure di
forma della distribuzione descrivono come sono distribuiti i dati. In una distribuzione simmetrica la media è
uguale alla mediana; in una distribuzione obliqua a destra la media è maggiore della mediana; in una
distribuzione obliqua a sinistra la media è minore della mediana. L’indice di Skewness informa sul grado di
simmetria o asimmetria di una distribuzione: se Y=0 la distribuzione è simmetrica; se Y<0 c’è asimmetria
negativa (media<mediana); se Y>0 c’è asimmetria positiva (media>mediana). L’indice di Kurtosis permette
di verificare se i dati seguono una distribuzione normale (simmetrica): se β=3 la distribuzione è normale; se
β<3 la distribuzione è iponormale (rispetto alla distribuzione di una normale ha densità di frequenza minore
per valori molto distanti dalla media); se β>3 la distribuzione è ipernormale (rispetto alla distribuzione di una
normale ha densità di frequenza maggiore per valori molto distanti dalla media).

La statistica descrittiva bivariata

Studio della distribuzione di due variabili congiuntamente considerate. Alcune volte è opportuno studiare le
relazioni tra due variabili per evidenziare meglio le caratteristiche del fenomeno indagato. Obiettivo: studiare
la relazione di dipendenza/indipendenza tra due variabili. L’analisi d’indipendenza dipende dalla natura delle
variabili. Le tecniche di statistica descrittiva si differenziano a seconda del livello di misura delle variabili
incrociate. Se la relazione indagata è tra variabili entrambe qualitative si utilizzano le tavole di contingenza
o a doppia entrata (Crosstabulation Analysis); se si utilizzano due variabili entrambe quantitative si usa
l’analisi di correlazione lineare; se si incrociano una variabile quantitativa con una qualitativa si conduce un
confronto fra le medie.
6

Metodi quantitativi

Tavole di contingenza (Crosstabulation Analysis) à Entrambe qualitative o quantitative discrete

Questa analisi si basa sulle tabelle a doppia entrata. I valori interni alla tabella prendono il nome di frequenze
assolute congiunte e la somma di tali frequenze è pari al totale dei casi osservati (valore N). Dalla tabella si
possono ricavare le distribuzioni marginali, sommando per riga o colonna le frequenze congiunte; le
frequenze relative congiunte, pari al rapporto tra le frequenze assolute congiunte e il totale dei casi
osservati.

11,3% FREQ.REL.
CONGIUNTA=FREQ.ASS./TO
T.OSS.

39,3% FREQ.SUBORDINATA
DI RIGA (53/135)x100

67,9% FREQ. SUBORDINATA


DI COLONNA (53/78)x100

22 FREQ. ASS. CONGIUNTE; DISTRIBUZIONI MARGINALI: - 38,9% FREQ. MARGINALE RELATIVA (86/221)x100 - 135 FREQ.
MARGINALE ASSOLUTA; 221 TOT. CASI OSSERVATI.

È inoltre possibile ricavare ulteriori distribuzioni unidimensionali, le cosiddette distribuzioni subordinate, e


cioè la frequenza di osservare il carattere X al variare del carattere Y e viceversa. Dalla nozione di frequenza
subordinata discende quella di indipendenza statistica: se al variare di X, le distribuzioni subordinate sono
tutte uguali tra loro, possiamo dire che la distribuzione del carattere Y non dipende da X. Nel caso di
indipendenza statistica, la frequenza relativa congiunta è pari al prodotto delle marginali corrispondenti.
L’indipendenza stat. è un concetto simmetrico: se vale per X, vale anche per Y. Se si verifica, vuol dire che
l’analisi bivariata di X (Y) non dà informazioni aggiuntive rispetto all’analisi univariata. All’estremo opposto
dell’indipendenza statistica troviamo la situazione di perfetta dipendenza. Nel caso di perfetta dipendenza
unilaterale, si ha che ad ogni valore di X corrisponde un solo valore di Y. In generale, quando il numero di
colonne, (valori assunti da Y) è inferiore al numero delle righe (valori assunti da X) non è mai possibile che X
dipenda perfettamente da Y. Nel caso di perfetta dipendenza bilaterale, ad ogni valore di x corrisponde un
sono valore di Y e viceversa (ciò è possibile solo per matrici quadrate).

Nella realtà è difficile che si verifichi la condizione di indipendenza statistica. Pertanto è utile disporre di indici
che misurino il grado di connessione (misure di connessione) tra le variabili.

Chi-Quadrato (X2). È un indice assoluto. Il valore Chi-quadrato tende a diminuire quanto più ci si avvicina alla
situazione di indipendenza ed è nullo in questa situazione; Risente del numero delle osservazioni effettuate
quindi al crescere di N (non affidabile), l’indice tende a crescere e perciò non è subito chiaro se un certo
valore dell’indice costituisce un segnale di forte connessione tra le variabili.

Per avere una misura di sintesi più efficace è opportuno considerare indici non assoluti ma relativi, come:

l’indice V di Cramer compreso tra 0 (indipendenza statistica) ed 1 (perfetta dipendenza almeno unilaterale),
tende a crescere all’aumentare del grado di dipendenza delle variabili considerate. Se è uguale a 0,2 la
relazione è irrilevante. (non risente del numero di osservazioni).


7

Metodi quantitativi

Analisi di correlazione lineare à entrambe quantitative

Qualora si voglia studiare il grado di associazione tra due variabili quantitative si utilizza l’analisi della
concordanza, realizzata con una misura di sintesi nota come indice di covarianza Cov(X,Y). Esso assumerà
valori positivi in presenza di un’associazione diretta tra le due variabili (concordanza), valori negativi in
presenza di un’associazione inversa (discordanza), valore nullo nel caso di indipendenza (non concordante).
È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può
dire sul grado del loro legame. Risulta perciò utile definire il seguente indice relativo, detto correlazione
lineare di Pearson ρxy=cov (X,Y)/σxσy, che può essere compreso tra -1 e 1. Il coefficiente di correlazione
lineare vale 1 se e solo se Y è funzione lineare di X e viceversa; in questo caso la retta è inclinata positivamente
e c’è dipendenza lineare perfetta positiva. Vale -1 se c’è perfetta dipendenza lineare negativa e in questo
caso la retta è inclinata negativamente e c’è dipendenza lineare perfetta negativa. Se X e Y sono
statisticamente indipendenti allora cov(X,Y)=0 e perciò anche ρxy=0 e quindi non c’è relazione lineare tra X e
Y. Quanto più è vicino a 0, tanto più è debole la relazione lineare.

P=0 à non c’è relazione lineare tra X e Y; P>0 à relazione lineare positiva tra X e Y (r=+0,3); P<0 à relazione
lineare negativa tra X e Y (r=-0,6).

Confronto tra le medie à una quantitativa (Y) e una qualitativa (X)

Per incrociare una variabile quantitativa con una qualitativa, la relazione può essere descritta confrontando
le medie aritmetiche della variabile numerica quantitativa (Y) all’interno delle categorie definite dalla
variabile qualitativa misurata (X) a livello nominale o ordinale tramite le medie condizionate. Un indice
sintetico dell’intensità della relazione si basa sulla scomposizione della varianza (ANOVA: Analysis of
Variance) per la variabile quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile
categorica X. La variabilità totale di Y è SQTy (somma dei quadrati tot) che è uguale alla variabilità tra i gruppi
SQtra (somma dei quadrati tra i gruppi) più la variabilità nei gruppi SQnei. La somma dei quadrati tra i gruppi
esprime quanta variabilità di Y può essere legata al variare delle categorie di X, mentre la somma dei quadrati
nei gruppi esprime la variabilità nell’andamento di Y indipendente da X. È quindi possibile definire un indice
relativo η2 per misurare la dipendenza in media. Come η2= SQtra/SQTy il cui valore è compreso tra 0 ed 1; più
si avvicina ad 1 più è forte il legame tra le due variabili considerate. Se η2=0 c’è indipendenza in media, se
η2>0 c’è dipendenza in media, se η2=1 c’è massima dipendenza media. (es: η2=0,020.. indipendenza in media).

In caso di indipendenza in media le medie dei diversi gruppi (medie condizionate ai diversi livelli della variabile
qualitativa) saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà nulla. Viceversa qualora ad
ogni livello della variabile qualitativa sia associato un unico valore della variabile quantitativa, si parlerà di
massima dipendenza in media e si avrà variabilità interna ai gruppi nulla. Per misurare l’intensità della
dipendenza in media si può utilizzare l’indice Eta (radice quadrata di Eta Squared) considerando 0.2 come
valore soglia oltre il quale si può asserire che esiste dipendenza in media tra le variabili. Aumentando il valore
di Eta aumenta la dipendenza in media.

TIPO DI VARIABILI TIPO DI RELAZIONE INDAGATA INDICI DI DIPENDENZA


Due variabili qualitative Indipendenza statistica Chi quadro, Cramer V
Coefficiente di correlazione
Due variabili quantitative Indipendenza lineare
lineare
Una qualitativa e una
Indipendenza in media Indice eta-quadro
quantitativa continua

8

Metodi quantitativi

Test per lo studio dell’associazione tra variabili

Tali tecniche prevedono la possibilità di individuare la stima puntuale a livello di intera popolazione di una
caratteristica del fenomeno indagato. Da un punto di vista formale, (cos’è un test d’ipotesi?) la teoria dei test
prevede che il ricercatore formuli specifiche ipotesi sulla distribuzione della popolazione. Tali ipotesi sono
parametriche se riguardano il valore di uno o più parametri della popolazione partendo dalla conoscenza
della distribuzione, non parametriche se invece prescindono dalla distribuzione della popolazione. Il
ricercatore opera formulando due ipotesi complementari sul problema in oggetto, dette ipotesi nulla (H0) e
ipotesi alternativa (H1) che non possono risultare vere allo stesso tempo. L’obiettivo della teoria dei test è
come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Un’ipotesi è
un’affermazione (assunzione) circa il parametro della popolazione, l’ipotesi Nulla, H0 rappresenta l’ipotesi
che deve essere verificata, l’ipotesi Alternativa, H1 è generalmente l’ipotesi che il ricercatore sta cercando di
dimostrare. Obiettivo: stabilire se, sulla base dei dati campionari osservati, l’ipotesi nulla è “verosimile”.
Viene rifiutata se il campione osservato è “improbabile” ritenendo vera quell’ipotesi. Questo processo
decisionale è soggetto a due tipologie di errori: - errore di 1° tipo à rifiutare l’ipotesi nulla quando essa è
vera, considerato un tipo di errore molto serio, la probabilità dell’errore di primo tipo è α chiamato livello di
significatività del test il quale viene fissato a priori dal ricercatore (di solito può essere 0.05, 0.01, 0,10); -
errore di 2°tipo à accettare l’ipotesi nulla quando essa è falsa, la probabilità d’errore di 2° tipo è β e (1-β) è
chiamato potenza del test. L’errore di primo tipo ed errore del secondo tipo non si possono verificare
contemporaneamente. Se la probabilità dell’errore di primo tipo (α) aumenta, allora la probabilità dell’errore
di secondo tipo (β) diminuisce.

Stato di Natura / Decisione ACCETTO H0 (Sulla base del campione RIFIUTO H0 (Sulla base del campione
decido che c’è indipendeza) decido che c’è dipendenza)
H0 vera (Le due var. sono realmente indip.) No errore (prob 1-α) Errore 1° tipo (prob α) livello di
significatività
H0 falsa (Esiste in natura una dip. tra le var.) Errore 2°tipo (prob β) No errore (prob 1-β) potenza del test

Dal punto di vista dell’inferenza statistica, per ogni problema decisionale esiste una procedura di verifica di
ipotesi ottimale basata su una funzione degli elementi del campione, detta statistica test, e sulla
distribuzione di probabilità della statistica test stessa. Fissando un livello di significatività si ottiene una
partizione dell’insieme dei valori possibili in due regioni, dette di accettazione e di rifiuto dell’ipotesi nulla.
Se il valore campionario della statistica test si trova nella regione di accettazione, la scelta del ricercatore
cade nell’ipotesi nulla, in caso contrario nell’ipotesi alternativa. Dal punto di vista operativo, la procedura più
comune per condurre un test di ipotesi prevede l’uso del p-value che rappresenta la probabilità che H0 sia
vera in base al valore osservato dalla statistica test (livello di significatività osservato). La regola decisionale
sta nel confrontare il p-value con α, se tale statistica cade nella regione di rifiuto dell’ipotesi nulla, il p-value
risulterà inferiore al livello di significatività fissato (se p-value<α rifiuto H0); se tale statistica cade nella regione
di accettazione, il p-value risulterà superiore al livello di significatività prescelto. I test si definiscono a una
coda quando la regione di rifiuto cade in una sola coda della distribuzione, e a due code se cade in entrambe
le code della distribuzione.

Esempi slide n. 5 dell’esercitazione.

9

Metodi quantitativi

Test Chi-quadrato per l’indipendenza statistica (due variabili qualitative e quantitative discete): l’indice X2
può essere utilizzato anche come statistica test nella prova d’ipotesi caratterizzata da:

• H0 indipendenza statistica tra X ed Y se p-value ≥ α à accetto H0à X e Y sono statisticamente ind.


• H1 dipendenza statistica tra X ed Y se p-value < α à rigetto H0à X e Y sono statisticamente dip.

Sotto l’ipotesi H0 la statistica Chi-quadrato si distribuisce secondo una distribuzione detta appunto chi-
quadrato, con un numero di gradi di libertà pari a (k-1)(h-1) dove k e h rappresentano le righe e le colonne
della tavola di contingenza. La regione di rifiuto cade nella coda di destra della distribuzione, se il livello di
significatività è al 5% si rifiuta per X2>X20,95. Se più del 20% delle celle ha frequenza assoluta <5 è segnalato
come test non affidabile.

Test T di Student per l’indipendenza lineare (due variabili quantitative): a partire da ρ è possibile costruire
un test per verificare l’ipotesi di indipendenza lineare tra le due variabili:

• H0 indipendenza lineare tra X e Y (ρ=0) se p-value ≥ α à accetto H0à X e Y sono linearmente ind.
• H1 dipendenza lineare tra X e Y (ρ≠0) se p-value < α à rigetto H0à X e Y sono linearmente dip.

La statistica test è data da t= ρ[(n-2)/(1-ρ2)]1/2 ed è distribuita secondo una legge t-student con n-2 gradi di
libertà. La regione di rifiuto dell’ipotesi nulla cade nelle due code della distribuzione. Se il livello di
significatività è al 5% si rifiuta per ǀtǀ>t0,975

Test F di Fisher per l’indipendenza in media e la verifica di ipotesi sulla differenza fra le medie (una variabile
qualitativa e una quantitativa continua): la scomposizione della varianza è utile per introdurre un test di
significatività in cui:

• H0=μ1= μ2=… μn le medie di Y nei gruppi sono tutte uguali tra loro
se p-value ≥ α à accetto H0à X e Y sono indipendenti in media

• H1: esistono almeno due μ medie diverse tra loro e quindi le μ non sono tutte uguali
se p-value < α à rigetto H0à X e Y sono dipendenti in media

La statistica test utilizzata è pari a F= [(SQtra/c-1)/(SQnei/n-c)], che sotto l’ipotesi H0 ha una distribuzione F di
Fisher con (c-1, n-1) gradi di libertà. La regione di rifiuto dell’ipotesi nulla cade nella coda di destra della
distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è al 5% si
rifiuta per F>F0.95

La statistica test F tende a crescere all’aumentare dell’ampiezza campionaria; la statistica test F tende a
crescere all’aumentare dell’ampiezza campionaria, all’aumentare della varianza tra le medie e al diminuire
della variabilità interna alle categorie.

Consultare slide lezione 6 per esempi sui test.

10

Metodi quantitativi

Analisi Univariata: Procedure SAS


Studio della distribuzione di ogni variabile, singolarmente
considerata, all’interno della popolazione
PROC SAS TIPO VARIABILE FUNZIONE
Esercizi riepilogativi
Analisi Univariata e Bivariata Distribuzione di frequenze
Variabili qualitative o
PROC FREQ (frequenze assolute,
quantitative discrete
relative e cumulate)

Calcolo misure di sintesi di


tipo univariato:
- Misure di posizione
Metodi Quantitativi per Economia, PROC UNIVARIATE Variabili quantitative - Misure di dispersione
Finanza e Management - Misure di forma della
distribuzione

Esercitazione n°6 NB: possibilità di analizzare la distribuzione della variabile rispetto ad


una variabile di classificazione

Analisi Bivariata: Riepilogo Test d’Ipotesi


Studio della distribuzione di due variabili congiuntamente • Formulazione ipotesi nulla e ipotesi
considerate e delle relazioni esistenti tra esse 1) Sistema di Ipotesi alternativa
• Impostazione a priori del livello di
TIPO DI significatività α
TIPO DI INDICI DI PROCEDURA
RELAZIONE
VARIABILI DIPENDENZA SAS
INDAGATA
2) Calcolo Statistica test • Calcolo del valore della statistica test
(specifica del test che si sta conducendo)
Due Variabili Indipendenza Chi Quadro, sulla base dei dati campionari
PROC FREQ
Qualitative Statistica Cramer V
3) Calcolo P-value • Calcolo del livello di significatività osservato

Due Variabili coeff. di


Indipendenza
Quantitative correlazione PROC CORR
Lineare
lineare
• Se p-value < α sulla base dei dati campionari, la probabilità di rifiutare H0
Una Qualitative e quando H0 è vera è inferiore alla soglia scelta rifiuto H0
Una Quantitativa Indipendenza
indice eta-quadro PROC ANOVA
in media
continua • Se p-value ≥ α accetto H0

Test d’Ipotesi per l’Indipendenza Approccio di analisi


H0: X e Y sono indipendenti
1) Sistema di Ipotesi H1: X e Y dipendenti
• Fissiamo α = 0.05
Test statistico Valutazione indice

2) Calcolo Statistica test


1) Eseguire l’opportuno test statistico in dipendenza dalla
tipologia delle variabili poste a confronto;
3) Calcolo P-value

2) Analizzare l’esito del test (pvalue):


a) Indipendenza tra le due variabili verificare se il
• Se p-value < 0.05 rifiuto H0 concludo che X e Y sono dipendenti valore dell’indice conferma l’esito del test;
b) Dipendenza tra le due variabili valutare il valore
• Se p-value ≥ 0.05 accetto H0 concludo che X e Y sono indipendenti dell’indice per indagare la forza della relazione.


11

Metodi quantitativi

Statistica descrittiva multivariata

L’analisi statistica multivariata è l’insieme di metodi statistici usati per analizzare simultaneamente più
variabili. Esistono molte tecniche diverse, usate per risolvere problemi anche lontani fra loro. Strumenti:
analisi fattoriale, regressione lineare, regressione logistica e serie storiche.

Il motivo per cui viene introdotta l’analisi multivariata è che raramente il comportamento oggetto di studio
è determinato da un solo fattore ma comunemente diverse cause si affiancano nel determinare gli esiti di
una misura. L’analisi multivariata svolge il compito di descrivere la relazione esistente tra più di due variabili
in modo congiunto attraverso: 1) analisi della dipendenza, una o più delle p variabili considerate vengono
scelte come variabili obiettivo (dipendenti), il cui andamento si desidera spiegare sulla base delle variabili
rimanenti (esplicative o indipendenti); 2) analisi dell’interdipendenza, non si crea nessuna differenziazione
tra tipologie di variabili e se ne studia semplicemente l’interdipendenza. Il tipo di analisi che si effettua cambia
a seconda del tipo di variabile:

• Analisi della dipendenza: regressione lineare multipla (X quant, Y quant), Conjoint Analysis (Xqual,
Yquant), Discriminant Analysis (X quant, Y qual);
• Analisi dell’interdipendenza: cluster analysis (set X quant) ai fini della classificazione, Analisi
Fattoriale (set X quant) ai fini di ridurre le dimensioni.

L’analisi fattoriale

Si utilizza nel caso di un elevato numero di variabili quantitative, tra loro correlate (linearmente) e in contesti
applicativi, è usata anche con variabili qualitative ordinali che esprimono scale di preferenza numeriche (scale
di punteggi). Si utilizza perché l’informazione è condivisa tra le variabili correlate e sarebbe ridondante
utilizzare tutte, l’informazione è dispersa fra le variabili e c’è la possibilità che le variabili, utilizzate
singolarmente, siano poco esplicative. L’obiettivo è sintetizzare le variabili originarie in un numero inferiori
di variabili, dette fattori ‘latenti’.
Sintetizzare mediante l’impiego della tecnica perché se l’informazione è “dispersa” tra più variabili correlate
tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra
loro risultano molto più esplicative. I fattori latenti sono ‘concetti’ che abbiamo in mente ma che non
possiamo misurare direttamente. Es. l’attrattività di una città da cosa è data? Dalle caratteristiche del
contesto, dalla demografia, dalla struttura, dalla qualità della vita etc. Nel caso in cui l’informazione
disponibile per eseguire un’analisi è distribuita tra molte variabili tra loro correlate, possono insorgere diversi
problemi di tipo logico/applicativo. Quando le variabili considerate sono numerose spesso risultano tra loro
correlate questa numerosità e correlazione tra variabili porta a difficoltà di analisi. Quindi bisogna sintetizzare
perché se l’informazione è condivisa tra più variabili correlate tra loro, risulta eccessivo utilizzarle tutte; la
sintesi semplifica le analisi successive ma comporta una perdita di informazione, si deve evitare, di perdere
informazioni rilevanti.

L’Analisi Fattoriale è una tecnica statistica multivariata per l’analisi delle correlazioni esistenti tra variabili
quantitative. A partire da una matrice di dati : X(nxp), con “n” osservazioni e “p” variabili originarie, consente
di sintetizzare l’informazione in un set ridotto di variabili trasformate (le componenti/i fattori latenti). Quindi
quest’analisi studia le interrelazioni tra variabili di dimensione minore rispetto a quelle originarie, al fine di
trovarne una sintesi che esprima ciò che è in comune tra le variabili stesse. Per estrarre i fattori latenti e
quindi stimare dei coefficienti (i LOADINGS), uno dei metodi possibili è il Metodo delle Componenti
Principali. Alla matrice dei dati X (nxp) possono essere associate p nuove variabili (componenti principali),

12

Metodi quantitativi

ottenute come combinazioni lineari dalle variabili originali, mentre le componenti non sono correlate tra loro
e apportano quindi un contenuto differenziato.

Stimare i loadings (cioè i coefficienti) utilizzando il metodo delle componenti principali vuol dire ipotizzare
che il patrimonio informativo specifico delle variabili manifeste sia minimo, mentre sia massimo quello
condiviso, spiegabile dai fattori comuni. Per la stima dei loadings si ricorre agli autovalori e agli autovettori
della matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le variabili manifeste e le
componenti principali.

I fattori calcolati mediante il metodo delle componenti principali (proprietà):

- sono combinazioni lineari delle variabili originarie;


- sono tra loro ortogonali (non correlate);
- complessivamente spiegano la variabilità delle p variabili originarie;
- sono elencate in ordine decrescente rispetto alla variabilità spiegata.
- Il numero massimo di componenti principali è pari al numero delle variabili originarie (p).

La prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da
varianza più elevata, e così via fino all’ultima componente, combinazione sempre delle p variabili originarie,
ma a varianza minima.
Se la correlazione tra le p variabili è elevata, un numero k<<p (k molto inferiore a p) di componenti principali
è sufficiente a rappresentare in modo adeguato i dati originari, perché riassume una quota elevata della
varianza totale.
Come determinare il numero k di fattori latenti tra le p componenti principali:
- Più k è basso, più semplifico le analisi successi
- Più k è elevato, maggiore è il contributo informativo mantenuto.

Processo di analisi
Identificazione p variabili di partenza (variabili quantitative o
scale di punteggio)

Utilizzo di alcuni criteri per la selezione dei


possibili di valori di k (è possibile identificare
più valori di k adeguati)(dove k <p)
Selezione di
k fattori Confronto tra le possibili soluzioni identificate
(confronto delle comunalità)k <p)
(dove k <p)
Verifica dell’interpretabilità della soluzione
scelta ed eventuale indagine di una soluzione
differentek <p)

Interpretazione della soluzione finale


I principali problemi nell’impostare un’analisi fattoriale riguardano quante componenti considerare e come
interpretarle. Per quanto riguarda il numero di componenti gli elementi di valutazione sono:

1. Metodo degli autovalori > 1. Secondo la regola degli autovalori, bisogna prendere le componenti
principali con varianza >1 tenendo sotto controllo la percentuale di varianza spiegata dalle
componenti. (Step 1)
2. Il rapporto fra numero di componenti e di variabili (circa 1/3). È opportuno sottolineare che l’utilità
dell’analisi fattoriale viene avvertita quando si realizza un’effettiva riduzione di complessità.

13

Metodi quantitativi

3. La percentuale di varianza spiegata: qualunque pacchetto statistico permetta di effettuare l’analisi


delle componenti principali fornisce in output indicazioni sulla varianza spiegata dalle componenti
estratte. Una percentuale del 60% 70% è da ritenersi già accettabile. (Step 1)
4. La comunalità: per decidere il numero di fattori da considerare è molto importante la tabella della
comunalità, ovvero della percentuale di varianza spiegata dalle componenti estratte di ciascuna delle
variabili originarie. (Step 2)
5. Lo scree plot (o grafico decrescente degli autovalori) è un grafico che riporta la percentuale di
varianza spiegata da ciascun fattore e può essere d’aiuto nella scelta del numero dei fattori: è
opportuno infatti fermarsi al numero di componenti cui corrisponde sul grafico una diminuzione
significativa della pendenza della spezzata. Se il grafico mostra un ‘gomito’, i fattori rilevanti sono
quelli al di sopra di esso e a discrezione anche quello in corrispondenza. Se non ci sono fattori
predominanti il criterio è inadatto. (Step 1)
6. L’interpretabilità delle componenti e la loro rilevanza nell’esecuzione dell’analisi successive.
L’interpretabilità dei fattori avviene considerando la matrice delle saturazioni che riporta le
correlazioni tra le variabili originarie e le componenti individuate (dette factor loading). Ciascuna
variabile viene associata al fattore con quale possiede la correlazione più elevata.

Per quanto riguarda l’interpretazione dei fattori si considerano (Step 3):

1. Le correlazioni tra le componenti e le variabili originarie: l’interpretazione di ogni fattore deve


avvenire considerando le variabili con la più alta correlazione al singolo fattore. Se la stessa variabile
è però correlata con più fattori si pongono problemi di interpretabilità e si crea la necessità di un
passaggio intermedio, cioè la rotazione degli assi.
2. La rotazione delle componenti: in una soluzione non ruotata, ogni fattore è spiegato da due o più
fattori comuni, mentre in seguito alla rotazione ogni fattore è spiegato da un singolo fattore comune.
La rotazione ortogonale nello spazio dei fattori non influenza la validità del modello ma viene
sfruttata per ottenere dei fattori più facilmente interpretabili. Consiste nel cambiamento di posizione
delle dimensioni estratte nella prima fase d’analisi, mantenendo fissa l’origine. Quello che è
importante è che la percentuale di varianza complessiva dei fattori ruotati rimane inalterata, mentre
si modifica la percentuale di varianza spiegata da ciascun fattore. La rotazione opera sulla matrice
dei loadings ed esistono diversi metodi per effettuarla:
• VARIMAX: minimizza il numero di variabili che hanno alta correlazione con un fattore
• QUARTIMAX: minimizza il numero di fattori che hanno alta correlazione con una variabile
• EQUIMAX: è una combinazione dei due metodi precedenti.

I modelli di regressione lineare

L’analisi di regressione è una tecnica d’analisi statistica multivariata che ha lo scopo di individuare la relazione
esistente tra una variabile considerata come obiettivo della ricerca (variabile dipendente Y) e un insieme di
variabili esplicative indipendenti (X1,..,Xp) à REGRESSORI. Quindi si vuole descrivere questa relazione con
una funzione lineare la quale può essere di due tipi: - se p=1 le osservazioni si trovano in uno spazio a due
dimensioni e avremo una retta di regressione lineare semplice – se p>1 le osservazioni si trovano in uno
spazio a p+1 dimensioni e avremo una ’retta’ (piano) di regressione lineare multipla. Non sempre però si
conoscono tutte le variabili esplicative rilevanti e alcune di esse possono non essere misurabili o esserlo solo
con errore. Può non essere nota la forma funzionale della relazione. Per tener conto di tali relazioni, occorre
utilizzare modelli probabilistici di cui il modello di regressione ne è un esempio. Gli obiettivi del modello di
regressione lineare possono essere di natura: esplicativa, stimare l’influenza dei regressori sulla variabile
14

Metodi quantitativi

target; predittiva, stimare il valore non osservato della variabile target in corrispondenza di valori osservati
dei regressori; comparativa, confrontare la capacità di più regressori, o di più set di regressori, di influenzare
il target, vale a dire il confronto tra modelli di regressione lineare diversi.

Le ipotesi del modello

Raramente considerare un’unica variabile


esplicativa consente di definire un modello
efficace e quindi per spiegare l’andamento di
una variabile dipendente, è necessario
considerare p variabili esplicative.




- N unità statistiche à n righe
- Vettore colonna (nx1) di n misurazioni su una variabile continua (Y)
- Matrice (nxp) di n misurazioni su p variabili quantitative (X1,…,Xp) à colonne
- La singola osservazione è il vettore riga (yi,xi1,xi2,xi3,…,xip) i=1,…,n

L’equazione di regressione lineare multipla è: Yi=β0+ β1Xi1+ ….+ βpXip+ εi

dove il termine εi rappresenta il termine d’errore, Yi è l’ i-esima osservazione su Y, β0 è l’intercetta, β1 è il


coefficiente di X1; la matrice X=[1,X1,…,Xp] è detta matrice del disegno.

L’Errore presente nel modello si ipotizza essere di natura casuale. Può essere determinato da: - variabili non
considerate – problemi di misurazione – modello inadeguato – effetti puramente casuali.

Le ipotesi fondamentali del modello sono le seguenti:

1. Gli errori hanno media nulla E(ε)=0 (ipotesi debole)


2. Gli errori hanno varianza costante (omoschedasticità) Cov(ε)=σ2In (ipotesi forte)
3. Gli errori non sono correlati Cov(εi,εj)=0 (ipotesi debole)
4. La distribuzione degli errori è una normale (ipotesi forte)

Da un punto di vista statistico:

- Y è un vettore aleatorio di cui si osserva una specifica realizzazione campionaria (hp sulla
distribuzione)
- X è una matrice costante con valore noto (no hp sulla distribuzione)
- Beta è un vettore costante non noto
- L’errore è un vettore aleatorio di cui osserva una specifica realizzazione campionaria (hp sulla
distribuzione)
- In media Y può essere rappresentata come funzione lineare delle sole (X1,….,Xp) µ= E(Y) = Xβ
- Ogni osservazione di Y è uguale ad una combinazione lineare dei regressori con pesi uguale
coefficienti beta + un termine di errore Y= Xβ + ε


15

Metodi quantitativi

La stima del modello

Dalla formula generale si ricava che, essendo εi una variabile casuale, anche Yi è una variabile casuale e
pertanto la sua relazione con le variabili esplicative non è deterministica: per ogni xi fissato, il valore yi
corrispondente si posizionerà in modo casuale intorno alla sua media.

I parametri β del modello di regressione sono coefficienti non noti (Equazione teorica), ed esiste l’esigenza
di stimarli. Equazione stimata à coefficienti stimati (una delle infinite rette possibili). Stimando la retta di
regressione si commette un errore di previsione che risolviamo utilizzando il metodo dei minimi quadrati.
L’obiettivo è trovare la miglior approssimazione lineare della relazione tra Y ed X1,…,Xp cioè trovare le stime
dei parametri β che identifichino la ‘migliore’ retta di regressione. Nel metodo dei minimi quadrati lo
stimatore LS è la soluzione del problema minβ ∑(yi-Xiβ)2↔minβ ε!ε.

Lo stimatore dei Minimi Quadrati: LS

• È funzione di Y ed X βãLS= (X’ X)-1X’Y


• Ha media E(βãLS)=β
• Ha varianza Var(βãLS)=(X!X)-1σ2

Per quanto riguarda le proprietà dello stimatore, esso è:

• Non distorto
• Consistente (se valgono certe ipotesi su X’X)
• Coincide con lo stimatore di massima verosimiglianza sotto Hp forti

16

Metodi quantitativi

A differenza dell’equazione teorica, l’equazione stimata stima i coefficienti (una delle rette possibile), per
fare ciò bisogna interpretare i coefficienti attraverso l’osservazione di tre elementi: - impatto di Xj su Y posto
che nel modello siano presenti altre variabili – tasso di variazione di Y al variare di Xj – come varia Y al variare
di una unità di Xj se gli altri regressori non variano.

Il segno del coefficiente indica la direzione dell’impatto del regressore a cui è associato; il valore del
coefficiente indica l’incremento marginale di Y e dipende dall’unità di misuta di Xj; per valutare l’impatto
relativo dei singoli regressori è necessario considerare i coefficienti standardizzati. Essi sono utili per valutare
l’importanza relativa dei regressori. Possiamo ordinare i regressori in base all’importanza che hanno nello
spiegare la variabile dipendente. Il regressore con valore assoluto del coefficiente standardizzato più alto è il
più importante (anche se è negativo).

La valutazione del modello à Indicatori di ‘bontà’

Uno dei punti nodali dell’analisi di regressione è comprendere quanto siano influenti le variabili esplicative
nel determinare l’andamento della dipendente, cioè quanta parte della variabilità di Y sia colta dalla
variazione delle variabili esplicative X. Si consideri la variabilità delle osservazioni yi intorno alla sua media
data da ∑(yi-ȳ)2. Tale quantità viene detta somma totale dei quadrati ed è indicata con SST (total sum of
squares). L’idea è scomporre SST in due parti: la prima misura la variabilità dei valori stimati ŷi intorno alla
media ȳ ed è detta somma dei quadrati dovuta alla regressione (SSM, model sum of squares). La parte
rimanente, detta somma dei quadrati dovuta all’errore (SSE, error sum of squares), misura la variabilità delle
osservazioni intorno ai valori stimati, ovvero la parte di variabilità non spiegata dal modello.

17

Metodi quantitativi

SST= ∑(yi – ȳ)2 SSM= ∑(ŷi – ȳ)2 SSE= ∑(yi-ŷi)2 SST=SSR+SSE

Gli indicatori sintetici di bontà del modello sono:

1. Il coefficiente di determinazione R2 serve per valutare la capacità esplicativa del modello e misura la
variabilità delle osservazioni intorno alla ‘retta’ di regressione. È definito come il rapporto tra la
somma dei quadrati dovuta alla regressione (SSM) e la somma dei quadrati totale (SST) R2=SSM/SST.
Tale indice è compreso tra 0 ed 1 e misura la percentuale di variabilità di Y spiegata dal modello.
SSM=0 il modello non spiega, più il valore è vicino ad 1 e più il modello ha capacità esplicativa (R-
quadro > 0,2/0,3 il modello ha capacità esplicativa), se SSM=1 il modello spiega perfettamente,
SSM=SST (R-quadro=1) OK; à OK valori alti.
2. R-quadro adjusted è come R-quadro ma indipendente dal numero di regressori, combina adattabilità
e parsimonia. Varia tra 0 e 1 ed è ok per valori maggiori a 0,2/0,3. à OK valori alti.
3. Test F viene introdotto per valutare la significatività congiunta dei coefficienti.
Ipotesi nulla H0:β1= β2=…= βp=0 ; H1: βi≠0. La valutazione si effettua in base al p-value; se p-value è
piccolo rifiuto l’Hp di coefficienti tutti nulli, ed il modello ha buona capacità esplicativa. à OK p-value
con valori bassi.
4. Test t viene introdotto per valutare la significatività dei singoli coefficienti.
Ipotesi nulla (j=1,..,p) H0:βi=0. Per la valutazione, il coefficiente è significativo (significativamente
diverso da 0) se il corrispondente p-value è piccolo ossia, rifiuto l’ipotesi di coefficiente nullo, da ciò
segue che il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno
(di solito il p-value deve essere < 0.05).

Il segno del coefficiente: indica la direzione dell’impatto del regressore a cui è associato; se il segno atteso è
diverso da quello osservato può indicare interazione tra i regressori à multicollinearità (quando un
regressore è combinazione lineare di altri regressori nel modello, le stime sono instabili e hanno standard
error elevato. Questo problema è chiamato multicollinearità). L’ordine di grandezza: dipende dall’unità di
misura della variabile indipendente Xj; per valutarlo si devono usare doefficienti standardizzati.

La valutazione del modello à L’analisi della multicollinearità.

X1,…,Xp non sono vettori linearmente indipendenti e c’è forte correlazione tra i regressori (o alcuni di essi).
Questo comporta che la varianza dello stimatore dei minimi quadrati tende ad esplodere e si presenta un
problema di stabilità delle stime.

Per verificare la presenza di multicollinearità si effettua la regressione lineare di Xj sui rimanenti p-1
regressori:

i. Rj2 misura la quota di varianza di Xj spiegata dai rimanenti p-1 regressori à valori maggiori 0,2/0,3
alti=multicollininearità.
ii. Variance Inflation Index (VIFj) VIFj = 1 / (1 – Rj²) misura il grado di relazione lineare tra Xj e i
rimanenti p-1 regressori à valori maggiori 1,2/1,3 alti=multicollininearità.

La soluzione al problema della multicollinearità si basa su: à ANALISI FATTORIALE

1. trasformazione delle variabili correlate;


2. Selezione di una variabile rappresentativa dal gruppo di variabili legate da relazione lineare e
rimozione delle altre variabili correlate;

18

Metodi quantitativi

3. analisi delle componenti principali à trasformazione dei regressori in componenti non correlate
(nella nuova regressione andranno incluse tutte le componenti principali perché le ultime
componenti possono essere rilevanti da un punto di vista previsivo pur non essendolo dal punto di
vista della spiegazione della variabilità di X1,…,Xp.)

La valutazione del modello à la selezione dei regressori.

Si vuole modellare una relazione di tipo lineare tra una variabile dipendente e un insieme di regressori che si
ritiene influenzino la variabile dipendente. Tra le infinite rette che esprimono tale relazione si stima quella
che fornisce la migliore interpolazione stimando i coefficienti associati ai regressori che entrano nel modello,
minimizzando gli errori di approssimazione.

La selezione dei regressori può basarsi su: valutazioni soggettive, confronto tra tutti i possibili modelli,
algoritmi di selezione automatica. La procedura di calcolo automatico seleziona il sottoinsieme di variabili
ottimo tra quelli possibili:

• Forward selection: inserisce nell’equazione una variabile per volta, basandosi sul contributo del
regressore inserito alla spiegazione della variabilità di Y;
• Backward selection: rimuove dall’equazione una variabile per volta, basandosi sulla perdita di
capacità esplicativa della variabilità di Y conseguente all’eliminazione del regressore;
• Stepwise selection (Forward+backward selection): ogni variabile può entrare/uscire dal modello

La Stepwise Selection è una procedura sequenziale che valuta l’ingresso/uscita dal modello dei singoli
regressori (in base a indicatori legati all’R-quadro). Vengono fissati a priori due livelli di significatività
(ingresso/uscita).

- Step 0 à si considerano tutti i potenziali regressori


- Step 1 à entra il primo regressore. Ossia, viene stimato un modello contenente un unico regressore
tra quelli proposti (viene scelto il regressore che spiega meglio la variabilità della variabile
dipendente)
- Step 2 à si valutano tutti i possibili modelli contenenti il regressore individuato allo step 1 e uno dei
rimanenti regressori, e si tiene il modello con il fit migliore (ossia entra il regressore che dà il
contributo maggiore alla spiegazione della variabilità)
- Step 3 e seguenti à si valuta l’uscita di ognuno dei regressori presenti (in base alla minore perdita
di capacità esplicativa del modello) e l’ingresso di un nuovo regressore (in base al maggior
incremento nella capacità esplicativa del modello). Tra tutti i regressori rimanenti verrà scelto quello
che dà il contributo maggiore alla spiegazione della variabilità della variabile dipendente.
- Ultimo step à la procedura si arresta quando nessun regressore rimanente può essere inserito in
base al livello di significatività scelto (slentry) e nessun regressore incluso può essere eliminato in
base al livello di significatività scelto (slstay). In pratica quando non si riesce in alcun modo ad
aumentare la capacità esplicativa del modello. (Case Study su slide Lez.9)

Criterio di arresto: quando non si riesce in alcun modo ad aumentare la capacità esplicativa del modello.

Stima del modello.

Prima di poter dire se il modello è adeguato bisogna realizzare un’analisi di influenza, cioè capire se
osservazioni anomale rispetto alla variabilità di Y sono influenti oppure no. L’analisi di influenza viene fatta
per valutare l’impatto delle singole osservazioni, considerando due possibilità: osservazioni outlier che
19

Metodi quantitativi

creano distorsioni nella stima del modello (plot dei residui, plot X/Y); osservazioni influenti che
contribuiscono in modo “sproporzionato” alla stima del modello (plot dei residui, statistiche di influenza).
Con riferimento alle statistiche di influenza abbiamo:

• Leverage H: misura quanto un’osservazione è lontana dal centro dei dati (ma tende a segnalare
troppe osservazioni influenti e tratta tutti i regressori nello stesso modo). L’osservazione è influente
se lev H>2*(p+1)/n. [diag ( H )] = [diag ( X ( X ' X ) −1 X ' )]
i i
(Leverage alto per i-esima ossà la correlazione tra Yi e il suo valore previsto è quasi 1àYi ha forte
influenza sulla stima del valore previsto. Se il valore è piccolo vuol dire che ci sono tante oss che
contribuiscono alla stima del valore previsto. Un’osservazione con alto leverage fa spostare di tanto
la retta stimata).

• Distanza di Cook: misura la variazione simultanea dei coefficienti quando un’osservazione viene
rimossa à oss influente se D>1

In conclusione, per verificare la bontà delle stime utilizziamo i test statistici; per l’adattamento del modello
ai dati usiamo gli indicatori di performance e l’analisi dei residui; per l’impatto delle singole osservazioni
usiamo l’analisi degli outliers e l’analisi di influenza; per l’impatto dei regressori usiamo la valutazione dei
coefficienti e correlazioni parziali.

Il modello di Regressione Logistica

Il modello di regressione lineare è inadeguato quando la variabile risposta è dicotomica (ha solo due
possibilità es. M e F), poiché in non garantisce il rispetto del campo di variazione [0,1]. La regressione logistica
appartiene alla categoria dei Modelli Lineari Generalizzati. Consente di prevedere una variabile discreta, che
può essere intesa come l’appartenenza a un gruppo, a partire da un insieme di variabili (continue, discrete,
dicotomiche). Generalmente, la variabile dipendente, o variabile risposta, è dicotomica e rappresenta una
assenza/presenza o un fallimento/successo.

Esempi: - modello di Chum (evento: abbandono) – modello di Propensity (evento: acquisto)

Le ipotesi del modello:

- N unità statistiche
- Vettore colonna (nx1) di n misurazioni su una variabile dicotomica (Y)
- Matrice (nxp) di n misurazioni su p variabili quantitative (X1,…,Xp)
- La singola osservazione è il vettore riga (yi, xi1,xi2,xi3,..,xip) i=1,…,n

Y, la variabile dipendente dicotomica, indica la presenza o l’assenza di una particolare caratteristica.


Y assume valore 1 con probabilità Π e valore 0 con probabilità 1-Π.
Y si distribuisce come una variabile casuale bernoulliana di parametro Π, che descrive l’esito di un
esperimento casuale che ha probabilità di risultare in ‘successo’ con probabilità pari a Π.

Il modello di regressione lineare è inadeguato quando la variabile risposta è dicotomica, poiché:

1. Non garantisce il rispetto del campo di variazione [0,1]


2. La componente erratica può assumere solo due valori, non può avere una distribuzione normale.
3. La componente erratica viola l’ipotesi di omoschedasticità, la varianza dipende dal particolare valore
di Xi

20

Metodi quantitativi

Il modello logistico gode di alcune importanti proprietà:

1. Rispetta il vincolo che il valore stimato di: Π: Pr(Y=1 | X) sia compreso nell’intervallo [0,1];
2. La forma ad “esse” della funzione logistica garantisce un avvicinamento graduale ai valori estremi 0
e 1;
3. La funzione logit: Π è esprimibile come combinazione lineare delle variabili indipendenti X1,….,Xk

La stima del modello.

Analogamente al modello di regressione lineare, la relazione tra la variabile dipendente e le indipendenti è


nota a meno del valore dei parametri: log it (Πi)= log(Πi/1-Πi)=α+β1xi1+β2xi2+…+βkxik è necessario un metodo
che permetta di ottenere delle ‘buone’ stime dei parametri sulla base delle osservazioni campionarie
disponibili. Si dimostra che gli stimatori ottenuti mediante il metodo dei Minimi Quadrati non godono delle
proprietà ottimali garantite nel caso della regressione lineare. Viene utilizzato il metodo più generale della
Massima Verosimiglianza, che si basa sulla massimizzazione della probabilità di osservare l’insieme di dati
campionari disponibili in funzione di β. Le equazioni di verosimiglianza non sono lineari nei parametri e non
ammettono (salvo casi particolari) soluzione esplicita. È necessario ricorrere a metodi numerici iterativi per
approssimare la soluzione (Algoritmo di Newton-Raphson o di Scoring’s Fisher). Gli stimatori di massima
verosimiglianza godono di proprietà ottimali in presenza di campioni numericamente grandi:

- Asintoticamente corretti (le stime sono non distorte, si avvicinano al valore vero)
- Asintoticamente efficienti (con standard error delle stime sono piccoli almeno come quelli di ogni
altro metodo di stima)
- Asintoticamente normali (è possibile usare la distribuzione normale o chi quadro per calcolare gli
intervalli di confidenza)

Test per valutare la significatività congiunta dei coefficienti (‘Testing Global Null Hypothesis: BETA=0”):

– Likelihood Ratio – Score – Wald. Queste statistiche hanno distribuzione Chi-quadro con n gradi di libertà
dove n corrisponde al numero di coefficienti stimati dalle variabili indipendenti. Se il p-value piccolo (rifiuto
Ho), quindi il modello ha buona capacità esplicativa. N.B. Equivalenti al Test F della regressione lineare

Indicatori sintetici di bontà del Modello:

- Likelihood ratio test à OK p-value con valori piccoli à è l’analogo del test F nella reg.lin.
- Wald Chi_square test à OK p-value con valori piccoli à è l’analogo del test T nella reg.lin.
- Akaike Criterion à OK valori piccoli
- Schwart Criterion à OK valori piccoli

OK p-value inferiori al livello di significatività fissato.

La valutazione del modello.

Si definiscono PAIRS il numero di coppie di osservazioni (i,h con i≠h) che in un caso hanno Y=1 e nell’altro
Y=0. La coppia di osservazioni (i,h con i≠h) per la quale Yi=1 e Yh=0 è: concordante se πi>πh, tied se πi=πh,
discordante se πi<πh. Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il numero dei
DISCORDANT), tanto più il modello rappresenterà adeguatamente il fenomeno indagato. Le statistiche
seguenti sono calcolate sulla base del numero di coppie CONCORDANT, DISCORDANT e TIED. Tanto più questi

21

Metodi quantitativi

indicatori sono elevati, tanto più il modello è ‘corretto’. Queste misure variano tra 0 ed 1. Valori più grandi
corrispondono a più forte associazione tra valori predetti e valori osservati.

La stima del modello.

Test per valutare la significatività dei singoli coefficienti (H0:βj=0).

Wald Chi-square: il quadrato del rapporto tra stima e standard error. Il coefficiente è significativamente
diverso da zero se il corrispondente p-value è piccolo (ossia, rifiuto l’ipotesi di coefficiente nullo) à il
regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno. N.B. Equivalente al
Test t della regressione lineare.

In presenza di regressori quantitativi, i coefficienti standardizzati possono essere utili per valutare
l’importanza relativa delle variabili, capire quali sono quelle che pesano di più nel modello. Analogamente al
modello di regressione lineare, la relazione tra la variabile dipendente e le indipendenti è nota a meno del
valore dei paramenti: log it (Πi)= log(Πi/1-Πi)=α+β1xi1+β2xi2+…+βkxik. Ai fini della formulazione di un modello
di tipo lineare è stato necessario: 1. Trasformare le probabilità in odds log it π/(1-π) per rimuovere il limite
superiore (Sup=1); 2. Applicare la funzione logaritmica agli odds per rimuovere il limite inferiore (Inf=0).

L’interpretazione del modello.

Nelle scommesse si dice che un certo evento è dato 5 a 2 che vuol dire 5/2 è l’odds: il rapporto tra il numero
atteso di volte che un evento accada e il numero atteso di volre che un evento non accada. C’è un semplice
relazione tra l’odds e la probabilità: O=π/1-π à π=O/1+O dove π è la probabilità e O è l’odds. Un odds
inferiore a 1 corrisponde a una probabilità inferiore a 0,5. Il limite inferiore è 0 come per la probabilità ma
non ha limiti superiori. Nella regressione logistica un coefficiente di 0,2 ci dice che il logit di Y (il log dell’odds)
aumenta di 0.2 in corrispondenza al possesso dell’attributo X. Ma cosa significa un aumento di 0,2 del logit?
Dato che la relazione tra probabilità e regressore non è lineare, risulta più facile parlare in termini di odds. I
coefficienti stimati, a parte per il segno, non sono interpretabili, l’odds ratio (l’exp del coeff.) si.è una misura
di associazione; approssima il Rischio Relativo, ossia quando più probabile è per la variabile risposta essere
presente tra i soggetti con x=1 che tra quelli con x diverso da 0. Nel caso di variabili continue l’interpretazione
del parametro è analoga. Il coefficiente esprime il cambiamento di logit in corrispondenza di un aumento
unitario di X.

La valutazione del modello.

Analogamente a quanto visto per la regressione lineare, anche per la logistica il problema della
multicollinearità può causare effetti indesiderati sulla stabilità delle stime. I metodi di gestione della
problematica sono analoghi a quelli trattati nel modello di regressione lineare. Analogamente alla
regressione lineare è possibile avvalersi di vari metodi di selezione automatica delle variabili. Anche in questo
caso gli algoritmi operano secondo le logiche di: - Stepwise – Forward – Backward.

22

Potrebbero piacerti anche