Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
quantitativi
METODI QUANTITATIVI
Indice
1
Metodi quantitativi
Introduzione
La business intelligence è l’insieme delle competenze, conoscenze, tecnologie, applicazioni, qualità, rischi,
problemi di sicurezza e pratiche che si usano per acquisire al meglio le informazioni sul comportamento di
mercato e sul contesto commerciale. Essa perciò si impegna nella collezione, integrazione, interpretazione,
analisi e presentazione di informazioni del business fornendo così visioni storiche, presenti e future delle
operazioni ad esso relative. Essa utilizza dati interni e dati esterni all’impresa. I primi sono numerosissimi e
fanno riferimento al Data Warehousing, al Data Mining e customer profiling; i secondi comprendono i
database pubblici e privati e le ricerche di mercato. Per questi motivi, la BI si può definire come un sistema
di supporto decisionale.
Le ricerche di mercato
Le ricerche di mercato possono essere qualitative e quantitative. Le ricerche qualitative hanno l’obiettivo di
approfondire la conoscenza di un fenomeno di mercato attraverso l’esecuzione di interviste individuali
approfondite e l’analisi di dati qualitativi destrutturati. Le ricerche quantitative hanno l’obiettivo di fornire
un’accurata misurazione del fenomeno oggetto di ricerca, mediante la compilazione di questionario e l’analisi
di dati quantitativi e/o qualitativi strutturati.
1. Set-up: disegno e impostazione della Survey; nello specifico possiamo descriverlo come l’insieme di
decisioni di partenza, vale a dire la definizione degli obiettivi di ricerca, descrizione del contesto di
mercato, definizione del target su cui veicolare la ricerca e la definizione della modalità (canale) con
cui eseguire le interviste.
2. Fieldwork: che consiste nella raccolta di dati elementari. Nell’ambito del fieldwork possiamo
distinguere tra sondaggio e questionario. Il sondaggio è assimilabile ad un’intervista individuale
veicolata su un campione di una popolazione target di riferimento. L’intervista ha forma strutturata,
ci sono poche domande aperte e molte domande chiuse e presenta diverse modalità di contatto.
Esso è diretto se l’intervistato conosce il vero scopo del sondaggio, in caso contrario è indiretto. Il
sondaggio è il più importante metodo di indagini quantitative nelle ricerche. Il questionario è invece
il format con cui si raccolgono dati qualitativi strutturati e/o dati quantitativi e viene costruito
attraverso: il disegno del suo schema concettuale, la redazione e la verifica. Le domande devono
essere uguali per tutti gli intervistati, e non devono lasciare spazio ad interpretazioni soggettive. Le
informazioni contenute riguardano dati personali, culturali, sociali, comportamentali, scale di
soddisfazione. Le domande qualitative devono avere un range definito di risposte e non devono
essere aperte, quelle quantitative devono essere almeno 30-40 e non ambigue.
Alla fine, in seguito al Data entry, si ottiene una matrice di dati (tabella - file Excel) in cui ogni riga
rappresenta un questionario (osservazione) o un consumatore (record - unità statistica) e ogni
colonna rappresenta una domanda (variabile – campo). Questa matrice rappresenta l’input per
l’analisi.
3. Data Audit: la certificazione dei dati elementari;
4. Data Analysis: analisi dei dati;
5. Business presentation: presentazione dei risultati.
2
Metodi quantitativi
Il campionamento
Il fine di un’indagine campionaria è generalizzare i risultati ottenuti sul campione all’intera popolazione di
riferimento. Il problema di tale approccio consiste nell’approssimazione con cui è possibile descrivere la
popolazione attraverso il campione. Oggetto di studio di un’indagine campionaria è una popolazione finita
Ω=(1,2…N) le cui unità presentano tutte un medesimo carattere U. Si definisce campione di dimensione n
della popolazione Ω un suo qualsiasi sottoinsieme c contenente n unità. Per ottenere tale campione si
possono estrarre dalla popolazione n unità secondo due modalità principale:
• estrazione con ripetizione: ogni volta viene reintrodotta l’unità già estratta dalla popolazione;
• estrazione senza ripetizione: tutte le unità già selezionate non possono più essere estratte.
Metodi di campionamento
1. campionamento per quote: la popolazione viene suddivisa in gruppi omogenei in base ad alcune
variabili strutturali (sesso, residenza, età..). Si individua il numero di osservazioni da raccogliere in
ogni gruppo (quote): gli intervistatori scelgono il campione all’interno delle classi, in modo da
3
Metodi quantitativi
rispettare le proporzioni prescelte, e hanno totale arbitrarietà nella scelta delle unità da intervistare
nelle quote assegnate;
2. campionamento a scelta ragionata: le unità campionarie sono selezionate solo in determinate aree
d’analisi, in base ad informazioni preliminari sulla popolazione indagata, risulta adatto per campioni
di piccole dimensioni;
3. campionamento per convenienza: la selezione delle unità si basa su elementi di convenienza
temporale, economica o di altro genere.
Tipologie di dati
Dati qualitativi sono di solito espressi in forma verbale e danno origine a classificazioni in categorie distinte
(ad esempio le risposte fornite a domande relative alla professione). Se i dati qualitativi vengono classificati
in varie categorie distinte senza alcun ordine implicito si ottiene un livello di misurazione nominale (ad
esempio: da dove vieni? 5 risposte: nord, sud, est ecc.); se le categorie presentano un ordine implicito il livello
di misurazione risulta ordinale (ad esempio la frequenza di visite, suddivise nelle classi bassa-medio-alta). La
scala ordinale, pur consentendo di stabilire una relazione d’ordine tra le diverse categorie, non consente
alcuna asserzione numerica (cioè si può dire quale categoria è più grande ma non di quanto).
Dati quantitativi sono invece legati a quantità intrinsecamente numeriche (ad esempio il livello di
soddisfazione dei clienti). Tra i dati quantitativi abbiamo quelli discreti, caratterizzati da una quantità finita o
infinita numerabile di classi di misura, e quelli continui, la cui risposta numerica deriva da un processo di
misurazione che fornisce indicazioni puntuali all’interno di un continuum (ad esempio il livello di
soddisfazione è discreto perché può assumere valori da 1 a 9, la distanza è un dato continuo perché può
assumere qualsiasi valore all’interno di un continuum). I dati quantitativi possono prevedere una scala di
rapporti o di intervalli: con la scala di rapporti si può dire di quanto una categoria è maggiore rispetto ad
un’altra ed è fissato un valore “0” (scale di valutazione comparativa); le scale di intervalli presentano le
medesime caratteristiche della precedente tranne lo “0”.
La statistica descrittiva
La statistica descrittiva è l’insieme dei metodi che riguardano la rappresentazione e sintesi di un insieme di
dati per evidenziarne le caratteristiche principali. La statistica inferenziale è l’insieme dei metodi che
permettono la stima di una caratteristica della popolazione basandosi sull’analisi di un campione. Nella
4
Metodi quantitativi
statistica descrittiva univariata ci sono due principali metodologie per rappresentare i dati analizzati:
distribuzione di frequenza e misure di sintesi.
Le distribuzioni di frequenza. (insieme delle modalità e delle loro frequenze). La premessa di una qualsiasi
analisi statistica descrittiva è costituita da una procedura di classificazione. Tale procedura consiste
nell’associare ogni osservazione ad una classe di misura. Se interessa un primo livello di sintesi dei dati, si
deve associare a ciascuna categoria, o modalità il numero di volte in cui compare nei dati. Questo numero si
chiama frequenza assoluta. L’insieme delle classi di misura e delle loro frequenze costituisce una
distribuzione di frequenza o variabile statistica. Si definisce frequenza relativa (espressa in percentuale) della
classe, il rapporto tra la frequenza assoluta e il numero complessivo delle osservazioni effettuate pi= ni/ N
(Freq. Relativa=Freq. Assoluta/Tot. Osservazioni). Essa consente di effettuare confronti tra le diverse classi di
una stessa variabile, o fra le stesse classi di variabili statistiche. I due tipi di frequenze vengono usati con dati
qualitativi e quantitativi discreti. Nel caso di variabili qualitative le distribuzioni di frequenza possono essere
riportate in forma tabellare, riportando accanto alla modalità la frequenza assoluta e relativa, oppure tramite
grafici. Nei diagrammi a barre verticali, l’asse orizzontale riporta le categorie della variabile qualitativa, senza
un ordine preciso e l’asse verticale le frequenze assolute/relative corrispondenti alle diverse modalità. Nel
caso dei grafici a torta, la torta è divisa in tante fette quante sono le categorie della variabile qualitativa
considerata, le cui ampiezze sono proporzionali alle frequenze corrispondenti alla categoria. Nel caso di
variabili quantitative discrete, la distribuzione di frequenza può essere rappresentata anch’essa in forma
tabellare oppure tramite grafici. Nel grafico del diagramma delle frequenze, l’asse orizzontale ha un
significato quantitativo, segnalando i valori assunti dalla variabile discreta; l’altezza delle barre è
proporzionale alle frequenze relative o assolute del valore stesso. Se le variabili statistiche sono continue per
intervallo si rappresentano graficamente tramite istogrammi: sull’asse orizzontale si riportano le classi degli
intervalli considerati e sopra ogni intervallo si costruisce un rettangolo la quale area corrisponde alla
frequenza relativa della classe stessa. Le altezze dei rettangoli (corrispondente all’asse verticale) si ottengono
dividendo l’area per l’ampiezza di tale intervallo e prendono il nome di densità di frequenza.
Le misure di sintesi. Le misure di sintesi si dividono in: misure di tendenza centrale (media aritmetica,
mediana e moda), misure di tendenza non centrale (quantili e percentili), misure di dispersione o variabilità
(campo di variazione, differenza interquartile, varianza, scarto quadratico medio e coefficiente di variazione)
e misure di forma della distribuzione (indice di Skewness e indice di Kurtosis).
La media è la misura di tendenza centrale più comune ed è uguale alla somma dei valori diviso il numero dei
valori. Essa risulta influenzata da valori estremi (outlier). La mediana in una lista ordinata è il valore ‘centrale’
(50% sopra e 50% sotto) e quindi non risulta influenzata da valori estremi. La moda è il valore che occorre
più frequentemente, non è influenzata da valori estremi ed è usata sia per dati numerici che per dati
categorici. Può non esserci una moda e può esserci più di una moda.
I quartili dividono la sequenza ordinata di dati in quattro segmenti contenenti lo stesso numero di valori. Il
primo quartile Q1 è il valore per il quale il 25% delle osservazioni sono minori e il 75% delle osservazioni sono
maggiori di esso; Q2 coincide con la mediana in quanto il 50% delle osservazioni sono minori e il 50%
maggiori; Q3 è quel quartile per cui il 75% delle osservazioni sono minori e solo il 25% delle osservazioni è
maggiore. (Q3-Q1= differenza interquartile).
5
Metodi quantitativi
Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori. Il campo di variazione
è la più semplice misura di variabilità ed è uguale alla differenza tra il massimo e il minimo dei valori osservati
(Campo di variazione= Xmax – Xmin). Esso ignora il modo in cui i dati sono distribuiti, ed è sensibile agli
outlier. La differenza interquartile serve per eliminare il problema degli outlier, in quanto elimina i valori
osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati, essendo uguale a Q3-
Q1. (Rappresentazione grafica: BOX PLOT solo per variabili quantitative di alcune misure di sintesi). La
varianza è la media dei quadrati delle differenze fra ciascuna osservazione e la media , dove μ =
imo
media della popolazione, N = dimensione della popolazione e xi = i valore della variabile X. Lo scarto
quadratico medio misura la variabilità comunemente usata, mostra la variabilità rispetto alla media e ha la
stessa misura dei dati originali. La formula è uguale a quella della varianza con la differenza che omega non
è elevata al quadrato e la formula è sotto radice quadrata. Viene calcolato usando tutti i valori nel set di dati
e i valori più lontani dalla media hanno più peso perché si elevano al quadrato. Il coefficiente di variazione
misura la variabilità relativa rispetto alla media, è sempre espresso in percentuale e può essere usato per
confrontare due o più set di dati con unità di misura diversa CV= (σ/xmedio)*100. (esempio azione A prezzo
medio 50 e scarto quadratico medio5, CV=10%; azione B prezzo medio 100 e scarto quadratico medio 5,
CV=5%; entrambe le azioni hanno lo stesso scarto quadratico medio, ma l’azione B è meno variabile rispetto
al suo prezzo).
La forma della distribuzione si dice simmetrica se le osservazioni sono bilanciate o distribuite in modo
approssimativamente regolare rispetto al centro; si dice asimmetrica se le informazioni non sono distribuite
in modo simmetrico rispetto al centro. Una distribuzione con asimmetria positiva (obliqua a destra) ha una
coda che si estende verso destra nella direzione dei valori positivi. Una distribuzione con asimmetria negativa
(obliqua a sinistra) ha una coda che si estende verso sinistra nella direzione dei valori negativi. Le misure di
forma della distribuzione descrivono come sono distribuiti i dati. In una distribuzione simmetrica la media è
uguale alla mediana; in una distribuzione obliqua a destra la media è maggiore della mediana; in una
distribuzione obliqua a sinistra la media è minore della mediana. L’indice di Skewness informa sul grado di
simmetria o asimmetria di una distribuzione: se Y=0 la distribuzione è simmetrica; se Y<0 c’è asimmetria
negativa (media<mediana); se Y>0 c’è asimmetria positiva (media>mediana). L’indice di Kurtosis permette
di verificare se i dati seguono una distribuzione normale (simmetrica): se β=3 la distribuzione è normale; se
β<3 la distribuzione è iponormale (rispetto alla distribuzione di una normale ha densità di frequenza minore
per valori molto distanti dalla media); se β>3 la distribuzione è ipernormale (rispetto alla distribuzione di una
normale ha densità di frequenza maggiore per valori molto distanti dalla media).
Studio della distribuzione di due variabili congiuntamente considerate. Alcune volte è opportuno studiare le
relazioni tra due variabili per evidenziare meglio le caratteristiche del fenomeno indagato. Obiettivo: studiare
la relazione di dipendenza/indipendenza tra due variabili. L’analisi d’indipendenza dipende dalla natura delle
variabili. Le tecniche di statistica descrittiva si differenziano a seconda del livello di misura delle variabili
incrociate. Se la relazione indagata è tra variabili entrambe qualitative si utilizzano le tavole di contingenza
o a doppia entrata (Crosstabulation Analysis); se si utilizzano due variabili entrambe quantitative si usa
l’analisi di correlazione lineare; se si incrociano una variabile quantitativa con una qualitativa si conduce un
confronto fra le medie.
6
Metodi quantitativi
Questa analisi si basa sulle tabelle a doppia entrata. I valori interni alla tabella prendono il nome di frequenze
assolute congiunte e la somma di tali frequenze è pari al totale dei casi osservati (valore N). Dalla tabella si
possono ricavare le distribuzioni marginali, sommando per riga o colonna le frequenze congiunte; le
frequenze relative congiunte, pari al rapporto tra le frequenze assolute congiunte e il totale dei casi
osservati.
11,3% FREQ.REL.
CONGIUNTA=FREQ.ASS./TO
T.OSS.
39,3% FREQ.SUBORDINATA
DI RIGA (53/135)x100
22 FREQ. ASS. CONGIUNTE; DISTRIBUZIONI MARGINALI: - 38,9% FREQ. MARGINALE RELATIVA (86/221)x100 - 135 FREQ.
MARGINALE ASSOLUTA; 221 TOT. CASI OSSERVATI.
Nella realtà è difficile che si verifichi la condizione di indipendenza statistica. Pertanto è utile disporre di indici
che misurino il grado di connessione (misure di connessione) tra le variabili.
Chi-Quadrato (X2). È un indice assoluto. Il valore Chi-quadrato tende a diminuire quanto più ci si avvicina alla
situazione di indipendenza ed è nullo in questa situazione; Risente del numero delle osservazioni effettuate
quindi al crescere di N (non affidabile), l’indice tende a crescere e perciò non è subito chiaro se un certo
valore dell’indice costituisce un segnale di forte connessione tra le variabili.
Per avere una misura di sintesi più efficace è opportuno considerare indici non assoluti ma relativi, come:
l’indice V di Cramer compreso tra 0 (indipendenza statistica) ed 1 (perfetta dipendenza almeno unilaterale),
tende a crescere all’aumentare del grado di dipendenza delle variabili considerate. Se è uguale a 0,2 la
relazione è irrilevante. (non risente del numero di osservazioni).
7
Metodi quantitativi
Qualora si voglia studiare il grado di associazione tra due variabili quantitative si utilizza l’analisi della
concordanza, realizzata con una misura di sintesi nota come indice di covarianza Cov(X,Y). Esso assumerà
valori positivi in presenza di un’associazione diretta tra le due variabili (concordanza), valori negativi in
presenza di un’associazione inversa (discordanza), valore nullo nel caso di indipendenza (non concordante).
È un indice assoluto, ovvero segnala la presenza e la direzione di un legame tra due variabili, ma nulla si può
dire sul grado del loro legame. Risulta perciò utile definire il seguente indice relativo, detto correlazione
lineare di Pearson ρxy=cov (X,Y)/σxσy, che può essere compreso tra -1 e 1. Il coefficiente di correlazione
lineare vale 1 se e solo se Y è funzione lineare di X e viceversa; in questo caso la retta è inclinata positivamente
e c’è dipendenza lineare perfetta positiva. Vale -1 se c’è perfetta dipendenza lineare negativa e in questo
caso la retta è inclinata negativamente e c’è dipendenza lineare perfetta negativa. Se X e Y sono
statisticamente indipendenti allora cov(X,Y)=0 e perciò anche ρxy=0 e quindi non c’è relazione lineare tra X e
Y. Quanto più è vicino a 0, tanto più è debole la relazione lineare.
P=0 à non c’è relazione lineare tra X e Y; P>0 à relazione lineare positiva tra X e Y (r=+0,3); P<0 à relazione
lineare negativa tra X e Y (r=-0,6).
Per incrociare una variabile quantitativa con una qualitativa, la relazione può essere descritta confrontando
le medie aritmetiche della variabile numerica quantitativa (Y) all’interno delle categorie definite dalla
variabile qualitativa misurata (X) a livello nominale o ordinale tramite le medie condizionate. Un indice
sintetico dell’intensità della relazione si basa sulla scomposizione della varianza (ANOVA: Analysis of
Variance) per la variabile quantitativa Y, di cui viene studiata la dipendenza nei confronti della variabile
categorica X. La variabilità totale di Y è SQTy (somma dei quadrati tot) che è uguale alla variabilità tra i gruppi
SQtra (somma dei quadrati tra i gruppi) più la variabilità nei gruppi SQnei. La somma dei quadrati tra i gruppi
esprime quanta variabilità di Y può essere legata al variare delle categorie di X, mentre la somma dei quadrati
nei gruppi esprime la variabilità nell’andamento di Y indipendente da X. È quindi possibile definire un indice
relativo η2 per misurare la dipendenza in media. Come η2= SQtra/SQTy il cui valore è compreso tra 0 ed 1; più
si avvicina ad 1 più è forte il legame tra le due variabili considerate. Se η2=0 c’è indipendenza in media, se
η2>0 c’è dipendenza in media, se η2=1 c’è massima dipendenza media. (es: η2=0,020.. indipendenza in media).
In caso di indipendenza in media le medie dei diversi gruppi (medie condizionate ai diversi livelli della variabile
qualitativa) saranno tutte uguali tra loro e quindi la variabilità tra i gruppi sarà nulla. Viceversa qualora ad
ogni livello della variabile qualitativa sia associato un unico valore della variabile quantitativa, si parlerà di
massima dipendenza in media e si avrà variabilità interna ai gruppi nulla. Per misurare l’intensità della
dipendenza in media si può utilizzare l’indice Eta (radice quadrata di Eta Squared) considerando 0.2 come
valore soglia oltre il quale si può asserire che esiste dipendenza in media tra le variabili. Aumentando il valore
di Eta aumenta la dipendenza in media.
8
Metodi quantitativi
Tali tecniche prevedono la possibilità di individuare la stima puntuale a livello di intera popolazione di una
caratteristica del fenomeno indagato. Da un punto di vista formale, (cos’è un test d’ipotesi?) la teoria dei test
prevede che il ricercatore formuli specifiche ipotesi sulla distribuzione della popolazione. Tali ipotesi sono
parametriche se riguardano il valore di uno o più parametri della popolazione partendo dalla conoscenza
della distribuzione, non parametriche se invece prescindono dalla distribuzione della popolazione. Il
ricercatore opera formulando due ipotesi complementari sul problema in oggetto, dette ipotesi nulla (H0) e
ipotesi alternativa (H1) che non possono risultare vere allo stesso tempo. L’obiettivo della teoria dei test è
come decidere se accettare o rifiutare un’ipotesi statistica alla luce di un risultato campionario. Un’ipotesi è
un’affermazione (assunzione) circa il parametro della popolazione, l’ipotesi Nulla, H0 rappresenta l’ipotesi
che deve essere verificata, l’ipotesi Alternativa, H1 è generalmente l’ipotesi che il ricercatore sta cercando di
dimostrare. Obiettivo: stabilire se, sulla base dei dati campionari osservati, l’ipotesi nulla è “verosimile”.
Viene rifiutata se il campione osservato è “improbabile” ritenendo vera quell’ipotesi. Questo processo
decisionale è soggetto a due tipologie di errori: - errore di 1° tipo à rifiutare l’ipotesi nulla quando essa è
vera, considerato un tipo di errore molto serio, la probabilità dell’errore di primo tipo è α chiamato livello di
significatività del test il quale viene fissato a priori dal ricercatore (di solito può essere 0.05, 0.01, 0,10); -
errore di 2°tipo à accettare l’ipotesi nulla quando essa è falsa, la probabilità d’errore di 2° tipo è β e (1-β) è
chiamato potenza del test. L’errore di primo tipo ed errore del secondo tipo non si possono verificare
contemporaneamente. Se la probabilità dell’errore di primo tipo (α) aumenta, allora la probabilità dell’errore
di secondo tipo (β) diminuisce.
Stato di Natura / Decisione ACCETTO H0 (Sulla base del campione RIFIUTO H0 (Sulla base del campione
decido che c’è indipendeza) decido che c’è dipendenza)
H0 vera (Le due var. sono realmente indip.) No errore (prob 1-α) Errore 1° tipo (prob α) livello di
significatività
H0 falsa (Esiste in natura una dip. tra le var.) Errore 2°tipo (prob β) No errore (prob 1-β) potenza del test
Dal punto di vista dell’inferenza statistica, per ogni problema decisionale esiste una procedura di verifica di
ipotesi ottimale basata su una funzione degli elementi del campione, detta statistica test, e sulla
distribuzione di probabilità della statistica test stessa. Fissando un livello di significatività si ottiene una
partizione dell’insieme dei valori possibili in due regioni, dette di accettazione e di rifiuto dell’ipotesi nulla.
Se il valore campionario della statistica test si trova nella regione di accettazione, la scelta del ricercatore
cade nell’ipotesi nulla, in caso contrario nell’ipotesi alternativa. Dal punto di vista operativo, la procedura più
comune per condurre un test di ipotesi prevede l’uso del p-value che rappresenta la probabilità che H0 sia
vera in base al valore osservato dalla statistica test (livello di significatività osservato). La regola decisionale
sta nel confrontare il p-value con α, se tale statistica cade nella regione di rifiuto dell’ipotesi nulla, il p-value
risulterà inferiore al livello di significatività fissato (se p-value<α rifiuto H0); se tale statistica cade nella regione
di accettazione, il p-value risulterà superiore al livello di significatività prescelto. I test si definiscono a una
coda quando la regione di rifiuto cade in una sola coda della distribuzione, e a due code se cade in entrambe
le code della distribuzione.
9
Metodi quantitativi
Test Chi-quadrato per l’indipendenza statistica (due variabili qualitative e quantitative discete): l’indice X2
può essere utilizzato anche come statistica test nella prova d’ipotesi caratterizzata da:
Sotto l’ipotesi H0 la statistica Chi-quadrato si distribuisce secondo una distribuzione detta appunto chi-
quadrato, con un numero di gradi di libertà pari a (k-1)(h-1) dove k e h rappresentano le righe e le colonne
della tavola di contingenza. La regione di rifiuto cade nella coda di destra della distribuzione, se il livello di
significatività è al 5% si rifiuta per X2>X20,95. Se più del 20% delle celle ha frequenza assoluta <5 è segnalato
come test non affidabile.
Test T di Student per l’indipendenza lineare (due variabili quantitative): a partire da ρ è possibile costruire
un test per verificare l’ipotesi di indipendenza lineare tra le due variabili:
• H0 indipendenza lineare tra X e Y (ρ=0) se p-value ≥ α à accetto H0à X e Y sono linearmente ind.
• H1 dipendenza lineare tra X e Y (ρ≠0) se p-value < α à rigetto H0à X e Y sono linearmente dip.
La statistica test è data da t= ρ[(n-2)/(1-ρ2)]1/2 ed è distribuita secondo una legge t-student con n-2 gradi di
libertà. La regione di rifiuto dell’ipotesi nulla cade nelle due code della distribuzione. Se il livello di
significatività è al 5% si rifiuta per ǀtǀ>t0,975
Test F di Fisher per l’indipendenza in media e la verifica di ipotesi sulla differenza fra le medie (una variabile
qualitativa e una quantitativa continua): la scomposizione della varianza è utile per introdurre un test di
significatività in cui:
• H0=μ1= μ2=… μn le medie di Y nei gruppi sono tutte uguali tra loro
se p-value ≥ α à accetto H0à X e Y sono indipendenti in media
• H1: esistono almeno due μ medie diverse tra loro e quindi le μ non sono tutte uguali
se p-value < α à rigetto H0à X e Y sono dipendenti in media
La statistica test utilizzata è pari a F= [(SQtra/c-1)/(SQnei/n-c)], che sotto l’ipotesi H0 ha una distribuzione F di
Fisher con (c-1, n-1) gradi di libertà. La regione di rifiuto dell’ipotesi nulla cade nella coda di destra della
distribuzione, cioè è caratterizzata da valori relativamente elevati di F; se il livello di significatività è al 5% si
rifiuta per F>F0.95
La statistica test F tende a crescere all’aumentare dell’ampiezza campionaria; la statistica test F tende a
crescere all’aumentare dell’ampiezza campionaria, all’aumentare della varianza tra le medie e al diminuire
della variabilità interna alle categorie.
10
Metodi quantitativi
11
Metodi quantitativi
L’analisi statistica multivariata è l’insieme di metodi statistici usati per analizzare simultaneamente più
variabili. Esistono molte tecniche diverse, usate per risolvere problemi anche lontani fra loro. Strumenti:
analisi fattoriale, regressione lineare, regressione logistica e serie storiche.
Il motivo per cui viene introdotta l’analisi multivariata è che raramente il comportamento oggetto di studio
è determinato da un solo fattore ma comunemente diverse cause si affiancano nel determinare gli esiti di
una misura. L’analisi multivariata svolge il compito di descrivere la relazione esistente tra più di due variabili
in modo congiunto attraverso: 1) analisi della dipendenza, una o più delle p variabili considerate vengono
scelte come variabili obiettivo (dipendenti), il cui andamento si desidera spiegare sulla base delle variabili
rimanenti (esplicative o indipendenti); 2) analisi dell’interdipendenza, non si crea nessuna differenziazione
tra tipologie di variabili e se ne studia semplicemente l’interdipendenza. Il tipo di analisi che si effettua cambia
a seconda del tipo di variabile:
• Analisi della dipendenza: regressione lineare multipla (X quant, Y quant), Conjoint Analysis (Xqual,
Yquant), Discriminant Analysis (X quant, Y qual);
• Analisi dell’interdipendenza: cluster analysis (set X quant) ai fini della classificazione, Analisi
Fattoriale (set X quant) ai fini di ridurre le dimensioni.
L’analisi fattoriale
Si utilizza nel caso di un elevato numero di variabili quantitative, tra loro correlate (linearmente) e in contesti
applicativi, è usata anche con variabili qualitative ordinali che esprimono scale di preferenza numeriche (scale
di punteggi). Si utilizza perché l’informazione è condivisa tra le variabili correlate e sarebbe ridondante
utilizzare tutte, l’informazione è dispersa fra le variabili e c’è la possibilità che le variabili, utilizzate
singolarmente, siano poco esplicative. L’obiettivo è sintetizzare le variabili originarie in un numero inferiori
di variabili, dette fattori ‘latenti’.
Sintetizzare mediante l’impiego della tecnica perché se l’informazione è “dispersa” tra più variabili correlate
tra loro, le singole variabili faticano da sole a spiegare il fenomeno oggetto di studio, mentre combinate tra
loro risultano molto più esplicative. I fattori latenti sono ‘concetti’ che abbiamo in mente ma che non
possiamo misurare direttamente. Es. l’attrattività di una città da cosa è data? Dalle caratteristiche del
contesto, dalla demografia, dalla struttura, dalla qualità della vita etc. Nel caso in cui l’informazione
disponibile per eseguire un’analisi è distribuita tra molte variabili tra loro correlate, possono insorgere diversi
problemi di tipo logico/applicativo. Quando le variabili considerate sono numerose spesso risultano tra loro
correlate questa numerosità e correlazione tra variabili porta a difficoltà di analisi. Quindi bisogna sintetizzare
perché se l’informazione è condivisa tra più variabili correlate tra loro, risulta eccessivo utilizzarle tutte; la
sintesi semplifica le analisi successive ma comporta una perdita di informazione, si deve evitare, di perdere
informazioni rilevanti.
L’Analisi Fattoriale è una tecnica statistica multivariata per l’analisi delle correlazioni esistenti tra variabili
quantitative. A partire da una matrice di dati : X(nxp), con “n” osservazioni e “p” variabili originarie, consente
di sintetizzare l’informazione in un set ridotto di variabili trasformate (le componenti/i fattori latenti). Quindi
quest’analisi studia le interrelazioni tra variabili di dimensione minore rispetto a quelle originarie, al fine di
trovarne una sintesi che esprima ciò che è in comune tra le variabili stesse. Per estrarre i fattori latenti e
quindi stimare dei coefficienti (i LOADINGS), uno dei metodi possibili è il Metodo delle Componenti
Principali. Alla matrice dei dati X (nxp) possono essere associate p nuove variabili (componenti principali),
12
Metodi quantitativi
ottenute come combinazioni lineari dalle variabili originali, mentre le componenti non sono correlate tra loro
e apportano quindi un contenuto differenziato.
Stimare i loadings (cioè i coefficienti) utilizzando il metodo delle componenti principali vuol dire ipotizzare
che il patrimonio informativo specifico delle variabili manifeste sia minimo, mentre sia massimo quello
condiviso, spiegabile dai fattori comuni. Per la stima dei loadings si ricorre agli autovalori e agli autovettori
della matrice di correlazione R: di fatto i loadings coincidono con le correlazioni tra le variabili manifeste e le
componenti principali.
La prima componente principale è una combinazione lineare delle p variabili originarie ed è caratterizzata da
varianza più elevata, e così via fino all’ultima componente, combinazione sempre delle p variabili originarie,
ma a varianza minima.
Se la correlazione tra le p variabili è elevata, un numero k<<p (k molto inferiore a p) di componenti principali
è sufficiente a rappresentare in modo adeguato i dati originari, perché riassume una quota elevata della
varianza totale.
Come determinare il numero k di fattori latenti tra le p componenti principali:
- Più k è basso, più semplifico le analisi successi
- Più k è elevato, maggiore è il contributo informativo mantenuto.
Processo di analisi
Identificazione p variabili di partenza (variabili quantitative o
scale di punteggio)
I principali problemi nell’impostare un’analisi fattoriale riguardano quante componenti considerare e come
interpretarle. Per quanto riguarda il numero di componenti gli elementi di valutazione sono:
1. Metodo degli autovalori > 1. Secondo la regola degli autovalori, bisogna prendere le componenti
principali con varianza >1 tenendo sotto controllo la percentuale di varianza spiegata dalle
componenti. (Step 1)
2. Il rapporto fra numero di componenti e di variabili (circa 1/3). È opportuno sottolineare che l’utilità
dell’analisi fattoriale viene avvertita quando si realizza un’effettiva riduzione di complessità.
13
Metodi quantitativi
L’analisi di regressione è una tecnica d’analisi statistica multivariata che ha lo scopo di individuare la relazione
esistente tra una variabile considerata come obiettivo della ricerca (variabile dipendente Y) e un insieme di
variabili esplicative indipendenti (X1,..,Xp) à REGRESSORI. Quindi si vuole descrivere questa relazione con
una funzione lineare la quale può essere di due tipi: - se p=1 le osservazioni si trovano in uno spazio a due
dimensioni e avremo una retta di regressione lineare semplice – se p>1 le osservazioni si trovano in uno
spazio a p+1 dimensioni e avremo una ’retta’ (piano) di regressione lineare multipla. Non sempre però si
conoscono tutte le variabili esplicative rilevanti e alcune di esse possono non essere misurabili o esserlo solo
con errore. Può non essere nota la forma funzionale della relazione. Per tener conto di tali relazioni, occorre
utilizzare modelli probabilistici di cui il modello di regressione ne è un esempio. Gli obiettivi del modello di
regressione lineare possono essere di natura: esplicativa, stimare l’influenza dei regressori sulla variabile
14
Metodi quantitativi
target; predittiva, stimare il valore non osservato della variabile target in corrispondenza di valori osservati
dei regressori; comparativa, confrontare la capacità di più regressori, o di più set di regressori, di influenzare
il target, vale a dire il confronto tra modelli di regressione lineare diversi.
- N unità statistiche à n righe
- Vettore colonna (nx1) di n misurazioni su una variabile continua (Y)
- Matrice (nxp) di n misurazioni su p variabili quantitative (X1,…,Xp) à colonne
- La singola osservazione è il vettore riga (yi,xi1,xi2,xi3,…,xip) i=1,…,n
L’Errore presente nel modello si ipotizza essere di natura casuale. Può essere determinato da: - variabili non
considerate – problemi di misurazione – modello inadeguato – effetti puramente casuali.
- Y è un vettore aleatorio di cui si osserva una specifica realizzazione campionaria (hp sulla
distribuzione)
- X è una matrice costante con valore noto (no hp sulla distribuzione)
- Beta è un vettore costante non noto
- L’errore è un vettore aleatorio di cui osserva una specifica realizzazione campionaria (hp sulla
distribuzione)
- In media Y può essere rappresentata come funzione lineare delle sole (X1,….,Xp) µ= E(Y) = Xβ
- Ogni osservazione di Y è uguale ad una combinazione lineare dei regressori con pesi uguale
coefficienti beta + un termine di errore Y= Xβ + ε
15
Metodi quantitativi
Dalla formula generale si ricava che, essendo εi una variabile casuale, anche Yi è una variabile casuale e
pertanto la sua relazione con le variabili esplicative non è deterministica: per ogni xi fissato, il valore yi
corrispondente si posizionerà in modo casuale intorno alla sua media.
I parametri β del modello di regressione sono coefficienti non noti (Equazione teorica), ed esiste l’esigenza
di stimarli. Equazione stimata à coefficienti stimati (una delle infinite rette possibili). Stimando la retta di
regressione si commette un errore di previsione che risolviamo utilizzando il metodo dei minimi quadrati.
L’obiettivo è trovare la miglior approssimazione lineare della relazione tra Y ed X1,…,Xp cioè trovare le stime
dei parametri β che identifichino la ‘migliore’ retta di regressione. Nel metodo dei minimi quadrati lo
stimatore LS è la soluzione del problema minβ ∑(yi-Xiβ)2↔minβ ε!ε.
• Non distorto
• Consistente (se valgono certe ipotesi su X’X)
• Coincide con lo stimatore di massima verosimiglianza sotto Hp forti
16
Metodi quantitativi
A differenza dell’equazione teorica, l’equazione stimata stima i coefficienti (una delle rette possibile), per
fare ciò bisogna interpretare i coefficienti attraverso l’osservazione di tre elementi: - impatto di Xj su Y posto
che nel modello siano presenti altre variabili – tasso di variazione di Y al variare di Xj – come varia Y al variare
di una unità di Xj se gli altri regressori non variano.
Il segno del coefficiente indica la direzione dell’impatto del regressore a cui è associato; il valore del
coefficiente indica l’incremento marginale di Y e dipende dall’unità di misuta di Xj; per valutare l’impatto
relativo dei singoli regressori è necessario considerare i coefficienti standardizzati. Essi sono utili per valutare
l’importanza relativa dei regressori. Possiamo ordinare i regressori in base all’importanza che hanno nello
spiegare la variabile dipendente. Il regressore con valore assoluto del coefficiente standardizzato più alto è il
più importante (anche se è negativo).
Uno dei punti nodali dell’analisi di regressione è comprendere quanto siano influenti le variabili esplicative
nel determinare l’andamento della dipendente, cioè quanta parte della variabilità di Y sia colta dalla
variazione delle variabili esplicative X. Si consideri la variabilità delle osservazioni yi intorno alla sua media
data da ∑(yi-ȳ)2. Tale quantità viene detta somma totale dei quadrati ed è indicata con SST (total sum of
squares). L’idea è scomporre SST in due parti: la prima misura la variabilità dei valori stimati ŷi intorno alla
media ȳ ed è detta somma dei quadrati dovuta alla regressione (SSM, model sum of squares). La parte
rimanente, detta somma dei quadrati dovuta all’errore (SSE, error sum of squares), misura la variabilità delle
osservazioni intorno ai valori stimati, ovvero la parte di variabilità non spiegata dal modello.
17
Metodi quantitativi
1. Il coefficiente di determinazione R2 serve per valutare la capacità esplicativa del modello e misura la
variabilità delle osservazioni intorno alla ‘retta’ di regressione. È definito come il rapporto tra la
somma dei quadrati dovuta alla regressione (SSM) e la somma dei quadrati totale (SST) R2=SSM/SST.
Tale indice è compreso tra 0 ed 1 e misura la percentuale di variabilità di Y spiegata dal modello.
SSM=0 il modello non spiega, più il valore è vicino ad 1 e più il modello ha capacità esplicativa (R-
quadro > 0,2/0,3 il modello ha capacità esplicativa), se SSM=1 il modello spiega perfettamente,
SSM=SST (R-quadro=1) OK; à OK valori alti.
2. R-quadro adjusted è come R-quadro ma indipendente dal numero di regressori, combina adattabilità
e parsimonia. Varia tra 0 e 1 ed è ok per valori maggiori a 0,2/0,3. à OK valori alti.
3. Test F viene introdotto per valutare la significatività congiunta dei coefficienti.
Ipotesi nulla H0:β1= β2=…= βp=0 ; H1: βi≠0. La valutazione si effettua in base al p-value; se p-value è
piccolo rifiuto l’Hp di coefficienti tutti nulli, ed il modello ha buona capacità esplicativa. à OK p-value
con valori bassi.
4. Test t viene introdotto per valutare la significatività dei singoli coefficienti.
Ipotesi nulla (j=1,..,p) H0:βi=0. Per la valutazione, il coefficiente è significativo (significativamente
diverso da 0) se il corrispondente p-value è piccolo ossia, rifiuto l’ipotesi di coefficiente nullo, da ciò
segue che il regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno
(di solito il p-value deve essere < 0.05).
Il segno del coefficiente: indica la direzione dell’impatto del regressore a cui è associato; se il segno atteso è
diverso da quello osservato può indicare interazione tra i regressori à multicollinearità (quando un
regressore è combinazione lineare di altri regressori nel modello, le stime sono instabili e hanno standard
error elevato. Questo problema è chiamato multicollinearità). L’ordine di grandezza: dipende dall’unità di
misura della variabile indipendente Xj; per valutarlo si devono usare doefficienti standardizzati.
X1,…,Xp non sono vettori linearmente indipendenti e c’è forte correlazione tra i regressori (o alcuni di essi).
Questo comporta che la varianza dello stimatore dei minimi quadrati tende ad esplodere e si presenta un
problema di stabilità delle stime.
Per verificare la presenza di multicollinearità si effettua la regressione lineare di Xj sui rimanenti p-1
regressori:
i. Rj2 misura la quota di varianza di Xj spiegata dai rimanenti p-1 regressori à valori maggiori 0,2/0,3
alti=multicollininearità.
ii. Variance Inflation Index (VIFj) VIFj = 1 / (1 – Rj²) misura il grado di relazione lineare tra Xj e i
rimanenti p-1 regressori à valori maggiori 1,2/1,3 alti=multicollininearità.
18
Metodi quantitativi
3. analisi delle componenti principali à trasformazione dei regressori in componenti non correlate
(nella nuova regressione andranno incluse tutte le componenti principali perché le ultime
componenti possono essere rilevanti da un punto di vista previsivo pur non essendolo dal punto di
vista della spiegazione della variabilità di X1,…,Xp.)
Si vuole modellare una relazione di tipo lineare tra una variabile dipendente e un insieme di regressori che si
ritiene influenzino la variabile dipendente. Tra le infinite rette che esprimono tale relazione si stima quella
che fornisce la migliore interpolazione stimando i coefficienti associati ai regressori che entrano nel modello,
minimizzando gli errori di approssimazione.
La selezione dei regressori può basarsi su: valutazioni soggettive, confronto tra tutti i possibili modelli,
algoritmi di selezione automatica. La procedura di calcolo automatico seleziona il sottoinsieme di variabili
ottimo tra quelli possibili:
• Forward selection: inserisce nell’equazione una variabile per volta, basandosi sul contributo del
regressore inserito alla spiegazione della variabilità di Y;
• Backward selection: rimuove dall’equazione una variabile per volta, basandosi sulla perdita di
capacità esplicativa della variabilità di Y conseguente all’eliminazione del regressore;
• Stepwise selection (Forward+backward selection): ogni variabile può entrare/uscire dal modello
La Stepwise Selection è una procedura sequenziale che valuta l’ingresso/uscita dal modello dei singoli
regressori (in base a indicatori legati all’R-quadro). Vengono fissati a priori due livelli di significatività
(ingresso/uscita).
Criterio di arresto: quando non si riesce in alcun modo ad aumentare la capacità esplicativa del modello.
Prima di poter dire se il modello è adeguato bisogna realizzare un’analisi di influenza, cioè capire se
osservazioni anomale rispetto alla variabilità di Y sono influenti oppure no. L’analisi di influenza viene fatta
per valutare l’impatto delle singole osservazioni, considerando due possibilità: osservazioni outlier che
19
Metodi quantitativi
creano distorsioni nella stima del modello (plot dei residui, plot X/Y); osservazioni influenti che
contribuiscono in modo “sproporzionato” alla stima del modello (plot dei residui, statistiche di influenza).
Con riferimento alle statistiche di influenza abbiamo:
• Leverage H: misura quanto un’osservazione è lontana dal centro dei dati (ma tende a segnalare
troppe osservazioni influenti e tratta tutti i regressori nello stesso modo). L’osservazione è influente
se lev H>2*(p+1)/n. [diag ( H )] = [diag ( X ( X ' X ) −1 X ' )]
i i
(Leverage alto per i-esima ossà la correlazione tra Yi e il suo valore previsto è quasi 1àYi ha forte
influenza sulla stima del valore previsto. Se il valore è piccolo vuol dire che ci sono tante oss che
contribuiscono alla stima del valore previsto. Un’osservazione con alto leverage fa spostare di tanto
la retta stimata).
• Distanza di Cook: misura la variazione simultanea dei coefficienti quando un’osservazione viene
rimossa à oss influente se D>1
In conclusione, per verificare la bontà delle stime utilizziamo i test statistici; per l’adattamento del modello
ai dati usiamo gli indicatori di performance e l’analisi dei residui; per l’impatto delle singole osservazioni
usiamo l’analisi degli outliers e l’analisi di influenza; per l’impatto dei regressori usiamo la valutazione dei
coefficienti e correlazioni parziali.
Il modello di regressione lineare è inadeguato quando la variabile risposta è dicotomica (ha solo due
possibilità es. M e F), poiché in non garantisce il rispetto del campo di variazione [0,1]. La regressione logistica
appartiene alla categoria dei Modelli Lineari Generalizzati. Consente di prevedere una variabile discreta, che
può essere intesa come l’appartenenza a un gruppo, a partire da un insieme di variabili (continue, discrete,
dicotomiche). Generalmente, la variabile dipendente, o variabile risposta, è dicotomica e rappresenta una
assenza/presenza o un fallimento/successo.
- N unità statistiche
- Vettore colonna (nx1) di n misurazioni su una variabile dicotomica (Y)
- Matrice (nxp) di n misurazioni su p variabili quantitative (X1,…,Xp)
- La singola osservazione è il vettore riga (yi, xi1,xi2,xi3,..,xip) i=1,…,n
20
Metodi quantitativi
1. Rispetta il vincolo che il valore stimato di: Π: Pr(Y=1 | X) sia compreso nell’intervallo [0,1];
2. La forma ad “esse” della funzione logistica garantisce un avvicinamento graduale ai valori estremi 0
e 1;
3. La funzione logit: Π è esprimibile come combinazione lineare delle variabili indipendenti X1,….,Xk
- Asintoticamente corretti (le stime sono non distorte, si avvicinano al valore vero)
- Asintoticamente efficienti (con standard error delle stime sono piccoli almeno come quelli di ogni
altro metodo di stima)
- Asintoticamente normali (è possibile usare la distribuzione normale o chi quadro per calcolare gli
intervalli di confidenza)
Test per valutare la significatività congiunta dei coefficienti (‘Testing Global Null Hypothesis: BETA=0”):
– Likelihood Ratio – Score – Wald. Queste statistiche hanno distribuzione Chi-quadro con n gradi di libertà
dove n corrisponde al numero di coefficienti stimati dalle variabili indipendenti. Se il p-value piccolo (rifiuto
Ho), quindi il modello ha buona capacità esplicativa. N.B. Equivalenti al Test F della regressione lineare
- Likelihood ratio test à OK p-value con valori piccoli à è l’analogo del test F nella reg.lin.
- Wald Chi_square test à OK p-value con valori piccoli à è l’analogo del test T nella reg.lin.
- Akaike Criterion à OK valori piccoli
- Schwart Criterion à OK valori piccoli
Si definiscono PAIRS il numero di coppie di osservazioni (i,h con i≠h) che in un caso hanno Y=1 e nell’altro
Y=0. La coppia di osservazioni (i,h con i≠h) per la quale Yi=1 e Yh=0 è: concordante se πi>πh, tied se πi=πh,
discordante se πi<πh. Tanto maggiore è il numero dei CONCORDANT (e quindi tanto minore è il numero dei
DISCORDANT), tanto più il modello rappresenterà adeguatamente il fenomeno indagato. Le statistiche
seguenti sono calcolate sulla base del numero di coppie CONCORDANT, DISCORDANT e TIED. Tanto più questi
21
Metodi quantitativi
indicatori sono elevati, tanto più il modello è ‘corretto’. Queste misure variano tra 0 ed 1. Valori più grandi
corrispondono a più forte associazione tra valori predetti e valori osservati.
Wald Chi-square: il quadrato del rapporto tra stima e standard error. Il coefficiente è significativamente
diverso da zero se il corrispondente p-value è piccolo (ossia, rifiuto l’ipotesi di coefficiente nullo) à il
regressore a cui il coefficiente è associato è rilevante per la spiegazione del fenomeno. N.B. Equivalente al
Test t della regressione lineare.
In presenza di regressori quantitativi, i coefficienti standardizzati possono essere utili per valutare
l’importanza relativa delle variabili, capire quali sono quelle che pesano di più nel modello. Analogamente al
modello di regressione lineare, la relazione tra la variabile dipendente e le indipendenti è nota a meno del
valore dei paramenti: log it (Πi)= log(Πi/1-Πi)=α+β1xi1+β2xi2+…+βkxik. Ai fini della formulazione di un modello
di tipo lineare è stato necessario: 1. Trasformare le probabilità in odds log it π/(1-π) per rimuovere il limite
superiore (Sup=1); 2. Applicare la funzione logaritmica agli odds per rimuovere il limite inferiore (Inf=0).
Nelle scommesse si dice che un certo evento è dato 5 a 2 che vuol dire 5/2 è l’odds: il rapporto tra il numero
atteso di volte che un evento accada e il numero atteso di volre che un evento non accada. C’è un semplice
relazione tra l’odds e la probabilità: O=π/1-π à π=O/1+O dove π è la probabilità e O è l’odds. Un odds
inferiore a 1 corrisponde a una probabilità inferiore a 0,5. Il limite inferiore è 0 come per la probabilità ma
non ha limiti superiori. Nella regressione logistica un coefficiente di 0,2 ci dice che il logit di Y (il log dell’odds)
aumenta di 0.2 in corrispondenza al possesso dell’attributo X. Ma cosa significa un aumento di 0,2 del logit?
Dato che la relazione tra probabilità e regressore non è lineare, risulta più facile parlare in termini di odds. I
coefficienti stimati, a parte per il segno, non sono interpretabili, l’odds ratio (l’exp del coeff.) si.è una misura
di associazione; approssima il Rischio Relativo, ossia quando più probabile è per la variabile risposta essere
presente tra i soggetti con x=1 che tra quelli con x diverso da 0. Nel caso di variabili continue l’interpretazione
del parametro è analoga. Il coefficiente esprime il cambiamento di logit in corrispondenza di un aumento
unitario di X.
Analogamente a quanto visto per la regressione lineare, anche per la logistica il problema della
multicollinearità può causare effetti indesiderati sulla stabilità delle stime. I metodi di gestione della
problematica sono analoghi a quelli trattati nel modello di regressione lineare. Analogamente alla
regressione lineare è possibile avvalersi di vari metodi di selezione automatica delle variabili. Anche in questo
caso gli algoritmi operano secondo le logiche di: - Stepwise – Forward – Backward.
22