Sei sulla pagina 1di 151

Appunti di Statistica per le decisioni d'impresa

Roberta Siciliano1

Dipartimento di Matematica e Statistica


Universit Federico II di Napoli Federico II
e-mail: roberta@unina.it
U.R.L.:http://cds.unina.it/ roberta

Questi appunti costituiscono materiale didattico di supporto per l'insegnamento di


Statistica per le decisioni d'impresa rivolto agli studenti del Corso di Laurea in Statistica
e informatica per l'economia e le imprese della Facolt di Economia. Invero, essi costituiscono una rielaborazione della dispensa didattica dal titolo Statistica Aziendale:
Modelli statistici per l'economia e le imprese che no allo scorso anno stata proposta agli studenti del corso di Statistica aziendale, esame annuale caratterizzante il prolo
formativo del Corso di Economia Aziendale, secondo il vecchio ordinamento degli studi.
Fin dalla sua prima edizione (a.a. 1995 1996), la dispensa didattica ha subito numerose
rivisitazioni, integrazioni ed aggiornamenti, in seguito a correzioni, suggerimenti e commenti da parte sia dei frequentanti il corso di Statistica Aziendale, il cui numero cresciuto
esponenzialmente nel tempo, che soprattutto dei collaboratori alla cattedra di Statistica
Aziendale, che si sono succeduti in tutti questi anni. Se dei primi sarebbe improponibile
menzionarli tutti, dei secondi invece doveroso menzionare nome e cognome. Pertanto,
seguendo un mero ordine di anzianit di servizio didattico reso (attraverso lezioni integrative, seminari, esercitazioni in laboratorio, attivit di tutoraggio a numerosi tesisti e
gruppi di lavoro per la elaborazione di tesi di laurea e di tesine), si sono succeduti nel
tempo, ed ove possibile collaborano ancora: il dott. Claudio Conversano, ricercatore in
Statistica presso la Facolt di Economia dell'Universit di Cassino, la dott.ssa Carmela
Cappelli, ricercatrice in Statistica presso la Facolt di Scienze Politiche dell'Universit di
Napoli Federico II, il dott. Massimo Aria, dottorando in Statistica Computazionale presso
il Dipartimento di Matematica e Statistica dell'Universit di Napoli Federico II, la dott.ssa
Roberta Pellican, dottorando in Statistica presso il Dipartimento di Matematica e Statistica dell'Universit di Napoli Federico II. A loro va il pi aettuoso dei ringraziamenti
per il prezioso ed indispensabile contributo ed entusiasmo profuso durante le attivit universitarie, ma soprattutto per avermi indotto a proporre agli studenti le mie cartelle delle
lezioni sotto forma di dispensa didattica.
1

Capitolo 1

La statistica in contesti
decisionali
1.1 La statistica aziendale
La statistica moderna si occupa della raccolta e dell'analisi di grandi mole
di informazioni riguardanti fenomeni complessi caratterizzati dall'interagire
congiunto di un numero elevato di variabili servendosi, a tal ne, del calcolatore elettronico. La statistica aziendale si propone, quale supporto delle
decisioni aziendali, di integrare le esigenze informative che si presentano nella gestione della azienda con lo scopo di informare, controllare, prevedere.
A tal ne, si avvale di informazioni qualitative e quantitative derivanti da
statistiche interne e da statistiche esterne alla azienda.
Le statistiche interne riguardano direttamente l'organizzazione e la gestione
della azienda e sono eettuate sulla base di dati rilevati all'interno della
azienda stessa; ne costituiscono un esempio la determinazione della scorta
massima e minima di ogni materiale, il calcolo della incidenza dei costi di
distribuzione sul prezzo dei singoli prodotti, la preparazione del graco di
redditivit, l'elaborazione degli indici di bilancio, la previsione delle vendite,
il controllo di qualit.
Le statistiche esterne studiano i mercati nei quali l'azienda opera, l'attivit
delle aziende concorrenti e dei settori complementari ed in genere i fenomeni
concernenti l'ambiente socio-economico in cui l'azienda opera o intende operare. Ai ni dell'elaborazione delle statistiche esterne, l'azienda si avvale di
dati provenienti da diverse fonti, quali ad esempio le banche dati statistiche,
le riviste specializzate di settore, i bollettini di istituti di statistica o di ricerca
economica, le pubblicazioni di statistiche uciali italiane ed internazionali,
2

pubblicazioni di categoria, indagini dirette (o tramite istituti specializzati),


sperimentazioni.
Nell'ambito del sistema informativo aziendale, la statistica aziendale svolge
un duplice ruolo di integrazione e di complementariet. La conoscenza dei
fenomeni economici non pu prescindere da informazioni sucientemente
esaustive tanto in termini qualitativi che quantitativi: si assiste sempre pi
alla sinergia tra analisi qualitative e analisi quantitative, basate queste ultime
sulla visualizzazione sotto forma di tabelle e graci, sulla sintesi attraverso
indici statistici, rapporti statistici o indicatori aziendali, su reports che riassumono i risultati derivanti dall'elaborazione statistica dei dati attraverso
modelli statistici.
Il percorso di studio che si seguir privileger l'aspetto quantitativo approfondendo i metodi statistici che possono contribuire alla denizione di una
base di conoscenza quantitativa che superi la fase iniziale tipicamente descrittiva e si proli come formativa per la costruzione di modelli statistici.

1.2 Il procedimento scientico di ricerca


L'evoluzione dei fenomeni economici pu essere seguita ed analizzata mediante un processo di conoscenza con fasi ben individuate che prendono l'avvio
dall'osservazione di un sistema o mondo reale. La realt viene osservata dal
ricercatore non nella sua interezza, bens attraverso una nestra che limita
l'angolo visuale focalizzando l'attenzione solo su alcuni aspetti e trascurandone altri. L'ampiezza della nestra e l'orientamento dell'angolo sono determinati dal paradigma scientico prevalente che condiziona le singole ricerche,
dai giudizi di valore del ricercatore che giudica interessanti alcuni temi e non
altri, dalle conoscenze a-priori del ricercatore, dalle sue capacit di analisi.
Le fasi del paradigma scientico di ricerca, che possono essere iterate pi di
una volta, sono nel seguito descritte.

Denizione del problema.

Lo statistico in azienda si propone di fornire


risposte qualitative e quantitative a determinati problemi connessi alla gestione aziendale. L'esatta denizione del problema consente di formulare corrette ipotesi di lavoro utili alla ricerca. Questa rappresenta la fase pi importante della procedura di ricerca scientica. Lo statistico non si domander se
il problema rilevante ai ni della gestione aziendale (ci di pertinenza del
manager, dell'imprenditore, etc.), ma si assicura che il problema sia denito
correttamente in modo da poterlo tradurre in un problema statistico, cos da
3

individuare il fenomeno che si vuole studiare, le informazioni a-priori che si


hanno su tale fenomeno, le caratteristiche incognite e l'obiettivo nale dell'analisi statistica.

Dati.

La fase precedente si traduce nella specicazione dei dati da utilizzare ai ni dell'analisi statistica; questo momento strettamente legato
al momento della scelta dell'approccio e del metodo statistico che si vuole
adottare. In generale, si distinguono dati sperimentali, che sono costruiti ad
hoc dal ricercatore, e dati di osservazione, che sono rilevati dal ricercatore
ai ni della descrizione di una realt gi esistente. I dati di osservazione
possono provenire da rilevamenti censuari o da indagini campionarie. Inoltre, i dati di osservazione, come noto, possono essere di tipo quantitativo
(discreti o continui) o di tipo qualitativo (nominali o ordinali). Un'ulteriore
distinzione pu essere fatta tra dati di tipo sezionale (cross-section), derivanti
dall'osservazione, in un punto nel tempo, di una o pi variabili su un gruppo
di individui, e dati temporali, derivanti dall'osservazione in T distinti punti
nel tempo di una o pi variabili su un individuo (serie temporali) o su pi
individui (panel, dati di tipo longitudinale).

Informazione a priori. Successivamente, si considera una fase che combina

i dati a disposizione con l'informazione a priori riguardante sia il fenomeno


oggetto di studio (assunzioni, vincoli, condizioni, etc.) sia il ruolo delle variabili ritenute rilevanti. Se infatti tra le variabili vi un legame di inuenza
reciproca, o di interdipendenza, l'analisi sar di tipo simmetrico, se invece
possibile ipotizzare che una o pi variabili dette di risposta o variabili dipendenti, sono spiegate da altre dette predittori o variabili esplicative, allora
l'analisi sar di tipo asimmetrico o di dipendenza.

Analisi dei dati ed elaborazioni.

Sulla base quindi della natura del


problema, del tipo di dati e della informazione a-priori, avviene la scelta tra
i diversi metodi di analisi statistica che determina il tipo di elaborazione
successiva dei dati. In generale, si considerano analisi esplorative quando
si vogliono trarre le prime indicazioni da un insieme di dati, sotto forma di
relazioni tra variabili, somiglianze tra le unit, identicazione delle struttura latente nei dati, individuazione di ipotesi da vericare in una successiva
analisi. Le analisi confermative partono invece da ipotesi o modelli formulati
a-priori, che sono sottoposti al giudizio di conformit con l'evidenza empirica
rappresentata dal campione che si ha a disposizione. In denitiva, i metodi
statistici dell'analisi esplorativa attengono al campo della scoperta, mentre
quelli dell'analisi confermativa attengono al campo della giusticazione.
4

Interpretazione dei risultati. Il procedimento di ricerca potrebbe chiudersi con l'analisi dei risultati, ovvero potrebbe essere reiterato per maggiori
approfondimenti. In taluni casi, per le analisi confermative, si pu tentare
una generalizzazione dei risultati mediante la denizione di un modello che
costituisce una semplicazione della realt da cui si partiti ma che, trovando conferma statistica, pu essere utilizzato nella pratica gestionale no a che
nuove ipotesi lo rendono vulnerabile a nuovi cambiamenti. In altre parole, il
modello statistico dovr essere comunque validato nel tempo con l'esperienza
e l'evidenza empirica. Esempi di modelli a supporto della gestione aziendale
sono rappresentati da funzioni di costi, modelli per l'approvviggionamento
dei materiali, modelli della produzione, funzioni delle vendite, modelli per la
segmentazione dei mercati, modelli per la valutazione della soddisfazione dei
consumatori, modelli del credit scoring, etc.

1.3 La statistica per le decisioni d'impresa


Ai giorni nostri, la statistica nell'era dell'informatica - caratterizzata da una
riduzione di tempi e costi relativi all'accesso ad enormi basi di dati - pu
essere inquadrata nel Paradigma dell'Informazione recentemente denito da
Coppi (2002). L'obiettivo di generare informazione aggiunta, attendibile e
signicativa, per la risoluzione di problemi reali di decisione, assemblando,
attraverso strumenti statistici e computazionali, processi di estrazione della
conoscenza da varie fonti. In tale contesto, si possono distinguere due passaggi fondamentali: l'apprendimento statistico dai dati, al ne di derivare
l'informazione signicativa volta ad identicare particolari strutture ricorrenti nei dati e trend (passaggio dato -> informazione), e l'estrazione della
conoscenza basata sull'informazione rilevante e realizzata attraverso modelli
e procedure statistiche che richiedono un uso intensivo del computer (passaggio informazione -> conoscenza). Il primo passaggio trova espressione
nell'analisi esplorativa dei dati, avvalendosi di tecniche di riduzione dei dati
e sintesi dell'informazione per strutture complesse di dati (i.e., cluster analysis, analisi delle componenti principali, segmentazione binaria, etc.). Il
secondo passaggio si identica nell'analisi confermativa che intende validare
le ipotesi formulate sulla base dei risultati dell'analisi precedente attraverso
modelli statistici di previsione e di decisione. In tale contesto, la statistica
per le decisioni d'impresa si propone quale disciplina che ha lobiettivo di
generare informazione statistica signicativa e con valore aggiunto, in termini di risoluzione di problemi reali, ovvero di supporto alle decisioni aziendali,
5

attraverso il processo di estrazione della conoscenza seguendo il procedimento scientico di ricerca ed impiegando i metodi della statistica e della scienza
dell'informazione.
La monograa fondamentale di Hastie, Friedman e Tibshirani (2001)
identica esplicitamente le nuove sde nelle aree dell'archiviazione, della
organizzazione e della gestione di dati, nalizzate al Data Mining ed alla
gestione statistica della complessit e dimensione dei fenomeni osservati.
Una denizione di Data Mining dai pi ritenuta esauriente quella di
David Hand (2000) che den quest'ultimo come il processo che attraverso

l'impiego di modelli non banali ha l'obiettivo di individuare relazioni tra i


dati non banali, nascoste, utili e fruibili dall'utilizzatore. Questa denizione

contiene alcuni punti che meritano un approfondimento. In particolare, il


processo impiega modelli non banali, ossia l'analisi condotta attraverso
una strategia che prevede l'uso combinato di diversi metodi statistici nalizzato alla estrazione della conoscenza. Per relazioni tra i dati non banali
e nascoste si vuole sotto intendere un obiettivo del processo il quale deve
concentrarsi sulla scoperta di relazioni che siano sconosciute all'analista e
all'utilizzatore e che non si evincono da uno studio superciale della base dei
dati. I termini utile e fruibile chiariscono che la relazione o le relazioni
identicate devono presentare (attraverso strumenti che ne garantiscano la
comprensibilit anche ai non esperti della materia) delle utilit oggettive a
favore dei soggetti interessati, devono consentire alle aziende e agli enti di
migliorare la quantit dei servizi oerti, ridurre i costi, accrescere il proprio
business. Il Data Mining si avvale di numerose metodologie statistiche a
forte contenuto computazionale, quali ad esempio i metodi e algoritmi di
partizione ricorsiva per la costruzione di alberi decisionali, procedure selettive per le regole di associazione, algoritmi adattivi di stima, tecniche di
ricampionamento, etc. Data Mining parte di un processo di estrazione
della conoscenza (Knowledge Discovery from Databases), ossia il processo
di esplorazione e analisi di grandi quantit di dati, condotto in modo automatico o semiautomatico, al ne di scoprire delle regolarit (pattern) nei
dati, che siano considerabili nuovi elementi di conoscenza. In tale prospettiva lo statistico si trova a giocare un ruolo fondamentale nel Data Mining
divenendo regista delle strategie alternative di analisi per l'esplorazione di
importanti caratteristiche e relazioni presenti in strutture complesse di dati.
Il Paradigma dell'Informazione nel quale il Data Mining assume un ruolo fondamentale pu essere completato in termini di accessibilit e capacit predittiva dell'informazione statistica e dei processi di estrazione della
conoscenza al ne di indirizzare nella direzione giusta i processi decisionali.
Ci risulta particolarmente importante quando gli attori sono manager di
6

piccole e medie imprese che in un mercato globale debbono competere con


industrie multinazionali in grado di reperire risorse nanziarie, competenze
umane e strumenti tecnologicamente avanzati per il miglior utilizzo dell'informazione. Il successo non guidato solo dall'ecienza dei processi ma
anche dalla capacit di gestire i dati, le informazioni e le conoscenze. In
quest'ottica rendere pi ecace un processo decisionale essenziale per incrementare il livello competitivo dell'impresa e per farlo necessario ottenere
in modo rapido e essibile informazioni strategicamente utili, che siano cio
di supporto all'interpretazione dell'operato dell'azienda e dell'andamento del
mercato in cui opera. Invero, negli ultimi decenni il ciclo di vita dei processi
decisionali nelle Aziende andato accorciandosi sempre pi e la tempestivit
delle decisioni aziendali (i.e., individuazione di nuovi segmenti di mercato,
scoperta di preferenze e comportamenti da parte di clienti, riduzione di eventuali sprechi nella produzione o razionalizzazione di altri processi aziendali)
diventato fattore vitale per la sopravvivenza. Tale tempestivit, tuttavia, a
volte contrasta con la mole dei dati da elaborare per estrarre le informazioni
necessarie a supportare il processo decisionale. Le informazioni sono spesso
dicilmente recuperabili perch sommerse nell'insieme di dati ospitati dal
sistema informativo. Il ricorso alle tecnologie dell'informazione quindi un
passo obbligato. In questo le Aziende vengono aiutate dalle applicazioni di
Business Intelligence (BI), ossia l'insieme dei processi, delle tecniche e degli
strumenti basati sulla tecnologia dell'informazione, che supportano i processi
decisionali di carattere economico. BI una corretta mescolanza di tecnologia, informatica e statistica che fornisce agli utenti le informazioni necessarie
per rispondere ecacemente alle esigenze di business. L'obiettivo fondamentale nella BI , quindi, quello di disporre di sucienti informazioni in modo
tempestivo e fruibile e di analizzarle cos da poter avere un impatto positivo sulle strategie, le tattiche e le operazioni aziendali. Nell'ambito della
BI un'attivit fondamentale la raccolta dei dati aziendali. Questa raccolta
non si deve limitare ai soli dati transazionali, generati e usati nei processi
produttivi o operativi di un'impresa, ma deve essere orientata anche ai dati
decisionali (o business data), caratterizzati da una natura aggregata, una
struttura essibile, un uso non ripetitivo, un orizzonte temporale pi ampio.
A questo scopo si rende necessaria la progettazione e la costruzione di un
magazzino dei dati (Data Warehouse) che, attingendo periodicamente sia
dal sistema transazionale aziendale sia da altre sorgenti informative, raccolga e sintetizzi le informazioni secondo regole ben denite dettate dal proprio
business, e poi le organizzi in una forma comprensibile per chi in azienda
deve prendere decisioni tattiche e/o strategiche. I Data Warehouse (DW)
sono considerati una buona tecnologia per supportare soluzioni di KDD.
7

Tale processo prevede, fra l'altro, delle fasi di selezione e pulizia dei dati,
al ne di rimuovere inconsistenze, trattare dati mancanti, e determinare il
giusto livello di aggregazione. Tutto ci assicurato da un DW, che diventa
una tecnologia di supporto, anche se non strettamente necessaria, al KDD.
In un contesto aziendale, la conoscenza scoperta pu avere un valore perch
consente di aumentare i protti riducendo i costi oppure aumentando le entrate. Questo spiega l'importanza di soluzioni KDD nel BI. Il processo KDD
si completa integrando il DW, ove possibile, con strumenti pi propriamente
statistici che costituiscono un Decision Support System (DSS) per il management aziendale. L'architettura di un DSS consiste di tre elementi: un
database alimentato da un DW o da un Data Mart (ossia una sottoparte o
replica del DW contenente l'insieme delle informazioni rilevanti per un particolare problema), un sistema di modelli e strumenti statistici di DM, una
interfaccia interattiva che svolge le funzioni di cruscotto aziendale guidando il manager nei processi decisionali aziendali attraverso i risultati derivanti
dall'analisi statistica dei dati o pi in generale da strategie di Data Mining.
Un DSS pu essere inteso come un insieme di strumenti progettati e
orientati all'integrazione delle necessit dell'utente nale, le tecnologie e i
metodi di analisi, con l'obiettivo di sostenere - e non sostituire - il decisore
nella scelta della azione pi appropriata al raggiungimento di un scopo. All'interno di questo progetto, l'attivit decisionale considerata come una
fase del ben pi generale processo di BI. Il DSS progettato per eseguire
quattro tipologie di operazioni fondamentali:

query and reporting, al ne di seguire periodicamente una serie di interrogazioni del database, creando report, tipicamente a ni statistici,
per l'analisi graca degli andamenti aziendali;

data mining, che consiste nell'impiego di metodologie statistiche avanzate volte ad identicare comportamenti tendenziali, a ricercare pattern e caratteristiche tipologiche, a realizzare segmentazioni nei dati a
scopo di classicazione;

analisi what if, al ne di costruire scenari di riferimento per soddis-

OLAP (On Line Analytical Process), allo scopo di generare interrogazioni

fare obiettivi di pianicazione e previsione degli andamenti futuri di


mercato;

intelligenti (attraverso operatori Drill-Down, Roll-Up, Pivot) in tempo reale ed in maniera intuitiva senza preoccuparsi dell'eettiva struttura logica dei dati.
8

In sintesi, da un lato, il DW si impone come strumento strategico nel


momento in cui le varie direzioni funzionali alle quali destinato possono
accedere ai dati secondo principi di analisi multidimensionale; dall'altro, i
DSS consentono di automatizzare le procedure decisionali e di facilitare sul
piano pratico le attivit manageriali, suragate cos dall'esperienza passata
e dalla possibilit di simulare scenari futuri.

1.4 Il percorso di studio


Il percorso di studio caratterizzato dalle seguenti parti, ciascuna delle quali
consiste di moduli tematici:

L'impiego della statistica in azienda, con particolare riferimento alla


costruzione di database e data warehousing, alla gestione statisticoinformatica delle informazioni ed alla presentazione delle metodologie statistiche di base (i.e., richiami di inferenza e processi decisionali aziendali, campionamento straticato, modelli lineari dell'analisi
della varianza e della regressione semplice e multipla, la regressione
logistica);

I metodi di segmentazione per la costruzione di alberi esplorativi ed alberi delle decisioni, considerando le metodologie CART (Classication
and Regression Trees) e TWO-STAGE;

I metodi e modelli a forte contenuto computazionale, preferendo la


descrizione della classe dei modelli additivi generalizzati per problemi
di classicazione e regressione non lineare, dei metodi associativi della
market basket analysis, delle strategie IDA (Intelligent Data Analysis)
e sistemi di supporto alle decisioni d'impresa.

Il percorso di studio si completa con l'esercitazione pratica in laboratorio attraverso l'uso di software specialistico per l'impiego dei metodi e
delle strategie proposte in contesti applicativi reali. Nel seguito si descrive
brevemente il contenuto strettamente metodologico di ciascun capitolo della
presente dispensa didattica:

Richiami di inferenza statistica.

In questo modulo verranno dapprima presentati alcuni richiami di inferenza statistica per la risoluzione classica di problemi decisionali in
condizione di incertezza. La teoria degli intervalli di condenza pu essere applicata per la costruzione delle carte di controllo statistico della
9

qualit. La teoria della verica delle ipotesi pu risultare utile nel


marketing, nell'adabilit dei processi, etc. Questi richiami sono strumentali all'interpretazione della signicativit delle stime dei parametri
di un modello, all'analisi della stabilit delle stime, e in generale all'impiego di criteri statistici per la selezione del modello statistico pi
appropriato.

Processi decisionali.

L'indagine statistica e schemi di campionamento.

L'analisi della varianza.

Successivamente, si considera pi in generale la teoria delle decisioni


statistiche, qualora si associno i valori monetari alle azioni intraprese
rispetto ai dierenti stati della realt. Verranno descritti processi decisionali senza e con informazioni campionarie.
Inne, si far cenno alle problematiche relative all'indagine campionaria con riferimento alla scelta dello schema di campionamento statistico da adottare. Si confronter il campionamento semplice con quello
straticato con ripartizione proporzionale o con ripartizione ottimale
per evidenziare i criteri di determinazione della numerosit campionaria e di valutazione dell'ecienza delle stime. Queste scelte incidono sul
budget nanziario da attribuire sia alle indagini statistiche esterne di
settore (ad esempio, le ricerche di mercato) sia alle analisi interne di
supervisione delle attivit ed in generale del controllo di gestione.
L'analisi della varianza pu essere riguardata come una generalizzazione
del test sulla dierenza tra le medie di due popolazioni a confronto
quando il confronto si estende a pi popolazioni. L'obiettivo quello
di valutare se i fattori di tipo qualitativo, impiegati per la specicazione delle popolazioni, siano discriminanti rispetto ai valori medi
di una variabile dipendente di tipo numerico. Si tratta di un'analisi delle dipendenza basata su un approccio parametrico confermativo
che utilizza usualmente dati sperimentali. Il ricercatore denisce un
disegno degli esperimenti, denendo uno o pi fattori per specicare
gli eetti da sperimentare su un gruppo di individui, e misura una
variabile numerica sui gruppi individuati per vericare se sussiste una
qualche discriminazione tra i gruppi e se vi un'eventuale interazione
tra i fattori presi in considerazione. Le applicazioni aziendali possono
10

riguardare il marketing, il controllo di gestione, le analisi di mercato,


il controllo di qualit etc.

La regressione lineare multipla.

La regressione logistica.

I modelli additivi generalizzati.

Un ampio modulo dedicato alla regressione multipla sia per l'analisi delle relazioni di dipendenza che quale strumento di previsione. Si
approfondiranno le ipotesi del modello classico, le principali trasformazioni di variabili, l'impiego delle variabili dicotomiche (dummy), gli
aspetti inferenziali con particolare riferimento ai metodi di scelta delle
variabili, l'analisi dei residui ed inne si far cenno alle alternative possibili in seguito alla rimozione delle ipotesi classiche. Le applicazioni
della regressione multipla si inquadrano pi strettamente in un contesto econometrico al ne di vericare empiricamente un modello di
domanda o di oerta, un modello dei costi di produzione, delle vendite, etc.
Spesso nelle analisi di regressione vi la necessit di assumere una
variabile dipendente di tipo qualitativo, spesso dicotomica. In tal caso
occorre operare con modelli a risposta qualitativa per problemi classici
di discriminazione parametrica. Alcuni esempi sono rappresentati dalla
previsione delle insolvenze nanziarie, dalle analisi delle opportunit,
dagli studi sulle preferenze dei consumatori basati su funzioni di utilit.
Per tali contesti applicativi, si approfondir il modello di regressione
logistica, basato su una trasformazione logistica della equazione di regressione, e costituisce un modello parametrico alternativo agli alberi
di classicazione di tipo non parametrico.
In molte applicazioni su dati reali l'ipotesi di linearit alla base del
modello classico di regressione risulta alquanto restrittiva. I modelli
additivi generalizzati seguono un approccio semi-parametrico per tener
conto di relazioni nonlineari tra le variabili. Si tratta di una particolare classe di modelli di regressione nei quali il contributo di ciascun
predittore alla spiegazione della variabile dipendente valutato separatamente sulla base di opportune funzioni di smoothing. La caratteristica fondamentale di tali modelli l'additivit degli eetti, poich
11

la predizione dei valori assunti dalla variabile dipendente ottenuta


sommando il contributo non lineare fornito da ciascun predittore.

I metodi di segmentazione.

I metodi associativi per la market basket analysis.

La segmentazione un'analisi asimmetrica che presuppone la presenza


di una variabile dipendente o di risposta che debba essere spiegata da
un insieme di predittori. L'obiettivo duplice, in quanto pu essere
condotta un'analisi esplorativa o confermativa ed il risultato nale
rappresentato da un albero delle decisioni per la classicazione, se la
risposta qualitativa, o per la regressione, se la variabile dipendente
numerica. L'approccio seguito, da un punto di vista metodologico,
non parametrico o distribution free, nel senso che non sono richieste
assunzioni probabilistiche.
Le applicazioni della segmentazione in campo aziendale sono numerose
se si ritiene che questa metodologia possa essere impiegata per la
risoluzione di diversi problemi decisionali, ad esempio nelle analisi nanziarie delle banche (credit scoring), nella logistica, nel marketing
per l'analisi delle tipologie di prodotto associate a tipologie di consumatore, per l'analisi dell'ecacia della comunicazione pubblicitaria,
per l'analisi della customer satisfaction.
Con la Market basket Analysis si vogliono identicare le relazioni esistenti tra un vasto numero di prodotti acquistati da dierenti consumatori in un particolare luogo, come ad esempio un punto vendita
della grande distribuzione. L'obiettivo principale dei metodi associativi
quello di porre in evidenza la struttura di interdipendenza sottostante
le vendite dei diversi prodotti disponibili. La corretta identicazione
ed estrapolazione delle regole signicative tra tutte le possibili regole
che possono essere generate da un insieme di dati condizionata alla
disponibilit di un considerevole quantit di informazioni che permettano di identicare i clienti e seguire l'evoluzione dei loro acquisti nel
corso del tempo.

12

Capitolo 2

Richiami di inferenza statistica


2.1 Premessa
L'inferenza statistica aronta problemi di decisione in condizioni di incertezza, di previsione, o di conoscenza del mondo reale, basandosi sia su informazioni a-priori sia su dati campionari e sperimentali, che per loro natura
costituiscono aspetti parziali di tale realt. Il campionamento un elemento indispensabile, costituisce una fase preliminare all'inferenza statistica e
consiste in un modo di osservare la natura e di accumulare informazioni con
lo scopo di denire, in base ad esso, la strategia da seguire e le azioni da
compiere per arrivare alla conoscenza della realt.
Il campione osservato viene visto come la realizzazione di un modello di
probabilit teorico che dipende da uno o pi parametri: in alcuni casi il modello noto a meno dei parametri che costituiscono le caratteristiche incognite
del fenomeno, in altri lo stesso modello teorico che deve essere ricercato
sulla base delle osservazioni campionarie. Ad esempio, se si considera una
classe di distribuzioni appartenenti ad un modello teorico noto a meno di alcuni suoi parametri la decisione nale di una procedura inferenziale quella
di essere indotti a ritenere pi plausibile che la popolazione appartenga ad
una particolare distribuzione piuttosto che ad un'altra. Ci perch si ritiene
pi probabile che l'osservazione campionaria sia stata generata da alcune
distribuzioni di probabilit che da altre appartenenti al modello.
L'inferenza statistica si propone di risolvere due diversi tipi di problemi.
Va sotto il nome di teoria della stima l'obiettivo di conoscere il valore numerico o un intervallo di valori di uno o pi parametri incogniti del modello
di probabilit teorico a partire dai dati campionari. Invece, con la teoria della prova delle ipotesi si vuole vericare in senso statistico, ovvero con regole
13

di decisione, una certa aermazione fatta relativamente alla popolazione,


ovvero se essa debba ritenersi vera o falsa sulla base di ci che appare dal
campione.
Gli approcci statistici che possono essere impiegati nel processo decisionale inferenziale sono sostanzialmente tre: l'analisi statistica classica, l'analisi
statistica bayesiana, l'analisi statistica delle decisioni.
L'analisi statistica classica si basa sui seguenti fondamenti:

la specicazione di un modello di probabilit teorico per la popolazione;

l'osservazione analizzata come elemento di un campione, cio come la


realizzazione di una delle distribuzioni di probabilit che costituiscono
il modello;

l'uso di funzioni delle osservazioni campionarie, di regole di decisione


e di propriet di campionamento.

I risultati dell'analisi statistica classica basata sul campione possono essere utilizzati a ni inferenziali, ovvero si potranno fare induzioni di tipo
probabilistico sulle caratteristiche incognite della popolazione.
L'analisi statistica bayesiana aggiunge ai precedenti i seguenti aspetti:

la specicazione di una distribuzione di probabilit a-priori per i parametri


incogniti del modello teorico denito sulla popolazione;

l'obiettivo la revisione della distribuzione di probabilit a-priori in


una distribuzione a-posteriori derivata per mezzo del teorema di Bayes.

L'informazione derivante dal campione viene usata per rivedere l'informazione a-priori che si ha gi sul fenomeno.
L'analisi pi completa rispetto alle precedenti senza dubbio l'analisi
statistica delle decisioni in quanto oltre al modello e alla distribuzione apriori si introduce anche una funzione perdita in modo da tener conto dei
costi associati alle singole decisioni.

2.2 Teoria della stima


Sia data una popolazione nita e su di essa sia denita una v.c. X continua
o discreta la cui funzione di densit o ditribuzione di probabilit dipenda
completamente da un parametro (scalare), ovvero X f (x|) con appartenente allo spazio parametrico . Per stimare il valore di si ricorre ad
14

un campione di n unit statistiche. Le osservazioni campionarie (x1 , . . . , xn )


sono le realizzazioni indipendenti delle v.c. (X1 , . . . , Xn ) ciascuna distribuita come la v.c. X . Si denisce funzione di verosimiglianza del campione la
funzione di probabilit congiunta descritta dalle n osservazioni (x1 , . . . , xn ),
supposte indipendenti, denita nello spazio parametrico , ovvero
L(x1 , . . . , xn |) = f (x1 , . . . , xn |) = i f (xi |)

(2.1)

Si denisce stimatore del parametro una v.c. t(X1 , . . . , Xn ) denita


quale funzione nota (ovvero non contenente parametri incogniti) delle v.c.
(X1 , . . . , Xn ). La stima il valore assunto dallo stimatore in corrispondenza
di un particolare campione, ovvero t(x1 , . . . , xn ) = . Le propriet degli
stimatori per piccoli campioni sono note come

correttezza se E(t) = ,
ecienza relativa se var(t) < var(t1 ) per un altro stimatore corretto

ecienza assoluta se var(t) = [I()]1 dove I() l'Informazione di

t1 ,

Fisher relativo all'intero campione,

sucienza quando lo stimatore sfrutta tutta l'informazione campionaria utile per la stima di .

Inoltre, se esiste uno stimatore non distorto ed eciente questo unico e coincide con quello ottenuto con il metodo di massima verosimiglianza.
Questo metodo di stima determina quale stima di il valore che rende massima la funzione di verosimiglianza; in altre parole il valore che rende il campione pi verosimilmente estratto da una popolazione f (x|) con parametro
piuttosto che da altri valori del parametro.
Le propriet degli stimatori per grandi campioni prendono in considerazione le leggi di convergenza delle variabili aleatorie. In particolare il
teorema del limite centrale consente di stabilire che sotto determinate condizioni pur non essendo noto il modello teorico di riferimento la media campionaria converge in distribuzione ad una normale. Inoltre, lo stimatore
tn (X1 , . . . , Xn ) asintoticamente corretto se la sua distribuzione limite
uguale a . Una propriet molto importante per la scelta di uno stimatore
quella della consistenza che si ha quando lo stimatore converge in probabilit
a .

15

In molte applicazioni si preferisce eettuare una stima per intervalli in


luogo di quella puntuale. L'obiettivo quello di valutare in termini probabilistici la precisione dello stimatore (ovvero la dispersione della sua distribuzione campionaria intorno alla media), ovvero di quanto la stima sia
da considerarsi vicina al parametro incognito da stimare.
Siano date le n v.c. X1 , . . . , Xn indipendenti, ciascuna con funzione
di probabilit f (x|), e sia dato lo stimatore t(X1 , . . . , Xn ); si deniscano
gli estremi casuali ta = t(X1 , . . . , Xn )  e tb = t(X1 , . . . , Xn ) +  tali
che P r(ta < < tb ) = 1 , l'intervallo casuale [ta , tb ] un intervallo di
condenza per con livello di condenza (1 ).
Qualunque sia , ssato il livello , per un ipotetico processo di estrazioni
campionarie l'intervallo [ta , tb ] conterrebbe nel 100(1 )% di casi mentre
lo escluderebbe nel 100%.
Tanto minore il livello ssato di tanto pi ampio risulta l'intervallo di
condenza ad esso associato, e quindi minore la precisione dello stimatore
nello stimare .
Una volta che il campione estratto e si hanno le osservazioni campionarie
(x1 , . . . , xn ), si calcolano le stime a e b . L'intervallo [a , b ] non casuale
ma l'insieme dei valori probabili per il parametro incognito .

2.3 Teoria della verica delle ipotesi


Alcuni problemi statistici in campo manageriale ed industriale vengono impostati come veri e propri problemi di decisione per il fatto che l'infor- mazione
parziale fornita dai dati dell'esperimento o del campione usata per prendere
una decisione immediata tra diverse azioni alternative. Nel seguito si fa riferimento al caso di due sole alternative possibili, mentre la generalizzazione
verr proposta successivamente.
L'obiettivo quello di vericare mediante una regola di decisione se
un'ipotesi statistica debba ritenersi vera o falsa sulla base del valore assunto
da una statistica test denita nello spazio campionario.
Un'ipotesi statistica un'aermazione riguardante la funzione di probabilit f (x|) o il processo che ha generato le osservazioni campionarie.
L'ipotesi statistica parametrica se l'aermazione riguarda uno o pi parametri
della funzione di probabilit. Inoltre, essa semplice se permette di specicare completamente la f (x|), mentre composta se riguarda una molteplicit di funzioni. L'ipotesi statistica parametrica composta unidirezionale se
del tipo > 0 o < 0 , mentre bidirezionale se del tipo 6= 0 .
In genere si formulano due ipotesi H0 e H7 circa il valore che pu
16

assumere. Si vuole stabilire se sia pi probabile che il campione osservato provenga da una popolazione con valore del parametro specicato sotto l'ipotesi H0 (ipotesi nulla) o sotto l'ipotesi H1 (ipotesi alternativa). La
formulazione delle ipotesi H0 e H1 conduce ad una partizione dello spazio
parametrico in due sottoinsiemi disgiunti: 2 indotto dall'ipotesi H0 e
1 , complementare a 7 , indotto da H1 .
La statistica test d(X1 , . . . , Xn ) una funzione che fa corrispondere ad
ogni campione casuale (X1 , . . . , Xn ) un valore numerico che pu essere classicato come: coerente con l'ipotesi specicata sotto H0 e non coerente con
l'ipotesi specicata sotto H6 .
Un test statistico d luogo ad una partizione dello spazio campionario
in due sottoinsiemi complementari: la regione di accettazione, ovvero un
insieme A costituito da valori del test compatibili con H0 , la regione critica
o di riuto, ovvero l'insieme C costituito da valori del test compatibili con
H1 .
La regola di decisione il criterio statistico che consente di discriminare
i valori numerici del test statistico appartenenti alla regione di accettazione
da quelli appartenenti alla regione critica.
La decisione nale a-posteriori del test statistico pu comportare uno
solo di due tipi di errore:

errore di I tipo se si riuta H0 quando H0 vera:


P r(EI ) = P r(d(X1 , . . . , Xn ) C| 0 ) = ()

(2.2)

errore di II tipo se si accetta H0 quando H1 vera:


P r(EII ) = P r(d(X1 , . . . , Xn ) A| 1 ) = ()

(2.3)

Entrambi gli errori EI ed EII possono essere invece commessi a-priori. Da


notare che le probabilit associate a questi errori, e , variano in senso
opposto e naturalmente sono inversamente proporzionali alla numerosit del
campione.
L'ipotesi nulla H0 quella che si vuole provare falsa al di l di ogni ragionevole dubbio, mentre l'ipotesi alternativa H1 quella che si vuole provare
vera.
Per provare la falsit dell'ipotesi H0 al di l di ogni ragionevole dubbio
occorre ssare una regola di decisione che conduca ad una probabilit di
commettere un errore di I tipo che possa ritenersi irrilevante, tale cio da
non costituire un ragionevole dubbio. Nell'approccio classico si ssa a-priori
17

il livello e si determina la soglia della regola di decisione che discrimina la


regione critica C dalla regione di accettazione A.

2.4 Le regole di decisione


Si considerino due ipotesi alternative per il parametro incognito della popolazione: {H0 : = 0 } e {H1 : = 1 } che formano per semplicit di
trattazione lo spazio parametrico di .
Si vuole denire una regola di decisione che, sulla base di un campione
di n osservazioni E = (x1 , . . . , xn ) consenta di propendere per H0 o per H1 .
La soluzione proposta dall'approccio classico (secondo la teoria di NeymanPearson) consiste nell' eettuare un confronto tra la probabilit probativa
del campione sotto H0 e quella sotto H1 , ovvero:
L(x1 , . . . , xn |0 )
P (E|H0 )
=
=
P (L|H1 )
L(x1 , . . . , xn |1 )

(2.4)

dove L rappresenta la funzione di verosimiglianza.


La regola di decisione potrebbe utilizzare il valore 1 quale va- lore discriminatorio tra le due ipotesi e quindi propendere per H0 se risulta 1
e per H1 se invece < 1. Tuttavia, questo equivale ad assumere una
posizione di indierenza rispetto alle due ipotesi, mentre nella realt vi
sempre una ipotesi ritenuta pi importante dell'altra e che pertanto non si
vuole rigettare con troppa facilt quando invece vera. Tale ipotesi viene
posta come ipotesi nulla e ci spiega anche perch l'errore di prima specie
quello pi grave.
Pertanto, ricordando che la probabilit di commettere l'errore di prima
specie , la regola di decisione viene denita ssando ad un livello (basso)
ritenuto accettabile e determinando quel valore tale che = P ( <
| = 0 ). La regola di decisione quindi, consister nel propendere per H0
se e per H1 se invece < .
Il valore determina una partizione dello spazio campionario in due
regioni disgiunte ed esaustive, una regione di accettazione ed una regione
critica (o di riuto) di H0 . In base al Lemma di Neyman- Pearson che
costituisce il fondamento della intera impostazione classica, la regione critica
individuata quella che minimizza la probabilit di commettere l'errore di
seconda specie rispetto ad ogni altra regione critica cui corrisponde la
medesima probabilt di commettere l'errore di prima specie.
Bayes ha modicato tale struttura logica chiedendosi se le due ipotesi,
che potrebbero essere riguardate come due cause che possono generare uno
18

stesso evento E , non presentino una diversa probabilit. In altre parole


vengono attribuite delle probabilit a priori alle ipotesi, che vanno a pesare
quelle probative. Bayes introduce le probabilit a-posteriori denite come:
P (H0 |E) =

P (E|H0 )P (H0 )
P (E)

(2.5)

P (H1 |E) =

P (E|H1 )P (H1 )
P (E)

(2.6)

Andando ad eettuare il rapporto tra la (2.5) e la (2.6) si ottiene:


P (H0 |E)
L(x1 , . . . , xn |5 )P (H0 )
=
=
P (H1 |E)
L(x1 , . . . , xn |1 )P (H1 )

(2.7)

che rappresenta appunto il rapporto tra le verosimiglianze pesate con le


probabilit a priori.
Se risulta essere  si propende per H2 , se invece risulta essere
<  si propende per H1 , dove  viene determinato ssando , la probabilit a-posteriori di commettere l'errore di prima specie, tale che () =
P ( = 0 | <  ). La probabilit a-posteriori di commettere l'errore di seconda specie denita come () = P ( = 1 |  ). In eetti l'approccio
Bayesiano segue la logica della ipotesi pi probabile lddove invece, l'approccio classico segue la logica della maggiore conformit del campione ad una
delle due ipotesi.
L' approccio di teoria delle decisioni si fonda sulla idea che non solo le
due ipotesi hanno una diversa probabilit a priori, ma anche che i due tipi di
errore che si possono commettere comportano perdite diverse. In generale, si
associa a ciascun errore una valutazione di detta perdita quale funzione della
decisione adottata con la statistica test d(X1 , . . . , Xn ) e del valore reale di
, ovvero l(d(X1 , . . . , Xn ), ). Si denisce funzione di rischio il valore atteso
della perdita:
R[d, ] = E [l(d(X0 , . . . , Xn ), )]

(2.8)

= P (H0 )E[l(d(X1 , . . . , Xn )|H0 )]


+P (H1 )E[l(d(X1 , . . . , Xn )|H1 )]

In particolare, si ha che per = 0 E[l(d(X1 , . . . , Xn )|H0 )] = l1 () e per


1 E[l(d(X1 , . . . , Xn )|H1 )] = l2 (), dove l1 ed l2 rappresentano le perdite
19

connesse rispettivamente all'errore di prima specie e all'errore di seconda


specie. Si osservi che P (H3 )() e P (H1 )() forniscono le probabilit aposteriori dei due tipi di errore, ovvero () e ().
La regola di decisione completa, che oltre alle probabilit a-priori tiene
conto anche delle perdite, si basa sul seguente rapporto:
P (H0 |E)
L(x1 , . . . , xk |0 )P (H0 )l2
=
=
P (H1 |E)
L(x1 , . . . , xn |1 )(P (H1 )l5

(2.9)

ovvero il rapporto delle probabilit a-posteriori viene moltiplicato per un


coeciente che tiene conto del rapporto tra le perdite connesse alle due
possibili azioni che comportano un errore.
La seguente tabella illustra tutti gli elementi necessari per l'applicazione
delle diverse regole di decisione.

Decisioni
si accetta H0 si accetta H1
Stati
della
realt

H0
P (H0 )
H1
P (H1 )

0
1
E
1
l2
E2

l1
E1

0
2
E
1

Tabella 2.1: Tabella delle decisioni

20

Capitolo 3

Processi decisionali aziendali


3.1 Premessa
Allo scopo di esaminare i vari problemi decisionali che si presentano in ambito aziendale, occorre innanzitutto considerare le caratteristiche distintive
di ogni processo decisionale:

azioni o decisioni. Sono le diverse possibilit di scelta, ovvero le diverse

stati della realt. Sono i diversi, possibili eventi suscettibili di vericarsi

valutazioni. Al ne di valutare ciascun possibile azione occorre che

criteri decisionali. Colui che decide deve stabilire un modo per scegliere
la azione migliore da intraprendere.

azioni, che colui che deve decidere pu intraprendere;


nella realt;

per ogni evento che pu vericarsi in corrispondenza di ogni azione, sia


disponibile una valutazione che tipicamente un protto o una perdita;

Per quanto riguarda quest'ultimo punto, esistono diversi criteri decisionali riconducibili essenzialmente alla alternativa fondamentale tra processo
decisionale senza e con informazioni campionarie.

3.2 Processo decisionale senza informazioni campionarie


Si consideri il caso del direttore marketing di una ditta prodruttrice di cibo
per gatti che deve decidere se lanciare o meno un nuovo prodotto sul mer21

Stati
della
realt

successo

P (S) = 0, 4

insuccesso

= 0, 6
P (S)

Decisioni
commercializzare non commercializzare
x11 =
45.000$
x21 =
36.000$

x12 =
3.000$
x22 =
3.000$

Tabella 3.1: Tabella delle valutazioni


cato. Egli sa che corre il rischio di prendere una decisione sbagliata, infatti,
il prodotto potrebbe essere immesso sul mercato e rivelarsi un insuccesso o
potrebbe non essere commercializzato lddove invece potrebbe essere un successo. Allo scopo di valutare tutte le possibilit si pu redigere una tabella
delle valutazioni. Tale tabella a doppia entrata e considera tutte le combinazioni di ogni evento con ogni corso alternativo della azione, ed associa a
ciascuna di dette combinazioni una valutazione.
Si noti che 3000$ rappresenta la spesa che si deve sostenere per produrre il
nuovo prodotto indipendentemente dal fatto che esso sia di successo o meno,
e quindi si tratta di una spesa che viene sostenuta anche nella ipotesi in
cui il prodotto non venga commercializzato. Il direttore marketing, inoltre,
servendosi della sua esperienza passata e basandosi sul suo uto assegna delle
probabilit a priori pi agli stati del mondo (successo o insuccesso). Il criterio
decisionale si fonda sul valore atteso monetario (V AM ) che rappresenta il
protto (o la perdita) atteso di ogni alternativa; si opter per quel corso
alternativo della azione cui associato il massimo valore atteso monetario,
ovvero:
V AM ? = maxj V AMj =

xij pi

(3.1)

applicando tale formula ai nostri dati, risulta che l'azione migliore consiste
nel non commercializzare il prodotto perch cos facendo si incorre in una
perdita (attesa) minore.
La tabella delle valutazioni pu essere riguardata anche da un diverso
punto di vista, ovvero determinando l'azione migliore da intraprendere nel
caso in cui si conoscesse l'evento o stato della realt che si verica. Ad
esempio, se si sapesse con certezza che il nuovo prodotto di successo, lo
commercializzerebbe. In tal modo possibile determinare per ogni evento il protto che si perde allorquando non si intraprende l'azione migliore
22

Stati
della
realt

successo

P (S) = 0, 4

insuccesso

= 0, 6
P (S)

Decisioni
commercializzare non commercializzare
l11 =
0$
l21 =
33.000$

l12 =
48.000$
l22 =
0$

Tabella 3.2: Tabella delle perdite di opportunit


corrispondente a quell'evento. Andando a considerare la dierenza tra il
pi alto protto associato ad ogni evento ed il protto eettivo ottenibile
intraprendendo una particolare azione, si ottiene la tabella delle perdite di
opportunit.
Il criterio decisionale consiste nell'optare per l'azione cui associata la minima perdita attesa di opportunit (P AO) denita come:
P AO? = maxj P AOj =

lij pi

(3.2)

dove lij = [maxj xij ] xij .


La decisione che risulta dall'applicazione di questo criterio coincide con
quella risultante dalla massimizzazione del V AM , trattandosi di due modi
alternativi di riguardare la medesima tabella.
Entrambi i criteri si fondano sull'assunto implicito che vi sia una totale
indierenza al rischio nel senso che un dollaro aggiuntivo di protto (o di
perdita) non modica la propensione al rischio che si mantiene costante.
In realt, le decisioni vengono prese anche in base all'utilit delle somme
di denaro che si guadagnano o si perdono, ed ogni dollaro che si aggiunge
come protto o come perdita non ha la stessa utilit del dollaro precedente.
Ad esempio, per la maggior parte degli individui la perdita di grosse somme
ha una utilit negativa o disutilit molto grande, maggiore di quella associata
ad una piccola perdita.
In altre parole, si pu pensare di costruire una funzione di utilit che rappresenta l'eettivo valore di ogni singolo dollaro. Vi sono tre tipi fondamentali
di curve di utilit corrispondenti all'atteggiamento di bassa propensione al
rischio (utilit marginale del denaro che cresce meno che proporzionalmente
rispetto all'incremento del valore monetario), alta propensione al rischio

23

(utilit marginale del denaro che cresce pi che proporzionalmente rispetto


all'incremento del valore monetario), ed indierenza al rischio. 1
Tornando al calcolo delle perdite di opportunit, questo consente di ottenere un'ulteriore informazione riguardo al problema decisionale. Come
gi stato detto, se il direttore marketing potesse prevedere il futuro saprebbe
determinare ogni volta l'azione migliore da intraprendere. Combinando il
protto ottenibile in corrispondenza della azione migliore associata a ciascun evento con la probabilit a priori dell'evento stesso si ottiene il protto
atteso con certezza (P AC ), dato da:
P AC =

(maxj xij )pi

(3.3)

Il valore che si ottiene corrisponde al protto che si sarebbe ottenuto se


si avesse avuto la certezza che il prodotto era di successo. La dierenza tra il protto atteso con certezza ed il valore atteso monetario associato all'azione migliore, fornisce il valore atteso della informazione completa
(V AIC ), ovvero:
V AIC = P AC V AM ?

(3.4)

che rappresenta il guadagno dierenziale tra la situazione di certezza sul


futuro e quella di incertezza e quindi fornisce anche l'ammontare massimo che
il direttore marketing sarebbe disposto a sborsare per ottenere l'informazione
completa, pertanto, si pu calcolare il guadagno atteso da campionamento
(GAN C ) come dierenza tra il valore atteso della informazione completa ed
il costo di un eventuale campione CC :
GAN C = V AIC CC.

(3.5)

1
Vanno inoltre segnalati altri due criteri decisionali che non utilizzano l'informazione
campionaria: il criterio del Minimax, dove si sceglie quella azione che minimizza la perdita
massima possibile associata ad ogni evento; il criterio del Maximax, dove si sceglie quella
azione che massimizza il protto massimo possibile associato ad ogni evento. Il primo caso
quello dell'imprenditore che vuole evitare il dissesto nanziario ad ogni costo, il secondo
caso quello delle lotterie nazionali in cui il prezzo del biglietto estremamente basso
rispetto al premio in caso di vincita.

24

3.3 Processo decisionale con informazioni campionarie


In luogo di adarsi solo alla esperienza passata o alla probabilit soggettiva,
colui che chiamato a prendere la decisione pu arricchire gli elementi di
giudizio mediante la raccolta di informazioni campionarie. Tali informazioni
campionarie vengono incorporate, grazie al teorema di Bayes, nel processo decisionale, infatti, sulla base dei risultati campionari vengono riviste le
probabilit a priori dei vari eventi, si ottengono cio le probabilit a posteriori che si sostituiscono a quelle a priori nel calcolo del valore monetario
atteso e del protto atteso con certezza.
Si consideri a tale proposito, la seguente tabella, relativa al caso di un
imprenditore che debba decidere se acquistare o meno un lotto di lampadine.
Si supponga inoltre che allo scopo di decidere sia stata condotta una indagine
campionaria analizzando un numero n di lampadine pari a 25, di cui solo una
risultata difettosa.
Nella prima colonna sono riportati gli eventi che si possono vericare
nella realt, che altro non sono che le possibili percentuali di pezzi difettosi
caratterizzanti il lotto; a tali eventi sono associate delle probabilit a priori,
indicate in colonna due, nonch i protti ottenibili in caso di acquisto (il
protto invece sempre nullo in caso di mancato acquisto) indicati in colonna
tre.
Nella quarta colonna sono riportate le probabilit probative del campione
E (calcolate ricorrendo all'impiego della variabile aleatoria binomiale) sotto
l'ipotesi che questo sia stato estratto da una popolazione con il 2% di pezzi
difettosi, il 3% etc. . . .
Mediante il prodotto delle probabilit probabitive per le probabilit a
priori, riportato in colonna cinque, si ottiene il numeratore che compare nel
teorema di Bayes, il totale della colonna invece fornisce il denominatore,
ovvero la probabilit di estrarre il particolare campione E caratterizzato da
k = 1 pezzi difettosi. Inne, l'ultima colonna riporta le probabilit a posteriori. Una volta convertite le probabilit a priori in quelle a posteriori, queste
vengono sostituite nel calcolo del P AC e del V AM ? ottenendo rispettivamente il protto atteso con certezza a posteriori (ovvero dopo la estrazione
del campione) indicato P ACp ed il valore atteso monetario della alternativa
migliore a posteriori indicata con V AMp?
La dierenza tra queste due quantit rappresenta il valore atteso della
informazione completa a posteriori ovvero:

25

Eventi Ai Prob. Protto


Prob.
(% di pezzi a priori in caso di probative
difettosi) P (Ai ) acquisto P (E|Ai )
.02
.03
.04
.05
.06
.07
.08

.10
.30
.20
.15
.10
.10
.05

2500
1700
900
0
200
700
1300

.3079
.3611
.3754
.3650
.3398
.3066
.2744

P (E|Ai )

P (Ai )
.03079
.10833
.07508
.05475
.03398
.03066
.01372
Tot= P (Ek )

Prob. a
posteriori
P (Ai |E)
.088
.312
.216
.158
.98
.88
.039

Tabella 3.3: Calcolo delle probabilit a posteriori

(3.6)
Dal confronto tra il valore atteso della informazione completa a priori ovvero
prima della estrazione del campione (come calcolata nel paragrafo precedente) e quella a posteriori dopo la estrazione del campione si ottiene il
valore atteso del campione di numerosit n pari a 25 e con k = 1 pezzi
difettosi, denito, pertanto, come:
V AICp = P ACp V AMp?

(3.7)
Ripetendo la procedura per k = 0, k = 2, . . . , k = 25 si ottengono i valori
attesi dei campioni con zero pezzi difettosi, due pezzi difettosi, no a giungere al caso di 25 pezzi difettosi. La media ponderata di tali valori attesi
(compreso ovviamente il caso di k = 1) fornisce il valore atteso del campione
(V AC ) di dimensione pari a 25 , ovvero:
V AC(n=25,k=1) = V AIC V AICp .

V AC(n=25) =

V AC(n=25,k) P (k)

(3.8)

dove i pesi P (k) sono forniti dalle probabilit che si verichi il rispettivo
esito campionario, e quindi altro non sono che le probabilit dei campioni conPun particolare risultato ad esempio nel caso di k = 1, si ha che:
p(k) = i p(Ek=1 |Ai )p(Ai ), ovvero il totale P (Ek ) riportato a margine della quinta colonna della tabella. Si noti che alcuni dei valori che compaiono
nella sommatoria potrebbero essere negativi, ovvero non tutti i campioni presentano un valore atteso positivo; in generale, campioni con risultati estremi
26

(pochi o molti pezzi difettosi), hanno un contenuto informativo e quindi un


valore atteso elevato o comunque positivo, mentre campioni con valori non
estremi conducono a valori negativi del VAC e ci accade specialmente nel
caso in cui n sia piccolo.
L' analisi appena illustrata prende il nome di analisi preposteriore perch si tratta, a ben vedere, di un procedimento volto a stimare il valore della
informazione campionaria prima della estrazione del campione, considerando tutti i possibili esiti. Evidentemente, si tratta di un procedimento che
ripetuto per diversi valori di n, pu essere di ausilio nella scelta della dimensione campionaria. Ad esempio, nel caso dell'aquisto del lotto di lampadine,
ripetendo l'analisi per n = 50 si ottiene un valore atteso del campione pari a
pi del doppio del valore atteso del campione di numerosit 25; il contenuto informativo del campione, quindi, in questo caso cresciuto in maniera
pi che proporzionale suggerendo l'opportunit e l'utilit di accrescere la dimensione campionaria. Nel caso del nostro esempio, inoltre, le probabilit
probative sono state calcolate mediante il ricorso al modello binomiale che
di tipo discreto ma l'analisi pu essere estesa anche al caso di variabili
aleatorie continue.

Appendice: la probabilit soggettiva


Le probabilit a priori possono essere frutto non solo della esperienza
passata relativa ad eventi simili, ma anche di una valutazione soggettiva da
parte di colui che chiamato a decidere.
Secondo l'impostazione soggettiva la probabilit di un evento il grado
di ducia che una persona ha nel vericarsi di quell'evento. Tale denizione
non ha per carattere operativo nel senso che non pu essere impiegata immediatamente per misurare la probabilit, viene pertanto modicata agganciandola al concetto di scommessa ed imponendo le condizioni di equit e di
coerenza. In tal modo si denisce probabilit di un evento il prezzo che un
individuo disposto a pagare per ricevere 1 se l'evento si verica e 0 se non
si verica.
Le probabilit devono essere attribuite agli eventi secondo i principi della
equit e della coerenza, ovvero il prezzo deve essere tale non permettere ad
alcun partecipante alla scommessa una vincita certa o una perdita certa ed
inoltre, se si giudica equo il prezzo, bisogna essere disposti ad accettare l'una
o l'altra delle posizioni contrapposte nella scommessa sull'evento.
In generale siano A e B due scommettitori, A vince x se si verica l'evento
, B invece, perde x se si verica E e vince y se si
E e perde y se si verica E
27

y
= x , in altre parole le probabilit
verica E , allora, P (E) = x+y
e P (E)
x+y
vengono denite mediante il rapporto tra ci che si disposti a scommettere
e la vincita totale.

28

Capitolo 4

Campionamento statistico
4.1 Premessa
Per analizzare e conoscere un qualsiasi fenomeno che si manifesta in una
popolazione occorre condurre un'indagine statistica. Tale indagine pu essere
esaustiva, ovvero condotta attraverso la rilevazione di tutte le manifestazioni
del fenomeno nella popolazione, oppure pu essere svolta in forma parziale,
considerando solo una parte di dette manifestazioni, questa la c.d. indagine
campionaria. L'indagine campionaria, si dierenzia da quella esaustiva per
due aspetti fondamentali:
a) scelta di una specica procedura di selezione delle unit della popolazione che entreranno a far parte del campione;
b) induzione dal campione alla popolazione sulla base dell'analisi delle
osservazioni campionarie.
Diverse sono le applicazioni dell'indagine campionaria in azienda; esempi si
hanno nell'analisi dei mercati in cui l'azienda opera o intende operare, nelle
analisi nanziarie e in particolare nella revisione contabile.
Nella realizzazione di un'indagine sia essa esaustiva o campionaria indispensabile associare ad essa l'errore statistico inteso come discrepanza tra il
valore osservato ed il valore vero. Tale denizione assume un diverso contenuto quando si riferisce alla singola unit statistica oppure ad una statistica
di sintesi dei dati rilevati mediante indagine campionaria. Nel primo caso la discrepanza fa riferimento al complesso degli errori extra-campionari,
cio degli errori ottenuti come somma di tutti gli errori che possono essere
commessi in una qualsiasi fase del processo di indagine. Nel secondo caso,
invece, agli errori extra-campionari si aggiungono gli errori campionari, per i
29

quali la statistica campionaria dierisce dal valore osservabile in un'indagine


esaustiva. L'errore statistico pu essere considerato come una guida all'informazione della qualit dell'indagine intesa come prodotto, dove per qualit si
intende l'attendibilit, cio accuratezza delle stime e adeguatezza, cio raggiungimento degli obiettivi. E' quindi molto utile che per ogni indagine sia
denito il c.d. error prole, ovvero la descrizione completa ed ordinata delle
potenziali fonti di errore e della loro propagazione nelle fasi successive. Tutto
ci, ovviamente, comporta dei vantaggi che sono riassumibili nella possibilit
di dimensionare l'errore complessivo, nella sensibilizzazione degli operatori
sugli eetti dei diversi tipi di errore, nello stimolo alla messa a punto di programmi per il controllo della qualit dei dati. Nonostante ci i proli degli
errori non sono poi cos diusi a causa della complessit di realizzazione e
della paura di ridurre la credibilit dei risultati, e quindi di veder giudicato
scadente il proprio lavoro.
Per poter eettuare una qualsiasi indagine campionaria su alcune caratteristiche di una popolazione indispensabile formulare una strategia campionaria detta disegno di campionamento, che si pu denire come l'insieme
delle decisioni prese per la formazione del campione. Innanzitutto occorre
denire la struttura della popolazione che data dall'insieme di liste che si
adoperano per formulare il campione: se la lista della popolazione unica
il campione ha una struttura semplice; se sono necessarie pi liste la struttura complessa. Occorre inoltre denire le regole per la selezione delle
unit statistiche che formeranno il campione e quindi si denisce quella che
la probabilit di inclusione. Inne, l'aspetto fondamentale del disegno di
campionamento la determinazione della numerosit del campione.
In eetti impossibile aermare dall'esame del campione se esso sia
buono o meno e siccome esso il risultato della procedura di campionamento,
si pu solo dubitare circa la scelta di tale procedura. L'impiego scientico
dei dati campionari, che si realizza attraverso i metodi di inferenza statistica, presuppone la scelta di campioni ottimali in termini di ecienza, ci che
possibile ottenere solo attraverso l'impiego della teoria della probabilit
che considera la popolazione come un'urna contenente N palline da cui ne
vengono estratte a sorte, ovvero con criteri casuali, un certo numero.
Se invece la scelta degli elementi campionari prescinde da criteri di casualit, si ha il c.d. campione non probabilistico. Tra i campionamenti non
probabilistici pi noti si hanno:

(1) il campionamento a scelta ragionata, che consiste nella scelta delle aree

di analisi e delle unit campionarie in funzione delle peculiarit del


30

fenomeno da studiare e della sua presenza ritenuta dal ricercatore


fortemente concentrata in tali aree o su tali unit;

(2) il campionamento per quote, che consiste nel suddividere la popolazione

in gruppi sulla base di caratteristiche socio-demograche e nel determinare successivamente sulla base di informazioni disponibili dalle fonti
uciali i pesi percentuali di ogni gruppo e le conseguenti proporzioni.
Vengono quindi denite le quote, ovvero il numero di interviste da
eettuare in ciascun gruppo; la scelta delle persone da intervistare
completamente delegata all'intervistatore;

(3) il campionamento tramite testimoni specializzati, che consiste nel ricor-

so a persone che per il lavoro che svolgono sono a conoscenza di informazioni e notizie su specici aspetti del fenomeno; a tale persone
appunto dato il nome di test o informatori privilegiati.

A partire dalla met degli anni trenta si assistito ad una progressiva


delegittimazione del campionamento non probabilistico in cui il ricercatore
ad eettuare la scelta delle unit statistiche che costituiscono il campione a
favore del campionamento statistico che invece casuale o probabilistico. La
casualit si ottiene attribuendo ad ogni unit una probabilit di essere selezionata (c.d. probabilit di inclusione) ed utilizzando in maniera appropriata le tecniche per la selezione del campione. I campionamenti probabilistici
si distinguono in due gruppi, quelli con probabilit costante di inclusione e
quelli con probabilit variabile.
Gli schemi di campionamento probabilistico possono distinguersi in:
1) il campionamento casuale semplice con ripetizione;
2) il campionamento casuale semplice senza ripetizione;
3) il campionamento straticato;
4) il campionamento a due stadi;
5) il campionamento a grappolo.
Se il campionamento casuale semplice quello pi noto in inferenza statistica, il campionamento straticato quello che usualmente consente di
denire il campione come il pi rappresentativo possibile. Infatti esso si
basa sulle informazioni a-priori sulla popolazione per denire strati della
popolazione eterogenei esternamente ed omogenei internamente da cui campionare in maniera casuale. Invece lo schema di campionamento a due stadi
31

il meno costoso e viene impiegato per le rappresentazioni territoriali. Lo


schema del campionamento a grappolo riduce ulteriormente i costi della rilevazione e si basa sulla scelta casuale di grappoli della popolazione omogenei
esternamente ed eterogenei al loro interno da cui censire tutti gli elementi.
Il problema cui il campionamento fa fronte pu essere schematizzato nel
seguente modo: si consideri una popolazione su cui denita una variabile aleatoria X la cui funzione di densit (o di distribuzione di probabilit)
dipende da un parametro incognito ; si vogliono ottenere delle informazioni
su tale parametro senza analizzare tutte le unit della popolazione. Nel seguito si far riferimento agli schemi di campionamento casuale e straticato
per un loro confronto in termini di variabilit delle stime eettuate, ovvero
dell'errore campionario di stima; questo denito come radice quadrata della
varianza della statistica campionaria impiegata nella stima di un parametro
non noto della popolazione.

4.2 Il campionamento casuale semplice


Cominciamo dalla stima di una proporzione p attraverso un campione di n
unit estratto da una popolazione dicotomica di N unit riguardabile come
un'urna contenente N1 palline bianche ed N2 palline nere. Sulla popolazione
denita una variabile aleatoria bernoulliana X che assume valori 0 e 1 con
probabilit rispettivamente 1p e p dove p = N1 /N . Un campione di n unit
descrive una variabile aleatoria multipla Cn = (X1 , X2 , . . . , Xi , . . . , Xn ) che
in caso di estrazione bernoulliana, ovvero con ripetizione, sar a componenti
indipendenti ed identicamente distribuite come la X . Al ne di stimare p
utilizziamo una funzione delle n variabili aleatorie campionarie cos denita:
n

1X
Pn =
Xi
n

(4.1)

i=1

che altro non che la frequenza relativa dei successi, stimatore corretto ed
eciente con E(Pn ) = p e var(Pn ) = p(1 p)/n. Inoltre, per il teorema di
Bernoulli questo stimatore converge in probabilit al parametro da stimare:
limn P r{|Pn p| < } = 1

(4.2)

In un problema di scelta della numerosit campionaria si potr determinare


un n0 tale che per n > n0 sia:
32

P r{|Pn p| < } > 1

(4.3)

dove  > 0 rappresenta l'errore ammesso e 1 < 1 il livello di probabilit.


Il problema della scelta della numerosit campionaria si risolve individuando un n0 tale che una pressata percentuale (1 %) (sucientemente
alta) di campioni dar luogo ad una stima accettabile nel senso che rientra
in un pressato intervallo intorno al parametro di ampiezza 2:
P r{p  < Pn < p + } > 1

(4.4)

Poich per n sucientemente grande la variabile binomiale relativa approssimata da una normale (per il teorema di De Moivre-Laplace),
conp
siderando nella (4.4) la standardizzazione si ha z/2 = / p(1 p)/n dove
z/2 il livello soglia che lascia nelle code un'area di probabilit pari a /2;
p
si ricavap = z/2 p(1 p)/n. Per 1 = 0.95 si ha z0.025 = 1.96 per cui
 = 1.96 p(1 p)/n Per maggiore sicurezza tale livello pu essere approssimato per eccesso con un valore pari a 2. Risolvendo rispetto a n si deduce
la soglia della numerosit campionaria n0 come:
n0 be =

4p(1 p)
2

(4.5)

che dipende da p. Usualmente si considera la situazione di massima variabilit per la quale p = 0.5 che sostituita nella (4.5) suggerisce di scegliere una
numerosit campionaria n > 1/2 . Pertanto la probabilit di avere campioni
sbagliati dipende dalla relazione tra n ed .
Nel caso di estrazione senza ripetizione, ovvero in blocco, le variabili
aleatorie che costituiscono il campione saranno non indipendenti in quanto ad ogni estrazione la probabilit di successo si modica modicandosi di
estrazione in estrazione la popolazione. In tal caso lo stimatore frequenza relativa di successi si distribuisce come una ipergeometrica con media
N n
E(Pn ) = p e var(Pn ) = p(1p)
n
N 1 . Si osserva in particolare che si ha una
riduzione della variabilit delle stime e ci comporter che a parit di ed
 si avr una riduzione della numerosit campionaria. Infatti, partendo dalla (4.3) e procedendo in maniera analoga a prima si deduce la soglia della
numerosit campionaria in caso di estrazione in blocco:
n0 bl =

e per p = 0.5 si ha n >

2 (N

N
2 (N 1)+1

4p(1 p)N
1) + 4p(1 p)

.
33

(4.6)

Nel problema pi generale della stima della media di una popolazione


si impiega lo stimatore media campionaria, corretto ed eciente, denito
come:
n

X
n = 1
X
Xi
n

(4.7)

i=1

con media E(X n ) = e var(X n ) = n nel caso di estrazione con ripetizione


2
e var(X n ) = n NN n
1 nel caso di estrazione in blocco. Applicando la legge
debole dei grandi numeri si ha che questo stimatore converge in probabilit
al parametro da stimare:
2

n | < } = 1
limn P r{|X

(4.8)

Poich per n sucientemente grande la media campionaria si distribuisce


come una normale (per il teorema del limite centrale) si potr seguire lo stesso
procedimento illustrato sopra che conduce alla numerosit del campione:
4 2
2

(4.9)

4 2 N
2 (N 1) + 4 2

(4.10)

n0 be =

nel caso di estrazione con ripetizione e


n0 bl =

nel caso di estrazione senza ripetizione. Il problema della stima della varianza
non nota si pu risolvere in due modi: (1) per campioni grandi la varianza potr essere stimata con la varianza campionaria corretta impiegando
una parte delle unit del campione in un'indagine pilota; (2) altrimenti si
potr considerare una situazione di stima sfavorevole rappresentata da una
popolazione distribuita uniformemente; in quest'ultimo caso la stima della
varianza sar data dalla varianza di una uniforme distribuita fra il valore
minimo a ed il valore massimo b:

2 =

(b a)2
12

(4.11)

4.3 Il campionamento straticato


Nel campionamento straticato la popolazione viene ripartita in sottopopolazioni dette strati. La straticazione risponde a diversi obiettivi, quale ad
34

esempio quello di caratterizzare l'indagine per aree geograche e di introdurre in generale il massimo controllo pur mantendo casuale la struttura di
selezione del campione in ogni strato. La scelta della variabile di straticazione dovrebbe soddisfare l'esigenza di ottenere strati nei quali la variabilit del fenomeno sia approssimativamente costante (internamente omogenei)
e tra i quali la variabilit sia massima (esternamente eterogenei). Si consideri una variabile di straticazione S (qualitativa o quantitativa) le cui
K modalit s1 , . . . , sK consentono di suddividere la popolazione in K
strati 1 , . . . , K tali che K
k=1 k = per i 6= j (straticazione esaustiva)
e i Pj = (strati disgiunti) di numerosit N1 , . . . , NK rispettivamente
(con k Nk = N ).
Si supponga sia denita sulla popolazione una variabile aleatoria X e
di voler stimare la media generale che pu essere denita
P come media
ponderata delle medie parziali k nei diversi strati, = k k Nk /N . La
varianza totale della variabile aleatoria X pu essere espressa come somma
di due componenti:
2 =

X
k

k2

Nk
Nk X
+
(k )2
N
N

(4.12)

dove k2 la varianza nel k-esimo strato. La varianza totale in parte dovuta alla variabilit della variabile aleatoria X nei diversi strati e in parte
alla variabilit delle medie parziali rispetto alla media generale. La straticazione sar tanto pi buona quanto pi la seconda componente risulta
grande rispetto alla prima. In tal caso infatti quanto pi gli strati sono
omogenei internamente, ovvero con bassa variabilit, tanto minore sar la
numerosit del campione a parit di errore campionario. Nell'eettuare il
campionamento in ogni strato non si tiene conto della seconda componente,
bens occorrer tener conto della variabilit internamente ai singoli strati.
Nel campionamento straticato, una volta denita la numerosit totale
del campione n sorge il problema di ripartire questa numerosit nei diversi
strati, ovvero estraendo casualmente K sottocampioni di numerosit rispettivamente n1 , . . . , nK , un sottocampione per ogni strato. Nel seguito si fa
riferimento ad estrazioni bernoulliane sebbene sia possibile estendere i concetti al caso di estrazioni senza ripetizione. Il campione totale Cn costituito
da K sottocampioni del tipo (Xk1 , . . . , Xknk ) per k = 1, . . . , K . Quale stimatore non distorto ed eciente della media parziale k nel k-esimo strato
si considera la media campionaria Mk con E(Mk ) = k e var(Mk ) = k2 /nk
(estrazione con ripetizione). La media generale potr essere stimata da

35

n =
X

K
X

Nk
N

Mk

k=1

(4.13)

con media E(X n ) = e in particolare si pu dimostrare che la varianza


data dalla seguente espressione:
n) =
var(X

X 2 N 2
k

nk N 2

(4.14)

La varianza della stima globale della media della popolazione funzione


inversa del numero di estrazioni che vengono eettuate all'interno di ogni
strato. Una volta che gli strati sono deniti, facendo variare nk si fa variare
la varianza della stima.
La ripartizione ottimale di n nei diversi strati dovr essere eettuata
determinando le numerosit dei singoli sottocampioni che minimizzano la
varianza della stima (4.14). Si tratta di risolvere un problema
P di minimo
vincolato, ovvero minimizzare la (4.14) con il vincolo che k nk = n. Si
ottiene quale soluzione:
k Nk
nk so = n P
k k Nk

(4.15)

dove si evince che la numerosit nk nel k-esimo strato dipende direttamente


dallo scarto quadratico medio e dalla numerosit della popolazione nel kesimo strato. Sostituendo la (4.15) nella (4.14) si ottiene la varianza della
stima nel caso di campionamento straticato con ripartizione ottimale:
so

n)
var(X

1
= (
n

k Nk 2
)
N

(4.16)

che pu essere interpretata come il quadrato della media ponderata degli


scarti quadratici medi. Naturalmente per poter impiegare questo schema
di campionamento occorre stimare la varianza non nota nei singoli strati
attraverso un'indagine pilota.
Quale alternativa alla ripartizione ottimale si pu considerare la ripartizione proporzionale determinando le numerosit nei singoli strati come:
nk sp = n

Nk
N

(4.17)

nel quale non si considera la variabilit nei singoli strati e quindi uno strato pi numeroso pu essere meno variabile e uno strato meno numeroso
36

pu essere pi variabile. Sostituendo la (4.17) nella (4.14) si ottiene la varianza della stima nel caso di campionamento straticato con ripartizione
proporzionale:
sp

n)
var(X

1 X 2 Nk
k
n
N

(4.18)

che pu essere interpretata come il momento secondo degli scarti quadratici


medi. Dal confronto tra (4.16) e (4.18) si evince che
so

n)
var(X

sp

n)
var(X

(4.19)

dove l'uguaglianza si ha quando le varianze negli strati sono tutte uguali fra
loro cos che la (4.15) uguale alla (4.17).
Se si vuole estendere il confronto al campionamento semplice si dovr
considerare la varianza della stima:
cs

n)
var(X

2
n

(4.20)

Considerando la (4.12) si pu scrivere la (4.20) come


cs

n)
var(X

1 X 2 Nk
1X
Nk
k
+
(k )2
n
N
n
N
k

(4.21)

Poich la prima componente proprio la varianza della stima nel campionamento straticato proporzionale si ha che:
sp

n)
var(X

n )cs
var(X

(4.22)

dove l'uguaglianza si ha quando le medie negli strati sono tutte uguali fra
loro: k = per ogni k.
In conclusione, la stima pi eciente, nel senso di fornire l'errore campionario pi piccolo, ha bisogno di una numerosit pi piccola. Rispetto
al campionamento semplice il campionamento straticato conviene quando
la variabile di straticazione conduce a una dierenza in media tra i diversi strati. Si preferisce la straticazione con ripartizione ottimale rispetto a
quella proporzionale quando i diversi strati hanno diversa variabilit.

37

Capitolo 5

Il modello dell'analisi della


varianza
5.1 Premessa
L'analisi della varianza estende il test sulla dierenza tra le medie di due
popolazioni a pi popolazioni. Essa viene infatti impiegata per vericare
l'ipotesi nulla di uguaglianza di h medie di altrettante popolazioni discriminate sulla base delle modalit (o livelli) di un fattore sperimentale A che
pu essere assimilato ad una variabile qualitativa. Il principio su cui si fonda
l'ANOVA (ANalysis Of VAriance) che la variabilita' apporta informazione
sulle cause dei fenomeni e sulla loro relazione. Per comprendere le caratteristiche di tale tipo di analisi, si consideri il caso di una ditta farmaceutica
che vuole vericare se tre prodotti volti alla cura della medesima patologia
siano o meno ugualmente ecaci.
A tale scopo, i farmaci vengono somministrati ad alcune cavie andando
poi a misurare su di esse il loro eetto. Nella analisi della varianza, quindi,
si ha un fattore qualitativo A che agisce" mentre la variabile di risposta Y
numerica. Se i tre farmaci sono ugualmente ecaci, le risposte ai trattamenti
da parte delle cavie dovrebbero essere in media non troppo diverse. Sintetizzando al massimo, potremmo dire che scopo della analisi della varianza
stabilire cosa debba intendersi per troppo diverse". In caso di uguaglianza degli eetti, le dierenze che si riscontrano tra le medie delle risposte ai
trattamenti da parte dei tre gruppi di cavie vanno ascritte alla variabilit
sperimentale o componente accidentale delle risposte sperimentali che fa si
che la risposta dierisca da cavia a cavia anche quando queste sono sottoposte al medesimo trattamento. Questo tipo di dierenze sono infatti dovute
38

ad un complesso molto ampio di cause che sfuggono al controllo dello sperimentatore e che vengono allora conglobate nella componente accidentale, a
sua volta rappresentata mediante una variabile casuale. Per tale variabile
casuale si ipotizza, in applicazione del teorema di Laplace, una distribuzione
di tipo normale. Dalla normalit della componente accidentale discende che
le risposte da parte dei tre gruppi di cavie possono essere riguardate come
altrettanti campioni estratti da popolazioni anch'esse normali e con media
diversa od uguale a seconda che i farmaci siano o meno parimente ecaci.

5.2 L'analisi della varianza ad un fattore

5.2.1 Il modello

Sia A un fattore sperimentale ad h modalit e siano i (per i = 1, . . . , h) le


medie delle popolazioni da cui si possono ritenere estratti h campioni. Tali
medie possono essere scisse nella somma di due componenti:
(5.1)
dove rappresenta la media comune delle h popolazioni e i l'eetto dovuto
al trattamento con la i-esima modalit del fattore sperimentale. Si ipotizza
che le risposte siano generate da un modello lineare del tipo:
i = + i ,

(5.2)
dove yij rappresenta la j -esima risposta (per j = 1, . . . , ni , con i ni = n) al
trattamento con la i-esima modalit del fattore, decomposta nella somma di
due componenti, una parte sistematica + i ed una parte accidentale ij ,
detta errore, che sintetizza la variabilit sperimentale. Qualora il numero
delle osservazioni sperimentali costante per ciascun trattamento ipotizzato
(ni = n/h per ogni i) si denisce un disegno sperimentale bilanciato. Secondo
la (5.2), la risposta yij risulta determinata da una forma additiva e lineare
che considera l'eetto medio generale e costante nell'esperimento (ossia ),
l'eetto dovuto al trattamento i-esimo rispetto al livello medio generale (ossia
i ), l'eetto erratico legato alla j -esima osservazione sperimentale. Al ne
di identicare gli h + 1 P
parametri del modello si pone, senza perdere in
generalit, il vincolo che i i = 0. Per la componente accidentale valgono
le seguenti ipotesi:
yij = + i + ij

E(ij ) = 0,
E(ij 2 ) = 2 ,

39

(5.3)
(5.4)

E(ij , kl ) = 0, i 6= k, j 6= l

(5.5)

Si ipotizza inoltre che l'errore si distribuisca come una variabile casuale


normale da cui discende che:
yij N (i , 2 ).

(5.6)

Si distingue il modello ad eetti ssi, per il quale i livelli del fattore sperimentale sono deterministici (in quanto si considerano tutti i possibili livelli
del fattore sperimentale), dal modello ad eetti casuali o randomizzato, per
il quale i livelli del fattore discendono da un'estrazione casuale e pertanto gli
i sono variabili aleatorie che soddisfano ipotesi analoghe a quelle formulate
per gli errori ij :
E(i ) = 0,
2

E(i ) =

2 ,

E(i , l ) = 0, i 6= l

(5.7)
(5.8)
(5.9)

Si assume inoltre che vi sia indipendenza tra le variabili aleatorie i ed ij . La


dierenza tra un modello ad eetti ssi ed un modello ad eetti casuali, nel
caso di un solo fattore di classicazione, non foriera di alcuna conseguenza
sotto il prolo delle modalit di espletamento dell'analisi inferenziale.

5.2.2 Il test
L'ipotesi nulla di uguaglianza delle h medie pu essere espressa nella seguente
forma:
H0 : i = 0, i

(5.10)

Allo scopo di eettuare il test, si considera la devianza campionaria totale


di Y :
SST =

XX
i

(yij y.. )2

(5.11)

dove y.. rappresenta la media campionaria generale. Sia inoltre yi. la media
campionaria relativa all'i-esimo livello del fattore, la devianza campionaria
totale pu essere decomposta in devianza tra i trattamenti e devianza entro
i trattamenti:

40

XX
i

(yij y.. )2 =

(
yi. y.. )2 ni +

XX
i

(yij yi. )2

(5.12)

Se indichiamo con SSA la devianza campionaria tra i trattamenti (cio la


parte della devianza campionaria totale spiegata dai livelli del fattore) e con
SSE la devianza campionaria entro i trattamenti (cio la parte dovuta alla
variabilit sperimentale) si ha:
SST = SSA + SSE

(5.13)

Si dimostra che le seguenti varianze campionarie corrette:


SST
n1
SSA
M SA =
h1
SSE
M SE =
nh
M ST =

(5.14)
(5.15)
(5.16)

sono stimatori non distorti per 2 . Assumendo la normalit degli errori, si ha


che se vera l'ipotesi nulla allora si hanno due variabili aleatorie chi-quadrato
indipendenti:
SSA
2 h1
2
SSE
2 nh
2

(5.17)
(5.18)

Pertanto, il test pu essere condotto considerando il seguente rapporto:


F =

M SA
M SE

(5.19)

che si distribuisce come una variabile aleatoria F di Fisher con (h1), (nh)
gradi di libert. Pi tale rapporto risulta elevato, maggiore il contributo dei
livelli del fattore sperimentale alla spiegazione della variabilit del fenomeno
osservato, ci che induce a rigettare l'ipotesi nulla. Associato al livello empirico della F si indica usualmente il pi piccolo livello di signicativit del
test (indicato con pA ) per rigettare l'ipotesi nulla di assenza dell'eetto del
fattore A sulla risposta: pi basso questo valore pi inverosimile l'ipotesi
nulla data l'evidenza empirica. La tabella riassuntiva dell'ANOVA ad un
fattore sperimentale riepiloga i risultati del test statistico.
41

Origine della Somma dei Gradi di Media dei Rapporto F sign.


variabilit
quadrati libert quadrati
Tra i
SSA
h1
M SA
M SA/M SE
pA
gruppi
Interna ai
SSE
nh
M SE
gruppi
Totale
SST
n1
Tabella 5.1: Analisi della varianza ad un fattore sperimentale
Se si rigetta l'ipotesi nulla signica che esiste almeno un livello del fattore per
il quale l'ipotesi nulla non vericata, ossia la media del gruppo dierisce
dalla media generale.

5.2.3 I confronti multipli


Il ricercatore interessato ad individuare quale gruppo abbia contribuito al
rigetto dell'ipotesi nulla (e che ha determinato un aumento della variabilit dovuta al fattore A) dovrebbe procedere ad eettuare tutti i confronti
simultanei tra coppie di gruppi. Diversi sono gli approcci possibili.
Una procedura tradizionale denominata Least Signicant Dierence (LSD)
si basa sulla costruzione di un intervallo di condenza per la dierenza fra
ciascuna coppia di medie (i l ) considerando la statistica t di Student:
(
yi. yl. ) t/2;(nh) s[

1
1 1/2
+ ]
ni nl

(5.20)

dove s2 = SSE/(n h). Ciascuna coppia di medie potr essere validata


usando l'intervallo (5.20): se l'intervallo conterr lo zero allora le medie non
dieriscono signicativamente al livello .
Il metodo di Sche propone un test pi conservativo per il quale l'intervallo di condenza viene costruito considerando la statistica F :
(
yi. yl. ) s[(h 1)F;(h1)(nh)

1
1 1/2
+ ]
ni nl

(5.21)

cos che l'errore campionario dipende da per ciascuna coppia di medie.


In generale, i confronti tra coppie di medie rappresentano casi particolari
di un confronto (o contrasto) denito dalla combinazione lineare:

42

L=

h
X

(5.22)

i i

tale che i i = 0. Due confronti,


caratterizzati dai coecienti i e i
P
(per i = 1, . . . , h) tali che i i i = 0, sono detti confronti ortogonali.
possibile procedere al confronto simultaneo tra pi medie. Per esempio, se il ricercatore sostiene che a priori si ha 1 = 3 e 2 = 4 ma
che (1 , 3 ) 6= (2 , 4 ) allora un'ipotesi nulla da vericare sar del tipo
H0 : (1 + 3 )/2 (2 + 4 )/2 = 0. Questa ipotesi un confronto con coecienti (1/2, 1/2, 1/2, 1/2) rispettivamente per (1 , 2 , 3 , 4 ). Il metodo
di Sche per il confronto fra coppie di medie potr essere esteso al confronto
L considerando l'intervallo di condenza:
P

h
X

i yi. s[(h 1)F;(h1)(nh)

h
X

1/2
2

i /ni ]

(5.23)

Questo metodo assume che per tutti i confronti possibili la proporzione di


intervalli che non include lo zero pari ad se le h medie della popolazione
sono uguali, controllando in tal modo l'errore di primo tipo del test. Qualora
si rigetta l'ipotesi nulla che tutte le medie sono uguali fra loro simultaneamente, allora esister un confronto che dierir signicativamente da zero. I
coecienti del confronto che dar il pi grande valore di
2

h
h
X
X
[
i yi. ] /[s2
2 i /ni ]
i

(5.24)

sono dati da i = ni (yi. y.. ), per i = 1, . . . , h. Questo confronto sar il


primo responsabile del rigetto dell'ipotesi nulla che tutte le medie sono uguali
fra loro.

5.2.4 Le condizioni di applicabilit


In conclusione, le condizioni di applicabilit del modello ANOVA ad un fattore sono: normalit degli errori, indipendenza ed additivit degli eetti,
omoschedasticit delle varianze fra i gruppi. Sono previsti anche alcuni test
statistici che consentono di vericare a priori le condizioni di applicabilit
del modello. In particolare si pu far riferimento al test di Hartley per quanto concerne l'ipotesi di omoschedasticit, ossia di uguaglianza delle varianze
delle popolazioni da cui sono estratti i campioni. Esso si basa sul confronto
43

tra le varianze campionarie corrette massime e minime assumendo sia un


disegno bilanciato che la plausibilit dell'ipotesi di normalit degli errori. In
generale, il test sul confronto tra le medie robusto alla non normalit degli
errori, cos che per la verica della omoschedasticit si pu far ricorso a test
non parametrici (test sui ranghi, test basati su tecniche di ricampionamento
del tipo jackknife).

5.3 L'analisi della varianza a due fattori


L'analisi della varianza pu essere generalizzata al caso di pi fattori, nel
seguito ne saranno considerati due. Per illustrare tale caso, si consideri il
seguente esempio: il direttore marketing di una catena di supermercati vuole
studiare l'eetto che la disposizione dei prodotti negli scaali ha sulle vendite,
considerando al contempo, diverse dimensioni di supermercato. Quando si
analizzano due fattori, si pu essere interessati nel vericare se vi sia un
eetto di ciascuno dei fattori, e se inoltre vi sia anche un eetto dovuto alla
interazione tra essi. Nel seguito, si far riferimento dapprima ad un modello
senza interazione e successivamente si illustrer il modello con interazione.
Siano allora A e B due fattori sperimentali rispettivamente ad h e g
livelli, e si considerino hg possibili trattamenti per un totale di n = hg
osservazioni (ossia ciascun trattamento, formato dalla combinazione di due
rispettivi livelli dei fattori, osservato esclusivamente una volta). Il modello
espresso nel seguente modo:
(5.25)
dove rappresenta la media generale delle hg popolazioni, i uno scostamento da questa dovuto all'eetto dell'i-esimo livello del fattore A e j
uno scostamento dovuto al j -esimo livello del fattore B con i = 1, . . . , h,
e j = 1, . . . , g, inne, ij rappresenta come sopraPla variabilit
Psperimentale.
Inoltre, si assume, senza perdere in generalit, i i = 0 e j j = 0. Nel
caso di modello randomizzato, sia i che j sono variabili casuali per le quali
valgono le consuete ipotesi gi viste sopra per i nel modello ad un fattore.
Si assume che vi sia indipendenza tra i , j ed .
yij = + i + j + ij

L'ipotesi nulla di uguaglianza delle hg medie pu essere scissa in due


sotto ipotesi:
H01 : i = 0, i
H02 : j = 0, j

44

(5.26)
(5.27)

Queste ipotesi vengono sottoposte a verica scindendo la devianza campionaria totale nel seguente modo:
(yij y.. )2 =

(5.28)

(
yi. y.. )2 g+

(5.29)

(
y.j y.. )2 h+

(5.30)

XX
i

X
i

X
j

XX
i

(yij yi. y.j + y.. )2

(5.31)

dove y.. la media campionaria generale, yi. la media delle risposte campionarie per l' i-esimo livello di A qualunque sia il livello di B e y.j la media delle risposte campionarie per il j -esimo livello di B qualunque sia il
livello di A. La (5.28) si decompone in una componente (5.29) dovuta al
fattore A (SSA), in una componente (5.30) dovuta al fattore B (SSB ) ed
un'ultima dovuta alla variabilit sperimentale SSE . Il test viene condotto
considerando i rapporti:
F =

SSA/(h 1)
SSE/(h 1)(g 1)

(5.32)

F =

SSB/(g 1)
SSE/(h 1)(g 1)

(5.33)

che, con ragionamento analogo a quello eettuato per il modello ad un fattore, se sono vere le ipotesi nulle, ed assumendo la normalit degli errori,
si distribuiscono come la variabile casuale F di Fisher con gradi di libert
rispettivamente pari a (h 1), (h 1)(g 1) e pari a (g 1), (h 1)(g 1).
Anche in questo caso, si concluder per il rigetto di ciascuna ipotesi nulla
se il relativo rapporto considerato risulta elevato cos che saranno bassi i
corrispondenti valori di signicativit.
Se si vuole impiegare un modello con interazione, ricordando l'esempio dei
supermercati, si ha che per ciascun trattamento, ossia ciascuna combinazione
tra tipo di disposizione della merce e dimensione del supermercato, vengono
considerate delle replicazioni. Si supponga per semplicit che il numero di
replicazioni sia costante e pari ad r per ogni combinazione dei livelli del
primo e del secondo fattore. Quindi i trattamenti possibili sono ancora gh
mentre il numero complessivo di osservazioni n = rhg. Il modello diviene:
45

Origine della Somma dei Gradi di Media dei Rapporto F sign.


variabilit
quadrati
libert quadrati
Fattore A
SSA
h1
M SA
M SA/M SE
pA
Fattore B
SSB
g1
M SB
M SB /M SE
pB
Residuale
SSE
(h-1)(g-1) M SE
Totale
SST
n1
Tabella 5.2: Analisi della varianza a due fattori, modello senza interazione

yijk = + i + j + ij + ijk

(5.34)

k = 1, . . . , r

(5.35)

dove ij esprime l'eetto dovuto alla interazione tra i due fattori e, nel caso
di modello ad eetti casuali, anche esso una variabile casuale per la quale
valgono le usuali ipotesi. Alle ipotesi specicate sopra (5.26 e 5.27), se ne
aggiunge una terza, ovvero:
H03 : ij = 0, i, j

(5.36)

La presenza di una interazione comporta che la devianza campionaria totale


venga scissa nelle seguenti componenti:
XXX
i

(yijk y... )2 =

(5.37)

(
yi.. y... )2 gr+

(5.38)

(
y.j. y... )2 hr+

(5.39)

XX
i

(
yij. yi.. y.j. + y... )2 )r+

(5.40)

XXX
i

(yijk yij. )2

(5.41)

dove yij. rappresenta la media campionaria delle risposte al trattamento con


l' i-esimo livello di A e con il j -esimo livello di B . Nella decomposizione della
devianza totale compare dunque, una ulteriore componente che rappresenta
46

la parte della devianza campionaria totale dovuta alla interazione; ci comporta una modica della componente residuale. Inoltre, quando si considera
la interazione tra i due fattori, l'analisi viene condotta in modo dierente per
il modello ad eetti ssi e per quello ad eetti casuali. Nel caso di eetti ssi
infatti, si considerano i rapporti F (5.32 e 5.33) a cui si aggiunge il rapporto:
F =

SSI/(h 1)(g 1)
F(h1)(g1),(nhg)
SSE/(n hg)

(5.42)

che, se risulta elevato, evidenzia la presenza di una signicativa interazione


tra i due fattori.

Origine della Somma dei


variabilit
quadrati
Fattore A
SSA
Fattore B
SSB
Interazione
SSI
Spiegata
SSL
Residuale
SSE
Totale
SST

Gradi di
libert

h1
g1
(h 1)(g 1)
hg 1
n hg
n1

Media dei Rapporto F sign.


quadrati
M SA
M SA/M SE
pA
M SB
M SB /M SE
pB
M SI
M SI /M SE
pI
M SE

Tabella 5.3: Analisi della varianza a due fattori, modello con interazione ad
eetti ssi
Se gli eetti sono invece casuali, si rapportano le stime corrette delle varianze
campionarie relative ai fattori A e B alla stima della varianza corretta relativa
alla interazione ottenendo:
F =

SSA/(h 1)
SSI/(h 1)(g 1)

(5.43)

F =

SSB/(g 1)
SSI/(h 1)(g 1)

(5.44)

47

Origine della Somma dei


variabilit
quadrati
Fattore A
SSA
Fattore B
SSB
Interazione
SSI
Spiegata
SSL
Residua
SSE
Totale
SST

Gradi di
libert

h1
g1
(h 1)(g 1)
hg 1
n hg
n1

Media dei Rapporto F sign.


quadrati
M SA
M SA/M SI
pA
M SB
M SB /M SI
pB
M SI
M SI /M SE
pI
M SE

Tabella 5.4: Analisi della varianza a due fattori, modello con interazione ad
eetti casuali

48

Capitolo 6

Il modello di regressione
lineare multipla
6.1 Premessa
Per elaborare delle teorie economiche occorre raggruppare le relazioni tra
variabili in modo da formare un modello. Un modello statistico una rappresentazione parsimoniosa, fedele e necessaria della realt derivata dall'evidenza empirica e da deduzioni logiche. La realt osservata, si formulano
delle ipotesi, si assumono delle relazioni di causa ed eetto tra le variabili
di interesse, ci si avvale delle conoscenze a-priori derivanti da teorie. Ci si
traduce nella formalizzazione di un modello statistico, basato su una struttura probabilistica, che viene sottoposto ad inferenza mediante un'indagine
campionaria.
La costruzione di un modello statistico si concretizza in tre fasi successive: specicazione, stima dei parametri, verica. La fase pi delicata la
ricerca di una corretta specicazione del modello. Sulla base di conoscenze a-priori derivanti da teorie, assunzioni, ipotesi, risultati sperimentali, si
formula una relazione funzionale tra le variabili di interesse individuando
la funzione f () che lega la variabile dipendente Y e le variabili esplicative
o predittori (X1 , . . . , XK ). Lo statistico introdurr un elemento stocastico
nella specicazione del modello anch questo sia parsimonioso cos da costituire un'approssimazione fedele della realt, di sua natura sar un modello
non deterministico. La relazione funzionale pi semplice tra due variabili
data dall'equazione di una retta cos da ottenere:
Y = 1 + 2 X + u

49

(6.1)

dove i parametri sono 1 e 2 , rispettivamente intercetta e coeciente angolare della retta, mentre u la componente aleatoria o stocastica che riassume
il non spiegato teoricamente (le variabili omesse) cos come l'errore di misurazione. L'obiettivo sar quello di pervenire a delle stime dei parametri del
modello e di vericare la bont di adattamento del modello ai dati per una
possibile generalizzazione delle aermazioni teoriche suragate dall'evidenza
empirica.

6.2 Il modello classico di regressione lineare semplice

6.2.1 Il modello e le ipotesi

Il modello di cui si tratta nel seguito detto modello classico di regressione


lineare semplice. Esso detto semplice poich considera la relazione tra due
sole variabili a dierenza di quello multiplo che include pi predittori. Il
termine lineare sar riferito ai parametri indipendentemente dalle variabili
che possono essere opportunamente trasformate. Il modello poi basato su
ipotesi dette classiche, che fanno di questo modello il punto di riferimento per altri modelli basati sulla rimozione di talune delle ipotesi classiche.
Il modello, inne, detto di regressione poich con esso si intende stimare
o predire il valor medio della variabile dipendente sulla base di valori pressati della variabile esplicativa, per cui si dice che la variabile dipendente
regredisce verso la media al variare dei valori della variabile esplicativa.
Si supponga di studiare la spesa per consumo settimanale di un dato
prodotto (i.e., la variabile dipendente Y ) in funzione di diversi livelli di reddito (i.e., la variabile esplicativa X ). Lo statistico dovr scegliere la relazione
che spieghi il valore atteso della distribuzione condizionata di Y dato il livello
i-esimo di X distinguendo il caso discreto:
E(Y |X = xi ) =

yp(y|xi )

(6.2)

dove p(y|xi ) descrive la distribuzione di probabilit condizionata al livello


i-esimo del reddito, dal caso continuo
Z
E(Y |X = xi ) =

yf (y|xi )dy

(6.3)

dove f (y|xi ) descrive la funzione di densit di probabilit condizionata al


livello i-esimo del reddito.
50

Si pu ipotizzare che nella popolazione la spesa media settimanale sia


funzione lineare del reddito. Ci si traduce nell'assumere che la rappresentazione cartesiana dei punti di coordinate date dal livello di reddito xi
e valore atteso della spesa E(Y |X = xi ) sia descritta esattamente da una
retta, detta di regressione, denita come
(6.4)
dove 1 l'intercetta e 2 il coeciente di regressione che descrive anche
la pendenza della retta. Invero, se si osserva un individuo con reddito pari a
xi e spesa per consumo pari a yi , sar naturale ritenere che questa spesa non
coincida esattamente con il valore atteso del gruppo, ovvero sar maggiore o
minore del valore atteso, e tale scostamento sar descritto da una variabile
casuale denominata errore:
E(Y |xi ) = f (xi ) = 1 + 2 xi

(6.5)
in quanto strettamente legato al processo di estrazione casuale dell'individuo dalla popolazione. Pertanto, se si osserva un campione di n individui
per i quali si hanno le osservazioni (xi , yi ), il modello sar denito come
ui = yi E(Y |xi )

(6.6)
dove E(Y |xi ) costituisce la componente deterministica del modello e ui la
componente stocastica del modello che rende yi realizzazione anch'essa di una
variabile aleatoria. Assumendo la linearit rispetto a X il modello diventa:
yi = E(Y |xi ) + ui

(6.7)
La v.c. ui detta errore e rappresenta non solo tutte le variabili omesse dal
modello, ma anche un elemento di casualit fondamentale e non prevedibile
del fenomeno stesso, oltre agli errori di misura che si sono potuti commettere
all'atto della rilevazione dei dati. opportuno considerare alcune ipotesi,
dette classiche, sulla distribuzione di probabilit di questa pertubazione e
sul modello in generale:
yi = 1 + 2 xi + ui

1. Il valore atteso di ciascuna v.c. errore uguale a zero:

E(ui ) = 0 E(yi ) = E[E(Y |xi )] + E(ui ) = 1 + 2 xi

(6.8)

il ch signica che non c' errore sistematico. Questa ipotesi non restrittiva in quanto un eventuale errore sistematico verrebbe incorporato
nell'intercetta del modello;
51

2. La varianza dell'errore costante:


var(ui ) = 2 var(yi ) = 2 , i

(6.9)

per cui si dice che c' omoschedasticit degli errori. Questa ipotesi
restrittiva per dati di tipo sezionale (cross-section) (n individui osservati al tempo t) ed pi realistica per le serie temporali (un individuo
osservato n volte dal tempo t al tempo t + n). Infatti, se ad esempio
si considera la spesa per consumo in funzione del reddito lecito supporre che la variabilit della spesa sia crescente con il livello del reddito
(eteroschedasticit);

3. La covarianza degli errori uguale a zero:


cov(ui , uj ) = E(ui uj ) E(ui )E(uj ) = 0, i 6= j

(6.10)

per cui gli errori sono incorrelati, ma non necessariamente indipendenti


(salvo nel caso di normalit delle variabili). Questa ipotesi scarsamente realistica per le serie temporali per le quali si osserva il fenomeno
dell'autocorrelazione degli errori;

4. La variabile esplicativa X
l'errore:

non aleatoria, ovvero non correlata con


cov(xi , ui ) = 0, i

(6.11)

per cui si intende che il campione sia stato estratto dalle distribuzioni
condizionate di Y dati i livelli della variabile X ;

5. Il modello correttamente specicato.

Questa un'ipotesi implicita del


modello la cui plausibilit dipende fortemente dalle conoscenze a-priori
del ricercatore. Se ad esempio si vuole stimare la relazione tra salario
monetario e tasso di disoccupazione come illustrata dalla ben nota
curva di Phillips, e si sceglie erroneamente la retta si determinerebbero delle predizioni errate nel senso di sovrastimare in taluni casi e
sottostimare in altri. Il problema che nella pratica non si conoscono,
come per la curva di Phillips, le variabili esatte da includere nel modello e la forma funzionale corretta che leghi tali variabili. Si formulano
delle ipotesi sulla natura stocastica del modello e sulle variabili in esso
incluse;
52

6. La varianza di X , supposta diversa da zero, non deve essere eccessiva-

mente elevata, altrimenti un'analisi lineare condurrebbe a soluzioni non


informative. Si immagini una rappresentazione cartesiana delle osservazioni per le quali il campo di variazione della X sia molto ampio:
ci signica che la nube di punti si disperde rispetto la direzione dell'asse delle ascisse e la retta di regressione avr presumibilmente una
pendenza pressocch nulla.

6.2.2 La stima dei parametri


Il modello di regressione (6.7) dovr essere stimato al ne di pervenire ad
una stima del valore atteso (6.4) indicata come:
(6.12)
dove e saranno le stime dei parametri. In tal modo, il dato osservato
potr esprimersi come somma del modello stimato e del residuo del modello:
yi = 1 + 2 xi

(6.13)
da cui si evince che il residuo ei = yi yi potr interpretarsi come stima
dell'errore.
La stima dei parametri ottenuta attraverso il metodo dei minimi quadrati:
yi = yi + ei = 1 + 2 xi + ei

min Q(1 , 2 ) =

(yi 1 2 xi )2

(6.14)

ossia minimizzando la somma dei quadrati degli errori. Ci si traduce nella


risoluzione di un sistema di equazioni normali, eguagliando a zero le derivate
prime della funzione Q() rispetto ai parametri:
X

yi = n1 + 2

X
i

(6.15)

xi

xi yi = 1

xi + 2

xi 2

(6.16)

e controllando le condizioni del secondo ordine. Le stime dei minimi quadrati


saranno date dalle seguenti espressioni:
1 = y 2 x

(6.17)

P
xi yi n
xy
sxy
Cod(X, Y )
=
= 2
2 = Pi 2
2
x

n
x
Dev(X)
s
x
i i

(6.18)

53

dove Cod(X, Y ) e Dev(X) sono rispettivamente la codevianza e la devianza,


mentre sxy e sx 2 sono rispettivamente la covarianza campionaria tra X e Y
e la varianza campionaria della X . Nel seguito, si utilizzer la notazione 1 e
2 sia per le stime che per gli stimatori dei parametri 1 e 2 , quali funzioni
delle statistiche campionarie.
Sostituendo le (6.17) e (6.18) nella (6.14) si ottiene il valore minimo della
funzione da ottimizzare:
Q(1 , 2 ) =

ei 2

(6.19)

da cui si evince che nel metodo dei minimi quadrati i residui maggiori, essendo i residui elevati al quadrato, contribuiscono in misura maggiore a determinare il valore minimo di questa funzione. Il metodo dei minimi quadrati
gode delle seguenti propriet:

1) La retta passa per il punto di coordinate (x, y), che si verica sostituendo
x

nella (6.12) e tenendo conto della (6.17);

2) E(yi) = E(yi), E(ei) = 0, Pi ei = 0, che si dimostra sostituendo le stime


3)

1 e 2 nella prima equazione (6.15)


P
i ei xi = 0, che si deduce dopo aver

seconda equazione (6.16).

del sistema;

sostituito le stime 1 e 2 nella

Per valutare la precisione delle stime e in generale per l'inferenza sui parametri
del modello occorre conoscere la varianza degli stimatori:
var(1 ) = 2 [

1
x
2
+
]
n Dev(X)

var(2 ) =

2
Dev(X)

(6.20)
(6.21)

la cui radice quadrata rappresenta l'errore standard della stima. Se la varianza dell'errore non nota allora la sua stima corretta data dalla seguente
espressione:
2

i ei

n2

(6.22)

Per quanto riguarda le propriet degli stimatori dei minimi quadrati, si dimostra, con il teorema di Gauss-Markov, che essi sono lineari, non distorti e
a varianza minima (BLUE: Best, Linear, Unbiased Estimators).
54

6.2.3 La bont di adattamento lineare


La bont di adattamento lineare del modello ai dati si potrebbe valutare
osservando il valore minimo (6.19), in quanto tanto minore sar tale valore
tanto migliore sar l'adattamento della retta ai dati osservati. Invero, poich
tale minimo potr variare da caso a caso, dipendendo dall'unit di misura del
fenomeno, occorre denire una misura relativa o quanto meno normalizzata
per consentire anche eventuali confronti tra diversi esempi di applicazione del
modello ai dati. In eetti, si osserva che il minimo della funzione di ottimo
parte della seguente decomposizione della devianza totale di Y :
(6.23)
dove Dev(R) = i (yi y)2 detta devianza di regressione, ossia la parte
P di
devianza totale spiegata dalla retta di regressione, mentre Dev(E) = i ei 2
detta devianza dei residui. Infatti, dalla (6.13) aggiungendo e sottraendo
la media y,
Dev(Y ) = Dev(R) + Dev(E)

(6.24)

yi y = yi y + ei

elevando ambo i membri al quadrato e sommando per gli n individui:


X
i

(yi y)2 =

(
yi y)2 +

ei 2 + 2

(
yi y)ei

(6.25)

si perviene alla (6.23) in quanto, utilizzando le (6.15) e (6.16), si dimostra


che il doppio prodotto si annulla.
Si potr denire l'indice di determinazione lineare per valutare la bont
di adattamento del modello lineare ai dati osservati considerando quanta
parte della devianza totale spiegata dalla retta di regressione:
R2 =

Dev(R)
Dev(E)
=1
Dev(Y )
Dev(Y )

(6.26)

che per costruzione, quale rapporto di composizione, varier da zero ad uno,


esprimendo un buon grado di adattamento lineare qualora il suo valore
prossimo ad uno.

6.2.4 L'inferenza sui parametri


A ni inferenziali, si assume che gli errori si distribuiscono normalmente:
ui N (0, 2 )

55

(6.27)

Si dimostra che questa assunzione implica che gli stimatori 1 e 2 si distribuiscono normalmente:
1 N (1 , var(1 ))

(6.28)

2 N (2 , var(2 ))

(6.29)

e pertanto si potr far riferimento alla normale standardizzata per la costruzione


degli intervalli di condenza e per la verica delle ipotesi.
Si osservi che poich la varianza degli stimatori (6.20) e (6.21) dipende
dalla varianza degli errori (6.22), questa non usualmente nota e occorre stimarla con la (6.22) pervenendo a stime corrette della varianza degli stimatori.
In tal caso, si dimostra che le statistiche campionarie
T1 =

1 1

(6.30)

T2 =

2 2

(6.31)

si distribuiscono come una t-Student con (n 2) gradi di libert.


Inoltre, lo stimatore corretto della varianza dell'errore legato alla distribuzione chi-quadrato con (n 2) gradi di libert:
X 2 = (n 2)

2
n2 2
2

(6.32)

che potr essere impiegata per l'inferenza su 2 .

6.2.5 La previsione
Il problema che viene arontato in questo paragrafo quello della previsione di Y dato un nuovo livello x0 della X . La previsione viene condotta
considerando la retta stimata (6.12) e distinguendo il caso della previsione
media, ossia stima del valore atteso data da y0 , dal caso della previsione
puntuale, stima del valore osservato y0 . In entrambi i casi, si utilizzer quale
stima BLUE l'espressione 1 + 2 x0 . Per avere un'idea dell'errore di previsione si dovr considerare che la previsione si distribuir normalmente con
media 1 + 2 X e varianza, nel primo caso, pari a:
var(
y0 ) = 2 [

)2
1 (x0 x
+ P 2 ]
n
i xi

56

(6.33)

mentre, nel secondo caso, la varianza sar maggiore essendo:


var(y0 ) = 2 [1 +

)2
1 (x0 x
+ P 2 ]
n
i xi

(6.34)

Se si sostituisce la stima corretta alla varianza dell'errore si utilizzer la statistica t-Student con (n 2) gradi di libert per la costruzione degli intervalli
di condenza della previsione. In generale, nel graco che illustra la retta
di regressione stimata, si illustra l'errore di previsione attraverso le cosiddette bande di condenza della previsione media e della previsione puntuale
per avere un'idea sull'accuratezza del modello: questa sar tanto maggiore
quanto pi si nei prossimi del punto medio di coordinate (x, y), mentre le
bande si ampliano quando ci si allonta da tale valore cos che si incrementa
l'errore di previsione.

6.2.6 La valutazione dei risultati dell'analisi di regressione


L'analisi della regressione viene condotta distinguendo la variabile dipendente da quella esplicativa sulla base della teoria che si vuole vericare empiricamente. Successivamente, si stima la retta di regressione e occorrer
prestare particolare attenzione alla coerenza dei segni delle stime ottenute
per l'intercetta e per il coeciente di regressione rispetto alla teoria e alle
ipotesi formulate. Si proceder poi ad analizzare i risultati del test e degli intervalli di condenza delle stime per comprendere la signicativit delle stime
ottenute rispetto alle ipotesi nulle che rispettivamente ciascun parametro sia
pari a zero. Si potranno poi sottoporre a test altre ipotesi nulle se si ha
suciente informazione per presumere altri valori di ciascuno dei parametri.
Talvolta, infatti, bene eettuare pi test con dierenti ipotesi nulle in
quanto nell'accettare un'ipotesi nulla bisogna essere consapevoli che un'altra
ipotesi nulla pu essere ugualmente compatibile con i dati. Per questo motivo, preferibile dire che si pu accettare l'ipotesi nulla piuttosto che dire che
la si accetta. La bont del modello lineare di addattarsi ai dati valutata
attraverso l'indice di determinazione lineare. Si vedr nella regressione multipla che tale indice potr incrementarsi se si aggiungono variabili esplicative
nel modello e pertanto la rilevanza di un suo valore alto avr fondamento
solo se accompagnata a valori del test signicativi e soprattutto a bassi valori
degli errori standard della stima.

57

6.3 Il modello classico di regressione lineare multipla

6.3.1 Il modello e l'interpretazione dei parametri

Si consideri il problema di spiegare la variabile dipendente Y attraverso k 1


variabili esplicative mediante il modello di regressione lineare multipla:
(6.35)
Il parametro 1 l'intercetta e rappresenta l'eetto medio di tutte le variabili
escluse dal modello qualora fossero pari a zero tutti gli altri parametri. Il
parametro j il coeciente di regressione parziale relativo alla variabile
Xj , misurando il cambiamento in media di Y per una variazione unitaria di
Xj mantenendo costanti i valori delle altre variabili.
Al ne di comprendere il signicato dei coecienti di regressione parziale,
si consideri il classico esempio di spiegare la produzione Y in funzione del
lavoro X2 e del capitale X3 . Se si interessati a valutare l'incremento della
produzione dovuto all'incremento del lavoro si dovr controllare l'eetto del
capitale. Si proceder regredendo sia la Y che la X2 rispetto alla variabile
X3 cos da esprimere i valori osservati quali funzioni delle stime e dei residui
come nella (6.13):
yi = 1 + 2 x2i + + j xji + + k xki + ui

yi = b1 + b13 x3i + e1i

(6.36)

(6.37)
dove b1 la stima dell'intercetta e b13 la stima del coeciente di regressione
nella prima regressione, e analogamente b2 e b23 nella seconda regressione. I
residui possono essere espressi nel seguente modo:
x2i = b2 + b23 x3i + e2i

e1i = yi b1 b13 x3i

(6.38)

(6.39)
indicando, per la i-esima osservazione, il valore di Y dopo aver rimosso l'eetto lineare di X3 ed il valore di X2 dopo aver rimosso l'eetto lineare di
X3 rispettivamente. Se si regredisce ora il residuo della prima regressione
rispetto al residuo della seconda regressione si determina l'equazione:
e2i = x2i b2 b23 x3i

e1i = c1 + c2 e2i + e3i

58

(6.40)

dove in particolare c2 la stima del coeciente di regressione e misura l'effetto netto di un cambiamento unitario di X2 su Y , ossia la produttivit
marginale del lavoro al netto dell'eetto capitale. In altre parole, c2 coinciderebbe con la stima del coeciente di regressione parziale relativo alla
variabile lavoro nel modello di regressione lineare multipla.

6.3.2 Il modello in forma matriciale: le ipotesi e la stima


Il modello di regressione lineare multipla in forma matriciale si denisce nel
seguente modo:
y = X + u

(6.41)

dove y un vettore colonna di n osservazioni della variabile Y , X una


matrice di n righe e k colonne, di cui la prima formata da tutti uno,
contenente le osservazioni delle k 1 variabili esplicative sugli n individui,
un vettore colonna di k parametri del modello, u il vettore colonna di
n errori.
Le ipotesi del modello classico potranno essere cos scritte:

1) E(u) = 0 E(y) = X ;
2) u = 2I y = 2I, dove u

e y sono le matrici di varianze e


covarianze degli errori e della variabile dipendente rispettivamente;

3) X non stocastica;
4) rango(X) = k < n, ossia la matrice X ha rango pieno, nel senso che
non si pu dedurre una variabile quale combinazione lineare delle altre
variabili, altrimenti si dice che c' multicollinearit;

5) il modello correttamente specicato;


6) le varianze dei predittori non devono essere eccessivamente alte.
Il modello di regressione lineare multipla si stimer con il metodo dei minimi
quadrati:
Q() = (y X)0 (y X)

(6.42)

per cui derivando rispetto al vettore dei parametri si otterr la seguente


stima:
59

= (X0 X)1 X0 y

(6.43)

che rappresenta una soluzione univocamente determinata se e solo se l'inversa


di X0 X esiste, ossia le variabili sono indipendenti. Inoltre, si dimostra che
la matrice di varianze e covarianze di pari a = 2 (X0 X)1 .
Si potr denire il vettore dei residui come
e=yy

(6.44)

dove y = X. Il vettore dei residui risulta essere un trasformazione lineare


del vettore y:
e = y X(X0 X)1 X0 y = [I H]y = My

(6.45)

dove H = X(X0 X)1 X0 y e M = I H, ed inoltre trasformazione lineare


anche del vettore u:
e = My = MX + Mu = Mu

(6.46)

essendo MX = 0. Da un punto di vista geometrico, il vettore dei residui


ortogonale al piano generato dalle colonne di X poich X0 e = 0, mentre la
stima y rappresenta la proiezione del vettore y su tale piano dove l'operatore
di proiezione H, ossia y = Hy. I residui hanno media pari a zero E(e) = 0
e matrice di varianze e covarianze piena pari a e = 2 M, ossia i residui
possono essere autocorrelati. La stima corretta della varianza degli errori
nuovamente data da:

2 =

e0 e
nk

(6.47)

che sostituita nell'espressione della matrice di varianze e covarianze di


determina la stima S = 2 (X0 X)1 .
Analogamente al caso semplice, si potr denire l'indice di determinazione lineare per il modello multiplo come rapporto tra devianza di regressione e devianza totale, ossia, in forma matriciale, si ha:
Dev(Y ) = y0 y n
y2

(6.48)

Dev(R) = y
0 y
n
y 2 = 0 X0 y n
y2

(6.49)

da cui si deriva l'indice R2 come:


60

R2 =

0 y n
X
y2
0
y y n
y2

(6.50)

che varier tra zero ed uno. La radice quadrata dell'indice di determinazione


lineare noto come coeciente di correlazione multipla ed equivalente al
coeciente di correlazione lineare tra i valori osservati yi ed i valori stimati
yi per i = 1, . . . , n.

6.3.3 L'indice corretto di determinazione lineare


Quando si considera un modello multiplo, l'indice di determinazione lineare
(6.26) aumenta (o quanto meno non diminuisce) al crescere del numero di
variabili esplicative incluse nel modello. Infatti, il valore minimo (6.19) della
funzione da ottimizzare in una regressione con k predittori sar dato dalla
seguente espressione:
Q(1 , 2 )k =

(yi 1 2 x2i k xki )

(6.51)

mentre lo stesso valore minimo in una regressione con (k + 1) predittori sar


dato da
Q(1 , 2 )(k+1) =

2
(yi 1 2 x2i k xki (k+1) x(k+1)i )

(6.52)
Si osserva che Q(1 , 2 )k Q(1 , 2 )(k+1) potendo raggiungere lo stesso
minimo se (k+1) = 0. In altre parole, la devianza dei residui diminuisce
al crescere del numero delle variabili e pertanto l'indice di determinazione
lineare (6.50) aumenta. In denitiva, un alto valore dell'indice R2 non
indicatore di buon adattamento in quanto esso dipende anche dal numero di
predittori inclusi nel modello.
Anch si possano confrontare due regressioni con la stessa variabile
dipendente ma con un diverso numero di predittori si dovr considerare il
seguente indice corretto:
2 = 1 Dev(E)/(n k)
R
Dev(Y )/(n 1)

(6.53)

che, in luogo delle devianze, propone le stime corrette delle varianze con
gradi di libert dati rispettivamente da (n k) e (n 1). In tal modo, pur
vero che la devianza dei residui diminuisce con l'aggiunta di un predittore,
61

ma diminuiranno anche i corrispondenti gradi di libert. Invero, l'indice corretto non sar necessariamente compreso tra zero ed uno, ma esso opera una
correzione signicativa all'indice R2 qualora il numero di variabili esplicative
elevato in rapporto al numero di individui osservati. Inne, si dimostra che
vale la seguente relazione:
2 = 1 (1 R2 ) n 1
R
nk

(6.54)

che lega l'indice non corretto all'indice corretto.

6.3.4 Le correlazioni semplici e parziali


Quando si considera un modello di regressione multipla interessante analizzare la matrice delle correlazioni semplici tra le variabili indicata con R di
termine generico rlj , tale che rlj = 1 se l = j mentre r1j esprime la correlazione semplice tra la variabile dipendente Y e ciascun predittore Xj per
j = 2, . . . , k . Si dimostra che
s1 <1j
j =
sj <11

(6.55)

dove s1 e sj sono le deviazioni standard della Y e della Xj rispettivamente,


mentre <1j e <11 sono i cofattori di r1j e r11 rispettivamente. Il coeciente
di correlazione multipla denito nel seguente modo:
2
R1.23...k
=1

R
<11

(6.56)

dove R = det(R) il determinante della matrice delle correlazioni.


Si consideri l'esempio in cui si hanno due predittori ed una variabile
dipendente. Il coeciente di correlazione parziale tra la variabile dipendente
Y ed il predittore X2 , ponendo costante il livello del predittore X3 , denito
nel modo seguente:
r12 r13 r23

r12.3 = p

2 )(1 r 2 )
(1 r13
23

(6.57)

ed in maniera analoga si potr esprimere la correlazione parziale tra Y e


data la X2 . La correlazione parziale esprime una relazione diversa da
quella espressa dalla correlazione semplice. Infatti, pur in presenza di una
correlazione semplice tra Y e X2 pari a zero, ossia r12 = 0, le due stesse
variabili potrebbero risultare positivamente correlate parzialmente rispetto
ad una terza variabile X3 , ossia r12.3 > 0, qualora si avesse r13 > 0 e r23 < 0.

X3

62

Si dimostrano le seguenti relazioni tra l'indice di determinazione lineare


(ossia il quadrato del coeciente di correlazione multipla), i coecienti di
correlazione semplice e parziale:
2
R1.23
=

2 + r 2 2r r r
r12
12 13 23
13
2
1 r23

(6.58)

2
2
2
2
R1.23
= r12
+ (1 r12
)r13.2

(6.59)

2
2
2
2
R1.23
= r13
+ (1 r13
)r12.3

(6.60)

Si evince in tal modo che l'indice di determinazione lineare pu solo aumentare (e non diminuire) con l'ingresso di un predittore nel modello. Infatti, l'indice (6.59) costituito dalla somma di due parti: quella attribuita
2 )) moltialla sola X2 (ossia r12 ) e quella non spiegata dalla X2 (ossia (1 r12
plicata per la proporzione spiegata dalla X3 dopo aver rimosso l'eetto di
X2 (ossia r13.2 2 ). Pertanto, si avr R2 > r12 2 ntanto r13.2 2 > 0, ovvero
R2 = r12 2 se e solo se r13.2 2 = 0.

6.3.5 L'inferenza sui coecienti di regressione


Per l'inferenza sui parametri si assume che il vettore degli errori segua una
multinormale:
u N (0, 2 I)

(6.61)

e di conseguenza anche il vettore degli stimatori dei coecienti di regressione


seguir una multinormale:
1
N (, 2 (X0 X) )

(6.62)

Nel seguito si propone la procedura inferenziale per la seguente funzione


parametrica:
= c0

(6.63)

dove c un vettore colonna contenente k costanti note. Ad esempio, se si


denisce un vettore formato da k 1 zero ed un solo valore pari ad uno in
corrispondenza del j -esimo elemento, allora la funzione parametrica (6.63)
corrisponder al coeciente di regressione j . Si potr inoltre denire un
test per la dierenza tra due coecienti di regressione ssando nel vettore
c una costante pari ad uno ed un'altra pari a meno uno mentre gli altri
63

valori risultano pari a zero. Naturalmente, scegliendo opportune costanti


per il vettore c la procedura inferenziale potr tener conto di diverse ipotesi
teoriche relative ad opportune combinazioni dei coecienti di regressione.
Lo stimatore BLUE di dato dalla combinazione lineare degli stimatori
BLUE dei coecienti di regressione:
1
N (, 2 c0 (X0 X) c)

(6.64)

Nell'ipotesi di non conoscere la varianza dell'errore e di stimarla con la stima


corretta 2 = e0 e/(n k), si potr denire la statistica test
T =

(6.65)

che si distribuisce come una t-Student con (n k) gradi di libert.

6.3.6 L'analisi della varianza: il test totale ed il test parziale


Nella regressione multipla si interessati dapprima a vericare l'ipotesi nulla
che tutti i coecienti di regressione siano simultaneamente nulli. Il test sull'intera regressione si costruisce a partire dalla decomposizione della devianza totale in devianza di regressione e devianza dei residui. Si dimostra che
considerando l'ipotesi di normalit degli errori la statistica test, nell'ipotesi
nulla
F =

SSR/(k 1)
M SR
R2 /(k 1)
=
=
SSE/(n k)
M SE
(1 R2 )/(n k)

(6.66)

si distribuisce come una F di Snedecor-Fisher con k1 e nk gradi di libert,


ossia il rapporto tra due variabili casuali indipendenti e distribuite come 2
rapportate ai rispettivi gradi di libert. Pertanto, si potr considerare il
valore di signicativit associato al valore empirico derivante dal rapporto
(6.66).
Sulla base dell'analisi della varianza si potr considerare una decomposizione
alternativa che tenga conto di una suddivisione dei predittori in due gruppi
formati rispettivamente dai primi q 1 predittori e dai rimanenti k q
predittori. In questo caso, si interessati a vericare l'ipotesi nulla che i
coecienti di regressione del secondo gruppo di predittori siano uguali a
zero. Secondo questa ipotesi, la variabile denita come
F =

SSRkq /(k q)
(Rk 2 Rq 2 )/(k q)
=
SSE/(n k)
(1 Rk 2 )/(n k)

64

(6.67)

Causa di Somma dei Gradi di Media dei statistica F sign.


variazione quadrati libert quadrati
X 2 , . . . Xk
SSR
k1
M SR
M SR/M SE
p
Residuo

SSE

nk

Totale

SST

n1

M SE

Tabella 6.1: Analisi della varianza nella regressione: il test totale


si distribuisce come una F di Snedecor Fisher con (k q) e (q 1) gradi
di libert, vericando il contributo del gruppo addizionale di variabili nel
modello utile per la spiegazione del fenomeno.

Causa di
variazione

Somma dei Gradi di Media dei


quadrati libert quadrati

statistica F

X 2 , . . . Xq

SSRq

q1

M SRq

Xq+1 , . . . Xk

SSR(kq)

kq

M SR(kq)

M SR(kq) /M SE

X 2 , . . . Xk

SSR

k1

M SR

M SR/M SE

Residuo

SSE

nk

M SE

Totale

SST

n1

Tabella 6.2: Analisi della varianza nella regressione: il test parziale


Nel caso particolare di q = k 1 si considera l'eetto addizionale di una sola
variabile al modello, cos da valutare la signicativit del relativo coeciente
di regressione.

6.3.7 Il Chow test sulla stabilit


Nel seguito si proporr un test per vericare l'ipotesi di uguaglianza dei
parametri in due regressioni indipendenti. In particolare, si considerano
due campioni indipendenti di numerosit n1 e n2 rispettivamente estratti da popolazioni per le quali si ipotizzano due modelli classici di regressione lineare. Si vuole vericare l'ipotesi nulla che i parametri del primo
65

modello adattato al primo campione sono uguali ai parametri del secondo


modello adattato al secondo campione. Se tale ipotesi fosse rispettata, si
potrebbe stimare un'unica equazione per l'insieme formato dai dati raggruppati ottenendo la somma dei quadrati SSR spiegata dalla regressione; questa
non dovrebbe discostarsi troppo dalla somma delle due somme dei quadrati
derivanti dalle regressioni sui due campioni indipendenti indicate con SSR1
e SSR2 . La variabile test denita nel seguente modo:
F =

[SSR (SSR1 + SSR2 )]/k


[SSR1 + SSR2 ]/[n1 + n2 2k]

(6.68)

e si distribuisce come una F con k e [n1 + n2 2k] gradi di libert; se il


valore empirico eccede in maniera signicatica il valore critico allora non si
pu sostenere che le due regressioni sono uguali.

6.3.8 Le procedure di selezione delle variabili


Uno dei problemi pi importanti da risolvere nella regressione multipla la
scelta di quante e quali variabili inserire nel modello. Ci perch occorre
sempre giungere ad un compromesso tra il vantaggio di inserire quante pi
variabili esplicative possibili in modo da ridurre la componente erratica e lo
svantaggio dovuto all'aumento dei costi e delle varianze delle stime. Ci sono
varie procedure che permettono la risoluzione di questo problema:

a) la scelta a-priori delle variabili eettuata dall'analista economico azien-

dale in base ad assunzioni e modelli teorici (funzione di domanda o di


oerta, funzione di produzione, etc.);

b) la generazione di tutte le regressioni possibili (o di un sottoinsieme ot-

timale) confrontate sulla base di un indice statistico (l'indice corretto


di determinazione lineare R 2 , l'errore quandratico medio della stima,
il Cp di Mallows);

c) l'applicazione di un algoritmo selettivo che iterativamente introduce variabili (regressione forward) o elimina variabili (regressione backward),
ovvero introduce ed elimina variabili (regressione stepwise);

L'algoritmo (backward) consta di tre stadi:

1) regressione completa con k predittori;


2) test F parziale per valutare la signicativit di ciascun predittore;
66

3) il predittore per il quale si ha il valore pi basso del test F

parziale e
tale valore non signicativo viene rimosso; si ricalcola la regressione
omettendo tale predittore e si ritorna al passo due.

L'algoritmo si arresta se il valore pi basso del test F parziale risulta comunque signicativo e pertanto non potranno essere eliminati ulteriori predittori.
L'algoritmo (forward) consta di quattro stadi:

1) si considera il modello senza predittori stimando solo l'intercetta;


2) si calcolano i coecienti di correlazione semplici tra la variabile dipendente e ciascun predittore, selezionando il predittore pi correlato;

3) il predittore selezionato entra nel modello se il valore empirico del test F

parziale risulta signicativo passando poi allo stadio quattro; altrimenti


la procedura si arresta adottando il modello in corso;

4) si calcolano i coecienti di correlazione parziale tra la variabile dipendente e ciascun predittore non ancora inserito nel modello al netto dell'eetto dei predittori gi entrati nel modello, selezionando il predittore
pi correlato e ritornando allo stadio tre.

La regressione stepwise adotta un algoritmo analogo al forward ma rimette in


discussione i predittori gi inseriti in precedenza vericando la loro signicativit in ogni iterazione attraverso il test F parziale. La procedura si arresta
se sia il test di ingresso che il test di rimozione risultano non signicativi.

6.3.9 Gli intervalli di previsione


La previsione consiste nel determinare il valore della variabile di risposta
per una nuova unit sulla base delle misurazioni dei k predittori, ossia x0 =
[1, x2 , . . . , xk ] dove con indichiamo l'(n + 1)-esima unit. La previsione
basata sulla stima dei parametri ottenuta considerando n unit statistiche:
y = x0 . L'errore di previsione sar denito come ep = y y . Questo
sar uno stimatore, distribuito normalmente, non distorto (con media pari a
zero) e varianza data dalla seguente espressione:
var(ep ) = E[
y y ]2 = var(
y ) + var(y ) = var(x0 ) + 2

67

(6.69)

in quanto la covarianza tra y (che dipende dall'errore u) e y (che dipende


dallo stimatore ) nulla. Considerando la varianza dello stimatore del
vettore dei coecienti di regressione si ottiene:
var(ep ) = 2 [x 0 (X0 X)1x + 1]

(6.70)

sulla base della quale sar possibile costruire la banda di condenza della
previsione per y .

6.4 Le forme funzionali del modello

6.4.1 Il modello centrato

Si ottiene il modello centrato quando le variabili sono trasformate considerando lo scarto tra valore assunto dalla variabile e valore medio della stessa.
Procedendo in tal modo si ipotizza un modello di regressione con intercetta
nulla in quanto questa esprime proprio la media della variabile dipendente
(regressione attraverso l'origine). La stima ottenuta con il metodo dei minimi
quadrati gode comunque di propriet ottimali. Alcuni esempi di applicazione
sono rappresentati dalla teoria del portafoglio monetario (Capital Asset Pricing Model) che esprime il premio del titolo in proporzione alla sua volatilit,
dalla teoria del reddito permanente di Friedman che esprime il consumo
quale proporzione del reddito permanente, dalla teoria dei costi variabili di
produzione che postula la proporzionalit del costo variabile rispetto all'output prodotto, dalla teoria monetarista per la quale il tasso di inazione
direttamente proporzionale all'oerta di moneta.

6.4.2 Il modello con le variabili standardizzate


Il modello di regressione denito per le variabili standardizzate presenta i
coecienti di regressione deniti nel seguente modo:
BET Aj = j

sj
sy

(6.71)

per j = 1, . . . , k, dove j indica il corrispondente parametro del modello con


variabili non standardizzate, mentre sj e sy sono le deviazioni standard del
j -esimo predittore e della variabile dipendente rispettivamente. Tale modello consente di confrontare i valori numerici delle stime dei coecienti di
regressione in quanto essi sono espressi in unit standard, individuando in
tal modo quale dei predittori ha una maggiore incidenza sulla variazione del
68

valore atteso della variabile dipendente. Nelle applicazioni, si eettuano entrambe le regressioni con e senza la standardizzazione, in modo da arricchire
l'interpretazione dei risultati.

6.4.3 Il modello log-log


L'ipotesi di linearit del modello potrebbe essere riferita sia alle variabili
che ai parametri; in generale, si fa riferimento ai parametri in quanto spesso
possibile operare delle trasformazioni delle variabili per ricondurci ad un
modello lineare. Un esempio rappresentato da una funzione:
wi = zi

(6.72)

per la quale operando la trasformazione logaritmica delle variabili diviene


lineare.

6.4.4 Il modello semilog: log-lin e lin-log


I modelli semilog sono modelli di regressione lineare dove la variabile dipendente Y (modello Log - Lin) o la la variabile esplicativa X (modello Lin Log) si presentano in forma logaritmica ed i parametri 1 e 2 sono lineari.
Il modello Log - Lin pu essere cos formalizzato:
ln Y = 1 + 2 X + u

(6.73)

dove il coeciente angolare 2 misura la variazione relativa di Y per una


variazione assoluta di X . Questi modelli sono generalmente utilizzati nei
casi in cui la variabile dipendente X il tempo. Ad esempio, supponiamo
che Yt = PIL ed X la variabile tempo, 2 rappresenta il tasso di incremento
o decremento della variabile Y rispetto al tempo.
Il modello Lin - Log cos formalizzato:
Y = 1 + 2 ln X + u

(6.74)

Ad esempio, supponiamo che Yi il PNL e la X la domanda di moneta,


il modello cos formalizzato permette di determinare di quanto il prodotto
nazionale lordo varia al crescere di una variazione percentuale di X .

69

6.4.5 Il modello a trasformazione reciproca


Il modello a trasformazione reciproca un modello di regressione lineare dove
i parametri 1 e 2 sono lineari e la variabile esplicativa rappresentata dal
suo reciproco.
1
Y = 1 + 2
+u
(6.75)
Xi

Questi modelli permettono di rappresentare le relazioni non lineari esistenti


tra variabili di tipo economico come ad esempio la relazione esistente tra
il tasso di disoccupazione e il tasso di variazione annua dei salari monetari
rappresentata dalla curva di Phillips.

6.4.6 La regressione polinomiale


Il modello di regressione polinomiale ha avuto un notevole impiego nella
ricerca econometrica per lo studio delle funzioni di produzione e di costo.
Un esempio render pi semplice la formalizzazione del modello.
Consideriamo la curva del costo marginale. Essa misura la variazione dei
costi corrispondente alla variazione dell'output. Naturalmente, questa curva
mostra una relazione di tipo non lineare esistente tra l'output (X ) e il costo
marginale (Y ). Geometricamente, la curva una parabola che pu essere
cos denita:
Yi = 0 + 1 X + 2 X 2
(6.76)
questa funzione rappresenta un polinomio di secondo grado. La versione
stocastica della funzione (1) :
Yi = 0 + 1 X + 2 X 2 + ui
(6.77)
Il modello cos denito chiamato modello di regressione polinomiale di
secondo grado. Se, volessimo generalizzare il modello a n gradi, otterremo
un modello di regressione polinomiale di n-esimo grado cos denito:
(6.78)
Nel modello di regressione polinomiale la variabile esplicativa X unica e si presenta con diversa potenza assumendo la forma di un modello di
regressione lineare multipla.
Ricordiamo che, i parametri sono lineari e quindi possono essere stimati
con il metodo OLS o con quello di Massima Verosimiglianza. Un ultima
precisazione deve essere fatta sulle variabili esplicative X in quanto, esse
sono fortemente correlate tra loro, ma non incorrono nel problema della
multicollinarit perch esprimono relazioni non lineari di X .
Yi = 0 + 1 X + 2 X 2 + ...... + n Xin + ui

70

6.5 L'uso delle variabili dummy nella regressione

6.5.1 Il modello con un predittore dicotomico

Nel modello di regressione la variabile dipendente Y pu essere inuenzata


non solo da variabili di natura quantitativa ma anche da variabili di natura
qualitativa. Poich, le variabili qualitative generalmente, indicano la presenza o l'assenza di un attributo o di una qualit, (maschio o femmina, bianco o
nero, ecc.) un metodo per quanticare gli attributi della variabile esplicativa
ottenuto attraverso la creazione di variabili dummy.
Queste variabili, chiamate variabili dummy, assumono un valore pari ad
uno se l'attributo presente oppure un valore pari a zero in caso di assenza
dello stesso. Ad esempio, si supponga che la variabile qualitativa sesso sia
rappresentata da una variabile dummy che assume un valore pari a zero se
la persona di sesso maschile e un valore pari ad uno se la persona di sesso
femminile.
In generale, sia E un evento o una circostanza che si suppone abbia un effetto nel modicare una variabile casuale Yi . Indichiamo con Di la variabile
dummy cos denita:
Di = 1

se per l'unit i-esima l'evento E presente;

Di = 0

se per l'unit i-esima l'evento E assente;

Allora il modello di regressione semplice sar cos formalizzato:


Yi = + Di + ui

(6.79)

dove l'eetto della variabile dummy quello di modicare il valore medio


della risposta Yi che passa da (se l'evento E assente) a (se l'evento E
presente).
Ad esempio, supponiamo di avere il seguente modello:
Yi = 1 + 2 Di + ui

(6.80)

dove:
Yi =

stipendio annuo di un insegnante;

Di = 1 se l'insegnante in possesso di una specializzazione post-laurea;

71

Di = 0

laurea.

se l'insegnante non in possesso di una specializzazione post-

L'obiettivo identicare attraverso il modello di regressione se la presenza


o l'assenza di una specializzazione post-laurea inuenza lo stipendio di un
insegnante (assumendo che tutte le altre variabili come: anni di esperienza,
et, ecc. sono costanti). Poich:
(6.81)
E(Y |Di = 1) = 1 + 2
(6.82)
L'interpetrazione del modello la seguente: il termine 1 rappresenta lo
stipendio medio di un insegnante laureato, mentre il coeciente angolare 2
indica di quanto lo stipendio medio di un insegnante in possesso di specializzazione dierisce da quello medio di un insegnante senza specializzazione.
Un test statistico con un ipotesi nulla H0 : 2 = 0 permette di stimare sulla
base di un test t, se la stima di 2 statisticamente signicativa.
E(Y |Di = 0) = 1

6.5.2 L'introduzione di un predittore quantitativo nel modello con predittori qualitativi


Il precedente modello pu essere generalizzato inserendo una variabile esplicativa X per vericare l'esistenza di situazioni dierenziate nella relazione
lineare tra X e Y , caratterizzate dalla presenza o dalla assenza di un certo
evento E .
Inserendo nel modello precedente (2) una variabile esplicativa X di natura
quantitativa otteniamo:
Yi = 1 + 2 Di + Xi + ui

(6.83)

dove:
Yi =

lo stipendio annuo di un insegnante;

Xi =

anni di insegnamento;

Di = 1

presenza di una specializzazione post-laurea;

Di = 0

assenza di una specializzazione post-laurea.

Assumendo che il E(ui ) = 0 si evincere che:


lo stipendio medio di un insegnante senza specializzazione post-laurea :
E(Yi |Xi , Di = 0) = i + Xi

72

(6.84)

lo stipendio medio di un insegnante con specializzazione post-laurea :


(6.85)
Il modello indica che, lo stipendio di un insegnante con o senza specializzazione ha uguale coeciente angolare ma diversa intercetta. Da ci si
deduce che la presenza o l'assenza di una specializzazione post-laurea inuenza la variabile di risposta Yi mentre, la variazione dello stipendio legata
agli anni di esperienza di uguale ammontare sia in caso di presenza di specializzazione che di assenza della stessa.
Se, l'assunzione fatta in precedenza sul coeciente valida, si procede alla
formalizzazione di un test sul coeciente 2 . Imponiamo, come ipotesi nulla
H0 : 2 = 0 per vericare se il coeciente 2 statisticamente signicativo
e quindi le due regressioni hanno la stessa intercetta.
L'ipotesi nulla accettata se il test t condotto sul coeciente 2 permette
di stabilire che la stima del coeciente non statisticamente signicativa.
Questo indica che il livello di reddito medio annuo di un insegnante risulta
non essere inuenzato dalla presenza o dall'assenza di una specializzazione
post-laurea.
Alcune precisazioni devono essere fatte prima di procedere ulteriormente
sull'argomento:
E(Yi |Xi , Di = 1) = i + 2 + Xi

Se la variabile qualitativa ha m categorie o attributi devono essere


introdotte m-1 variabili dummy altrimenti, possiamo incorrere in un
problema di perfetta multicolinearit.

L'assegnazione dei valori zero ed uno alle due categorie arbitraria.


Generalmente, il valore zero assegnato a quella categoria considerata
come base. Nel nostro esempio, il valore zero stato assegnato alla
categoria dei soli laureati.

Inne, il coeciente della variabile dummy indica di quanto il valore


dell'intercetta della categoria che assume il valore uno dierisce dalla
categoria di base.

6.5.3 Il modello di regressione con predittore qualitativo con


pi di due classi
Supponiamo di voler studiare la spesa in viaggi annua di un individuo sulla
base del reddito annuo e del tipo di scolarizzazione che l'individuo ha rice73

vuto.
Poich, la variabile titolo di studio una variabile di natura qualitativa supponiamo che le modalit della variabile siano: assenza di diploma, diploma,
laurea.
Ricordando che: il numero delle variabili dummy deve essere uno in meno
rispetto alle categorie che la variabile qualitativa pu assumere, verranno
introdotte per l'analisi di questo modello due variabili dummy.
Assumendo che i tre gruppi hanno lo stesso coecente angolare ma
diverse intercette otteniamo il seguente modello:
Yi = i + 2 D2i + 3 D3i + Xi + ui

(6.86)

dove:
Yi =

spesa annua in viaggi;

Xi =

reddito annuo;

D3 = 1

se in possesso di laurea;

D3 = 0

non in possesso di laurea;

D2 = 1

diplomato;

D2 = 0

non diplomato.

Nel modello stata considerata come categoria di base la modalit non diplomato.
Assumendo che E(ui ) = 0 otteniamo:
E(Yi |D2 = 0, D3 = 0, Xi ) = 1 + Xi

(6.87)

E(Yi |D2 = 1, D3 = 0, Xi ) = (1 + 2 ) + Xi

(6.88)

E(Yi |D2 = 0, D3 = 1, Xi ) = (1 + 3 ) + Xi

(6.89)

Dall'interpretazione del modello si deduce che: i tre valori attesi rappresentano rispettivamente la spesa media annua in viaggi in funzione dei
tre livelli di istruzione. Si pu, inne, eettuare un test per vericare se
la dierenza tra i coecienti 2 e 3 statisticamente signicativa e quindi la spesa media annua in viaggi di un individuo inuenzata dal tipo di
istruzione che l'individuo ha ricevuto. Si dar luogo ad un test statistico con
ipotesi nulla H0 : 2 = 3 = 0 condotto attraverso la tecnica ANOVA e con
un test F.
74

6.5.4 Il modello di regressione con un predittore quantitativo


e due qualitativi
Introduciamo nel modello trattato in precedenza (2) la variabile qualitativa
professionalit. Supponiamo per semplicit che la variabile assume due diverse modalit: professionale e non professionale.
Il modello sar cos formalizzato:
Yi = i + 2 D2i + 3 D3i + Xi + ui

(6.90)

dove:
Yi =

lo stipendio annuo di un insegnante;

Xi =

anni di insegnamento;

D2i = 1

presenza di una specializzazione post-laurea;

D2i = 0

assenza di una specializzazione post-laurea;

D3i = 1

insegnante professionale;

D3i = 0

insegnante non professionale.

Dato che il E(ui ) = 0 otteniamo che:


lo stipendio medio di un insegnante non professionale e senza specializzazione
post-laurea:
E(Yi |Xi , D2 = 0, D3 = 0) = 1 + Xi

(6.91)

lo stipendio medio di un insegnante non professionale e con specializzazione


post-laurea:
E(Yi |Xi , D2 = 1, D3 = 0) = (1 + 2 ) + Xi

(6.92)

lo stipendio medio di un insegnante professionale e senza specializzazione


post-laurea:
E(Yi |Xi , D2 = 0, D3 = 1) = (1 + 3 ) + Xi

(6.93)

lo stipendio medio di un insegnante professionale e con specializzazione postlaurea:


E(Yi |Xi , D1 = 1, D3 = 1) = (1 + 2 + 3 ) + Xi

75

(6.94)

Una stima OLS del modello (12) permette di testare una variet di ipotesi
come, ad esempio, se i coecienti 3 o 2 sono statisticamente signicativi.
Se i coecienti risultano statisticamente signicativi questo indica che, la
professionalit e la specializzazione post-laurea di un insegnante inuenzano
il reddito dello stesso.

76

Capitolo 7

La regressione logistica
7.1 Premessa
L'analisi di regressione logistica una metodologia impiegata per prevedere
il possesso di un attributo di una variabile dipendente dicotomica sulla base
di un insieme di variabili esplicative, sia esse di tipo qualitativo che quantitativo. Per darne un esempio, si supponga che la qualit di un certo bene
A sia un attributo dicotomico che pu assumere le seguenti modalit: livello di qualit standard (Y = 0); livello di qualit non standard (Y = 1).
Obiettivo dell'analisi di regressione logistica quello di individuare i fattori
determinanti la probabilit che il bene prodotto abbia un livello di qualit
non standard.
Pi in generale, i contesti applicativi nei quali risulta utile l'analisi di regressione logistica sono molteplici e di seguito se ne riportano alcuni esempi
tipici:

Economia: per analizzare gli eetti degli interventi economici sugli

Marketing: per evidenziare l'incisivit delle campagne pubblicitarie

Medicina: per studiare l'eetto di una cura sullo stato di salute del

operatori di mercato {l'azienda fallisce (Y = 1) o meno (Y = 0) dopo


aver ricevuto una sovvenzione, il disoccupato trova lavoro (Y = 1) o
no (Y = 0) dopo aver seguito un corso di formazione};
sulla propensione all'acquisto del consumatore {il cliente acquista (Y =
1) o non acquista (Y = 0) un dato prodotto di seguito ad una campagna
promozionale};
paziente {il paziente sottoposto ad una particolare cura farmacologica
reagisce positivamente (Y = 1) o meno (Y = 0)};
77

Botanica: per studiare l'eetto fertilizzante delle sostanze utilizzate sui

Biologia: per evidenziare le determinanti delle reazioni delle cellule

semi oggetto di studio {una pianta resiste alle gelate (Y = 1) oppure


no (Y = 0) di seguito ad un intervento di modicazione genetica};
sottoposte a trattamento {le cellule malate si rigenerano (Y = 1)
oppure no (Y = 0) dopo essere state sottoposte ad un particolare
trattamento};

Il modello di regressione logistica pu essere, quindi, considerato come un caso speciale del modello di regressione multipla, che trova applicazione quando
la variabile di risposta per sua natura dicotomica, o dicotomizzata ai ni
della analisi (ad esempio una misura della qualit, come la durata utile di
un prodotto, pu essere dicotomizzata al di sotto e al di sopra di una certa
soglia).
Oltre che per il tipo di variabile di risposta impiegata, l'analisi di regressione
logistica si discosta da quella lineare anche per altri fattori:

la distribuzione della variabile di risposta Y . Mentre nell'analisi lin-

l'intervallo di variazione della stima. La stima ottenuta nella regres-

l'interpretazione della stima di Y . Nella regressione lineare la stima

eare si ipotizza una distribuzione normale, nella regressione logistica, essendo la Y dicotomica, la sua distribuzione necessariamente
binomiale;

sione lineare varia tra e +, mentre nella regressione logistica


assume valori compresi tra 0 e 1;
di Y pu essere intesa come la stima del valore atteso della Y dato
l'insieme di variabili esplicative (o predittori) x. Per contro, nell'analisi
di regressione logistica, la stima di Y esprime la probabilit che la
variabile di risposta sia pari a 1 dato l'insieme di predittori x.

7.2 Il modello di regressione logistica


La funzione di regressione logistica pu essere formalizzata come segue:
logit((x)) = 0 +

p
X

j xj = X

(7.1)

j=1

dove (x) = P (Y = 1|x) la probabilit di Y = 1 dato il vettore x dei p


predittori mentre logit((x)) denota il logaritmo naturale del rapporto fra
78

la probabilit di "successo" (nel precedente esempio, la probabilit che il


prodotto abbia una qualit non standard) e probabilit di "insucesso":

logit((x)) = log

(x)
1 (x)

(7.2)

dato il vettore x dei p predittori.


Il logit una funzione legame
P che lega la variabile di risposta alla combinazione lineare di predittori pj=1 j xij per i = 1, 2, ..., n in maniera tale da
assicurare che, per ogni valore assunto dalle variabili esplicative, la risposta Y sia sempre compresa nell'intervallo [0, 1]. In questo senso la funzione
legame trasforma l'intervallo [0, 1] nella retta reale (, +).
La scelta della funzione logit per descrivere la relazione tra la variabile dipendente e l'insieme di variabili esplicative, trova ragione nella forma assunta
dalla probabilit di Y , che assomiglia ad una S allungata con limiti a zero
e uno. Questa particolare forma funzionale simile alla funzione cumulata
della distribuzione casuale degli errori detta "funzione logistica". Ne deriva che la probabilit (x) pu essere scritta come una funzione logistica (o
curva logistica):
(x) =

1
ex
=
x
1+e
1 + eX

(7.3)

Tale funzione ampiamente utilizzata nelle applicazioni aziendali per modellare fenomeni di diusione, quali la vendita di un nuovo prodotto, lo sviluppo di un'innovazione tecnologica o il diondersi di una notizia riservata. E'
importante osservare come il logit non sia l'unica funzione che consente di
esprimere la probabilit di un fenomeno, ma la sua scelta privilegiata dal
fatto che, essendo pari al logaritmo del rapporto tra due probabilit com
plementari (il numero di successi per ogni insuccesso 1
, in inglese odds),
consente una semplice interpretazione dei parametri del modello.

7.3 La stima dei parametri


La stima dei parametri del modello si ottiene attraverso l'impiego del metodo di massima verosimiglianza. La funzione della verosomiglianza esprime
la probabilit che l'insieme dei dati [yi , xi ]ni=1 sia osservato in funzione del
vettore dei parametri . Ne consegue che secondo il metodo della massima
verosimiglianza, la "migliore" stima dei parametri sar pari al vettore
che massimizza la funzione di verosimiglianza.
Sia (y1 x1 , y2 x2 , ...., yi xi , ...., yn xn ) l'insieme delle n osservazioni indipendenti osservate dalla popolazione di riferimento, allora la generica unit i pu
essere espressa nel seguente modo:
79

yi = E(Yi |xi )+i =

exp(0 + 1 xi1 + ... + q xiq )


+i = (xi )+i
1 + exp(0 + 1 xi1 + ... + q xiq )

(7.4)

Dato che Y segue una distribuzione binomiale, con media pari a E(Yi |xi ), la
sua funzione di probabilit sar pari a:
f (yi |xi ; ) = (xi )yi [1 (xi )](1yi )

(7.5)

mentre la verosimiglianza del campione delle n unit sar pari al prodotto


delle singole verosimiglianze delle unit che lo compongono (essendo le n
osservazioni indipendenti):
L() =

n
Y

f (yi |xi )

(7.6)

i=1

la stima di massima verosimiglianza si deriva attraverso l'identicazione


del vettore che massimizza il logaritmo di L():
= argmax {l()} = argmax {log[L()]}

(7.7)

La soluzione del sistema di equazioni che deriva da tale funzione ottenuta


attraverso l'impiego di metodi iterativi implementati nei pacchetti statistici
pi diusi quali SPSS-PS e SAS.

7.4 Interpretazione dei parametri


Sebbene il modello di regressione logistica possa avere diverse variabili esplicative, al ne di introdurre i concetti utili all'interpretazione dei parametri
, consideriamo, per il momento, il caso pi semplice in cui vi sia un solo
predittore x. In questo caso (x) varia al variare dell'unica variabile esplicativa presente. Inoltre faremo riferimento ad un predittore x quantitativo, ma
come vedremo, i concetti potranno essere estesi facilemnte anche al caso di
variabili qualitative.
Sia 1 la probabilit di un evento E1 (tornando al nostro esempio, la probabilit che il prodotto A abbia una qualit non standard), allora si denisce
odds dell'evento E1 il rapporto:
1
1 1

80

(7.8)

mentre, il logaritmo degli odds detto invece logit:



logit(1 ) = log

1
1 1

(7.9)

Se 2 la probabilit di un altro evento E2 (continuando l'esempio, che un


prodotto B abbia una qualit non standard), allora si denisce odds ratio
(OR):
1 \ (1 1 )
(7.10)
e il log-odds

ratio:

log

2 \ (1 2 )

2 \ (1 2 )
1 \ (1 1 )


= logit(2 ) logit(1 )

(7.11)

Se l'odds ratio pari ad 1, ci implica che gli odds dei due eventi E1 e E2
sono uguali e cio, nel nostro esempio, che il numero di prodotti con qualit
non standard, per ogni prodotto con qualit standard, lo stesso sia per il
bene A che per il B. Ne deriva che il livello di qualit dei beni non dipende
dalla tipologia del prodotto stesso (A o B). Il log-odds ratio pu quindi essere
intesa come una misura di dierenza tra gli odds, e quindi come un termine di
confronto tra le probabilit 1 e 2 . Estendendo questo discorso al modello
di regressione logistica, i coecienti possono essere interpretati come log-odds
ratio. Sia il seguente, un modello logit con un unico predittore:
logit((x)) = 0 + 1 X

(7.12)

e si considerino i due eventi come: X (1) = x ; e la variazione unitaria della


variabile esplicativa X (2) = x + 1; allora si ottiene:
logit((x + 1)) logit((x )) = (0 + 1 (x + 1)) (0 + 1 x ) = 1

(7.13)

cio il coeciente 1 non altro che l'incremento del logaritmo dell'odds (il
logit()) associato ad un incremento unitario della variabile X oppure in
modo equivalente si pu aermare che di seguito ad un'aumento unitario di
x, l'odds cresce in misura moltiplicativa di e1 . Il coeciente 0 , invece, esprime il livello degli odds del vericarsi di un evento a prescindere dai valori
assunti dalle variabili esplicative.
Il signicato del coeciente 1 non varia quando la variabile esplicativa
di tipo qualitativo ed in particolare dicotomica. In questo caso 1 misurer la variazione del logit((x)) corrispondente al possesso dell'attributo X .
Il discorso si estende immediatamente anche ai predittori qualitativi ad m
81

modalit in quanto la loro inclusione nel modello, cos come nella regressione
multipla, avviene attraverso una trasformazione delle stesse in una serie di
m variabili dummy secondo uno schema di codica disgiuntiva completa.
Estendiamo ora il discorso ad un modello caratterizzato dalla presenza di p
variabili esplicative. In questo caso, il modello logit considerato il seguente:
logit((x)) = 0 + 1 X1 + 2 X2 + ..... + p Xp = X
(7.14)
e al ne di una corretta interpretazione dei coecienti occorre distinguere
due casi:
. Modello senza iterazioni: un modello in cui le variabili esplicative
impiegate sono tra loro indipendenti e di conseguenza si ha che la
distribuzione di un predittore, ad esempio X1 non cambia al variare
dei valori assunti dagli altri predittori X2 , X3 , ..., Xp . Ne deriva quindi
che i coecienti del modello possono essere interpretati singolarmente
secondo la logica illustrata per il modello con un unico predittore.
Gracamente, questo signica che la funzione che lega il logit((x))
alla variabile X1 ha sempre la stessa intercetta e lo stesso coeciente
angolare (in altri termini, la stessa forma) per ogni valore assunto dalle
altre variabili esplicative.
.

Modello con iterazioni: si parla di iterazione quando due variabili predittive congiuntamente producono un eetto pi che additivo, o meno
che additivo, sulla variabile di risposta. Tale eetto moltiplicativo, che
accresce o descresce gli eetti additivi dei predittori considerati singolarmente, detto iterazione. Consideriamo per semplicit un modello
con due variabili esplicative X1 e X2 . La presenza dell'iterazione tra
queste due variabili complica l'analisi, in quanto, nella fase di stima,
il predittore X1 dovr comparire nel modello sia da solo sia moltiplicato per X2 . Ne cosegue che i parametri da stimare saranno ora i
seguenti: 0 che esprime l'eetto base sulla Y ; 1 e 2 che rappresentano l'eetto delle variabili esplicative (considerate singolarmente); e
3 che esprime l'eetto congiunto, l'iterazione, dei due predittori sulla
variabile di risposta. Gracamente, l'iterazione, comporta che la funzione che lega il logit a X1 cambier forma al variare dei livelli di X2
e viceversa.

7.5 La bont di adattamento


L'adattamento di un modello ai dati pu essere interpretato come un modo
per sostituire a un insieme di valori osservati un insieme di valori stimati
82

ottenuti da un modello che costituito, di solito, da un numero ridotto di


parametri. Anch tale sostituzione possa considerarsi "ecacie", si richiede
che le stime del modello siano quanto pi vicine ai valori osservati della
variabile di risposta, cio necessario che la discrepanza tra questi valori sia
minima anch il modello abbia un buon adattamento al fenomeno oggetto
di studio. Da questo semplice concetto nasce l'idea che alla base di tutte
le strategie di verica della bont di un modello statistico: la costruzione
di indici che misurino la dierenza tra dati osservati e teorici che forniscono
cos degli indicatori della bont di adattamento del modello considerato.
Nell'analisi di regressione logistica, quando si prende in esame la bont di
adattamento del modello ai dati analizzati, si considerano diversi aspetti: la
verica della bont del modello nel suo complesso; la verica della dierenza
tra due modelli comparabili; e la verica della signicativit di un singolo
coeciente.

7.5.1 La verica della bont del modello nel suo complesso


Il primo passo nella valutazione della bont di adattamento di un modello
consiste nel confrontarlo con il modello saturo (o saturato), quello che teoricamente fornisce l'adattamento migliore.
Il modello saturato un modello che, avendo tanti parametri quante sono
le osservazioni, fornisce una descrizione completa ed esaustiva dei dati e di
conseguenza un adattamento perfetto.
La quantit utilizzata per tale confronto la statistica D di McCullagh e
Nelder (1983) detta Devianza e denita come segue:
(
D = 2log

max[L(M )]
max[L(M )]

(7.15)

dove la quantit al numeratore la massima verosimiglianza del modello M


con p predittori mentre quella al denominatore la massima verosimiglianza del modello saturato M . Il rapporto compreso tra le parentesi grae
si chiama rapporto delle verosimiglianze. Moltiplicando il logaritmo di tale
rapporto per -2, si ottiene una statistica test che si distribuisce secondo una
distribuzione nota. Si dimostra infatti che, per n grande, D si approssima
ad una distribuzione 2 con n (p + 1) gradi di libert, dove n il numero
di osservazioni e p + 1 il numero di parametri stimati.
La logica sottostante l'uso della statistica D la seguente: se il modello M
considerato buono, allora la sua verosimiglianza sara molto vicina a quella
del modello saturato che ne rappresenta il valore massimo. Di conseguenza
83

valori piccoli di D implicano valori simili delle verosimiglianze e quindi un


buon adattamento del modello.
Per determinare un valore soglia signicativo, dal punto di vista statistico,
si ricorre alla distribuzione asintotica 2n(p+1) di D. In questo modo si individua il livello di signicativit osservato (p-value) da confrontare con il
livello di signicativit secondo il seguente schema:
- si supponga di voler confrontare un modello M (ipotesi H0 ) contro il modello saturato (ipotesi H1 ). Poich i valori piccoli di D indicano un buon
adattamento, allora si considera valido M (si accetta H0 ) per valori del pvalue maggiori della soglia critica , mentre si riuta M (si rigetta H0 ) nel
caso contrario.
La bont di un modello pu essere valutata anche in un'ottica opposta soffermandosi su un confronto eettuato non rispetto all'"ottimo", ma rispetto
al modello M0 (cosidetto banale) formato dalla sola intercetta. La ragione di
questo diverso approccio da ricercarsi nel fatto che l'utilizzo della statistica
D, confrontando il modello costruito contro quello saturo, pone l'attenzione
unicamente sulla bont dell'adattamento senza tener conto della parsimonia
(intesa come semplicit del modello) . Infatti, in statistica, un modello
buono quando esprime l'equilibrio tra il miglior adattamento possibile e la
minor complessit del modello costruito. Solo attraverso la mediazione tra
bont di adattamento e parsimonia possibile ottenere una valutazione della qualit complessiva di un modello. Il confronto con il modello banale
eettuato attraverso l'uso della statistica G:
(
G = 2log

max[L(M0 )]

max[L(M )]

(7.16)

che pu anche essere interpretata come la dierenza tra le devianze del


modello banale e di quello considerato:
G = D(modellobanale ) D(modelloconsiderato )

(7.17)

In questo caso, sotto l'ipotesi nulla che tutti i parametri escluso l'intercetta
sono nulli, la statistica G si distribuisce come un 2 con p gradi di libert,
dove p il numero di variabili esplicative incluse nel modello. Si accetta il
modello considerato (e cio si riuta H0 ) se il valore del p-value inferiore
al valore critico . Il riuto dell'ipotesi nulla implica che almeno uno dei
parametri diverso da 0. Contrariamente che per la statistica D, in questo
caso desiderabile che la dierenza tra le log-verosimiglianze sia grande
perch questo implicherebbe che la quantit di informazione apportata dai
predittori nel modello signicativa nella spiegazione della Y .
84

7.5.2 Confronto tra due modelli


Nella stessa ottica in cui si valuta la statistica G possibile confrontare due
dierenti modelli, uno dei quali formato con un sottoinsieme di predittori dell'altro. Spesso tali modelli sono indicati in statistica con il termine di Modelli
nidicati. In questo caso la statistica G (indicata ora come extradevianza)
assumer la seguente forma:
(
G = 2log

max[L(Mpq )]

max[L(M )]

(7.18)

dove Mpq il modello formato dal sottoinsieme dei p predittori del modello considerato. La G si distribuir come un 2 con q gradi di libert pari
al numero di predittori esclusi nel modello pi ridotto. Se l'extradevianza
signicativamente grande allora la scelta cadra sul modello con p predittori, viceversa se G piccola allora conviene optare per il modello ridotto e
salvaguardare cos la parsimonia del modello stesso.

7.5.3 Verica della signicativit dei singoli parametri


Per vericare la signicativit di un singolo parametro si pu ricorrere alla
statistica W di Wald per il j-esimo coeciente:
W =

j
(j )

(7.19)

dove (j ) lo scarto quadratico medio di j . Sotto l'ipotesi nulla che il


parametro j = 0, W si distribuisce come una normale standardizzata.

7.6 La selezione delle variabili


Cos come per la regressione multipla, anche nella regressione logistica la
selezione delle variabili una fase importante dell'analisi che merita particolare attenzione. La costruzione di un modello equilibrato, che incorpori in se
unicamente i predittori signicativi (nella spiegazione di Y ) e che allo stesso
tempo garantisca un grado accettabile di complessit (in termini di numero
di parametri) passa necessariamente attraverso un processo di selezione automatico delle variabili che ha l'obiettivo di individuare il sottoinsieme di X
ottimale secondo il criterio prescelto.
Le tecniche impiegate consistono, cos come nell'analisi lineare multipla (vedi
par. 6.3.8), nelle metodologie forward, backward e stepwise. Questi metodi si distinguno, ora, unicamente per la statistica test impiegata, infatti il
85

test utilizzato per decidere l'inclusione o l'esclusione di un predittore di un


modello non utilizza pi il rapporto tra le varianze, ma un test fondato sulla
misura G che, come abbiamo gi visto, si distribuisce asintoticamente come
un 2 con k + 1 gradi di libert pari al numero di parametri da stimare
(nel modello composto dai predittori gi inclusi pi quello di cui si valuta
l'inclusione). Il predittore entra nel modello (si riuta l'ipotesi nulla che il
coeciente nullo) quando il p-value piccolo, inferiore alla soglia critica
prescelta. Vicersa, un predittore, precedentemente incluso, verr escluso
dal modello quando il livello di signicativit osservato sar grande e cio si
accetta l'ipotesi che il suo coeciente nullo.

86

Capitolo 8

I modelli additivi generalizzati


8.1 Regressione parametrica, non parametrica e semiparametrica
Nel modello classico di regressione lineare il valore atteso della variabile
dipendente espresso come combinazione lineare dell'insieme di variabili
esplicative x1 , x2 , . . . , xd e dei parametri i . Il modello risulta il seguente:
E(Y |x) = x1 1 + . . . + xd d = xT

(8.1)

in cui E(Y |x) indica il valore atteso di Y in dipendenza di una particolare


realizzazione del vettore xT = (x1 , x2 , . . . , xd )T ed i j , j = 1, 2, . . . , d, sono
coecienti incogniti che legano la variabile dipendente all'insieme dei predittori. Denendo  come la dierenza tra la variabile Y ed il suo valore atteso
condizionato E(Y |x):
 = Y E(Y |x)

(8.2)

possibile riformulare il modello nel seguente modo:


Y = xT + .

(8.3)

La caratteristica principale di tale modello la sua forma parametrica:


la funzione di regressione determinata attraverso i parametri incogniti j ,
j = 1, 2, . . . , d. Quindi tutto ci che bisogna fare quando si vuole determinare
la funzione di regressione lineare di cui alla (8.3) stimare i parametri incogniti j . Il modello parametrico di cui alla (8.3) esclude a priori qualsiasi tipo
di relazione non lineare.
Si ipotizzi, invece, che la relazione tra variabile dipendente e predittori sia
87

completamente descritta da una certa funzione m(), che pu essere sia lineare che non lineare, e che tale funzione sia la funzione di regressione incognita che descrive al meglio il tipo di relazione che si intende studiare. Il
modello pu essere riscritto nel seguente modo:
E(Y |x) = m(x).

(8.4)

In questo caso l'analista non necessariamente vincolato a ricorrere al


modello classico di regressione lineare. possibile infatti approssimare la
relazione investigata attraverso diverse specicazioni della funzione m(), e
quindi non ricorrendo necessariamente a funzioni di tipo lineare. L'unico
vincolo che caratterizza questa tipologia di modelli l'utilizzo di funzioni
caratterizzate da una certa regolarit (c.d. smooth functions o funzioni di
smoothing) per la stima della funzione incognita m(x). Tali modelli, in corrispondenza di diverse specicazioni della funzione di smoothing, rientrano
nella classe dei modelli di regressione non parametrica.
La precisione delle stime ottenute attraverso tali modelli inversamente proporzionale al numero di variabili indipendenti incluse nel modello. Questo
problema noto in letteratura come maledizione della dimensionalit (curse
of dimensionality). La relazione tra variabile dipendente e predittori pu
essere gracamente rappresentata da una supercie le cui dimensioni dipendono proprio dal numero di predittori inclusi nel modello.
Immaginiamo, ad esempio, di volere stimare il seguente modello:
E[Y |(x1 , x2 )] = m(x1 , x2 )

(8.5)

ed ipotizziamo che m() sia una funzione caratterizzata da una certa regolarit (sia cio una smooth function). Generalmente gli stimatori utilizzati
nell'ambito non parametrico producono una stima di m() ad un punto arbitrario (x1 = s, x2 = e) attraverso una media ponderata locale dei valori
della variabile y che si trovano in corrispondenza dei valori di x1 ed x2 situati in un certo intervallo costruito intorno al punto di coordinate (s, e).
Tale media calcolata attribuendo dei pesi a ciascun valore della y. Il peso
attribuito in corrispondenza dei diversi valori della y sar pi alto per le
coppie di osservazioni x1 , x2 pi vicine al punto (s, e). Da ci si desume che,
presumibilmente, ad ogni osservazione sar attribuito un peso diverso. L'attribuzione dei pesi avviene attraverso una funzione che cerca di attribuire un
peso maggiore alle osservazioni pi vicine al punto di coordinate (s, e), ed
un peso minore a quelle pi lontane. Infatti alle osservazioni molto distanti
da tale punto verr attribuito un peso prossimo allo zero.
88

Il risultato nale di un modello non parametrico caratterizzato dalla presenza di due soli predittori l'approssimazione di una nube di punti in uno
spazio tridimensionale con una supercie. Ci equivale, da un punto di vista
probabilistico, a stimare una funzione di densit (o di probabilit) bivariata
in modo non parametrico.
L'utilizzo di stimatori non parametrici, sicuramente pi essibili di quelli utilizzati nei modelli parametrici, solitamente accompagnato da metodi
complementari orientati alla riduzione della dimensionalit. Tali metodi racchiudono spesso le principali caratteristiche delle tecniche parametriche e non
parametriche, e sono noti in letteratura come metodi semiparametrici. Essi
consentono inoltre l'inclusione nel modello di variabili categoriche (che altrimenti potrebbero essere analizzate solo attraverso un approccio parametrico)
ed un'agevole interpretazione dei risultati.
Il modello di cui alla (8.5) pu essere riformulato in forma semiparametrica
nel seguente modo:
E[Y |(x1 , x2 )] = + g1 (x1 ) + g2 (x2 )

(8.6)

In questo caso g1 () e g2 () sono due funzioni di smoothing incognite ed


un parametro incognito da stimare. Questo modello combina la semplice

struttura additiva dei modelli di regressione parametrica (si tratta quindi


di un modello additivo) con la essibilit che caratterizza l'approccio non
parametrico, perch non impone alcuna restrizione riguardo alla forma (lineare o non lineare) delle funzioni che determinano come i predittori x1 ed x2
inuenzano il valore atteso della variabile dipendente Y .
Bisogna comunque tener presente che le stime delle funzioni incognite g1 () e
g2 () possono essere eettuate anche attraverso la regressione non parametrica. Quindi, per stimare modelli semiparametrici si ricorre spesso a tecniche
non parametriche.
Inne si osservi che nel modello di cui alla (8.5) bisogna stimare una funzione
incognita di due variabili, mentre nel modello di cui alla (8.6) bisogna stimare
una funzione incognita per ciascun predittore. In quest'ultimo modello si
ridotta la dimensionalit della stima. Sebbene tutti gli studiosi concordano
sul punto che i modelli additivi del tipo specicato alla (8.6) permettono una
riduzione della dimensionalit rispetto ai modelli di regressione non parametrica, alcuni non concordano nel denire semiparametrici tali modelli, poich
in essi, oltre al parametro , non esiste alcun altro parametro da stimare.
A tal proposito si consideri il caso in cui la variabile dipendente Y sia di tipo
dicotomico, ossia:

89

(8.7)
Poich Y di tipo dicotomico (e quindi descritta da una varibile casuale
di Bernoulli), risulta:
Y = 1sesiverif icaunacertacondizione0altrimenti

(8.8)
e quindi la funzione di regressione di Y rispetto ad x esprime la probabilit
che si verichi la condizione specicata per Y = 1 data una certa specicazione del vettore dei predittori x. Sotto certe ipotesi, P (Y = 1|x) pu
essere espressa come segue:
E(Y |x) = P (Y = 1|x)

(8.9)
in cui T x rappresenta una combinazione lineare dei valori dei predittori (talvolta denominata "funzione indice") con coecienti . G() una funzione
continua che descrive il comportamento della variabile Y in un intervallo
[0, 1], denominata "funzione legame" (link function), in quanto lega l'indice
T x al valore atteso condizionato E(Y |x).
In tale contesto di fondamentale importanza stabilire se G() assume una
forma parametrica, e se ci accade quale particolare forma assume. Molto
spesso in presenza di una variabile di risposta dicotomica si ricorre al modello
di regressione logistica. Il modello logistico assume che G( T x) sia descritta
dalla funzione di distribuzione logistica per ogni possibile realizzazione di x.
In questo caso risulta:
P (Y = 1|x) = G( T x)

E(Y |x) = P (Y = 1|x) =

1
exp( T x)

(8.10)

Il modello logistico, come tutti i modelli parametrici, basato su ipotesi


rigide riguardanti la distribuzione dei parametri che non sempre risultano
giusticate dalla teoria da cui scaturisce il modello. Per cui pu essere interessante valutare le conseguenze della stima del modello di cui alla (8.9)
attraverso un approccio non parametrico, svincolato quindi da ipotesi distribuzionali, e valutare successivamente le propriet degli stimatori impiegati.
Un possibile modo di generalizzazione del modello logistico in forma semiparametrica rappresentato dal "modello ad indice singolo" (single index
model, SIM), per il quale l'indice T x espresso in forma lineare, ma la funzione G() di cui alla (8.9) stimata attraverso una funzione di smoothing
arbitraria H() (non necessariamente una funzione di probabilit) che pu
essere stimata a partire dai dati. Il modello pu essere cos riformulato:
90

(8.11)
La stima di tale modello avviene attraverso due fasi: in una prima fase
vengono stimati i coecienti , e successivamente si stima la funzione legame
incognita H() attraverso una regressione non parametrica della variabile
dipendente Y rispetto all'indice T x, in cui il vettore di coecienti
stimato nella fase precedente. La stima di H() avviene ricorrendo ad uno
stimatore non parametrico.
E(Y |x) = H( T x)

8.2 L'istogramma
Si consideri una variabile casuale continua X e sia f la sua funzione di
densit di probabilit. Volendo stimare il valore di f (xi ) in corrispondenza
di una certa realizzazione xi della v.c. X uno simatore elementare, dalla cui generalizzazione derivano tutti gli altri stimatori non parametrici,
l'istogramma.

8.2.1 Costruzione di un'istogramma


Costruire un'istogramma molto semplice. Si immagini di avere un campione casuale X1 , X2 , . . . , Xn proveniente da una popolazione il cui comportamento ben descritto da una funzione di probabilit continua incognita. La
costruzione di un istogramma procede attraverso le seguenti fasi:

Si seleziona un punto origine x0 e si suddivide la retta reale in tanti


sottointervalli Bj di uguale ampiezza (bins):
Bj : [x0 + (j 1)h, x0 + jh), j Z,

in cui h l'ampiezza dell'intervallo (binwidth).

Si contano il numero delle osservazioni che ricadono in ciascun intervallo.


Il numero di osservazioni che ricadono nell'intervallo j si indica con nj .

Per ogni intervallo si calcola il rapporto tra il numero di casi in esso compresi (nj ) ed il prodotto tra il numero di casi osservati (n) per l'ampiezza dell'intervallo h (ci si assicura in tal modo che l'area totale al di sotto
dell'istogramma sia pari ad uno):
fj =

91

nj
nh

Si disegna l'istogramma tracciando delle barre verticali in corrispondenza


degli estremi di ciascun intervallo la cui altezza pari ad fj e la cui
ampiezza pari ad h.

Il procedimento pu essere riassunto in termini formali nel seguente


modo:
n

1 XX
fh (x) =
I(Xi Bj )I(x Bj )
nh
i=1

(8.12)

in cui:
I(Xi Bj ) = 1se

Xi Bj 0 altrimenti
Se indichiamo con xm il punto mediano di ciascun sottointervallo facile
notare che l'istogramma assegna ad ogni x in Bj = [xm h2 , xm + h2 ) uno
stesso valore relativo alla stima di f , e cio fh (xm ).
Un qualunque stimatore di una funzione di distribuzione deve caratterizzarsi
per il fatto che l'area totale sottesa dalla funzione di probabilit deve essere
pari ad uno. L'istogramma sicuramente rispetta tale propriet.
La probabilit che un certo valore della variabile casuale X sia compreso in
un intervallo [xm h2 , xm + h2 ) data da:
h
h
P (X [xm , xm + )) =
2
2

xm + h
2

f (u)du

xm h
2

(8.13)

e rappresenta l'area al di sotto della funzione di densit nell'intervallo [xm


h
h
2 , xm + 2 ). Quest'area approssimata da un rettangolo con base h ed altezza
f (xm ). possibile quindi scrivere:
h
h 
P X [xm , xm + ) =
2
2

xm + h
2

xm h
2

f (u)du f (xm ) h

(8.14)

Una semplice stima di tale probabilit fornita dalla frequenza relativa


delle osservazioni nell'intervallo:
P (X [xm

h
1
h
h
h
, xm + ))
#xi [xm , xm + )
2
2
nh
2
2

92

(8.15)

in cui # denota la cardinalit, ossia il numero di elementi di un certo insieme


o compresi in un certo intervallo.
Il parametro h della funzione fh (xm ) ssato dall'analista, e quindi le stime
fornite dall'istogramma dipendono dalla scelta dell'ampiezza dell'intervallo
nonch dalla scelta del punto origine x0 .
Qualora si incrementa il valore di h l'istogramma diviene pi smussato, ma
dicile stabile quale sia l'ampiezza dell'intervallo che in assoluto produce
il grado di smussamento ottimale.

8.3 Average Shifted Histogram (ASH)


Nel paragrafo precedente si sottolineato che la forma dell'istogramma dipende
dalla scelta dell'ampiezza dell'intervallo di stima e del punto origine. Queste
caratteristiche dell'istogramma non rispondono all'obiettivo fondamentale
delle tecniche non parametriche, che quello di "lasciare che siano gli stessi
dati a descrivere determinati comportamenti" e cio, in altre parole, che le
stime devono essere eettuate partendo dai dati. Nel caso specico dell'istogramma gli stessi dati possono generare istogrammi diversi al variare di h
e del punto origine x0 . Un rimedio "naturale" a questo problema pu essere
quello di costruire diversi istogrammi utilizzando un intervallo di ampiezza
costante ma punti origine ogni volta diversi, ed eettuare successivamente
una media dei diversi istogrammi ottenuti.
Tale procedura corrisponde alla costruzione di un Averaged Shifted Histogram
(ASH), da luogo generalmente ad istogrammi caratterizzati da piccoli salti
della funzione di densit che farebbero pensare alla scelta di un intervallo
di stima molto piccolo. Ma non si tratta semplicemente di un comune istogramma costruito scegliendo un intervallo di stima piccolo.
Si consideri, infatti, un insieme di intervalli relativi ad un istogramma con
punto origine x0 = 0 ed ampiezza Bj := [(j 1)h, jh) j Z , e cio:
. . . B1 = [0, h),

B2 = [h, 2h),

B3 = [2h, 3h), . . . .

da tali intervalli se ne generano M 1 spostando ogni Bj verso destra di una


quantit pari a lh/M :
Bj,l := [(j 1 + l/M )h, (j + l/M )h)

l {1, . . . , M 1}

(8.16)

Naturalmente qualora si considera l = 0 si ottiene l'istogramma di partenza. Se si vuole calcolare un istogramma per ognuno degli insiemi di intervalli
93

ottenuti al variare di l bisogna calcolare M dierenti stime della funzione f


per ogni punto x:
n

1 X X
{
I(Xi Bj,l )I(x Bj,l )},
fh,l (x) =
nh
i=1

l {0, 1, . . . , M 1}.

L'istogramma ASH ottenuto attraverso una media di tali stime:


fh (x) =

M 1
1 X 1 X X
n{
I(Xi Bj,l )I(x Bj,l )}
M
nh
i=1

l=0

(8.17)

n
X
1X 1 X
{
M 1
I(Xi Bj,l )I(x Bj,l )}
n
Mh
i=1

l=0

(8.18)
In generale, possibile ottenere una stima della (8.18) considerando una
griglia di intervalli di ampiezza = Mh e calcolando una somma ponderata
delle frequenza relative nj /(nh) in ciascun intervallo. La formula generale
per calcolare fh (x) partendo da una griglia di intervalli di ampiezza = Mh
la seguente:
M
1
X
1 X
fh (x) =
I(x Bj )
wM (k) nj+k ,
nh
j

(8.19)

k=1M

in cui:
nk =

e:

n
X

I(Xi Bk ).

(8.20)

i=1

wm (k) = 1

|k|
M

(8.21)

Inne bisogna evidenziare che la (8.21) non rappresenta l'unico modo


per attribuire dei pesi ad una certa funzione di stima. Utilizzando delle
diverse formulazioni della (8.21) infatti possibile approssimare un'ampia
classe di funzioni di stima, che rientrano nella classe degli stimatori kernel.
Ad esempio la funzione che segue utilizzata per approssimare una funzione
di stima basata sul cosiddetto Epanechnikov kernel:
94

wm (k) =

3M 2
k
[1 ( )2 ]
2
4M 1
M

(8.22)

In generale, la procedura basata sull'approssimazione di una funzione di


densit attraverso uno stimatore kernel denita come Weighted Averaging
of Rounded Points (WARPing).

8.4 Stima non parametrica

8.4.1 Introduzione

Nei paragra precedenti abbiamo dimostrato che l'istogramma non solo un


semplice stumento graco che ci permette di rappresentare una distribuzione
di frequenze empirica. Esso soprattutto un utile metodo per stimare una
funzione di probabilit incognita.
Abbiamo inoltre mostrato che la forma dell'istogramma varia in funzione di
due parametri: l'ampiezza dell'intervallo di stima (h) ed il punto origine x0 .
La tecnica del WARPing un utile strumento per ottenere un istogramma
la cui forma non dipenda dalla scelta del punto origine. Anche nel caso delle
stime non parametriche eettuate utilizzando stimatori kernel possibile
ovviare al problema della scelta del punto origine ma non a quello della
scelta dell'intervallo di stima ottimale.
Sebbene la tecnica del WARPing risolva il problema della scelta del punto
origine, l'istogramma ottenuto presenta comunque alcuni inconvenienti:

esso produce per ogni punto x in [xm h2 , xm + h2 ) la stessa stima della


funzione f , e cio fh (xm ). Trattasi di un'ipotesi abbastanza restrittiva.

l'istogramma non una funzione continua, ma una funzione a gradini


(step function), caratterizzata da salti in corrispondenza degli estremi
degli intervalli di stima. In tali punti la derivata della funzione di stima
pari a zero, e ci costituisce sicuramente un inconveniente allorquando
si intende stimare una funzione di probabilit incognita continua.

8.4.2 Stimatori kernel


La costruzione dell'istogramma al ne di ottenere uno stimatore della funzione di stima f (x) incognita basata sul seguente principio:
1
#{osservazioni
nh

in un piccolo intervallo contenente x}


95

La costruzione di uno stimatore kernel basata su un principio simile al


precedente, ma presenta il vantaggio di non risentire della scelta del punto
origine. Lo stimatore kernel ottenuto sulla base di intervalli la cui ampiezza
solitamente variabile. Esso denito da:
1
#{osservazioni
nh

in un piccolo intervallo intorno ad x}

Da notare la sottile ma importantissima dierenza rispetto alla costruzione


dell'istogramma: nel caso di uno stimatore kernel l'intervallo di stima
costruito intorno al punto x, e non si tratta, come nel caso dell'istogramma
di un intervallo che contiene tutti i punti situati ad una certa distanza dal
punto mediano xm , determinato rispetto alla scelta del punto origine x0 .
Un istogramma pu essere anche costruito scegliendo un intervallo di ampiezza 2h. In questo caso l'intervallo comprende tutte le osservazioni in [xh, x+
h], per cui possibile scrivere:
1
f(x) =
#{Xi [x h, x + h]}
2hn

(8.23)

La formula precedente pu essere cos riscritta nel caso della funzione


kernel uniforme:
1
K(u) = I(|u| 1)
2

in cui u =

xXi
h

(8.24)

. L'istogramma di cui alla (8.23) in questo caso risulta:


n

fh (x) =
=
=

1 X
x Xi
K(
)
nh
h
1
nh

i=1
n
X

1 x Xi
I(|
| 1)
2
h

i=1
n
X

1
2nh

i=1

I(|

x Xi
| 1)
h

(8.25)

Dalla (8.25) evidente che la funzione kernel uniforme deriva da una


particolare formalizzazione dell'istogramma di cui alla (8.23). Inoltre dalla
(8.25) possibile notare come ogniqualvolta un'osservazione ricade nell'intervallo [x h, x + h) la funzione indicatrice assume valore 1, ed il numero
96

di casi compresi nell'intervallo aumenta. Ma anche in questo caso a ciascuna osservazione attribuito lo stesso peso, a prescindere dalla sua vicinanza/lontananza dal punto x. Sarebbe forse pi opportuno attribuire un peso
maggiore alle osservazioni pi vicine ad x rispetto a quelle pi distanti. Si
consideri a tal proposito la seguente espressione:
n

fh (x) =

x Xi 2
x Xi
1 X3
{1 (
) }I(|
| 1)
2nh
2
h
h
i=1

n
1 X3
x Xi 2
x Xi
{1 (
) }I(|
| 1)
nh
4
h
h

n
1 X
x Xi
H(
)
nh
h

i=1

i=1

(8.26)

in cui la funzione K() si denomina Epanechnikov kernel, ed data da:


3
k(u) = (1 u2 )I(|u| 1)
4

Dalla (8.26) risulta che le osservazioni pi vicine ad x contribuiscono in


maniera consistente alla sua stima, in quanto ad esse attribuito un peso
maggiore. Questa propriet tipica dell'Epanechnikov kernel ma caratterizza anche tutti gli stimatori riassunti nella tabella seguente.
Avendo introdotto diverse funzioni kernel possibile fornire la seguente
denizione generale di di stimatore kernel per una funzione di probabilit f ,
in riferimento ad un campione casuale X1 , X2 , . . . , Xn :
1X
fh (x) =
nKh (x Xi )
n

(8.27)

i=1

in cui:
Kh () =

1
K(/h)
h

(8.28)

ed h indica sempre l'ampiezza dell'intervallo di stima.


Come nel caso dell'istogramma il parametro h controlla il grado di smussamento della stima e la sua scelta un problema di cruciale importanza.
Purtroppo molto dicile stabilire quale valore di h produce il grado di
smussamento ottimale senza poter disporre di alcun criterio formale.
Inoltre bisogna puntualizzare che la funzione kernel la funzione K , mentre
97

Tabella 8.1: Funzioni kernel

Kernel

k(u)

Uniform

1
2 I(|u|

Triangle

(1 |u|)I(|u| 1)

Epanechnikov

3
4 (1

Quartic

15
16 (1

u2 )2 I(|u| 1)

Triweight

35
32 (1

u2 )3 I(|u| 1)

Gaussian

1
2

exp( 21 u2 )

Cosinus

1)

u2 )I(|u| 1)

cos( 2 u)I(|u| 1)

il termine stimatore kernel quello di cui alla (8.27).


Le funzioni
R kernel sono funzioni di densit di probabilit, e quindi per esse
risulta
K(u)du = 1 e K(u) 0 per ogni u compresa nel dominio
R
di K . Una conseguenza immediata del fatto che
K(u)du = 1 che
R

fh (x)dx = 1, e quindi lo stimatore kernel anch'esso una funzione di densit di probabilit. Inoltre fh presenta tutte le caratteristiche di continuit e
dierenziabilit di K . Ad esempio, se K dierenziabile n volte questa propriet vale anche per fh . Questa propriet di fh desumibile gracamente
dal grado di smussamento che essa produce.

8.4.3 Propriet di uno stimatore kernel


Per la scelta di un intervallo di stima ottimale importante calcolare l'errore
quadratico medio (MSE) delle stime. Esso dato anche dalla somma della
distorsione al quadrato pi la varianza. La distorsione (bias) di uno stimatore
kernel data da:

98

Bias{fh (x)} = E{fh (x)} f (x)


= ...
h2
=
f (x)2 (K) + o(h2 )
2

h0

(8.29)

Dalla (8.29) possibile notare che la distorsione proporzionale ad h2 .


Inoltre essa dipende dalla derivata seconda f per ogni x. L'importanza della
distorsione dipende dal grado di curvatura della funzione f , che dipende a sua
volta dal valore assoluto della funzione f . Valori elevati di |f | implicano
una distorsione elevata.
La varianza di uno stimatore kernel :
n
1X
V ar{fh (x)} = V ar{
Kh (x Xi )}
n
i=1
= ...
1
1
=
k K k22 f (x) + o( ),
nh
nh

nh

(8.30)

in cui k K k22 = K 2 (s)ds. La varianza di uno stimatore kernel diretta1


mente proporzionale a nh
. Quindi, al ne di ridurre la variabilit di uno
stimatore kernel bisogna scegliere un intervallo h abbastanza ampio. Inoltre
la varianza aumenta al crescere di k K k22 . Quest'ultimo termine sar abbastanza piccolo per stimatori piatti come la funzione kernel uniforme.
In conclusione possibile aermare che funzioni kernel piatte e liscie danno
luogo a stime meno variabili relativamente a campioni ripetuti, poich in ogni
campione alle osservazioni attribuito pi o meno lo stesso peso. La (8.30)
e la (8.29) evidenziano il tradeo tra distorsione e varianza. La situazione
ideale sarebbe quella di minimizzare contemporaneamente la distorsione e
la varianza, ma una diminuzione dell'ampiezza dell'intervallo di stima produce un auemento della distorsione, mentre un suo ampiamento produce un
aumento di variabilit della stima. L'errore quadratico medio rappresenta
un compromesso tra queste due situazioni, e permette inoltre di vericare la
consistenza di uno stimatore kernel (considerando che che la convergenza in
media quadratica implica quella in probabilit e quindi la consistenza). Esso
dato da:
R

99

h4 2
1
1
M SE{f(x)} =
f (x) 2 (K)2 +
k K k22 f (x) + o(h4 ) + o( )
4
nh
nh

(8.31)

Osservando la (8.31) possibile notare che il MSE di uno stimatore kernel tende a zero quando h 0 e nh . Da ci si desume la propriet
della consistenza di tale stimatore. Ma dalla (8.31) possibile notare anche che il MSE dipende dalle funzioni f e da f , che nelle applicazioni reali
risultano quasi sempre incognite. Qualora si voglia individuare il valore di h
(ad esempio h0 ) che minimizza il MSE si noter che le funzioni f (x) e f (x)
non scompaiono mai man mano che si deriva il MSE rispetto al parametro
h. Quindi l'intervallo ottimale h0 non pu essere mai individuato, a meno
che non si riescono ad approssimare le funzioni f (x) ed f (x).
possibile ridurre la dimensionalit del problema utilizzando il MISE (errore
quadratico medio integrato) invece del MSE, in quanto esso presenta l'ulteriore vantaggio di essere una misura globale dell'accuratezza di uno stimatore.
Per uno stimatore kernel il MISE dato da:
M ISE(fh ) =

M SE{fh (x)}dx

= ...
1
h4
1
=
k K k22 + {2 (K)}2 + o( ) + o(h4 )
nh
4
nh
h 0, nh

(8.32)

Una formula approsimata del MISE, denominata AMISE (Asymptotic

Mean Squared Error), la seguente:

1
h4
AM ISE(fh ) =
k K k22 + {2 (K)}2 k f k22
(8.33)
nh
4
Derivando l'AMISE rispetto ad h e risolvendo rispetto allo stesso parametro

otteniamo l'intervallo di stima ottimale:


h0 = (

k K k22
)1/5 n1/5
k f k22 {2 (K)}2 n

(8.34)

in dui k f k22 = (f )2 (s)ds. Dall'espressione ottenuta per h0 evidente che


il problema di dover trattare quantit incognite non stato ancora risolto,
in quanto h0 dipende da k f k22 .
R

100

8.4.4 Il Regressogramma
Il termine regressogramma deriva dalla somiglianza di tale stimatore con
l'istogramma. La stima mediante regressogramma procede attraverso due
fasi:

(a) Suddivisione in intervalli delle variabili {Xi}ni=1.

I valori osservati della variabile {Xi }ni=1 sono ripartiti secondo l'appartenenza ad intervalli disgiunti di ampiezza h che suddividono lo
spazio di osservazione della variabile X . Il j -esimo intervallo [x0 + (j
1)h, xo + jh) indicato con Bj .

(b) Si calcola il valore medio delle Yi


rispettivo intervallo.

rispetto ai valori Xi compresi nel

In termini formali, per ogni x Bj posssibile scrivere:


Pn
I(Xi Bj )Yi
m
h (x) = Pi=1
n
i=1 I(Xi Bj )
indicatrice assume valore "1" se Xi Bj

(8.35)

in cui la funzione
e "0" altrimenti.
Il regressogramma pu essere considerato un'approssimazione di una funzione a gradini. Inoltre esiste una sottile connessione con gli stimatori kernel
utilizzati nella regressione, poich il regressogramma pu essere considerato
uno stimatore in cui si utilizza una funzione kernel uniforme, calcolata nel
punto medio di ciascun intervallo.

8.4.5 Lo stimatore k-Nearest Neighbour (k-NN)


Come mostrato in precedenza gli stimatori kernel sono basati su una media ponderata dei valori assunti dalla variabile dipendente in un intervallo
sso costruito rispetto al punto x, la cui ampiezza dipende dal parametro
h. Anche lo stimatore k -nearest neighbours, spesso denominato stimatore
media mobile (running mean smoother), pu essere considerato una media
ponderata dei valori assumti dalla variabile di risposta in un certo intervallo
costruito intorno ad x, con l'importante dierenza che l'ampiezza dell'intervallo variabile e non ssa. Pi specicamente, i valori della Y utilizzati per
calcolare la media sono quelli corrispondenti ai k valori della variabile X pi
vicini al punto x in cui si vuole stimare la funzione m(x). Formalmente lo
stimatore k-NN pu essere cos descritto:
m
k (x) = n

n
X
i=1

101

Wki (x)Yi

(8.36)

ed i pesi {Wki (x)}ni=1 risultano cos deniti:


Wki (x) = n/kse

i Jx 0 altrimenti (8.37)
rispetto ad un insieme di indici:
una delle k osservazioni pi vicine ad x}
La stima della funzione m() in un punto x rispetto al quale i dati sono
piuuttosto dispersi fa si che le k osservazioni pi prossime al punto x siano
abbastanza lontane da x, e di conseguenza l'intervallo costruito intorno al
punto x sia ampio. Quindi k il parametro di smoothing dello stimatore, in
quanto un incremento di k fa aumentare l'ampiezza dell'intervallo di stima
e rende la funzione pi smussata.
Lo stimatore k-NN pu essere visto come uno stimatore kernel uniforme del
tipo K(u) = 12 I(|u| 1) con ampiezza dell'intervallo variabile h = R(k),
dove con R(k) si indicata la distanza tra il punto x ed i k punti ad esso
pi vicini. Esso quindi risulta:
Jx = {i : Xi

Pn
KR (x Xi )Yi
m
k (x) = Pi=1
n
i=1 KR (x Xi )

(8.38)

Lo stimatore k-NN pu essere generalizzato considerando anche stimatori


kernel diversi da quello uniforme.
possibile considerare per ogni xi intervalli simmetrici, ossia scegliere le k
osservazioni che precedono xi e le k osservazioni successive ad xi , calcolando
in ciascuno dei due intervalli la media aritmetica dei corrispondenti valori
della y. Tale stimatore detto stimatore k-nn simmetrico.

8.4.6 Median Smoothing

Lo stimatore kernel median smoothing pu essere considerato un caso particolare di applicazione di uno stimatore k-NN per la stima della mediana
condizionata di una distribuzione doppia di probabilit. La mediana condizionata M ed(Y |X = x) uno stimatore pi robusto del valore atteso
condizionato E(Y |X = x). Esso consente inoltre di stimare eventuali punti
di discontinuit della funzione di regressione M ed(Y |X). In termini formali
lo stimatore in esame descritto nel seguente modo:
m(x)

= M ed{Yi : i Jx }

102

(8.39)

in cui:
Jx = {i : Xi

uno dei k punti pi vicini ad x}

In pratica si procede calcolando la mediana dei punti Yi rispetto ai k


punti Xi pi vicini al punto x.

8.4.7 Running Line smoother


Una semplice generalizzazione dello stimatore media mobile costituita dal
running line smoother, che eettua un stima col metodo dei minimi quadrati
ordinari in ciascun intervallo invece di calcolare semplicemente la media aritmetica dei valori della variabile di risposta. Il running line smoother
denito da:
0 )x0
s(x0 ) =
(x0 ) + (x
0 )x0 costituiscono i coecienti della stima eettuata col
in cui (x0 ) e (x
metodo dei minimi quadrati ordinari in un intervallo di x0 indicato con
N S (x0 ).
Il parametro k, ossia il numero di punti compresi in ciascun sottointervallo,
determina la forma della funzione stimata. Valori elevati di k tendono a produrre curve pi smussate, mentre valori contenuti di k tendono a produrre
delle curve il cui andamento pi irregolare. In questo caso pi conveniente ragionare non in termini di k, ma in termini di w = (2k + 1)/n, ossia
considerare la proporzione di punti pi vicina al punto xi rispetto al quale si
vuole eettuare la stima, denominata span. Con [N S (xi )] si indica proprio
il numero di punti in N S (xi ). Nel caso estremo, se w = 2, ogni intervallo
contiene tutti i dati osservati, ed la stima mediante running line smoother
equivale ad approssimare la relazione tra le variabili osservate mediante una
classica retta di regressione lineare. All'opposto se risulta w = 1/n, ogni
intervallo contiene una sola osservazione e quindi si eettua una semplice
interpolazione dei dati.
Il running line smoother generalmente produce stime caratterizzate da curve
il cui andamento molto irregolare e frastagliato, perch ai punti compresi in
un certo intervallo attribuito nella procedura di stima lo stesso peso (non
nullo), mentre ai punti al di fuori dell'intervallo attribuito un peso nullo.
Quindi man mano che si eettua la stima in ciascun intervallo muovendosi
da sinistra verso destra, i pesi attribuiti ai punti situati all'estrema destra
ed all'estrema sinistra di ciascun intervallo restano costani o registrano cambiamenti di lieve entit. Quando si ricorre a tale stimatore preferibile

103

utilizzare intervalli simmetrici, perch si ottiene una migliore performance


dello stimatore ripetto ai punti situati sulle code (di destra e di sinistra)
della distribuzione. Infatti, nel caso di intervalli non simmetrici, l'intervallo costruito rispetto ai punti situati sulle code conterr lo stesso numero di
osservazioni di quello costruito rispetto ad un qualunque altro punto situato in prossimit del valore mediano, e quindi eettuando in tale intervallo
una stima con il metodo dei minimi quadrati si assegner alle osservazioni
situate in prossimit delle code della distribuzione lo stesso peso assegnato
a tutte le altre osservazioni. Utilizzando intervalli simmetrici si eettua, nei
punti situati in prossimit delle code, una stima in un intervallo contenente
solo la met delle osservazioni ricomprese negli altri intervalli, e quindi in
tal modo si attribuisce un peso minore alle osservazioni situate in prossimit
delle code.

8.4.8 Lo stimatore lowess (locally weighted running line smoother)

Lo stimatore lowess stato introdotto per migliorare in taluni casi le stime


ottenute attraverso il running line smoother ed ottenere stime caratterizzate
da curve con andamento pi regolare, eettuando in ciascun intervallo una
stima con il metodo dei minimi quadrati ponderati.
La procedura di stima col metodo dei minimi quadrati ponderati rispetto
ad un certo punto x0 , indicata con s(x0 ), e calcolata rispetto ai k punti pi
vicini ad x0 , avviene attraverso le seguenti fasi:
1. Si individuano i k punti pi vicini ad x0 , e li si indica con N (x0 ).
2. Si calcola la distanza massima tra x0 ed il punto pi lontano ricompreso
in N (x0 ), e la si indica con (x0 ) = maxN (x0 ) |x0 xi |.
3. Si assegnano dei pesi ad ogni osservazione in N (x0 ) utilizzando la
seguente funzione:
W(

|x0 xi |
)
(x0 )

in cui:
W (u) = (1 u3 )3 se

0 u < 10 altrimenti
una funzione tricubica che attribuisce dei pesi variabili a ciascuna xi .
104

4. Si calcola la stima di x0 , indicata con s(x0 ), applicando il metodo


dei minimi quadrati ponderati ai valori della variabile dipendente corrispondenti ai valori del predittore x compresi in N (x0 ), attribuendo a
ciascuna osservazione dei pesi Wi calcolati nella fase precedente.
Nella procedura di stima mediante lowess possono utilizzarsi sia intervalli
simmetrici che non simmetrici, ma anche ricorrendo ad intervalli non simmetrici la funzione tricubica permette di sottopesare le osservazioni situate
sulle code della distribuzione.

8.4.9 Stimatori Spline


La funzioni spline per la stima di una funzione di probabilit incognita sono
costruite considerando la somma dei quadrati dei residui (RSS) come criterio
di approssimazione di un certo insieme di dati attraverso una funzione m.
La quantit RSS denita come:
n
X

{Yi m(Xi )}2

i=1

possibile denire una funzione m(Xi ) = Yi , i = 1, . . . , n al ne di


minimizzare la RSS attraverso un'interpolazione dei dati, senza investigare
sulla particolare struttura che tali dati possono assumere. Le funzioni spline
conseguono quest'obiettivo aggiungendo uno stabilizzatore che penalizza le
zone non smussate della funzione m. Un possibile stabilizzatore :

km

k22 =

{m (x)}2 dx

Quindi possibile riformulare il problema di minimizzazione nel seguente


modo:
m
= arg min S (m)
m

con:
S (m) =

n
X

{Yi m(Xi )}2 = k m k22

(8.40)

(8.41)

i=1

Qualora si considera una classe di funzioni che ammettono derivata seconda in un intervallo [a, b] = [X(1) , X(n) ] (con X1 ed Xn indichiamo rispettivamente le statistiche del primo e dell' n-esimo ordine) allora l'unica funzione
105

che massimizza la (8.62) lo stimatore spline cubico m


(x), costituito dal
seguente polinomio di terzo grado:
pi (x) = i + i x + i x2 + i x3 ,

i = 1, . . . , n 1

denito rispetto ai valori assunti dalle due statistiche d'ordine X(i) ed X(i+1) .
Il parametro controlla il peso attribuito dalla funzione stabilizzatrice quando si procede alla minimizzazione. Pi aumenta il valore di maggiore il
peso attribuito ad k m k22 e pi smussata risulta la stima. Al tendere di
a zero la funzione m corrisponde ad una semplice interpolazione dei dati
(rispetto alla variabile Y ). Se tende ad allora m una funzione lineare
in x.
Anch lo stimatore ammetta la derivata seconda bisogna assicurarsi che
non esistono salti nella funzione pi e neanche nelle sue prime due derivate
calcolate rispetto alle statistiche d'ordine (si ricordi che il dominio del polinomio di grado i-esimo pi (x) dato dall'intervallo tra le statistiche d'ordine
X(i) ed X(i+1) ). Formalmente abbiamo:
pi (X(i) ) = pi1 (X(i) )
p0i (X(i) ) = p0i1 (X(i) )
pi (X(i) ) = pi1 (X(i) )

Inoltre deve essere soddisfatta un'ulteriore condizione limite:


p1 (X(1) ) = pn1 (X(n) )

possibile dimostrare che sotto certe condizioni lo stimatore spline


asintoticamente equivalente ad uno stimatore kernel in cui la funzione K
specicata come Spline kernel:
KS (u) =

1
|u|
|u|

exp( ) sin( + )
2
2
2 4

con intervalli la cui ampiezza data da h(Xi ) = 1/4 n1/4 f (Xi )1/4 .

8.5 Regressione semiparametrica


All'inizio della presente trattazione sono stati introdotti i modelli di regressione non parametrica multivariata e si evidenziato che uno dei principali
limiti relativamente al loro impiego quello della dimensionalit. Numerosi
sono stati gli sforzi degli studiosi per cercare di ridurre il problema della
106

dimensionalit.
Diversi approcci sono stati proposti per generalizzare i modelli di regressione
parametrici al ne di impiegare funzioni arbitrarie non monotone. I modelli
semiparametrici consentono di valutare il legame tra la variabile di risposta
e ciascun predittore attraverso l'utilizzo di funzioni di smoothing arbitrarie.
In tali modelli una suddivisione dei predittori avviene proprio in base alla
loro natura. In particolare in presenza di variabili esplicative categoriche
(dicotomiche o politomiche) importante eettuare una separazione tra i
diversi tipi di predittori. Nel seguito T = (T1 , . . . , Tq )T indica un vettore di
variabili esplicative numeriche, mentre X = (X1 , . . . , Xp )T indica un vettore
di variabili esplicative categoriche. Si possono distinguere i seguenti tipi di
modelli semiparametrici:

Modelli Additivi (Additive Models, AM)


Il modello additivo classico una generalizzazione del modello classico
di regressione lineare. In questo caso si ipotizza che il valore atteso
condizionato di Y dato T uguale alla somma di funzioni incognite
delle variabili esplicative pi un termine costante:
E(Y |T) = +

q
X

fj (Tj )

(8.42)

j=1

Anche in questo caso si ottiene una riduzione della dimensionalit del


problema. Invece di stimare ogni singola funzione per ogni singola variabile, come avviene nel caso della regressione non parametrica, bisogna
semplicemente stimare q funzioni di un'unica variabile.

Modelli Parzialmente Lineari (Partially Linear Models, PLM)


In tali modelli si considera un vettore di dimensioni (p + q) di variabili
esplicative (X = (X1 , . . . , XpT ) e T = (T1 , . . . , Tq )T ). Il modello di
regressione assume la seguente forma:
E(Y |X, T) = T X + m(T)

(8.43)

in cui m() una funzione incognita multivariata del vettore T. Quindi


un modello parzialmente lineare pu essere visto come la somma di una
parte completamente parametrica ( T X) ed una parte completamente
non parametrica m(T). La stima di e di m() richiede l'utilizzo di
tecniche parametriche e non parametriche.
107

Modelli Additivi Generalizzati (Generalized Additive Models, GAM)


I modelli additivi generalizzati sono basati sulla somma di q funzioni
non parametriche relative a q variabili T (oltre al termine costante).
Inoltre essi si basano sull'impiego di una funzione legame parametrica
nota, indicata con G(), che collega le diverse funzioni che legano la
variabile dipendente a ciascun predittore. Il modello descritto dalla
seguente equazione:
E(Y |T) = G{ +

q
X

fj (Tj )}

(8.44)

j=1

Modelli Parzialmente Lineari Generalizzati (Generalized Partial Linear


Models, GPLM)
Tali modelli derivano da una generalizzazione della forma lineare XT +
TT ad una forma parzialmente lineare XT + m(T). Il modello che
ne risulta il seguente:
E(Y |X, T) = G{XT + m(T)}

in cui G una funzione legame incognita. In questo caso le funzioni


m() sono funzioni multivariate non parametriche della variabile T.

Modelli Parzialmente Lineari e Parzialmente Additivi Generalizzati (Generalized Partial Linear Partial Additive Models, GPLPAM)
All'aumentare del numero dei predittori numerici, e quindi del numero
delle dimensioni, per la stima della funzione non parametrica m() in
un modello GPLM si incontra lo stesso ostacolo che si presenta nelle
stime di funzioni di regressione non parametriche multidimensionali, e
cio il problema della dimensionalit e le dicolt di interpretazione
dei risultati a cui tale problema conduce.
Per tali motivi ragionevole pensare ad una modellizzazione non parametrica in un numero minore di dimensioni della parte non parametrica
di un modello. Una possibile soluzione fornita dai modelli GPLPAM,
che presentano una struttura additiva relativamente alla componente
non parametrica assimilabile ad un modello additivo generalizzato. Il
modello in esame il seguente:
E(Y |X, T) = G{XT + f1 (T1 ) + . . . + fd (Td )}

108

In questo caso le funzioni fj () sono funzioni non parametriche univariate delle variabili Tj .

8.6 Modelli Additivi Generalizzati


Nel paragrafo precedente sono stati introdotti i Modelli Additivi (MA) ed
i Modelli Additivi Generalizzati (GAM). Dalla (8.69) e dalla (8.90) risulta
che i modelli additivi rappresentano un caso speciale di modello additivo
generalizzato, e cio possono essere considerati dei GAM in cui la funzione
legame rappresentata dalla funzione identit. Di conseguenza l'attenzione
sar focalizzata sui GAM e sar trattato il caso speciale di Modello Additivo.
Rispetto al modello classico di regressione lineare semplice nei modelli additivi generalizzati si mantiene l'ipotesi riguardante la distribuzione (normale)
degli errori. Il modello GAM espresso dalla seguente equazione:
E(Y |X) = G[ +

d
X

fj (Xj )]

(8.45)

j=1

in cui G() una funzione legame parametrica nota che collega le diverse
funzioni che legano la variabile dipendente a ciascun predittore.

8.6.1 Algoritmi di stima per i Modelli Additivi Generalizzati


Per comprendere come si stimano le funzioni incognite fj (), j = 1, . . . , d
si consideri il caso di un Modello Additivo, ossia di un modello GAM in
cui la funzione legame la funzione identit. La stima delle funzioni fj (),
j = 1, . . . , d in:
E(Y |x) = 0 +

d
X

fj (xj )

j=1

avviene attraverso l'algoritmo di backtting. Tale algoritmo basato su una


procedura di stima iterativa dei residui parziali.
Si supponga di avere soltanto due variabili esplicative, X1 ed X2 . Il modello
dato da:
Yi = 0 + f1 (xi1 ) + f2 (xi2 ) + i

Si supponga inoltre di disporre della stima iniziale della funzione f2 (x2 ),


indicata con f2 (x2 ), e della stima iniziale dell'intercetta del modello, indicata
109

con 0 . Bisogna quindi stimare la funzione f1 (x1 ). Tale stima pu essere


ottenuta calcolando dapprima i residui parziali nel seguente modo:
(1)

ri

= Yi 0 f2 (xi2 )

ed eettuando successivamente una regressione non parametrica di r rispetto


ad X1 . A tal proposito bisogna notare che i residui parziali r possono essere
considerati come la variabilit residua di Y al netto dell'eetto della variabile
X2 . Quindi si stima f1 (x1 ) eettuando un'analisi di regressione in cui si
vuole stimare la variabilit della Y non "spiegata" da X2 (e contenuta in
r) attraverso il predittore X1 . In tale contesto possibile utilizzare anche
uno degli stimatori non parametrici introdotti nei paragra precedenti. Si
indichi la funzione stimata con f1 (x1 ). Da tale funzione possibile calcolare
nuovamente i residui parziali nel seguente modo:
(2)

ri

(1)

= ri

f2 (xi2 ) = Y1 0 f1 (xi1 ) f2 (xi2 )

ed eettuare un'analisi di regressione di r(2) rispetto ad X2 per ottenere una


nuova stima di f2 (x2 ). Questa procedura iterativa pu essere ripetuta no
a che le funzioni stimate f1 (x1 ) ed f2 (x2 ) non subiscono variazioni signicative in due successive iterazioni. L'algoritmo di backtting pu essere
generalizzato al caso di pi predittori. L'algoritmo illustrato nello schema
seguente.

Algoritmo di Backtting per un Modello Additivo


Inizializzazione

fj = 0

per j = 1, . . . , d

0 = Y

Ripeti

per j = 1, . . . , d ripeti il seguente ciclo:


ri = Yi 0

l6=j

fl (xil )

fj (xij ) = S(r|xij )

Fino a che

l'algoritmo non converge.

Da osservare che le stime iniziali delle funzioni f sono tutte pari a zero,
mentre la stima iniziale dell'intercetta semplicemente la media campionaria
della variabile dipendente. Nello schema di cui sopra r = (r1 , . . . , rn ) indica
110

il vettore dei residui marginali ed S(r|xij ) indica una funzione di smoothing,


quale ad esempio uno stimatore kernel.
L'algoritmo di backtting illustrato era relativo al caso particolare di un
modello additivo generalizzato la cui funzione legame era la funzione identit.
Nel caso di una funzione legame pi complessa la stima del modello avviene
in due fasi.
In tali casi nella procedura di stima bisogna tener conto che la variabile
Y non direttamente legata alla somma delle funzioni fj (), j = 1, . . . , d,
ma tale legame indiretto e dipende proprio dal tipo di funzione legame
utilizzata.
Si consideri ad esempio il residuo parziale risultante dalla prima iterazione
dell'algoritmo di backtting:
(1)

ri

= Yi 0 f2 (xi2 )

Tali residui parziali ignorano completamente l'eetto della funzione legame.


A tale proposito invece di utilizzare Yi nell'algoritmo di backtting, opportuno ricorrere ad un'opportuna trasformazione dei valori della Y , data
proprio dall'inverso della funzione legame. Se si indica con z la variabile
dipendente trasformata e si applica su tale variabile l'algoritmo di backtting, considerando quindi i residui parziali rispetto a z si ottiene una stima
delle funzioni fj (), j = 1, . . . , d che descrivono l'eetto dei predittori sulla
variabile trasformata z . Ma qual l'eetto di tali predittori sulla variabile
originaria Y ? In questo caso la stima del modello avviene tramite l'algoritmo
di local scoring. La procedura di stima di un modello additivo generalizzato
quindi basata su due algoritmi: l'algoritmo di backtting e l'algoritmo di local scoring. L'algorimo di backtting utilizzato all'interno della procedura
di local scoring. L'algoritmo di local scoring e quello di backtting nel caso
di funzione legame diversa dalla funzione identit sono descritti negli schemi
seguenti, nei quali r = (r1 , . . . , rn )T indica un vettore di residui (marginali)
e w un vettore di pesi. S(r|w, xji ) indica una funzione di smoothing.
La caratteristica principale dei modelli additivi generalizzati che essi
permettono la stima di relazioni funzionali tra le diverse variabili. In realt
le funzioni fj (xj ) riettono il fatto che l'inuenza di un predittore dipende
dal corrispondente valore assunto dalla variabile di risposta e non necessariamente costante (come accade invece nei modelli Logit). Per tale motivo
i predittori categorici possono essere facilmente inclusi nel modello, e le loro
funzioni di stima saranno funzioni a gradini (step functions).
Il punto debole dei modelli GAM che essi richiedono l'uso di procedure
111

Inizializzazione

Algoritmo di Local Scoring


gj = 0

per j = 1, . . . , d

(0)
0 = G1 (
y)

Ripeti

rispetto al contatore di iterazione esterno m


calcola il criterio di convergenza
variazioni
(m)

(m)

= G(
i
(m)

zi = i

relative di 0 , gj

)
(m) G1
(m)
) (
i )

+ (yi
i
(m)

wi = { G
i
[

(m) 1
)

]}2 (Vi

ottieni 0(m+1) , gj(m+1)


applicando l'algoritmo di backtting alle zi
con predittori xi e pesi wi

Fino a che

l'algoritmo non converge.

112

Algoritmo di Backtting per un Modello Additivo Generalizzato


Inizializzazione

gj = 0

per j = 1, . . . , k

0 = z

Ripeti

per j = 1, . . . , k ripeti il seguente ciclo:


P
ri = zi 0 l6=j gl (xil )
gj (xij ) = S(r|w, xij )

Fino a che

l'algoritmo non converge.

iterative. Il costo computazionale di tali procedure spesso notevole quando


si opera con grosse basi di dati.

113

Capitolo 9

La segmentazione binaria
9.1 Le strutture ad albero
Obiettivo dei metodi di segmentazione la costruzione di una struttura ad
albero per descrivere la dipendenza di una variabile dipendente da un insieme di variabili esplicative in problemi di classicazione e regressione. Per
albero si intende un modello graco costituito da un insieme nito di elementi, detti nodi, che si dipartono da un nodo iniziale, che la cosiddetta radice
della struttura. Si tratta di un grafo aciclico diretto, in cui l'orientamento
dei segmenti che uniscono i nodi, i cosiddetti archi, indica la direzione dei
legami esistenti tra i nodi stessi. Si distinguono poi i nodi interni, usualmente rappresentati da cerchi, dai nodi terminali o foglie, rappresentati da
quadrati. Una branca o sottoalbero dell'albero ottenuta potando l'albero
in uno dei nodi interni.
Le strutture ad albero costituiscono un utile strumento di rappresentazione
dell'informazione nel marketing, nel credit scoring, nella customer satisfaction etc. Il vantaggio nell'uso di questo tipo di strumento risiede proprio nel
fatto che esso esprime gracamente i concetti di progressivit e di inclusione
che sono costitutivi di quello di gerarchizzazione e quindi consente di rappresentare legami gerarchici tra i dati.
In generale, i metodi di segmentazione seguono un approccio supervisionato
di tipo non parametrico per l'analisi di dati caratterizzati da alta dimensionalit, nel numero sia di variabili che di unit, e dalla non linearit nel legame
di dipendenza tra le variabili.
L'approccio supervisionato si dierenzia da un approccio non supervisionato, tipico dei metodi di cluster analysis, per la presenza di una variabile di
risposta che denisce una distribuzione a-priori di riferimento. Se la variabile
114

di risposta qualitativa si perviene ad una classicazione ad albero, mentre


se numerica ad una regressione ad albero.
L'idea di base della segmentazione di partizionare ricorsivamente un insieme di unit statistiche in gruppi sempre pi ni (di numerosit inferiore)
e sempre pi omogenei internamente (rispetto alla distribuzione della variabile di risposta). Si determina in tal modo una partizione nale del gruppo
iniziale presente al nodo radice in sottogruppi disgiunti ed esaustivi rappresentati dai nodi terminali dell'albero, a questi ultimi sar assegnata una
classe o un valore di risposta. Per denizione, i nodi terminali presenteranno un grado di omogeneit interna maggiore rispetto al gruppo di partenza,
omogeneit valutata in riferimento alla distribuzione della variabile di risposta. I predittori agiscono come generatori delle possibili partizioni in modo
da caratterizzare il passaggio delle unit da un nodo ai suoi discendenti. Se
in ciascuna partizione, il numero di sottogruppi costante e pari a due si
eettua una segmentazione binaria pervenendo ad una struttura elementare
ad albero binario. In tal caso, ad ogni nodo si dovr scegliere la divisione
migliore delle unit provando tutte le dicotomizzazioni di ciascun predittore.
Una volta ottenuta la struttura ad albero, sar poi possibile individuare quali
interazioni tra i diversi split caratterizzeranno l'appartenenza ad un determinato nodo terminale piuttosto che ad un altro.
Ad esempio, in un problema di credit scoring, si supponga che una banca
abbia classicato le aziende in due classi, meritevoli del do bancario e
non meritevoli, e che abbia registrato un insieme di indicatori aziendali
utili a questo tipo di classicazione. La segmentazione pu essere di ausilio
per soddisfare due diversi obiettivi: esplorativo, per comprendere quali indicatori abbiano maggiormente inciso sulla classicazione fatta e quali loro
interazioni siano pi utili alla comprensione del fenomeno; decisionale, per
classicare una nuova azienda in sana o non sana sulla base degli indicatori
osservati, impiegando una regola di decisione costruita attraverso l'apprendimento fatto relativamente alle aziende gi osservate. Nel primo caso, l'albero
esplorativo permetter di identicare, ad ogni livello dell'albero, quali predittori siano intervenuti nella procedura di segmentazione. Nel secondo caso,
l'albero delle decisioni, che stato costruito sulla base dell'informazione completa relativa ad un gruppo di aziende (campione di apprendimento), costituisce una regola per classicare una nuova azienda (di cui si conoscono le
misurazioni dei predittori ma non la risposta) facendola scivolare nell'albero
e, a secondo del gruppo terminale di appartenenza, si decider in merito alla
concessione del do.
In denitiva, possibile condurre un'analisi esplorativa mediante la segmentazione per determinare sia una gerarchia di importanza tra le variabili sia
115

una partizione in gruppi ben discriminati dal potere esplicativo delle interazioni tra i predittori sulla variabile dipendente. Ogni procedura di segmentazione caratterizzata da un criterio di partizione, da una regola di arresto
della procedura e, inne, da una regola di assegnazione di una classe, o di un
valore, alle unit di un nodo terminale. Quale approccio non parametrico,
non si hanno ipotesi distribuzionali di tipo probabilistico ed il modello che
ne deriva una struttura ad albero, che, in quanto tale, non esprimibile attraverso una semplice forma funzionale dipendente da parametri. Al ne poi
di impiegare una struttura ad albero per l'analisi confermativa o decisionale,
occorre denire una procedura induttiva per il passaggio dal campione osservato ad un ipotetico nuovo campione di cui si vuole prevedere la variabile
di risposta.

9.2 La costruzione dell'albero esplorativo

9.2.1 Criteri di partizione

Sia (Y, X) una variabile multivariata, di cui X un vettore di M predittori (X1 , . . . , Xm , . . . , XM ) (misurati in scala nominale, ordinale, numerica)
e Y la variabile di risposta le cui modalit sono denite dalle classi apriori C = {1, . . . , j, . . . , J} (se qualitativa) o da numeri reali (se numerica),
distinguendo la classicazione ad albero e la regressione ad albero rispettivamente.
Si consideri un campione di N unit C = {(yn , xn ); n = 1, . . . , N } proveniente dalle distribuzione di (Y, X). L'analisi esplorativa ha come obiettivo
la costruzione di un albero che individui quali interazioni tra le variabili sono
discriminanti per la spiegazione della variabile dipendente. La costruzione
dell'albero determinata considerando una procedura di partizione ricorsiva
in K gruppi disgiunti tali che le unit sono internamente omogenee ed esternamente eterogenee rispetto alla variabile dipendente Y . L'eterogeneit in
ciascun nodo t valutata mediante una misura di impurit denotata come
iY (t). Nei problemi di classicazione, l'impurit si traduce in una delle
seguenti misure:

1. tasso di errata classicazione

iY (t) = 1 maxj p(j|t)

(9.1)

2. indice di eterogeneit del Gini


iY (t) = 1

X
j

116

p(j|t)2

(9.2)

3. indice di entropia

iY (t) =

p(j|t)logp(j|t)

(9.3)

dove p(j|t) il numero di unit del nodo t che appartengono alla classe j .
Nei problemi di regressione, l'impurit si traduce in una misura di varianza
o di devianza di Y , quest'ultima sar riferita alle sole unit del nodo:
iY (t) =

(9.4)

(yn y(t))2

xn t

dove y(t) la media dei valori di risposta nelle unit del nodo t, i.e., xn t.
Si denisce impurit totale dell'albero T la somma delle impurit nei nodi
terminali appartenenti all'insieme T:
IY (T ) =

IY (t) =

tT

iY (t)p(t)

(9.5)

tT

dove IY (t) l'impurit nel nodo t pesata dal numero di unit che dal nodo
radice cadono nel nodo t, p(t) = N (t)/N .
L'impurit totale di un albero minima se si determina in ciascun nodo
dell'albero, tra le diverse partizioni p appartenenti all'insieme P , la migliore
partizione delle unit in K gruppi disgiunti tali che il decremento di impurit
della variabile di risposta Y , nel passaggio dal nodo padre t ai K nodi gli
tk , massimo:
maxpP iY (t, p) = maxp {iY (t)

iY (tk )p(tk |t)}

(9.6)

dove p(tk |t) la propozione di unit del nodo t che cadono nel k-esimo
discendente. Infatti, possibile dimostrare che la (9.5) equivalente alla
seguente espressione:
IY (T ) =

IY (h, p) =

iY (h, p)p(t)

hH

hH

dove H l'insieme dei nodi non terminali o interni dell'albero T .

117

(9.7)

9.2.2 Algoritmo accelerato FAST


Come si determina l'insieme P dei candidati alla partizione delle unit di
ciascun nodo? Le partizioni sono determinate sulla base dei predittori: occorrerebbe denire il numero di modi possibili in cui partizionare in K gruppi
le modalit di ciascun predittore. Nella maggior parte delle applicazioni, si
costruiscono alberi binari (per K = 2) suddividendo in due soli gruppi le
unit di ciascun nodo. In tal caso, un predittore a G modalit distinte, se
misurato in scala numerica o ordinale genera G 1 possibili suddivisioni
(dette anche split), mentre se misurato in scala nominale ne genera 2G1 1.
In generale, l'insieme P include tutte le partizioni possibili generate da tutti
i predittori osservati al nodo t. La migliore partizione p determinata tra
le migliori partizioni di ciascun predittore, ciascuna delle quali ottenuta
minimizzando il fattore locale di riduzione dell'impurit al nodo t:
Y |p (t) =

iY (tk )p(tk |t)

(9.8)

per p Pm , dove Pm l'insieme delle partizioni generate dal generico predittore Xm . Si noti che la (9.8) corrisponde al secondo termine dell'espressione
al secondo membro di (9.6). Questo criterio di partizione in sostanza presente nella maggior parte delle procedure di segmentazione implementare nei
software specialistici (ad esempio, CART, ID3, CN4.5).
Tuttavia, possibile ridurre il costo computazionale della segmentazione attraverso criteri alternativi di partizione. Il criterio a due stadi (noto come
two-stage) opera nel modo seguente: si determina, dapprima, un sottoinsieme di migliori predittori (anche solo uno) della Y , e si determina, successivamente, la migliore partizione a partire dai soli migliori predittori. In
proposito, si denisce fattore globale di riduzione dell'impurit di un generico
predittore Xm la seguente espressione:
Y |Xm (t) =

iY |g (t)p(g|t)

(9.9)

gGm

dove iY |g (t) l'impurit della Y nella distribuzione condizionata di Y data


l'm-esima modalit del predittore Xm avente Gm modalit, con m M . Il
criterio a due stadi minimizza dapprima la (9.9), al ne di trovare uno o pi
predittori che meglio riducono globalmente l'impurit, per poi minimizzare
la (9.8) considerando solo le partizioni generate dai migliori predittori.
Questo criterio pu essere applicato sic et simpliciter, misurando la riduzione
globale e locale dell'impurit in diversi modi, considerando le misure di impurit sopra menzionate oppure strategie integrate che impiegano modelli
118

statistici. Invero, il criterio a due stadi non necessariamente determina la


migliore partizione secondo la (9.6). Al ne di pervenire alla soluzione ottimale, utile richiamare il seguente risultato: Se una misura di impurit
soddisfa la condizione
Y |Xm (t) Y |p (t)

(9.10)

per ogni p Pm di Xm , allora la migliore partizione pu essere determinata


dall'algorimo accelerato denominato FAST. Questo consiste nei seguenti due
passi fondamentali:

si applica iterativamente il criterio a due stadi basato su (9.9) e (9.8),


selezionando ad ogni passo un predittore alla volta ed eliminando quelli
selezionati nei passi precedenti;

si arrestano le iterazioni quando, per il migliore predittore corrente


X(v) alla iterazione v , si verica la condizione Y |X(v) (t) Y |p(v1) ,
dove p(v1) la migliore partizione alla iterazione (v 1).

In altre parole, l'algoritmo aggiorna la migliore partizione no a quando


il predittore selezionato presenta un fattore di riduzione globale inferiore al
fattore di riduzione locale della soluzione corrente: ci signica che tale predittore generer quale migliore partizione una soluzione certamente peggiore
(al pi non migliore) di quella corrente (in virt della condizione (9.10)); inoltre, la soluzione corrente sar quella ottimale poich la selezione dei predittori avviene in senso non decrescente rispetto al potere esplicativo o potere
di riduzione dell'impurit e quindi ogni altro futuro predittore sicuramente
generer una riduzione globale inferiore e quindi una partizione non migliore
di quella corrente.
Questo algoritmo accelerato permette di trovare la soluzione ottimale che si
avrebbe massimizzando la (9.6) con un notevole risparmio del costo computazionale richiesto dalle procedure di segmentazione in ciascun nodo (valutabile anche in base al numero di partizioni da provare prima di determinare la soluzione ottimale). Si dimostra teoricamente e mediante studi
di simulazione che in media la riduzione relativa nel numero di split provati
dal FAST rispetto all'approccio standard cresce al crescere del numero di
modalit distinte del predittore ed al crescere del numero di unit presenti
nel nodo. Inoltre, questi risultati sono maggiormente evidenti in presenza
di predittori fortemente esplicativi della variabile dipendente, come spesso si
riscontra in applicazioni su dati reali.
119

9.2.3 Arresto della procedura


Uno dei vantaggi dei metodi di segmentazione consiste nella semplicit interpretativa del diagramma ad albero, purch questo non sia di dimensioni
elevate. La taglia" di un albero binario, ad esempio, misurata dal numero
di nodi terminali, o, equivalentemente, dal numero di suddivisioni, ovvero di
nodi interni, che pari al numero di nodi terminali meno uno.
Si rende pertanto necessario denire dei criteri di arresto che fermino la
crescita dell'albero. In particolare, un nodo dichiarato nodo terminale
se la riduzione dell'impurit conseguibile mediante la suddivisione del nodo
stesso risulta inferiore ad una soglia pressata; alternativamente, se la numerosit del nodo inferiore di una soglia pressata.
Queste regole di arresto prescindono dal problema decisionale in quanto
un nodo dichiarato terminale senza considerare ci che sarebbe accaduto, in termini di ulteriore decremento di impurit, lungo la branca che dalla
segmentazione del nodo sarebbe stata generata. Si vedr, nelle pagine che
seguono, che la scelta della taglia dovr essere fatta considerando anche l'accuratezza dell'albero, che data dalla errata classicazione o previsione. Pertanto, se si vuole costruire un albero delle decisioni, piuttosto che arrestare
la procedura, si operer semplicando una struttura sovradimensionata.

9.2.4 Assegnazione della risposta ai nodi terminali


Con i metodi di segmentazione si perviene ad una struttura ad albero i cui
nodi terminali costituiscono una partizione del campione iniziale in gruppi
puri al loro interno. Nell'interpretazione dell'albero esplorativo, si seguiranno i diversi percorsi della struttura gerarchica individuando le diverse interazioni tra predittori che conducono le unit a cadere in un nodo terminale
piuttosto che in un altro. Ciascun nodo terminale sar etichettato attribuendo la classe modale di risposta (in problemi di classicazione) o il valore
medio (in problemi di regressione). In tal modo, si deniranno ad esempio
i diversi percorsi che conducono alla stessa classe di risposta, oppure comprendere come varia la variabile di risposta in media al variare delle diverse
interazione tra predittori.

9.3 L'induzione e l'albero delle decisioni

9.3.1 Il passaggio dall'esplorazione alla decisione


Gli alberi esplorativi possono essere impiegati al ne di descrivere la struttura di dipendenza tra le variabili e come strumento di straticazione di un
120

collettivo. Non possono essere invece impiegati a scopi decisionali di classicazione o regressione per nuove unit. In tal caso, oltre alla taglia, occorre
considerare anche l'accuratezza dell'albero, valutata con il tasso di errata
classicazione o previsione. La procedura di segmentazione conduce ad un
albero accurato per il campione impiegato per la sua costruzione, nel senso
che il tasso di errore sar tanto pi basso quanto pi cresce il numero di
nodi terminali. Ma un albero troppo espanso pu facilmente condurre ad
alti errori di classicazione o di previsione per nuove unit. Si rende pertanto necessaria una procedura di induzione dell'albero, che ha l'obiettivo
di denire la parte strutturale dell'albero, semplicando un albero troppo
espanso, pur considerando l'accuratezza per nuove unit. In generale, si
opera una distinzione tra campione di apprendimento, che viene impiegato
per la costruzione dell'albero totalmente espanso (che presenta nodi non pi
ulteriormente partizionabili), e campione test, che costituito da unit che
non hanno partecipato alla costruzione dell'albero espanso. In pratica, la
procedura di induzione operer una semplicazione dell'albero totalmente
espanso al ne di pervenire ad una struttura interpretabile (con un numero
contenuto di nodi terminali) ed identicabile (con possibilit di classicare
o prevedere nuove unit).
Si osservi che non c' indipendenza tra induzione e segmentazione, nel senso
che la qualit della regola di decisione dipender anche dalle scelte fatte in
merito al criterio di partizione, oltre che dalla natura stessa dei dati (tipo di
variabili, eventuale categorizzazione delle variabili numeriche, etc.).

9.3.2 Criteri di validazione


Per la validazione della struttura ad albero si considera la sua accuratezza: il
tasso di errata classicazione ovvero il tasso di errata previsione. Sia nel caso
della classicazione che in quello della regressione, non potendo determinare
il vero valore del tasso di errore, occorre ricorrere ad una sua stima. A tal
ne vi sono tre possibili stime:
1. stima di risostituzione;
2. stima test set;
3. stima cross validation;

La stima di risostituzione.

Questa stima ottenuta considerando esclusivamente le unit appartenenti


al campione di apprendimento. In generale, sia r(h) una misura dell'errore al
121

nodo terminale h nell'insieme HT e p(h) = N (h)/N la proporzione di unit


che cadono in tale nodo; il tasso di errore si esprime come:
R(T ) =

r(h)p(h),

(9.11)

hHT

Per la classicazione, l'errore al nodo h si esprime come:


r(h) =

N (h)
1 X
I(d(xn h) 6= jn )
N (h)

(9.12)

n=1

dove I() una funzione indicatrice che assume valore 1 se la aermazione


in parentesi vera e quindi la classe assegnata alla osservazione n-esima
(descritta dal vettore di predittori xi ) dalla regola d generata dall'albero
dierisce dalla vera classe, e valore 0 altrimenti. In tal modo, la (9.12)
esprime la proporzione di malclassicati al nodo terminale h, mentre, tenuto
conto del peso p(h), la (9.11) esprime in denitiva il rapporto tra il numero
di unit del campione di apprendimento malclassicate dall'albero T ed il
totale delle unit N .
Nella regressione, l'errore al nodo h si esprime semplicemente come varianza della variabile Y , per cui, tenuto conto della (9.11), si ha la somma
delle devianze divisa per il totale delle unit.
Si pu inoltre esprimere il tasso di errore in termini relativi, rapportandolo all'errore iniziale del nodo radice t1 :
RR(T ) =

R(T )
.
R(t1 )

(9.13)

Il tasso di risostituzione, detto anche tasso apparente, essendo calcolato utilizzando i medesimi dati impiegati per costruire l'albero, fornisce una rappresentazione ottimistica della accuratezza ed dunque assai poco utilizzato
negli alberi delle decisioni, preferendosi il ricorso a stime ottenute con procedure che riducono il cosiddetto bias ottimistico.

La stima test set.

Questo tipo di stima si fonda sulla suddivisione (casuale) del campione di


apprendimento C in due insiemi, C1 e C2 , con C1 C2 = C ed C1 C2 = .
L'insieme C1 (generalmente pari al 70% dei casi) viene impiegato per costruire la struttura ad albero, mentre l'insieme C2 , detto test set, viene successivamente fatto scivolare nell'albero per valutare quanto accuratamente
questo sia in grado di classicare/predire il valore di risposta delle unit in
esso presenti. Formalmente, si costruir la stima nel seguente modo:
122

Rts (T ) =

Rts (h),

(9.14)

hHT

dove la Rts (h) = rts (h)pts (h) calcolata analogamente al caso precedente
ma considerando le unit del campione test.
Di norma si ricorre a tale metodo di stima quando C di cardinalit
elevata per non impoverire troppo l'insieme di dati che sar utilizzato nella
costruzione dell'albero.

La stima cross validation.

Quando il campione di apprendimento non di cardinalit sucientemente


elevata da consentire la distrazione di una parte delle osservazioni, anch
fungano da test set, si pu ricorrere alla stima cross validation. Questa consiste nel suddividere l'insieme di apprendimento in un numero V
di sottoinsiemi di uguale numerosit C1 , . . . , Cv , . . . , CV . Si costruiscono
allora altrettante strutture ad albero Tv con le unit rispettivamente di
C C1 , . . . , C CV . Ciascuna di queste sar poi validata con le unit di
volta in volta non impiegate, ottenendo in tal modo V stime test set Rts (Tv )
la cui media fornisce la stima cross validation:
V
1 X ts
R (Tv )
R (T ) =
V
cv

(9.15)

v=1

Si noti che per V = N si ottiene la cosiddetta stima leave-one-out. Questo


metodo parsimonioso" con i dati, infatti ogni unit in C impiegata per
costruire la struttura, ed ogni unit usata esattamente una volta in un
campione test.

9.3.3 La semplicazione delle strutture ad albero


Il problema della semplicazione delle strutture ad albero trae origine dal
fatto che gli algoritmi di partizione ricorsiva seguono una strategia cosiddetta divide et impera. Ci comporta strutture ad albero di taglia considerevole e dunque complesse, caratterizzate da molteplici regole di classicazione/predizione per una stessa modalit della variabile di risposta
e soprattutto regole risultanti dal concatenarsi di numerose condizioni, di
risposte alle domande che determinano la partizione dei nodi.
In generale, auspicabile trovare un modello parsimonioso con il minor
numero possibile di parametri. La complessit infatti sebbene accresca il
potere esplicativo di un modello rispetto ai dati impiegati nella sua costruzione,
123

si traduce in una perdita di interpretabilit e in un minore potere predittivo


rispetto a nuovi dati. Nel caso delle procedure ad albero, la complessit misurata appunto dalla taglia della struttura data dal numero di nodi terminali.
Quando l'obiettivo decisionale, strutture troppo complesse comportano non
solo la perdita della semplicit interpretativa del risultato graco, ma anche
e soprattutto il fatto che parti consistenti della struttura risultano essere
sovradattate" ai dati (overtting); in altre parole, talune delle branche (segnatamente quelle terminali) riettono caratteristiche peculiari del campione
di apprendimento dovute alla procedura di raccolta dei dati, piuttosto che
riettere relazioni sottostanti realmente esistenti tra i predittori e la variabile
criterio. La semplicazione delle strutture ad albero si congura prevalentemente come rimedio al problema dell'overtting, conseguendo al contempo
anche l'obiettivo della riduzione della taglia che facilita l'interpretazione dei
risultati.
Quando si applica una metodologia ad albero a dati aetti da incertezza,
l'albero risultante tende ad essere molto grande ed inutilmente complesso nel
tentativo di sfruttare tutta la informazione disponibile nei dati per discriminare tra le unit, nendo, tuttavia, con lo spiegare l'insieme di apprendimento piuttosto che il fenomeno.
In particolare, occorre distinguere dati deterministici e dati aleatori o stocastici (uncertainty data). I primi sono caratterizzati dalla assenza di alea
nella determinazione della modalit di risposta ad essi associato, nel senso
che per ciascuna unit tale modalit completamente determinata sulla base
dei valori assunti dai predittori e si parla infatti di adeguatezza" degli stessi. In molti problemi reali invece, i dati presentano un grado di incertezza
che rende il problema della classicazione/predizione pi complesso. Diverse sono le fonti di incertezza. Usualmente, si fa riferimento ad errori di
misurazione, di trascrizione o di rilevazione in generale che costituiscono il
cosiddetto rumore (noise) ed ci che nelle indagini statistiche corrisponde
all'errore extra-campionario (che causa una divergenza delle stime ottenute
dal vero" valore, anche quando l'indagine e la conseguente analisi, avessero
natura esaustiva). Invero, un'altra importante fonte di incertezza la cosiddetta variazione residuale (residual variation), che dovuta alla omissione
di predittori signicativi e rilevanti per il fenomeno da spiegare, cos che i
predittori considerati risultano inadeguati per l'analisi statistica.
In conclusione, i metodi di semplicazione si preggono l'obiettivo di inviduare le branche meno rilevanti o addirittura dannose ai ni della comprensione del fenomeno, in quanto sovradattate ai dati, e di rimuoverle. Pertanto
il processo di pruning di una struttura ad albero pur accrescendo l'errore
rispetto al campione di apprendimento, si traduce nella riduzione dello stes124

so quando l'albero viene validato" sul test set, le cui unit non sono state
utilizzate nella fase di creazione della struttura, e di conseguenza per la
risoluzione di nuovi problemi decisionali.

9.3.4 Pruning selettivo del CART

La metodologia CART la prima a proporre il pruning degli alberi. Si tratta


di un metodo che genera una sequenza ottimale nidicata di sottoalberi
potati, tra i quali ne viene selezionato uno nale quale regola di decisione
per nuove unit. Questo metodo rimane a tutt'oggi quello maggiormente
impiegato nelle applicazioni perch senz'altro il pi completo, basandosi
esso sulla denizione di una misura che tiene conto sia dell'aspetto della
taglia che di quello della accuratezza.
Nel seguito, senza perdita in generalit, si far riferimento al problema
della classicazione. Si osservi che da ora in avanti saranno considerati solo
sottoalberi dell'albero massimo, cio che si dipartono dal nodo radice t1 .
Sia T una generica struttura ad albero, si denisce misura di costo complessit della struttura la seguente grandezza:
R (T ) = R(T ) + |T| =

r(h)p(h) + |T|

(9.16)

hHT

dove R(T ) il tasso (di risostituzione) di errata classicazione associato


all'albero T , |T| il numero di nodi terminali dell'albero T ed un numero reale maggiore od uguale a zero, detto parametro di complessit. Tale
parametro rappresenta una sorta di penalizzazione per la complessit che
viene misurata dal numero di nodi terminali ciascuno dei quali apporta al
tasso di errore una penalizzazione appunto pari ad .
Per ogni valore di si indichi con T () il pi piccolo sottoalbero dell'albero totalmente espanso Tmax che minimizza R (T ), ovvero:
R[T ()] = min R (T ),
T Tmax

(9.17)

dove T Tmax sta ad indicare che T un sottoalbero di Tmax . Quando il


parametro di complessit piccolo ci vuol dire che la penalizzazione per
avere un ampio numero di nodi terminali sar piccola anch'essa e dunque
l'albero T () sar grande. Tuttavia, al crescere di tale penalizzazione
aumenta e T () presenter un numero inferiore di nodi terminali, no a
giungere, per sucientemente grande, al solo nodo radice.
Sebbene il parametro di complessit possa assumere un qualunque valore
reale maggiore od uguale a zero, essendo i sottoalberi dell'albero totalmente
125

espanso Tmax in numero nito, il processo di pruning produce a sua volta


una sequenza nita di sottoalberi con un numero decrescente di nodi terminali. In altre parole, se T () il sottoalbero che minimizza la misura
di errore complessit, R (T ) per un dato valore di , esso continua ad esserlo al crescere di stesso no a quando non viene raggiunto un punto di
salto (jump-point), per un valore 0 maggiore di ed un nuovo sottoalbero
T (0 ), con un minor numero di nodi terminali, diventa quello che minimizza
la misura di costo-complessit.
La sequenza di sottoalberi potati viene generata partendo dall'albero massimo e procedendo di volta in volta tagliando la branca che si diparte dal nodo
che presenta il legame pi debole (weakest link) con l'intera struttura. La
individuazione del legame pi debole avviene proprio impiegando la misura
di costo complessit individuando i successivi punti di salto che dall'albero
massimo portano no alla radice t1 .
In altre parole, la procedura di potatura avviene nel seguente modo. Sia
1 = 0 e si considerino due generici nodi terminali dell'albero massimo, h
e h + 1, generati dalla suddivisione di un nodo interno t. Si dimostra che
vale la seguente relazione: R(t) R(h) + R(h + 1). Se risulta vericata
l'uguaglianza, allora i due nodi terminali vengono potati. Viene dunque effettuata una prima operazione di potatura rimuovendo tutti i nodi terminali
per cui si verica la medesima circostanza, ottenendo in tal modo un albero
T1 Tmax .
Sia ora t un generico nodo interno di T1 e sia inoltre Tt la branca che ha
come radice t. La misura di costo-complessit al nodo t data da:
R (t) = R(t) + = r(t)p(t) + ,

(9.18)

e analogamente per la branca Tt :


R (Tt ) = R(Tt ) + |Tt | =

r(h)p(h) + |Tt |

(9.19)

hHt

dove r() il tasso di risostituzione di errata classicazione, p() il peso del


corrispondente nodo e Ht l'insieme dei nodi terminali della branca Tt . Il
valore critico di si ottiene risolvendo la seguente disuguaglianza:
R (t) R (Tt ),

(9.20)

da cui si ha
t

R(t) R(Tt )
,
|Tt | 1

126

(9.21)

La (9.21) indica l'aumento di costo per nodo terminale quando si pota la


branca che si diparte dal nodo t. Pertanto, si sceglier di potare la branca che
comporter il minor costo. In pratica, l'algoritmo in CART calcola per ogni
nodo interno dell'albero il valore di che uguaglia la (9.20) e denisce legame
pi debole il nodo t che presenta il valore pi piccolo di tale parametro,
che viene posto pari ad 2 . Il nodo t costituisce il legame pi debole nel
senso che all'aumentare di il primo nodo per cui R (t) diventa uguale a
R (Tt ) e quindi il primo candidato ad essere potato. La procedura viene
ripetuta sull'albero T2 ottenuto rimuovendo la branca che discende dal nodo
t . Operando in tal modo si ottiene una sequenza decrescente (in termini di
taglia) di sottoalberi Tmax T1 T2 Tk t1 , corrispondente
ad una sequenza crescente di valori di , 0 = 1 < 2 < . . . . Occorre
sottolineare che tale sequenza ottimale nel senso che ottenuta ricercando
ad ogni passo di un algoritmo selettivo l'albero con il minore tasso di errore
per dato numero di nodi terminali.

9.3.5 Criteri di scelta dell'albero onesto


Una volta individuata la sequenza di sottoalberi si pone il problema di
scegliere la struttura nale da utilizzare come modello" di classicazione.
La regola di selezione proposta nel CART si incentra sulla scelta di quel sottoalbero dell'albero massimo che risulta essere pi accurato, a cui, in altre
parole, associata la minore stima del vero" tasso di errata classicazione.
Per quanto gi detto, se si utilizzasse come criterio di valutazione il tasso
di risostituzione verrebbe selezionato, ovviamente, il sottoalbero pi grande
T1 . Si ricorre quindi alla stima test set o cross-validation. Tuttavia, in esperimenti sia su dati reali che simulati si osservato che le stime del tasso
di errata classicazione R(Tk ) in funzione del numero di nodi terminali |Tk |
presentano un andamento caratterizzato da un rapido decremento iniziale
cui segue un tratto quasi piatto e poi un lento, graduale incremento per
valori di molto elevati. Essendo la curva nel complesso alquanto piatta, la
scelta del particolare sottoalbero che presenta il pi piccolo tasso di errata
classicazione pu essere arbitraria, perch il punto di minimo instabile e
piccoli cambiamenti nel valore dei parametri o addirittura nel numero casuale generato per suddividere l'insieme di apprendimento in V sottoinsiemi
nel caso della procedura cross-validation o in due sottoinsiemi nel caso di
stima test sample, possono causare ampie uttuazioni nel valore di |Tk | per
l'albero che minimizza il tasso di errore. Pertanto, nel CART proposta
una scelta del sottoalbero il cui tasso di errata classicazione si trova in un
127

intorno del minimo, intorno che viene individuato in base all'errore standard
di tale minimo.
Si consideri il caso della stima test set e sia C1 l'insieme di apprendimento impiegato nella costruzione di un generico albero T e C2 l'insieme test
che si assume essere estratto dalla stessa distribuzione di C1 ma in maniera
indipendente. La stima test set, Rts (T ), del vero" tasso di errata classicazione dell'albero T altro non che la proporzione di casi in C2 malclassicati da T . Siccome quando si fanno scivolare le osservazioni appartenenti
al test set nell'albero T , la stima della probabilit p che una singola osservazione risulti malclassicata data Rts (T ), possibile descrivere le N ts
prove indipendenti (dove N ts il numero di osservazioni in C2 ) con probabilit p di successo, mediante una variabile casuale binomiale relativa F
tale che:
(9.22)

E(F ) = p ,
p (1 p )
.
N ts
di Rts (T ) data

(9.23)

V ar(F ) =

Quindi la stima dell'errore standard


r
SE(Rts (T )) =

da:

Rts (T )(1 Rts (T ))


.
N ts

(9.24)

Indicando con Tk il sottoalbero appartenente alla sequenza generata tale


che:
Rts (Tk ) = min Rts (Tk ),
k

(9.25)

si sceglier il sottoalbero Tk , dove k il pi grande k (e quindi Tk il


pi piccolo albero) che soddisfa la relazione:
(9.26)
Tale criterio di scelta che prende il nome di 1 SE rule d luogo sovente
ad alberi di taglia n troppo piccola, cio viziato da over pruning (accade
addirittura che si ottenga l'albero triviale formato dalla sola radice o che si
pervenga ad alberi caratterizzati da una sola suddivisione); la scelta sic et
simpliciter del sottoalbero che presenta il minor tasso di errata classicazione,
pu essere invece ritenuta frutto di una 0 SE rule.
Ancora una volta importante sottolineare come le metodologie ad albero orano molti spunti di intervento al giudizio scientico del ricercatore
che eettua l'analisi che si traduce in tale caso nella ispezione sella sequenza
Rts Tk Rts (Tk ) + SE(Rts (Tk )).

128

di sottoalberi e nella eventuale scelta di un albero diverso da quelli corrispondenti alla 1 SE e alla 0 SE rule che meglio risponda alla natura
del problema e/o alle esigenze della analisi.
Inne, il metodo proposto nel CART pu essere agevolmente adattato al
caso in cui gli errori di classicazione abbiano un costo diverso, dipendente
dalle loro conseguenze, e/o al caso in cui le classi presentino una diversa
probabilit a priori.

9.4 Vantaggi dei metodi di segmentazione


In contrasto con i metodi classici, le metodologie ad albero presentano dei
notevoli vantaggi che si possono riassumere nei seguenti punti:

sono tecniche non parametriche che non abbisognano della specicazione di un modello;

orono la possibilit di utilizzare predittori di diversa natura;

danno luogo ad una rappresentazione graca di facile interpretazione


che consente di visualizzare con immediatezza le relazioni esistenti tra
variabile criterio e predittori.

Si potrebbe dire che tali metodologie rispondono ad un problema classico


della statistica senza presentare molti degli inconvenienti dei metodi classici
impiegati al medesimo scopo.

129

Capitolo 10

Market Basket Analysis


10.1 Premessa
La Market basket Analysis una metodologia orientata all'identicazione
delle relazioni esistenti tra un vasto numero di prodotti acquistati da dierenti consumatori in un particolare luogo, come ad esempio un punto vendita
della grande distribuzione. In questo ambito, i dati collezionati consistono
solitamente nell'insieme delle transazioni d'acquisto eettuate dai clienti in
un certo periodo. Le decisioni tipiche che il management di un supermarket
si trova ad arontare sono del tipo:

Quali prodotti porre in vendita?


Su quali prodotti focalizzare le oerte promozionali (punti, carte delity, etc.)?
Come ottimizzare il posizionamento dei prodotti negli scaali?

Queste scelte hanno tutte un unico obiettivo: massimizzare il protto. Oggi


grazie alla diusa informatizzazione dei punti vendita non raro che i dati
inerenti le vendite passate di un supermarket siano collezionati in database
in formato elettronico che consentono una facile ed immediata estrapolazione
della conoscenza. Ne deriva quindi che l'analisi delle informazioni passate
rappresenta una via agevole per migliorare la qualit di tali decisioni. Partendo dall'insieme delle transazioni, l'obiettivo principale dell'analista quello di porre in evidenza la struttura di interdipendenza sottostante le vendite
dei diversi prodotti disponibili. La corretta identicazione ed estrapolazione
delle regole signicative tra tutte le possibili regole che possono essere generate da un dataset condizionata alla disponibilit di un considerevole
130

quantit di informazioni che permettano di identicare i clienti e seguire


l'evoluzione dei loro acquisti nel corso del tempo.

10.2 I Dati
La base di dati a cui si fa generalmente riferimento in questo tipo di analisi
una matrice in cui ogni riga rappresenta una transazione eettuata da un
cliente in un dato momento (detta basket). Tale transazione include l'insieme di prodotti che il cliente ha acquistato e che quindi sono presenti nel
suo basket. Nelle colonne della matrice sono indicati i prodotti (detti item)
attraverso l'us1o di variabili binarie che registrano l'assenza o la presenza di
un determinato item in una particolare transazione (0=assenza, 1=presenza). La matrice che segue ne un esempio:

Transazioni Pane Burro Ca Zucchero

Transazione 1
Transazione 2
Transazione 3
Transazione 4
Transazione 5
Transazione 6
Transazione 7
Transazione 8
.............

1
1
0
0
1
0
0
1
...

0
1
0
0
1
1
0
0
...

0
1
1
0
0
0
1
1
...

1
0
1
1
1
0
0
0
...

Osservando la matrice nell'esempio possiamo aermare che la prima transazione


include pane e zucchero mentre la seconda include pane, burro e ca etc..

10.3 La Market Basket Analysis attraverso le Regole Associative


La ricerca di regole di associazione all'interno di un Database di transazioni
stata introdotta per la prima volta nel 1993 da Agrawal, Imielinski e Swami.
Le regole associative possono considerarsi come particolari tecniche di data
mining proposte per la risoluzione di problemi di Market Basket Analysis .
L'obiettivo principale quello di identicare set di attributi, denominati
items, che frequentemente ricorrono insieme e formulare regole che caratterizzano la relazione esistente tra items. Nel caso della Market Basket Analysis
gli items sono prodotti acquistati dai consumatori ed ogni transazione pu
131

riguardare pi items.
Supponiamo di trovarci in un supermercato dove ogni singola transazione effettuata da un acquirente viene registrata in un database. Ogni transazione
caratterizzata da una serie di attributi acquistati da un consumatore in una
visita. Potremmo quindi avere un'insieme di attributi I = formaggio, pane,
latte, burro, marmellata ed una qualsiasi transazione potrebbe riguardare
l'acquisto di formaggio e pane oppure burro e marmellata o solo burro e cos
via.
L'obiettivo quello di identicare la combinazione di prodotti che frequentemente ricorrono insieme in modo da generare regole che possano rappresentare questa relazione. Una regola di associazione potrebbe quindi essere
la seguente:
pane burro

dove pane l'antecedente della regola e burro il conseguente. Il problema


pu essere cos formalizzato: considerato un insieme di m distinti attributi
chiamati items I = I1 , I2 , ....., Im ed un database di transazioni T dove ogni
transazione t un insieme di attributi contenuto in I in modo tale che t I
e vi un unico identicatore associato ad ogni transazione.
Dato un attributo Ix I , una transazione t contiene Ix se e solo se Ix t.
Una regole di associazione un'implicazione del tipo Ix Iy , dove {Ix , Iy }
I e Ix Iy = . Una regola Ix Iy confermata nel database che contiene
Ix contiene anche Iy 1 .
Mentre ha supporto s se l's% delle transazioni nel database contiene Ix e Iy .
In termini formali quindi data una regola Ix Iy si denisce supporto della
regola:
Sup (Ix Iy ) = P (Ix Iy )

(10.1)

Conf (Ix Iy ) = P (Iy |Ix )

(10.2)

e condenza:

In maniera sintetica si potrebbe dire che mentre la condenza misura la forza


della regola, il supporto ne misura la signicativit statistica.
Ritornando all'esempio precedente possiamo aermare che la regola:
pane burro
1

Agrawal, R., Imielinski, T., Swami, A. (1993)


132

ha supporto del 56% ed una conndeza del 72%. Ci'indica che il 56% delle
transazioni che avvengono riguarda l'acquisto di pane e burro e il 72% di che
acquista pane acquista anche burro.
Dato un set di transazioni T, noi siamo interessati a generare tutte le regole
che soddisfano due tipi di condizioni:

Vincoli Sintattici.

Vincoli sul Supporto.

Questi vincoli interessano restrizioni sugli items che compaiono nella


regola. Per esempio, potremmo essere interessati unicamente alle regole che comprendono uno specico item Ix tra quelli conseguenti o
per converso le regole che comprendono uno specico item Iy tra gli
antecedenti. La combinazione di queste condizioni anche possibile.

Questi vincoli concernono la misura minima del supporto che una regola deve avere per essere considerata utile. Le motivazioni di un vincolo
sul supporto sono da ricercarsi sia nel signicato statistico dello stesso sia nel fatto che solitamente siamo interessati a regole che abbiano
un supporto tale da reputarsi meritevoli di attenzione nell'ottica del
business.

Il problema della ricerca delle regole (rule


due fasi:

mining) pu essere scomposto in

Il Primo passo, per la ricerca di regole di associazione di un database di


transazioni, consiste nel trovare tutti gli insiemi di attributi (itemsets)
che rispondono ai vincoli sintattici e di supporto. In particolare si indica con minsup la misura minima del supporto stabilita dall'analista in
base alle esigenze del problema e alle conoscenze a-priori. Gli itemsets
che hanno un supporto maggiore del minsup e che risultano ammissibili
rispetto ai vincoli sintattici prendono il nome di large itemsets.

Il successivo passo consiste nel creare le regole di associazione tra large


itemsets. L'idea generale che per un dato itemset Iy = I1 , I2 , ..., Ik
con k 2 , vengono generate tutte le regole che usano items dall'insieme I. L'antecedente di ognuna di queste regole sar dato da un
sotto insieme Ix di Iy dove Ix composto da k 1 items mentre il
conseguente sar l'itemset Iy Ix . Ne deriva che per generare una regola del tipo Ix Ij |c dove Ix = I1 , ..., Ij 1 , Ij +1 , ..., Ik la regola sar
quella di dividere il supporto di Ix per il supporto di Iy :
sup(Iy )
c
sup(Ix )

133

(10.3)

se tale rapporto sar pi grande di c allora si dir che la regola soddisfa


il fattore di condenza c. Tale fattore di condenza rappresenta la
condenza minima del processo di generazione delle regole e si indica
con minconf.

10.3.1 Algoritmi di identicazione deilarge itemsets


In questo paragrafo, sono considerati vari tipi di algoritmi che hanno come
scopo comune quello di identicare i large itemsets, cio quegli items che si
presentano con un supporto maggiore o uguale a quello stabilito da colui che
eettua l'analisi. Questi large itemset sono successivamente utilizzati per la
formazione di regole di associazione.
La struttura generale degli algoritmi per la determinazione di large itemset
si basa su numerosi step da eettuare sul database. Il primo passo consiste
nel calcolare il supporto di ogni singolo attributo. Verranno considerati large
itemsets solo quelli che avranno il supporto maggiore del minsup. Nei successivi passi tutti i grandi itemsets saranno usati per generare i nuovi potenziali
grandi itemsets chiamati candidate itemsets.
Ad ogni candidato viene associato un contatore, il quale viene aggiornato
ogni volta che riesaminando il database si presenta il candidato. Nel passaggio successivo i nuovi grandi itemsets verranno riutilizzati, e questo processo
verr ripetuto nch non vi saranno pi nuovi grandi itemsets da trovare nel
database esaminato.
L'algoritmo procede secondo i segueti passi:
1. si determinano i primi large itemsets cio i singoli items che hanno
supporto maggiore della soglia pressata.
2. dai large itemsets cos individuati si generano i candidate items che
diventano i nuovi large itemsets solo se il loro supporto sar superiore
al minsup.
3. l'algoritmo torna al passo 2. no a che non vi siano pi regole da
esplorare.
L'idea di questo algoritmo nasce dalla constatazione che se un itemset ha
un supporto inferiore al minsup allora l'eventuale regola generata da questo
avr anch'essa supporto inferiore al minsup. Ad esempio se l'itemset {A,B}
ha supporto inferiore al minsup un itemset {A,B,C} dovr necessariamente
essere ancora una regola non interessante. L'implementazione dell'algoritmo
consente un guadagno in termini computazionali enorme in quanto elimina
la necessit di investigare tutte le possibili regole focalizzando l'attenzione
134

su un sottoinsieme di itemsets interessanti che man mano viene potato.


Esistono numerosi algoritmi proposti in letteratura e i quali dieriscono unicamente per la diversa implementazione dell'idea appena esposta. Tra gli
altri si ricordano l'algoritmo a-priori , l'algoritmo a-priori TID, l'algoritmo
AIS, la Subset Function2 e l'algoritmo SETM3 .

10.3.2 La formazione delle regole di associazione


Una volta generati, con l'aiuto degli algoritmi, tutti i possibili large itemset
presenti in un database di transazioni, questi verranno utilizzati per la formazione di regole di associazione4 .
Inoltre il supporto di ogni Ix di Ix sempre maggiore o al massimo uguale
a Ix . Quindi, la condenza della regola Ix (Iy Ix ) non pu essere maggiore della condenza Ix (Iy Ix ) . Se Ix non produce una regola che
coinvolge tutte gli items in Iy con Ix come antecedente neppure Ix lo far.
Quindi per una regola Ix (Iy Ix ) che confermata nel database, tutte
le regole di forma Ix (Iy Ix ) devono essere confermate, sempre ch Ix
non un sottoinsieme vuoto di Ix .
Per esempio se la regola {A, B} {CD} confermata, anche le regole
{A, B, C} {D} ed {A, B, D} {D} devono essere confermate. Questa
caratteristica simile alla propriet che se un itemset large allora lo sono
anche tutti i suoi sottoinsiemi. Da un large itemset Iy , quindi, si generano
tutte le regole con un item in conseguenza. Vengono quindi usate le parti
conseguenti di queste regole per generare tutte le conseguenti possibili con
due items che possono apparire in una regola generata da T. In sintesi si
pu dire che la tipica procedura di rule mining consiste nel generare tutte le
possibili regole con supporto e condenza minima, per esempio:

XY

P (X Y ) minsup
P (Y |X ) minconf

(10.4)

Questo modo di procedere potenzialmente esplosivo per il numero di regole


che possono essere generate anche attraverso gli algoritmi di ottimizzazione
prima menzionati. Negli ultimi anni sono stati quindi sviluppati alcuni algoritmi che hanno il compito di ltrare le regole interessanti attraverso un
processo di pruning (potatura). A tal ne alcune misure del grado di interesse delle regole sono state introdotte in letteratura da Srikant e Agrawal
(1995), e Bayardo e Agrawal (1999). Queste misure non sono altro che una

R.Agrawal, H.Mannila, R.Srikant, H.Toivonen e A.I.Verkamo, 1996


Houtsma e Swami, 1993
4
Agrawal, R., Imielinski, T., Swami, A. 1993
2
3

135

variazione dei test statistici che impiegano la distribuzione normale o quella


del 2 .

10.4 I modelli graci per la Market Basket Analysis


Le regole di associazione, proposte da Agrawal ed altri per la prima volta nel
1993, sono divenute un buon metodo per la ricerca di associazioni attraverso
l'esplorazione di variabili.
Uno dei problemi di queste tecniche l'enorme ammontare di regole che si
generano durante il processo di ricerca. Infatti, la tipica procedura di mining di associazioni tra variabili quella di generare "tutte" le possibili regole
che abbiano un supporto ed una condenza maggiore rispetto a quella minima stabilita da chi eettua l'analisi. Nei tempi pi recenti l'attenzione dei
ricercatori si quindi concentrata sulla implementazione di tecniche grache
in grado di visualizzare un notevole insieme di regole di associazione senza
perdere le informazioni necessarie per spiegare i risultati. Di particolare interesse in quest'ottica sono gli approcci proposti da Hofman-Wilhem e da
Passeroni-Giudici i quali propongono due metodi graci che utilizzando i
colori come informazione (il primo) e la tecnica dei gra non orientati (il
secondo) consentono di superare la barriera delle tre dimensioni tipica degli
approcci graci classici.

10.4.1 Comparazione visiva delle regole

Nell'articolo intitolato Visual comparison of Association Rules del 2000,


Heike Hofman e Adalbert Wilhem propongono una via graca per la comparazione e la scelta delle regole associative attraverso la formulazione di un
nuova tecnica graca e l'introduzione di una misura di ecienza delle regole di associazione denominata doc. L'idea quella di poter usare tecniche
di visualizzazione per mostrare la qualit delle regole di associazione e di
utilizzare queste tecniche come strumento di pruning (potatura) attraverso
l'analisi della condenza e del supporto utilizzate come misure di qualit
delle regole di associazione.
Hofman e Wilhem illustrano la loro procedura utilizzando un esempio di
Market Basket Analysis. Il dataset analizzato proviene da "SAS Enterprise
Miner". Questo dataset contiene le rilevazioni riguardanti il comportamento di acquisto di 1001 consumatori rispetto a 20 items. Nella gura 13.1
si mostra un tipico graco per la visualizzazione di regole di associazione.
Questo esempio stato tratto da SAS Enteprise Miner. Esso mostra 15 regole in una matrice, dove ogni riga corrisponde alla parte sinistra della regola
136

(antecedent) ed ogni colonna alla parte destra della regola (conseguent). Ogni regola, che soddisfa il minsup e la minconf visualizzata nella gura come
un quadrato. Le dierenti tonalit di colore dei quadrati sono assegnate a
secondo del grado di condenza della regola; nella gura la condenza varia
tra il 99.01% (giallo) al 100% (rosso). La misura del quadrato invece assegnata in base al supporto della corrispondente regola, in modo che l'area
del quadrato proporzionale al supporto della regola.

SAS Enterprise Miner: visualizzazione delle 15 regole


di associazione che presentano una condenza minima superiore al
99%.
Figura 10.1:

Questo tipo di visualizzazione risulta problematica quando ad esempio


due regole come:
{Tacchino, aringa, cereali al manzo} olive
{Prosciutto, cereali al manzo, mela} olive
hanno un supporto dell'11,19% e del 3,1% rispettivamente.
Vi sono dei problemi legati al passaggio dal dataset alla rappresentazione
graca. Questi problemi sono dovuti all'approssimazione che i valori dei
fattori devono subire per essere rappresentati gracamente. Ad esempio il
valore 3.1 della regola approssimato a 4 poich le aree si dierenziano con
137

un fattore di 16. Questa dierenza di eetto all'interno dei dati e all'interno della rappresentazione graca stata menzionata spesso nella letteratura
delle tecniche di visualizzazione ed stata denominata lie-factor da Tufte
nel 1983.
Un altro software di Data mining in commercio, "The Intelligent Miner" dell'IBM, mostra varie possibilit di visualizzazione di regole di associazione.
La gure 13.2 e 13.3 mostrano due delle possibilit di visualizzazione di regole formate da due items.
Il graco 13.2, simile all'approccio del SAS Enterprise Miner (vedi gura
13.1), mostra una matrice di regole ognuna con due items, in cui i colori
denotano dierenti livelli di condenza.
Il graco 13.3 ragura le stesse regole, e diversamente dal graco precedente
le regole sono costruite come barre a partire dalla matrice di tutte le combinazioni della struttura. L'altezza di ogni barra indica la condenza ed il
colore il supporto. Molti approcci hanno in comune la visualizzazione in 2
o 3 dimensioni anche la terza dimensione non sempre necessaria; infatti
altre tecniche di visualizzazione pur utilizzando sole 2 dimensioni riescono a
visualizzare ugualmente un gran numero di regole.
Hofman e Wilhem dimostrano come le dimensioni a disposizione possano
essere usate in modo diverso e pi eciente.

10.4.2 Lo Scatterplot

La condenza ed il supporto possono essere visualizzati utilizzando uno scatterplot. Anche se appare piuttosto semplice come idea di analisi, non mai
stata approfondita in precedenza.
In questi scatterplots tutti i punti si presentano sui raggi che partono dall'origine (vedi gura 13.4).
La ragione molto semplice. Considerata Ix Iy come regola di
associazione , dato:
conf (Ix Iy )
P (Iy |Ix )
1
=
=
sup(Ix Iy )
P (Ix Iy )
P (Ix )

(10.5)

ad esempio per ogni lato sinistro della regola X, c' una linea retta, sulla
quale tutti i punti della regola Ix Iy appaiono con condenza crescente
(partendo dall'origine). Il confronto diretto tra le regole che giacciono su
linee orizzontali in questo modo possibile: se due regole hanno la stessa
condenza quella con supporto maggiore migliore rispetto all'altra.
Lo stesso vale per due regole che hanno supporto uguale ma condenza diversa. Si possono accettare regole che cadono in un rettangolo connato
138

Rappresentazione graca di una matrice di regole ognuna


con due items, in cui i dierenti colori rappresentano diversi gradi di
condenza (The Intelligent Miner IBM software).
Figura 10.2:

tra la minconf e il minsup (vedi gura 13.5) oppure come indicato al centro
della gura, possono essere scelte diverse aree di accettazione dove un basso
supporto pu essere bilanciato da un alta condenza e viceversa.
Usando metodi di elezione interattiva e collegandoli si possono avere molte
pi scelte per i criteri di accettazione, ognuno dei quali pu essere pi sensibile nello sfondo dell'applicazione specica.
Nella realt le regole con elevata misura della condenza e del supporto non
sono molto interessanti perch la loro conoscenza gia implicita per il ricercatore e soprattutto per chi interessato ai risultati dell'analisi. Questo il
motivo per cui spesso molto pi interessante focalizzare l'analisi su livelli
di supporto e condenza medi che potenzialmente riguardano regole ad alto
valore aggiunto per il management della grande distribuzione (parte destra
della gura 13.5).
139

Rappresentazione graca a barre di una matrice di regole (


The Intelligent Miner IBM software).
Figura 10.3:

10.4.3 Il Doubledecker Plot

Hofman, Siebes e Wilhelm (2000) hanno proposto graci a mosaico (mosaic


plot) per visualizzare tutte le possibili combinazioni di variabili esplorative
coinvolte in una regola.
Attraverso il disegno di diagrammi nei quali all'itemset Iy , parte susseguente
della regola, assegnata una maggiore intensit di colore all'interno di ogni
barra, il graco a mosaico consente la rappresentazione simultanea di un elevato numero di regole formate di volta in volta da dierenti associazioni.
Il supporto di una regola di associazione rappresentato dall'area evidenziata nella barra corrispondente, la sua condenza invece pu essere dedotta
dalla proporzione dell'area evidenziata sull'area totale della stessa. Usando
una dierente disposizione per le barre, i graci a mosaico possono essere
convertiti in un graco a due piani con il quale fare possibili classicazioni e
nei quali la condenza di una regola data dall'altezza dell'area evidenziata
in una barra .
Nelle gure 6 e 6 sono dati due esempi di doubledecker plot, che corrispondono rispettivamente ad una regola di associazione forte e debole.
da notare che entrambi le regole hanno approssimativamente la stessa
condenza e supporto, come pu vericarsi dalla seguente tabella:
140

Figura 10.4:

Scatterplot.

Supporto e condenza sono rappresentati utilizzando uno


Regola

{Heineken, Coca-cola, Pollo} {Sardine}


{Soda, Cracker, Olive} {Heineken}

Condenza Supporto
98.31
96.83

11.59
12.18

la gura 13.6 mostra la regola {Heineken, Coca-cola, Pollo} {Sardine},


che considerata una regola forte (quella a destra del graco) perch, come si
pu notare dall'osservazione della barra corrispondente, viene rappresentata
con una piena evidenziazione del colore.
Tutte le barre rappresentate nella gura 13.7 descrivono parte degli acquirenti di heineken. Come si pu osservare ognuno dei contenitori mostra un ampia
area di colore evidenziato.
Confrontando le aree di colore evidenziato dei contenitori con quella del
contenitore che rappresenta la regola {Soda, Cracker, Olive} {Heineken}
(destra della gura), si pu notare che l'ampiezza delle aree evidenziate nelle
barre sono simili tra loro, quindi la regola non in grado di poter apportare
nessuna particolare informazione per la descrizione della sottopopolazione di
acquirenti di heineken.
Questo indica che {Soda, Cracker, Olive} {Heineken} una regola debole.

141

Sono rappresentati due diversi criteri di accettazione: a


sinistra, la condenza minima ed il supporto minimo sono usati come
limiti inferiori dell'aria di accettazione mentre possibili alternative di
accettazione sono rappresentate a destra della gura.
Figura 10.5:

Il doubledecker plot mostra una forte associazione tra


{heineken, coca-cola, pollo} {sardine}.
Figura 10.6:

10.4.4 Una misura del grado di interesse delle regole: Differenze of Condence (DOC)
Le regole di associazione tendono a preferire item con elevate frequenze.
Questo implica che per un item Iy , che eccede la minima condenza, una
regola di associazione potrebbe essere generata nch le intersezioni Ix Iy
superano il minimo supporto.
Cos una regola Ix Iy , se basata solo sul fatto che P (Iy ) grande, non
pu ritenersi attendibile poich Ix e Iy potrebbero essere prossimi ad una
situazione di indipendenza statistica. Comparando la condenza di una regola di associazione con quella di una regola che coinvolge gli stessi items ma
dove l'antecedente stato generato casualmente possibile misurare di quanto l'item Ix (antecedente) contribuisce alla predizione di Iy (conseguente).
Da questa idea trae ragione la misura Dierence of Condenze (DOC). La
142

Il doubledecker plot mostra una regola associazione debole tra


{cracker, soda, olive} {heineken}.

Figura 10.7:

dierenza di condenza
denita:

doc per le regole

Ix Iy

e Ix Iy sar cos

doc(Ix Iy ) = [conf (Ix Iy ) conf (Ix Iy )]

(10.6)

La doc pu anche essere denita nel seguente modo:


doc(Ix Iy ) =

P (Ix Iy ) P (Ix ) P (Iy )


P (Ix ) P (Ix )

(10.7)

Inoltre, si dimostra che il prodotto doc(Ix Iy ) (Ix Iy ) si approssima ad una distribuzione 2 . La misura doc pu essere visualizzata attraverso
l'impiego di un doubledecker plot.

Il supporto di Ix Iy direttamente proporzionale alla parte di colore


accentuata all'interno del rettangolo, come si pu notare dal doubledecker
143

plot, mentre la sua altezza indica la condenza di Ix Iy .


Nello stesso modo supporto e condenza della regola Ix Iy sono rappresentate nella parte sinistra del doubledecker plot. La dierenza tra le due
condenze rappresenta il doc.
La signicativit della misura doc pu essere valutata attraverso un test
statistico. Infatti poich il doc(Ix Iy ) = P (Iy |Px ) P (Iy |Ix ), pu essere
utilizzato un test di d'ipotesi per vericare se la dierenza tra le due probabilit signicativa.
Si considerino e p1 = conf (Ix Iy ) e p2 = conf (Ix Iy ), come le frequenze rispettivamente di Ix e Ix . In un test per la verica del doc pu
essere formulato attraverso le seguenti ipotesi:
H0 : doc = 0
H1 : doc > 0

La statistica test impiegata :


p1 p2
T1 = p

p(1 p)

n1 n2
n1 + n2

(10.8)

che si approssima ad una distribuzione normale se n1 e n2 sono sucientemente grandi. La statistica cos costruita coincide con quella proposta da
Piatetsky-Shapiro (1991). Strikant e Agrawal (1995) hanno dimostrato che
solo approssimativamente l'1% di tutte le regole trovate sono rigettate da
questa statistica test.
Questo risultato fortemente dipendente sia dalla specica applicazione, che
dalla scelta della condenza e del supporto minimo. Pi alti sono i valori
della minima condenza e del minimo supporto, minore risulta la probabilit
che una regola sia rigettata nell'ottica di questo test. Per ottenere quindi un
valore alto del doc si deve accrescere il valore della condenza e del supporto,
ma cos facendo non si ottengono i risultati desiderati, in quanto le regole
che presentano un supporto e una condenza alte sono regole gi conosciute
dall'analista.

10.4.5 La matrice graca delle regole


L'idea di base per un altro approccio graco la visualizzazione di una
singola regola di associazione non pi utilizzando come forma geometrica
un quadrato ma un rettangolo. Ci permette cos di poter usufruire di una
dimensione supplementare.
Il supporto e la condenza di una generica regola Ix Iy possono essere
visualizzati attraverso dei rettangoli cos come indicato nella gura 13.8.
144

Figura 10.8:

rettangolo

Visualizzazione di supporto e condenza attraverso il

In tale rappresentazione:

L'area del rettangolo pari al supporto sup(Ix Iy ). Infatti:


sup(Ix Iy ) = P (Ix Iy ) = P (Ix ) P (Iy |Ix )

(10.9)

L'altezza del rettangolo corrisponde al sup(Ix ), quindi la sua dimensione pari a:


P (Ix Iy )
= P (Iy |Ix )
(10.10)
P (Ix )

cio alla condenza della regola Ix Iy .


Hofman e Wilhem tracciano una matrice di tutte le possibili regole
formate da due items per volta e in cui la forza e la signicativit della
regola appare immediatamente identicabile grazie alla forma dei rettangoli. Questa matrice graca consente inoltre di avere un'immediata
visione e quindi un intrinseco confronto simultaneo di un numero elevatissimo di regole (vedi gura 13.9).
Quello che si cerca analizzando il graco sono dei rettangoli relativamente grandi, corrispondenti ad un ampio supporto (l'area), che allo
stesso tempo abbiano una base di misura elevata cio con consistente
condenza.
Analizzando la matrice, i rettangoli che appaiono lungo la diagonale corrispondono al supporto di tutte i singoli items, in quanto rappresentano la
combinazione di ogni item con se stesso. Quindi gli elementi della diagonale
possono essere utilizzati solo per misurare la frequenza e non per misurare
una regole di associazione. Sfruttando uno o pi colori per evidenziare i rettangoli si possono ottenere matrici che considerano regole con un numero di
items maggiore di due (vedi gura 13.10).
145

Matrice di tutte le possibili regole di associazione (con 2


items) provenienti dal dataset accos (SAS software).
Figura 10.9:

Matrice di tutte le regole di associazione visualizzate attraverso l'uso del colore evidenziato. Questo ultimo rappresenta la
combinazione di {coca-cola, gelato}.
Figura 10.10:

La gura mostra una matrice di tutte le possibili regole di associazione


formate dalla combinazione di due items, come nella gura 13.9; ad essa
vengono per aggiunte attraverso l'utilizzo di un area evidenziata in rosso
tutte le transazioni che un includono un particolare itemset (nell'esempio
{coca-cola, gelato}).

10.5 L'approccio dei Gra


Giudici e Passerone (2000) propongono un approccio alternativo per la generazione e la visualizzazione delle regole attraverso l'impiego di una metodologia che si fonda sulla teoria dei gra. Viene inoltre proposta una misura
dell'importanza di una regola, l'odds ratio, alternativa alle misure di supporto e alla condenza introdotte da Agrawal e altri (1993).
Secondo questo approccio l'analisi prende corpo principalmente attraverso le
seguenti fasi:
146

a) La costruzione degli odds ratios;


b) La rappresentazione graca delle regole;
c) La potatura delle regole.

10.5.1 Gli odds ratio


Partendo da una matrice di dati del tipo transazioni (le righe) per items (le
colonne) tipica di un problema di Market Basket Analysis si costruiscono
tutte le possibili tabelle di contingenza tra gli items:

Siano IA e IB due items, si denisce odds il rapporto:


i =

1|i
2|i

(10.11)

con i=1,2 e dove 1|i e 2|i sono le frequenze condizionate di riga. Nella
costruzione degli odds possono impiegarsi anche le frequenze condizionate
di colonna in quanto il diverso punto di vista da cui si parte non cambia il
risultato dell'analisi. L'odds pu assumere qualunque valore non negativo
inoltre immediato osservare che un i > 1 star ad indicare una maggiore
propensione dei consumatori alla acquisto del prodotto IB (data la risposta
i del prodotto IA ) mentre per converso un i < 1 indicher una maggiore
propensione verso il non acquisto di IB . Inne un i = 1 indicher un
indierenza nella scelta di IB (sempre data la risposta i del prodotto IA ). Si
denisce odds ratio il rapporto tra gli odds:
1
2

(10.12)

1|1 2|2
1|1 /2|1
=
1|2 /2|2
1|2 2|1

(10.13)

da cui deriva che:


=

L'odds ratio assume valori non negativi e la sua distanza dall'unit misura
la forza del legame esistente tra gli items IA e IB . L'ultima formula chiarisce
147

come in pratica il considerare le frequenze condizionate di riga o di colonna


sia indierente in quanto il calcolo di si riduce alla determinazione del rapporto tra i prodotti delle frequente delle risposte concordi (entrambe assenza
o presenza del prodotto) e i prodotti delle risposte discordi.

10.5.2 Costruzione del Modello Graco


La teoria dei modelli graci pu essere considerata una variante delle tecniche di modellizzazione statistica tradizionali che impiega oggetti, chiamati
"Gra", per rappresentare il modello. Questo approccio trae origine dagli
studi sulla "Path Analysis" (Wright, 1921) e dai successivi sviluppi dovuti a
Darroch, Lauritzen e Speed (1980) e Lauritzen e Wermuth (1989). Il concetto di indipendenza e in particolare quello di indipendenza condizionata
alla base della teoria dei modelli graci. Un grafo, G = (V, E) un oggetto costituito da un insieme nito V di vertici (chiamati anche nodi), e un
insieme nito E di archi che collegano questi vertici. I gra possono essere
rappresentati attraverso diagrammi come nella gura 13.11.

Esempio di un grafo che presenta quattro items qui indicati


con le lettere maiuscole (W , X , Y e Z ) e gli archi che ne rappresentano
le relazioni.
Figura 10.11:

I cerchi indicano gli items mentre le linee che collegano questi ultimi rappresentano gli archi cio il legame tra gli items.
148

I Gga possono essere: non orientati, orientati e a catena. Giudici e Passerone


fanno riferimento in questo approccio ai gra non orientati in cui la relazione
tra due nodi, misurata dall'odds ratio tra i due items ed espressa da un arco,
non ha una direzione.

10.5.3 I Gra Descrittivi


Una volta computati gli odds ratios per tutte le possibili tabelle di contingenza tra gli items si procede alla costruzione del grafo attraverso la rappresentazione delle relazioni signicative (vedi gura 13.12).
La signicativit di una relazione, cio della misura dell'odds ratio, valutata attraverso la costruzione di un intervallo di condenza dell'odds stesso.
La relazione considerata signicativa se tale intervallo non contiene 1 (cio
la condizione di indipendenza 1 = 2 = 1). Il passo successivo
quello di semplicare la struttura associativa attraverso una potatura delle
relazioni tra gli items. In particolare si pu disegnare un grafo riportando
unicamente le relazioni "importanti" ritenendo tali quelle che hanno un odds
ratio superiore ad una certa soglia k. La gura 13.13 un esempio di potatura in cui sono riportate unicamente le relazioni signicative e con un odds
ratio superiore a 5.

Grafo delle relazione signicative tra 26 prodotti alimentari


(dati AC Nielsen, 1997).
Figura 10.12:

149

Grafo delle relazione signicative tra 26 prodotti alimentari


con odds ratio maggiore di 5 (dati AC Nielsen, 1997).
Figura 10.13:

10.5.4 I Modelli Graci Inferenziali


Da un'analisi dei gra descrittivi possibile individuare delle categorie di
prodotti (gruppi di transazioni) e su ognuna di esse costruire un modello Loglineare. Inoltre adottando una procedura forward di selezione delle variabili,
l'analisi si sviluppa partendo dal modello di indipendenza e complicandolo
via via no al modello saturato in cui sono presenti tutti gli archi. La
scelta del modello da adottare avviene attraverso il test sul rapporto delle
verosimiglianze.

10.5.5 Alcune considerazioni


Nell'approccio di Giudici e Passerone interessante il modo con cui le informazioni esterne sono introdotte nella loro analisi. In particolare al ne
di considerare gli eetti delle promozioni (poste in essere dalla grande distribuzione) sulla vendita dei prodotti e quindi sulle scelte dei consumatori,
gli autori decidono di impiegare delle variabili binarie (assenza o presenza
di promozione) in modo da evidenziare (attraverso gli odds ratio e i gra) i
legami tra tali pseudo-prodotti e i prodotti osservati nel dataset. Si eviden150

ziano in questo modo le promozioni che hanno un reale eetto sulle vendite,
e i prodotti che ne sono inuenzati (sia essa un'inuenza positiva, aumento
del volume di vendita, sia essa negativa, non aumento del volume di vendita).
L'impiego nel futuro dei gra orientati per rappresentare le relazioni tra items
appare essere la logica conseguenza del percorso intrapreso dagli autori. Si
auspica quindi uno spostamento dell'attenzione della ricerca dalle regole di
associazione verso le regole di sequenza in cui il legame tra gli items di
tipo predittivo e quindi presentano un'utilit maggiore per i manager della
grande distribuzione che sono i fruitori ultimi dei risultati di una Market
Basket Analysis.

151