Sei sulla pagina 1di 216

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/249657088

Scelte di trasporto e modelli a scelta discreta

Book · January 2011

CITATIONS READS

6 1,844

1 author:

Edoardo Marcucci
Università Degli Studi Roma Tre
81 PUBLICATIONS   1,105 CITATIONS   

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

CITYLAB City Logistics in Living Laboratories View project

urban freight transportation View project

All content following this page was uploaded by Edoardo Marcucci on 07 February 2014.

The user has requested enhancement of the downloaded file.


A Riccardo ed Emanuela

Macbeth: Act 3, Scene 2

LADY MACBETH
Nought’s had, all’s spent,
Where our desire is got without content;
‘Tis safer to be that which we destroy
Than by destruction dwell in doubtful joy.
6
Indice

Elenco delle tabelle 9

Elenco delle figure 11

Ringraziamenti 15

Presentazione di Enrico Musso 17

1 Introduzione 21
1.1 La relazione tra le scelte di trasporto e i modelli a scelta discreta 21
1.2 Che cosa si cerca di fare in questo libro e che cosa è lecito
attendersi 22
1.3 Cosa c’è in questo libro e come è strutturato 23

2 I modelli a scelta discreta 27


2.1 Introduzione 27
2.2 Una retrospettiva storica 29
2.3 I fondamenti teorici 35
2.4 I modelli di scelta probabilistica 37
2.4.1 Modelli con regola decisionale stocastica 38
2.4.2 Modelli con utilità stocastica 44
2.5 Le componenti strutturali 49
2.5.1 Il decisore 49
2.5.2 L’insieme di scelta 50
2.5.3 Gli attributi 52

7
2.5.4 Le regole decisionali 52
2.6 Conclusioni 53

3 I modelli in forma chiusa 55


3.1 Introduzione 55
3.2 Descrizione generale e forma funzionale 56
3.2.1 La matrice di varianza - covarianza dei residui aleatori 59
3.2.2 Le ipotesi sul termine deterministico e su quello di
errore 60
3.3 Il modello logit multinomiale 66
3.3.1 Le probabilità di scelta 67
3.3.2 Punti di forza e di debolezza del MNL 71
3.3.3 Surplus del consumatore, derivate ed elasticità 74
3.3.4 Stima e test della bontà del modello 77
3.3.5 Una applicazione del MNL: la qualità nel TPL 82
3.4 Il modello Generalized Extreme Value 88
3.5 Il modello logit nidificato 92
3.5.1 Le probabilità di scelta 93
3.5.2 Stima e test della bontà del modello 100
3.5.3 Evoluzioni del NL 103
3.5.4 Una applicazione del NL: la scelta modale 111
3.6 Conclusioni 117

4 I modelli in forma aperta 119


4.1 Introduzione 119
4.2 Il campionamento dei termini di errore 126
4.2.1 Il campionamento da densità univariate 127
4.2.2 Il campionamento da densità multivariate 129
4.3 La massimizzazione numerica 137
4.3.1 L’approssimazione polinomiale 138
4.3.2 Il line search 138
4.3.3 Il metodo della massima ascesa 139
4.3.4 I metodi quadratici 140
4.3.5 I metodi Quasi-Newton-Raphson 145
4.3.6 Convergenza, massimi locali e globali 146
4.4 L’inferenza statistica basata su simulazioni 147
4.4.1 Le motivazioni della simulazione delle stime 149
4.4.2 Stima e simulazione delle probabilità di scelta 152
4.5 Il Mixed Logit 157

8
4.5.1 Le probabilità di scelta del Mixed Logit 158
4.5.2 L’identificazione del ML 174
4.5.3 L’approssimazione di altri modelli tramite il ML 176
4.5.4 Un’applicazione del ML: il trasporto intermodale 177
4.6 Evoluzioni dei modelli a scelta discreta 182
4.6.1 Le innovazioni metodologiche 183
4.6.2 Le innovazioni tematiche 191
4.7 Conclusioni 199

Bibliografia 201

9
10
Elenco delle tabelle

3.1 Esempio di attributi e livelli 84


3.2 Esempio di esercizio di scelta 85
3.3 Percezione della qualità del TPL 85
3.4 Stima dei parametri del MNL 86
3.5 Disponibilità a pagare/ricevere in Euro. 87
3.6 Stima dei parametri del MNL 114
3.7 Stima dei parametri del modello NL1 115
3.8 Stima dei parametri del modello NL2 115
3.9 Stima dei parametri del modello NL3 116
3.10 Elasticità delle probabilità di scelta modale. 117

4.1 Stima dei parametri del MNL 180


4.2 Stima del MNL con cut-off 181
4.3 Stima del ML con cut-off 182

11
12
Elenco delle figure

2.1 I modelli di scelta probabilistica 38


2.2 Un insieme di scelta continuo 51

3.1 Alcune funzioni di densità di probabilità EV con diversa varianza 66


3.2 Grafico di una curva logistica 69
3.3 Diagramma ad albero per la scelta modale 93
3.4 Struttura gerarchica del modello NL1 112
3.5 Struttura gerarchica del modello NL2 113
3.6 Struttura gerarchica del modello NL3 113

4.1 Il modello RUM 184


4.2 Il modello GRUM 185

13
14
Elenco degli acronimi

AGV Variabile Generica per Attributo


AR Accetto Rifiuto
ARSP Assioma delle Preferenze Stocastiche Rivelate
ASC Alternative Specific Constant
BFGS Broyden Fletcher Goldfarb Shanno
BHHH Berndt Hall Hall Hausman
CA Assioma della Congruenza
CNL Cross Nested Logit
CS Surplus del Consumatore
DFP Davidon Fletcher Powel
EBA Elimination By Aspects
EV Extreme Value
FIML Full Information Maximum Likelihood
GEN-NL Generalised Nested Logit
GEV Generalised Extreme Value
GHK Geweke Hajivassiliou Keane
GRUM Generalised Random Utility Model
GS Grid Search
HEV Heteroscedastic Exteme Value
IIA Indipendenza dalle Alternative Irrilevanti
IID Identicamente, Indipendentemente Distribuito
IP Independent Probit
IPS Information Processing Strategy
IS Importance Sampling
IV Inclusive Value
LL Log Likelihood
15
LS Line Search
MCMC Markov Chain Monte Carlo
MH Metropolis Hastings
ML Mixed Logit
MLE Stima di Massima Verosimiglianza
MMS Metodo dei Momenti Simulati
MNL Multinomial Logit
MNP Multinomial Probit
MP Mixed Probit
MSS Metodo degli Score Simulati
MVS Massima Verosimiglianza Simulata
NL Nested Logit
NL-HEV Nested Logit Heteroscedastic Extreme Value
NR Newton Raphson
OGEV Ordered Generalised Extreme Value
OLS Ordinary Least Square
PDF Funzione di Densità di Probabilità
QN Quasi Newton
RUM Random Utility Maximisation
SARP Assioma Forte delle Preferenze Rivelate
SMVS Smooth Massima Verosimiglianza Simulata
SRC Smooth Recursive Conditioning
TPL Trasporto Pubblico Locale

16
Ringraziamenti

I debiti contratti con molte persone possono essere francamente riconosciuti


ma mai pienamente ripagati. Alcuni sono recenti e connessi alla stesura di
questo libro altri contratti tempo fa e legati a consigli, suggerimenti, inco-
raggiamenti e insegnamenti di cui ancora oggi godo i benefici. A rischio di
dimenticare qualcuno mi avventuro in una elencazione (in ordine alfabetico)
e riconosco i miei debiti verso: Tiziano Bartoccioni, Giacomo Borruso, Ro-
meo Danielis, Gerard de Jong, Andrè de Palma, Valerio Gatta, Marco Marini,
Jérome Massiani, Enrico Musso, Guido Paglione, Giancarlo Polidori, Ostelio
Recanatini, Gian Cesare Romagnoli, Lucia Rotaris, Luisa Scaccia, Riccardo
Scarpa, Amanda Blomberg Statopoulos, che ha curato la stesura della biblio-
grafia, ed Eva Valeri. Molti dubbi editoriali non sarebbero stati fugati senza
la paziente e tenace collaborazione di Linda Fasti della casa editrice Fran-
co Angeli ma, soprattutto, l’impaginazione non sarebbe stata possibile senza
il determinante e apprezzatissimo aiuto di Carmela Nicoletti del Centro di
Calcolo della Facoltà di Economia di Urbino, dove ancora insegnavo quando
è stato concepito il libro, che ha avviato i lavori, e di Cesare Roseti che li
ha conclusi. Come è inevitabile in questi casi, ho approfittato della bontà e
generosità di amici e familiari che ringrazio tutti cumulativamente.
Un ringraziamento particolare però va ad Emanuela che mi ama e sostiene
con forza e a Riccardo che illumina il futuro.
Infine, come è d’obbligo, assolvo tutti coloro che mi hanno aiutato da
qualsivoglia corresponsabilità per quanto scritto in questo libro e per gli errori
ed omissioni, inevitabilmente ancora presenti, e lascio al lettore il giudizio
finale e insindacabile sul risultato.

17
18
Presentazione

Il volume illustra le basi teoriche, l’evoluzione storica ed alcune applicazioni


dei modelli a scelta discreta allo studio del settore dei trasporti. L’argomento
affrontato è di grande rilevanza per la disciplina dell’economia dei trasporti
sia sotto il profilo teorico sia applicativo, e il volume si caratterizza per la
connessione armonica e bilanciata che crea tra questi due aspetti. Infatti, per
ciascuno dei modelli trattati viene fornito sia un inquadramento teorico, che
ne chiarisce la rilevanza da un punto di vista metodologico, sia una applica-
zione che ne descrive le implicazioni empiriche e di policy.
L’inquadramento teorico dei modelli comportamentali è assai utile. Tale
aspetto non riguarda tanto la comprensione di sottigliezze da un punto di vi-
sta econometrico e matematico che, come chiarito, ricoprono pur sempre un
ruolo importante quando si impiegano modelli sofisticati capaci di rappresen-
tare i contesti di scelta analizzati in modo realistico, ma serve, soprattutto, per
giudicare in modo critico quanto credere nei risultati ottenuti date le ipotesi su
cui il modello poggia. Se infatti è opportuno sviluppare metodi di indagine
anche sofisticati e complessi, tuttavia, risulta sempre imprescindibile cono-
scere e valutare criticamente le ipotesi di lavoro su cui i modelli impiegati si
fondano. Tale scopo si prefigge il secondo capitolo che fornisce un quadro di
riferimento molto utile. Infatti, dopo aver, con chiarezza e dettaglio, illustrato
i fondamenti teorici dei modelli approfonditi nel terzo (forma chiusa) e quarto
(forma aperta) capitolo, si sintetizza opportunamente l’evoluzione storica dei
modelli a scelta discreta illustrando le ragioni della nascita, del loro successo
e della loro progressiva applicazione.
In un periodo particolarmente caratterizzato da scarsità di risorse pub-
bliche disponibili e con una evidente necessità di stimolare l’economia per

19
favorire la ripresa della crescita diventa ancor più pressante selezionare accu-
ratamente gli investimenti in generale e gli interventi nel settore dei trasporti
in particolare che, unanimemente, viene riconosciuto strategico ai fini dello
sviluppo dell’economia di un Paese. A tale fine gli strumenti di cui Marcucci
tratta in questo volume ricoprono un ruolo cruciale. Infatti, per determinare
la convenienza sociale o la priorità nell’effettuare un determinato intervento è
fondamentale conoscerne e quantificarne opportunamente gli effetti. In altre
parole, bisogna determinare gli effetti sulla domanda. Una delle principali
applicazioni dei modelli a scelta discreta è proprio lo studio della domanda e
la stima delle sue variazioni al cambiamento delle variabili esogene che la de-
terminano. I tre esempi applicativi illustrati sono emblematici della rilevanza
dei possibili impieghi di tali strumenti. Il primo caso illustrato concerne la
qualità nel trasporto pubblico locale. La rilevanza della valutazione della
qualità nel trasporto pubblico locale non potrebbe essere sottostimata in un
contesto ove fosse effettiva ed operante la concorrenza tra i vari fornitori o,
in alternativa, in un conteso regolatorio che ne tenesse esplicitamente conto
nella definizione dei contratti di servizio. Un secondo caso approfondisce
la scelta modale nel trasporto extra-urbano e, in particolare, tra le princi-
pali città dell’Australia. L’applicazione più immediata ad un caso rilevante
per il nostro Paese è la scelta modale sulla tratta Roma-Milano dove, vero-
similmente, a breve si verrà a configurare una situazione di mercato molto
peculiare. Infatti, è plausibile immaginare che vi sarà una concorrenza mo-
dale tra monopolisti o, al più, duopolisti nel rispettivo mercato. Studiare con
attenzione la domanda su questa rilevante tratta sarà fondamentale per attua-
re gli opportuni interventi di regolazione che si renderanno necessari. Infine,
un terzo caso di studio riguarda la questione del trasporto merci intermodale.
Tale questione è giudicata, a livello europeo e nazionale, molto rilevante per
contrastare le esternalità negative prodotte dal forte e crescente ruolo che il
tutto-gomma ricopre nel soddisfare la domanda di trasporto merci. Per sti-
mare i potenziali impatti delle politiche di intervento è necessario conoscere
come gli operatori del settore reagiranno a tali variazioni. L’esempio illustra-
to studia proprio come alcune aziende localizzate all’interno di significativi
distretti industriali reagirebbero a modificazioni delle condizioni di offerta
del trasporto intermodale al fine di comprendere di quale portata dovrebbero
essere tali modifiche affinché il trasporto intermodale ferro-gomma possa es-
sere effettivamente considerato un modo di trasporto alternativo conveniente
da parte delle imprese. Gli esempi illustrati chiariscono con forza sia la vasti-
tà e la portata delle possibili applicazioni sia la loro rilevanza non solo teorica

20
ma anche ai fini di policy che, per un economista applicato, ricopre sempre
un interesse particolare.
Il volume risulta ben strutturato ed equilibrato. Infatti, gli argomenti di-
scussi sono trattati con un approfondimento pari alla loro rilevanza. Gli obiet-
tivi dichiarati dall’Autore nell’introduzione sono stati centrati. La simmetria
espositiva e la chiarezza nella discussione delle varie parti risulta evidente
dalla lettura del volume ma ancora prima traspaiono da una scorsa sommaria
dell’indice. La sequenzialità logica degli argomenti trattati è forte. L’equili-
brio espositivo è evidente. Vi è un opportuno bilanciamento tra parti teoriche
ed applicate. La compattezza del volume, il dettaglio nella trattazione e la
sintesi opportuna degli argomenti trattati denotano non solo una conoscenza
articolata degli argomenti discussi ma anche una rilevante maturità d’anali-
si. Infine, l’approccio problematico nelle conclusioni e la prospettiva offerta
circa le più rilevanti e probabili evoluzioni del settore lasciano intendere che
tale settore di indagine ricoprirà, anche per il prossimo futuro, un promettente
campo di ricerca.

Enrico Musso
Professore di Economia applicata, Università di Genova,
Presidente della Società Italiana di Economia dei Trasporti e della Logistica
Senatore della Repubblica Italiana

21
22
1. Introduzione

In questo libro si offre un inquadramento teorico e metodologico dei principa-


li modelli a scelta discreta e della loro applicazione allo studio delle scelte di
trasporto. Si espongono le basi teoriche delle più significative famiglie di mo-
delli a scelta discreta (in forma chiusa ed aperta) in modo tale da stimolare il
lettore ad applicare autonomamente tali strumenti e non inducendolo soltanto
ad un passivo assorbimento degli esempi illustrati nel testo. Una conoscenza
critica è alla base dell’utilizzo consapevole di tali strumenti. Si descrivono
ed analizzano i fondamenti concettuali dei modelli a scelta discreta (secondo
capitolo) e se ne illustrano le implicazioni pratiche (terzo e quarto capitolo)
per perseguire l’obiettivo prefissato.
Un approccio analitico all’economia richiede una logica rigorosa e non
implica necessariamente l’applicazione di metodi matematici avanzati. No-
nostante gli argomenti trattati, immancabilmente, richiedano l’impiego di una
certa quantità di matematica, il suo utilizzo, comunque, è stato, per quanto
possibile, mantenuto al livello più basso possibile.

1.1 La relazione tra le scelte di trasporto e i modelli a scelta


discreta

È ormai tradizione consolidata e molto diffusa fare uso di modelli a scelta di-
screta nell’analizzare il comportamento degli agenti nel settore dei trasporti.
Tale classe di modelli ancorché ampiamente utilizzata con specifica inten-
sità nel mondo dei trasporti viene anche applicata in altri settori quali, ad
esempio, l’ambiente, il marketing, l’energia, il mercato del lavoro e delle te-
lecomunicazioni, la sociologia, le scienze politiche, la medicina, il turismo,

23
ed altri ancora. Nonostante l’ampia rilevanza applicativa ed il diffuso impie-
go in altri settori disciplinari lo studio dei modelli a scelta discreta nel settore
dei trasporti, anche per motivi storici, assume una valenza speciale. Infatti,
in questo settore tipicamente le decisioni implicano scelte tra alternative di-
screte e l’impiego dei tradizionali metodi marginalisti si dimostra difficile e
poco fruttuoso. I modelli a scelta discreta forniscono un quadro di riferimento
ideale per descrivere le scelte nel mondo dei trasporti poiché sono mirati ad
analizzare e descrivere esplicitamente il comportamento che membri eteroge-
nei di una data popolazione hanno quando scelgono tra alternative discrete,
numerabili e autoescludentisi all’interno di un insieme di scelta di beni tra
loro sostituti.

1.2 Che cosa si cerca di fare in questo libro e che cosa è lecito
attendersi

Questo libro persegue due obiettivi.


Il primo: sintetizzare e sistematizzare i principali contributi in questo spe-
cifico campo di ricerca. Ci si adopera per conseguire tale obiettivo tramite la
redazione di una panoramica aggiornata dei principali modelli a scelta discre-
ta e delle loro applicazioni al settore dei trasporti. Da un lato, si descrivono,
analizzano ed approfondiscono le basi teoriche su cui tali modelli poggiano
specificandone le caratteristiche peculiari con riferimento, soprattutto, alla
teoria dell’utilità stocastica che costituisce l’ossatura della teoria probabilisti-
ca della scelta del consumatore e, dall’altro, si espongono i principali modelli
a scelta discreta, in ordine crescente di complessità e realismo, che costitui-
scono, ormai, parte integrante del bagaglio degli strumenti dell’analista del
settore dei trasporti, in particolare, e dell’economista applicato, in generale.
Il secondo: dotare il lettore senza esperienza pregressa di un testo di rife-
rimento per affrontare in modo sistematico, rigoroso ed accessibile una let-
teratura che è trattata prevalentemente in lingua inglese e ad un livello diffi-
cilmente agibile al neofita. Infatti, il lavoro vuole essere sia una guida alla
scoperta per lo studente di laurea specialistica, master o dottorato sia un ri-
ferimento, magari rapido, per il ricercatore esperto. A tale fine nel libro si
fa puntuale riferimento ai contributi dei maggiori esperti sia per dare debito
conto delle fonti a cui ci si è ispirati nella trattazione sia per fornire un agevo-
le riferimento alla fonte primaria al fine di consentire un approfondimento, se
del caso, degli aspetti di dettaglio che, necessariamente, in un lavoro di rasse-
gna sono trascurati per facilitare la comprensione delle questioni essenziali,

24
contenere l’estensione del lavoro e, soprattutto, non tediare eccessivamente il
lettore.
L’Autore scrive un libro sempre due volte? No. Verosimilmente no spe-
cialmente se ha fatto un buon lavoro la prima volta. Allora perché tornare
sullo stesso tema a sei anni dalla pubblicazione di un altro volume (Marcucci
2005)? La scelta richiede almeno una spiegazione da parte dell’Autore, me-
glio se una buona spiegazione e, in questo caso, con una natura duplice.
In primo luogo, l’utilizzo del precedente volume (Marcucci 2005) a sco-
pi didattici ha evidenziato alcuni pregi (in particolare connessi alla marcata
impostazione applicativa), ma anche alcune limitazioni (legate alla minore
attenzione all’organicità e completezza nella trattazione, aspetto che, a volte,
caratterizza i volumi collettanei). Il desiderio di disporre di supporti didat-
tici appropriati ed aggiornati ha fornito uno stimolo aggiuntivo per produrre
un volume che ha natura e finalità complementari piuttosto che concorrenti
rispetto al precedente lavoro.
Proprio dalla riflessione su come porre rimedio alle limitazioni del pre-
cedente volume è maturata l’idea di produrne uno nuovo che si differenzia
per impostazione, approfondimento, estensione e, dato il tempo trascorso,
aggiornamento.

1.3 Cosa c’è in questo libro e come è strutturato

In questo libro si descrive la teoria di riferimento e la struttura dei modelli a


scelta discreta per illustrarne poi alcune applicazioni al settore dei trasporti
chiarendone potenzialità e limiti. I modelli a scelta discreta si pongono l’o-
biettivo di rappresentare in modo credibile, organico (sotto il profilo compor-
tamentale) ed analiticamente rigoroso il modo di agire degli agenti economici
quando si trovano a scegliere tra alternative finite, numerabili ed autoesclu-
dentisi. Sin dalle prime applicazioni si è cercato di specificare il modello
comportamentale e di stimarne i parametri al fine di calcolare o, in seguito,
simulare le probabilità di scelta delle varie alternative disponibili in modo
da rendere il modello progressivamente più rispondente alle effettive condi-
zioni di contesto, in linea con gli a priori teorici e con l’esperienza concreta
derivante dall’osservazione della realtà.
Il volume si compone di quattro capitoli.
Il primo capitolo introduce l’opera, chiarisce il rapporto tra le scelte di
trasporto ed i modelli a scelta discreta, definisce gli obiettivi del libro det-
tagliando il modo in cui tali obiettivi verranno perseguiti e, sinteticamente,

25
illustra i contenuti delle sue singole parti.
Il secondo capitolo descrive i modelli comportamentali impiegati in let-
teratura per descrivere i processi decisionali che si suppone vengano adottati
dagli agenti. All’interno della famiglia dei modelli di scelta probabilistica,
composta dai modelli con regola decisionale stocastica ed utilità determini-
stica e da quelli, invece, con regola decisionale deterministica ed utilità stoca-
stica, si approfondisce l’analisi di quest’ultimo tipo di modelli descrivendone
le componenti strutturali ovvero il decisore, l’insieme di scelta, gli attributi
e la regola decisionale. La trattazione dei modelli in forma chiusa (terzo ca-
pitolo) ed in forma aperta (quarto capitolo) segue l’evoluzione storica che ha
caratterizzato la loro specificazione e stima. È importante chiarire che nien-
te e nessuno può esimere l’analista da una profonda, attenta e consapevole
riflessione circa la migliore, per realismo e parsimonia modellistica, speci-
ficazione del modello da adottare dato: il contesto specifico dello studio in
questione, la natura dei dati a disposizione, lo specifico scopo perseguito ol-
tre che, ovviamente, il budget a disposizione.
Il terzo capitolo tratta dei modelli a scelta discreta in forma chiusa. Tali
sono i modelli la cui soluzione può essere ottenuta analiticamente senza fare
ricorso a metodi simulativi. Si analizzano caratteristiche, specificità, pun-
ti di forza e di debolezza del MNL e NL. La struttura espositiva adottata è
uniforme, prima si descrivono le caratteristiche statistiche e matematiche dei
modelli poi se ne illustra brevemente una applicazione ad un caso. Il capitolo
si chiude con una breve panoramica di alcune evoluzioni del NL e, in parti-
colare, si tratta del NL eteroschedastico e del NL a nidificazioni sovrapposte.
Il quarto capitolo discute dei modelli a scelta discreta in forma aperta (e.g.
Mixed-logit – ML). Nel mondo dei modelli a scelta discreta si sono recen-
temente verificate delle profonde trasformazioni che hanno avuto un impatto
rilevante sia con riferimento alle diverse possibilità di specificazione sia di
stima dei modelli. La sostanziale innovazione è connessa al diffuso impiego
di metodi basati sulla simulazione numerica. Tale innovazione ha consentito
di introdurre un maggiore grado di realismo nella rappresentazione e nell’a-
nalisi delle scelte studiate rendendo possibile, inoltre, prevedere il compor-
tamento umano in situazioni molto più complesse di quanto non fosse prima
fattibile. Definita una rappresentazione del comportamento che si desidera
studiare, ora, è possibile individuare la procedura di simulazione più adatta
per stimare lo specifico modello. Dopo aver discusso, in maniera funzionale
al consapevole e corretto impiego dei modelli in forma aperta, del campiona-
mento dei termini di errore, massimizzazione numerica e inferenza statistica

26
basata sulle simulazioni, si tratta dei limiti e delle potenzialità dei meccani-
smi di simulazione numerica alla stima delle probabilità di scelta dei modelli.
In particolare, si discute nel dettaglio il ML poiché, da un lato, rappresenta
l’innovazione più recente e prominente nel settore e, dall’altro è stato recen-
temente dimostrato che tramite esso è possibile approssimare qualsiasi altro
modello di tipo RUM ovvero i modelli a scelta discreta con regola decisiona-
le deterministica (massimizzazione) ed utilità stocastica. Il capitolo si chiude
con la trattazione delle recenti innovazioni metodologiche e tematiche com-
parse in letteratura, delle loro applicazioni al settore dei trasporti, oltre che
delle probabili evoluzioni della ricerca in questo settore.

27
28
2. I modelli a scelta discreta

2.1 Introduzione

I modelli a scelta discreta servono per analizzare e predire le scelte degli


agenti quando l’insieme di scelta è composto da alternative finite, mutuamen-
te escludentisi e collettivamente esaustive. Ciò è rilevante per molte scienze
comportamentali. Nel presente lavoro si restringe il campo di interesse alla
microeconomia e, in particolare, alle sue applicazioni al settore dei traspor-
ti. L’analisi economica delle scelte discrete individuali, convenzionalmente,
fa uso del modello di massimizzazione dell’utilità aleatoria (RUM) proposto
per la prima volta da Block e Marschak (1960) e Marschak (1960). Il RUM
costituisce uno strumento particolarmente utile per soddisfare le principali
necessità di un economista applicato. In primo luogo, permette di studiare
empiricamente e determinare la domanda di beni e servizi. In secondo luogo,
consente di effettuare previsioni circa il comportamento in scenari differenti
da quelli effettivamente osservati.
I modelli a scelta discreta ricoprono, sin dai primi anni ’70, un ruolo molto
rilevante nel processo di modellizzazione dei trasporti che si sta sempre più
consolidando e rafforzando. Scopo principale di tali modelli è rappresentare
in modo dettagliato e realistico i complessi aspetti che influenzano la doman-
da di trasporto (Bierlaire 1997) e, più recentemente, dare anche conto delle
interazioni tra questa e l’offerta (Puckett et al. 2007, Paglione et al. 2007,
Danielis et al. 2007). Lo sviluppo e l’affermazione su ampia scala di soft-
ware dedicati alla stima di tali modelli e la loro diffusione tra gli addetti ai
lavori li ha resi sempre più ampiamente utilizzati. Alcuni tra i software più
noti ed usati sono SPSS, SAS, Stata, Alogit, GAUSS, Biogeme e, ultimo ma

29
non meno importante, NLogit.
I modelli a scelta discreta sono uno strumento molto potente e comples-
so. Individuare il modello appropriato per una specifica applicazione richiede
non solo una grande familiarità da parte dell’analista con il fenomeno oggetto
di indagine ma anche una approfondita conoscenza delle implicazioni meto-
dologiche e pratiche che le diverse assunzioni teoriche comportano.
I modelli disaggregati di studio della domanda di trasporto hanno ricoper-
to un ruolo molto importante negli ultimi 40 anni. Tali modelli assumono
che la domanda sia il frutto di diverse scelte degli individui. Le scelte solita-
mente avvengono tra un numero finito di alternative che possono riguardare,
ad esempio, se effettuare un dato spostamento o meno, quando partire, che
modo di trasporto utilizzare, quale itinerario percorrere o altro ancora.
I modelli a scelta discreta, come, in generale, tutti i modelli, forniscono
una visione semplificata della realtà in modo da consentire una migliore com-
prensione dei sistemi complessi che la governano. Inoltre, un modello, op-
portunamente calibrato, consente di effettuare previsioni circa stati futuri del
sistema preso in considerazione, di controllarne l’andamento e di intervenire
sulle sue evoluzioni al fine di ottimizzarne il funzionamento. Tanto maggiore
è la complessità che caratterizza il sistema analizzato più grandi dovranno es-
sere le semplificazioni da operare per renderlo operativo. A ciascun insieme
di ipotesi semplificatrici corrisponderà uno specifico modello. È importante
rammentare queste considerazioni quando, sulla base di un modello, a cui
corrispondono determinate ipotesi semplificatrici, si effettuano previsioni, si
scelgono azioni di intervento, si cerca di ottimizzare il funzionamento di un
dato sistema.
In questo capitolo si illustrano i principali aspetti teorici dei modelli di
scelta probabilistica. Vengono chiarite le assunzioni fondanti utilizzate per
derivare tali modelli, in generale, e quelli che poggiano sulla teoria RUM, in
particolare.
Si considerano scelte di individui che scelgono tra alternative finite, nume-
rabili e che si escludono vicendevolmente. L’approccio neoclassico affronta
tale questione ipotizzando un insieme di scelta all’interno del quale l’agente
può scegliere una sola alternativa alla volta. L’agente è dotato di un insieme di
preferenze che può essere rappresentato tramite una funzione di ordinamento
detta funzione di utilità. Tale funzione permette di rappresentare opportuna-
mente l’ordinamento delle alternative in un modo consistente e non ambiguo
in funzione delle preferenze dell’agente. L’individuo sceglie l’alternativa che
garantisce l’utilità massima ipotizzando, quindi, un processo decisionale de-

30
terministico. Gli psicologi, invece, interpretano il processo decisionale come
eminentemente probabilistico. Tale formulazione è motivata, in parte, dal-
la inconsistenza percepita nel comportamento umano di cui si ha riscontro
quando lo stesso individuo, in un contesto decisionale simile, posto di fron-
te a scelte tra diverse alternative, in alcuni casi, sceglie una alternativa e, in
altri, una diversa. Tali comportamenti inconsistenti si verificano anche in si-
tuazioni in cui è lecito supporre che non vi siano processi di apprendimento
in atto o modifiche delle preferenze in corso. Una plausibile spiegazione di
tali fenomeni può essere proprio la variazione del processo valutativo delle
alternative. Si può, quindi, concludere che il modello di scelta deterministico
non sempre risulta soddisfacente nello spiegare le scelte degli agenti.
Alcuni autori argomentano che l’inconsistenza nel processo decisionale
deriva dalla sensibilità degli individui a vari aspetti delle alternative in diffe-
renti contesti di scelta (Stigler e Becker 1977). Se fosse possibile identificare
le ragioni che inducono gli individui a prediligere alcuni aspetti rispetto ad
altri in certe situazioni si potrebbe allora delineare un quadro di riferimen-
to deterministico. Tuttavia, modelli aventi queste caratteristiche dovrebbero
tenere conto di tali e tante contingenze da divenire, ben presto, difficilmente
trattabili sotto il profilo analitico. Le circostanze in cui si opera rendono con-
veniente utilizzare modelli di scelta probabilistici ovvero quelli di cui si tratta
qui di seguito.
Nel presente capitolo si ricostruisce prima l’evoluzione storica dei modelli
a scelta discreta per dare conto delle principali fasi evolutive e degli elemen-
ti caratteristici di ciascuna di esse, successivamente si trattano i fondamenti
teorici su cui poggiano i modelli di scelta probabilistici in genere e quelli
a scelta discreta in particolare. L’inquadramento dei vari modelli e la loro
discussione avviene sulla base della regola decisionale che si suppone carat-
terizzi il processo di scelta. Conseguentemente, vengono discussi i modelli
con regola decisionale stocastica (utilità deterministica) ovvero i modelli di
Luce e Tversky e quelli con regola decisionale deterministica (utilità stoca-
stica) vale a dire i modelli di Thurstone e McFadden. Il capitolo si conclude
con una descrizione generale della struttura dei modelli ad utilità aleatoria
che più propriamente costituiscono l’oggetto dei capitoli 3 e 4.

2.2 Una retrospettiva storica

Le radici storiche dei modelli a scelta discreta si possono far risalire al lavoro
di psicofisica di Fechner (1860) che ha affrontato lo studio della relazione tra

31
stimoli fisici e risposte sensoriali. Tali modelli vengono successivamente ap-
plicati in biologia dove si afferma per la prima volta l’espressione di modelli
con risposte discrete e sono utilizzati per studiare la relazione tra gli stimoli e
le corrispondenti risposte da parte degli individui che, per loro stessa natura,
sono discrete. Infatti, uno stimolo provoca una risposta se viene percepito
oppure, se non viene percepito, non ne produce alcuna.
Il meccanismo che descrive la risposta del soggetto agli stimoli viene mo-
dellizzato supponendo che un agente n ha una tolleranza τn allo stimolo sn
(Finney 1971, 1978). L’agente risponde positivamente (yn = 1) ogni qualvol-
ta lo stimolo supera il livello di tolleranza (sn > τn ) e negativamente (yn = 0)
in caso contrario. In biologia si è dimostrato che lo stesso agente spesso
reagisce in modi differenti pur avendo ricevuto lo stesso stimolo. Per tener
conto di questo fenomeno si assume che il livello di tolleranza possa essere
rappresentato da una variabile aleatoria. Se la distribuzione della probabilità
cumulata del livello di tolleranza è espressa da Fn (·), la probabilità Pn che un
soggetto reagisca positivamente allo stimolo ricevuto è data da:

Pn = Pr (yn = 1) = Fn (sn ) (2.1)

Dato un gruppo di agenti, si supponga di costruire un modello che ne de-


scriva il comportamento. Visto l’interesse per il comportamento di un grup-
po piuttosto che di un singolo si dovrà tenere conto di una ulteriore fonte
di variabilità. Infatti, è lecito supporre che agenti diversi reagiscano in mo-
do diverso a fronte dello stesso stimolo (eterogeneità). Pertanto, quando il
gruppo è più omogeneo rispetto alle qualità specifiche che lo caratterizzano
questa seconda fonte di variabilità nelle risposte sarà minore ancorché sempre
presente. In un gruppo sufficientemente omogeneo si ipotizza che il compor-
tamento dei singoli sarà statisticamente identico seguendo, quindi, le stesse
leggi di probabilità. Se, inoltre, si suppone che la risposta di ciascun agente
è indipendente da quella degli altri, allora la probabilità che un dato soggetto
reagisca positivamente allo stimolo s è pari a:

P = F (s) (2.2)

dove F (·) rappresenta la funzione di distribuzione di probabilità cumulata


della variabile τ. Se la tolleranza dell’agente allo stimolo è il frutto di un
ampio numero di fattori sottostanti, tra loro indipendenti, di grandezza para-
gonabile e i cui effetti sono additivi, allora, per il teorema del limite centra-
le, la variabile aleatoria τ sarà distribuita normalmente e la (2.2) può essere

32
espressa come segue:
(s−τ)  2
1 x
Z
σ
P= √ exp − dx (2.3)
2π −∞ 2

dove τ e σ rappresentano la media e la deviazione standard della variabile


aleatoria τ. Tale modello prende il nome di probit.
Un modello alternativo può essere derivato dalla distribuzione logistica.
Assumendo che τ abbia una distribuzione logistica con media τ e deviazione
standard σ, allora:
1
P= h  i (2.4)
−π s−τ
1 + exp √ 3 σ

La funzione logistica risulta alquanto simile alla distribuzione normale


cumulata per valori sufficientemente diversi da uno e da zero. Questa sua
caratteristica, associata alla possibilità di derivare le probabilità di scelta in
forma chiusa, almeno per alcune classi di modelli, ne ha determinato una più
diffusa applicazione rispetto al modello probit.
Il contributo offerto dai modelli a scelta discreta all’analisi microeconomica
delle scelte dei consumatori che si confrontano con alternative economiche
discrete è grande. Infatti, prima degli anni ’60 la teoria del consumatore co-
stituiva prevalentemente uno strumento logico d’analisi per indagare le pro-
prietà di organizzazioni di mercato tra loro alternative e di diverse politi-
che economiche. L’applicazione empirica della teoria si basava sull’utilizzo
di dati aggregati a livello di mercato o, addirittura, di contabilità nazionale.
Le applicazioni facevano uso del concetto di consumatore rappresentativo e,
quando le osservazioni divergevano da quelle previste, l’errore previsionale
veniva incluso all’interno di un termine additivo di disturbo ed attribuito ad
errori di misurazione piuttosto che a fattori non osservati a livello di singolo
individuo o tra individui. La rapida espansione delle capacità di calcolo con-
nessa all’evoluzione dei computer, associata alla disponibilità di microdati sul
comportamento degli individui, ha reso possibile un più approfondito livello
di analisi. La ricerca di quegli anni fu prevalentemente mirata a compren-
dere le discrepanze tra previsioni e realtà. La ricerca cercava di spiegare la
presenza di tali discrepanze tramite l’individuazione di un modello compor-
tamentale che fosse in grado di darne esplicitamente conto. Le differenze tra
previsioni aggregate e realtà fattuale erano particolarmente forti ed evidenti
per scelte economiche contraddistinte dalla loro natura discreta come quelle
caratteristiche del settore dei trasporti (McFadden 2001).

33
La teoria economica neoclassica postula che il consumatore massimizzi il
proprio benessere e che tale processo sia, per diverse situazioni decisionali,
governato da proprietà generalmente tra loro consistenti. Il concetto di com-
portamento razionale del consumatore è stato definito in modo molto chiaro e
circostanziato nell’opera classica di Hicks e Samuelson per cui il self interest
viene definito in termini di preferenze innate e stabili tanto che Simon (1978)
afferma che l’uomo razionale in economia è un “massimizzatore” che non
si accontenta se non dell’ottimo (McFadden 2001). Alcuni economisti teo-
rici avevano considerato la questione dell’eterogeneità delle preferenze ma
tale aspetto era stato trascurato in studi applicati dove si faceva ampio uso
dello strumento operativo del consumatore rappresentativo. Per affrontare ta-
le questione si ipotizza un consumatore con preferenze rappresentate da una
funzione di utilità U (x) , dove x è un vettore di livelli di consumo di vari
beni, che viene massimizzata dal consumatore nel rispetto di un vincolo di
bilancio px ≤yd , dove p è un vettore di prezzi ed yd è il reddito disponibile.
Dalla massimizzazione dell’utilità si deriva la curva di domanda x = d (yd , p)
e si suppone, inoltre, che tale mappatura sia valida anche a livello di mercato
con un elemento di disturbo ε aggiunto per dare conto delle discrepanze nei
dati osservati x = d (yd , p) + ε (McFadden 2001). Si assume che il termine di
disturbo sia dovuto ad imprecisioni nella misurazione delle variabili oppure
ad errori nel processo di massimizzazione da parte degli agenti e, solamente
la domanda rappresentativa, d (yd , p), è assoggettata a restrizioni dettate dal-
la teoria del consumatore. Griliches (1957) fu il primo a rilevare come gli
elementi aleatori che comparivano nei vincoli o negli obiettivi degli agenti
economici avrebbero prodotto degli errori nel comportamento osservato. Le
caratteristiche di tali errori dipendono, secondo Griliches, dalla loro origine e
dal fatto che fossero o meno note agli agenti (Griliches 1957, Mundlak 1963,
Griliches e Ringstad 1971). L’origine di tale impostazione può essere fatta
risalire a Thurstone. Infatti, in un fondamentale lavoro di discriminazione
psicofisica, Thurstone (1927:a) aveva già descritto la legge del giudizio com-
parato in cui l’alternativa i con il livello di stimolo effettivo si viene percepita,
a meno di un errore normale, come si + σεi dove σ è la varianza. La legge del
giudizio comparato può essere utilizzata per ordinare in una scala un insieme
di stimoli sulla base di confronti binari semplici tra coppie di stimoli. In altre
parole, chiedendo agli agenti di confrontare due stimoli alla volta si riesce ad
ordinarli lungo una scala e stimare i valori della scala dei pesi percepiti in un
continuum di stimoli.
Marschak (1960), per primo, interpreta lo stimolo percepito come livel-

34
lo di soddisfazione o utilità e ne concepisce l’utilizzo per rappresentare la
scelta degli agenti economici esplorandone le implicazioni teoriche nel caso
di scelte di massimizzazione di funzioni di utilità caratterizzate da elementi
aleatori. Come si vedrà più diffusamente in seguito, l’utilità verrà distinta
in due componenti: una deterministica (Vi ) ed un aleatoria (εi ). Marschak
conia la dicitura di modello di massimizzazione dell’utilità aleatoria (random
utility maximisation - RUM). Ora con l’acronimo RUM si definiscono tutti i
modelli che ipotizzano regole decisionali deterministiche e funzioni di utilità
aleatorie.
Un contributo molto rilevante per l’evoluzione di tali modelli viene dal
lavoro di Luce (1959) che, introducendo l’assioma dell’indipendenza delle
alternative irrilevanti (IIA), semplifica sostanzialmente il processo di raccolta
delle informazioni. L’ipotesi IIA consente di inferire le probabilità di scelta
multinomiali da esperimenti di scelta binomiali, ovvero implica che il rap-
porto tra le probabilità di scelta delle alternative i e j sia lo stesso per cia-
P (i) P (i)
scun insieme di scelta C che include sia i sia j , ovvero PCCn( j) = P{i, j}( j) o, in
n {i, j}
alternativa, che PCn (i) = PC (i) · PCn (C) ∀i ∈ C ⊆ Cn nel caso si voglia con-
sentire che vi siano alcune alternative con probabilità nulla di essere scelte.
Luce dimostra che, per probabilità positive, la IIA implica utilità Ui tali che
PCn (i) = ∑UiUk e Marschak prova che, per un universo finito di alternative di
k∈Cn
scelta, la IIA implica il RUM. McFadden (1974:a), invece, per primo impie-
ga un modello econometrico impostato sulla struttura del modello di Luce nel
quale le funzioni di utilità sono specificate come funzioni di attributi osservati
delle alternative e del decisore.

exp (Vi )
PC (i) = (2.5)
∑k∈C exp (V j )

Nell’equazione (2.5) V j rappresenta l’utilità sistematica che dipende dagli


attributi misurati dell’alternativa j come, ad esempio, tempo e costo e C è
un insieme finito che contiene le alternative di scelta effettivamente dispo-
nibili. Il modello, inizialmente denominato conditional logit da McFadden,
prende oggi, più comunemente, il nome di logit multinomiale (MNL). Nel
MNL la raffigurazione delle alternative di scelta in funzione dei loro prin-
cipali attributi, come ci ricorda McFadden stesso (McFadden 2001), sembra
naturale e facile è la sua applicazione all’analisi empirica del comportamento
del consumatore impiegando la formulazione proposta da Griliches (1961) e,
successivamente, affinata da Lancaster (1966).

35
Nello studio che McFadden conduce circa i fondamenti teorici del model-
lo RUM, egli dimostra che la consistenza del modello di Luce con il modello
RUM con termini di errore additivi e distribuiti in modo identico ed indi-
pendente (IID) è strettamente legata all’ipotesi che tali disturbi seguano una
distribuzione Extreme Value Type I (EV). McFadden e Richter (1971, 1990)
dimostrano anche una condizione generale, sufficiente e necessaria, affinché
le probabilità di scelta risultino consistenti con il modello RUM definendo,
in particolare, l’assioma delle preferenze stocastiche rivelate (ARSP). Tale
assioma afferma che le probabilità di scelta sono consistenti con il modello
RUM se e solo se per una qualsiasi sequenza finita di eventi (Cn , in ) , dove
Cn è l’insieme delle alternative di scelta ed in è una di queste, la somma del-
le probabilità di scelta non supera il numero massimo di eventi consistenti
con un singolo ordine di preferenze. Di fatto l’ARSP risponde alla seguente
domanda: è la distribuzione delle scelte osservate per una data popolazio-
ne di individui, in diverse situazioni di scelta, consistente con la teoria della
scelta razionale che postula che gli individui massimizzano la propria uilità?
(McFadden 2005). Tuttavia, per interpretare il comportamento umano si ha
bisogno di sostituire la dicitura “consistenza stocastica delle scelte” con quel-
la di “consistenza assoluta delle scelte” che, sebbene data per assodata nella
teoria economica, raramente l’esperienza sul campo ne da conferma empiri-
ca tanto che, nell’econometria applicata, non viene di solito considerata come
verificata.
L’assioma delle preferenze stocastiche rivelate ha a che vedere sia con
l’ormai classico assioma forte delle preferenze rivelate (SARP) di Samuelson
– Houthaker sia con l’assioma della congruenza (CA) di Richter (Samuelson
1938, Houthakker 1950, Richter 1966, Richter 1971). Entrambi gli assiomi
forniscono le condizioni strettamente necessarie e sufficienti affinché le scelte
di un individuo risultino consistenti con il processo di massimizzazione delle
preferenze.
Il contributo fornito dal MNL all’analisi microeconomica empirica della
scelta fu particolarmente apprezzato e ne garantì il successo e la diffusa appli-
cazione, rispetto, ad esempio, alla sorte che toccò ad altri modelli analoghi,
sviluppati nello stesso periodo. Tale successo può essere giustificato, proprio
dalla connessione diretta che McFadden riuscì a creare tra il modello e la teo-
ria del consumatore legando l’eterogeneità delle preferenze non osservate ad
una descrizione completamente consistente della distribuzione della doman-
da (McFadden 1974:a). Successivamente, McFadden sviluppa una versione
nidificata del MNL in cui i livelli di nidificazione corrispondono alla struttura

36
dell’utilità separabile e dove vengono inseriti dei parametri detti IV (inclu-
sive values) che rappresentano l’impatto dei livelli decisionali più bassi su
quelli più elevati (McFadden 1974:b). Ben-Akiva nel 1973 dimostra una for-
mula, oggi nota come log sum formula (Ben-Akiva 1973), che rappresenta in
maniera esatta gli IV.
Date le caratteristiche dei problemi posti dallo studio della domanda di
trasporto e le proprietà dei modelli RUM, si è assistito ad un loro crescente
impiego in un ampio numero di studi effettuati circa il comportamento sia di
singoli agenti sia di organizzazioni. Successivamente, si sono sviluppate ed
applicate altre famiglie di modelli sempre più sofisticate, flessibili e capaci
di fornire un maggiore realismo d’analisi. Tali modelli costituiscono l’og-
getto del terzo (modelli in forma chiusa) e quarto (modelli in forma aperta)
capitolo.

2.3 I fondamenti teorici

In questo paragrafo si approfondiscono i fondamenti teorici dei modelli a


scelta discreta che si basano sull’ipotesi RUM. Si consideri un individuo n
che deve scegliere una sola alternativa all’interno di un insieme di scelta C
in cui sono disponibili un numero finito di alternative i (ad esempio, un in-
sieme di modi di trasporto) inclusa anche l’alternativa di “non scelta” al fine
di comprendere anche il caso in cui l’agente decide di non decidere, ovve-
ro di non viaggiare e, conseguentemente, di non scegliere nessuno dei modi
di trasporto a disposizione. La teoria neoclassica, come si è detto, suppone
che l’individuo disponga di perfetta capacità di discriminazione e di capacità
illimitate di processare informazioni che gli consentono di ordinare le alter-
native tra le quali deve scegliere in un modo ben definito e consistente con dei
principi generali di razionalità. L’agente può, quindi, determinare ciò che è
meglio per sé e sceglierà sempre l’opzione che preferisce, posto che la scelta
avvenga in contesti identici. Formalmente, l’individuo n è dotato di una rela-
zione di preferenza % che è definita per l’insieme di scelta C e che soddisfa i
seguenti assiomi:

Completezza : a % b oppure b % a ∀a, b ∈ C con a 6= b (2.6)


Riflessività : a % a ∀a ∈ C (2.7)
Transitività : a % b e b % c ⇒ a % c per a, b, c ∈ C. (2.8)

Poiché C è finito esisterà almeno un’alternativa ottima a∗ ∈ C per l’agente


n per cui a∗ % a ∀a ∈ C. È sempre possibile costruire una funzione di utilità

37
deterministica in grado di rappresentare le preferenze dell’individuo, vale a
dire una funzione U (·) per cui U (a) ≥ U (b) se e solo se a % b. L’alternativa
a∗ è quella che massimizza l’utilità U dato C. L’approccio appena descritto è
stato criticato da molti psicologi (Thurstone 1927:a, Luce 1959, Luce e Sup-
pes 1965, Tversky 1969) ed anche da alcuni economisti (Georgescu-Roegen
1936, Quandt 1956, McFadden 1981) poiché il postulato della perfetta ca-
pacità di discriminazione, che implica una illimitata capacità di elaborazio-
ne delle informazioni, non costituisce una corretta e realistica descrizione
del comportamento umano. Appare più opportuno assumere che la scelta di
un agente non sia univocamente determinabile ma che segua, piuttosto, una
qualche distribuzione di probabilità. Questo approccio è più affine alla psico-
metria o alla psicofisica ed è anche in grado di spiegare parte delle variazioni
statistiche nei dati campionari in economia. Infatti, quando gli agenti sono
chiamati a scegliere tra diverse alternative spesso sono incerti ed effettuano
scelte inconsistenti. Essi non sono sempre sicuri circa la scelta migliore da
effettuare né, tanto meno, effettuano sempre la stessa scelta date condizioni di
contesto simili. Tali comportamenti, che a prima vista potrebbero essere con-
siderati irrazionali, sarebbero invece da considerarsi possibili e razionali se si
supponesse che l’inconsistenza delle scelte è legata ad un processo probabi-
listico associato al metodo con cui vengono prese le scelte (Tversky 1972:a).
Quando l’individuo deve scegliere tra a ∈ C e b ∈ C si suppone vi sia una
probabilità P (a, b) che la scelta sia a piuttosto che b e, in genere, la probabi-
lità dell’evento è differente sia da 0 sia da 1. Il modello neoclassico standard,
in questa logica, risulterebbe, di conseguenza, un caso particolare del model-
lo probabilistico. Infatti, il modello neoclassico assume che le probabilità di
scelta possono assumere solo i valori 0, 1 e 21 :

P (a){a,b } = 0 if b % a
1
P (a){a,b } = if b ∼ a
2
P (a){a,b } = 1 if b % a

Se si riconosce il modello probabilistico della scelta come più adatto a rap-


presentare e spiegare le scelte degli agenti economici bisogna chiedersi cosa
determina la probabilità di scelta di una alternativa dato un insieme di scelta.
Due sono le motivazioni di fondo che possono dare conto della necessità di
adottare un approccio probabilistico nello studio della scelta degli agenti. Ta-
li posizioni possono essere considerate come due risposte diverse alla stessa
domanda: “La probabilità di scelta dipende dal comportamento dei singo-

38
li che è intrinsecamente probabilistico o, invece, è ascrivibile all’incapacità
dell’analista di formulare un modello in grado di spiegare il comportamen-
to individuale in modo accurato?” La prima posizione viene propugnata da
Quandt (1956). Egli afferma che una alternativa può essere caratterizzata da
un numero finito di attributi e che le relazioni di preferenza dell’individuo so-
no definite direttamente sugli attributi e, solo indirettamente, sulle alternative.
Facendo uso del quadro di riferimento delineato Quandt spiega la scelta pro-
babilistica ipotizzando che un agente, in certe occasioni, può dimenticare di
valutare alcuni attributi di una alternativa e/o commettere un errore di valuta-
zione circa l’importanza di uno o più attributi. In questo senso le circostanze
che caratterizzano il contesto di scelta possono perturbare la percezione e/o
la desiderabilità di una data alternativa. In altre parole, il comportamento di
un individuo può variare in funzione di fattori esterni al contesto decisionale
senza che le preferenze dell’individuo rispetto agli attributi mutino in alcun
modo. Se si adotta questo punto di vista il processo decisionale assume un
carattere intrinsecamente probabilistico.
La seconda posizione, invece, è espressa da Manski (1977) che assume
che sia la mancanza di informazioni adeguate ad indurre l’analista ad assu-
mere che gli agenti scelgano secondo regole probabilistiche. In questo caso si
ipotizzano regole di scelta probabilistiche non tanto per sottolineare la man-
canza di razionalità dell’agente quanto più per dare conto della mancanza di
informazioni circa gli attributi delle alternative e/o delle caratteristiche de-
gli agenti da parte dell’analista (Manski 1977). Tale punto di vista appare
comprensibile e realistico se si ricorda che alcune delle caratteristiche che
influenzano la scelta individuale non sono osservabili e/o misurabili da parte
dell’analista. D’altro canto lo stesso Manski (1977) chiarisce che la stessa
sua interpretazione può essere riformulata al fine di comprendere differenti
forme di aleatorietà. Infatti, si potrebbe assumere come fonte dell’aleatorietà
del processo decisionale il comportamento inconsistente degli individui e, al
posto di assumere che vi sia un insieme T che definisce una popolazione di
agenti razionali, si ipotizza che tale insieme rappresenti una popolazione di
regole decisionali dalle quali ciascun agente effettua delle estrazioni casuali
prima di decidere.

2.4 I modelli di scelta probabilistica

Anche se è difficile scegliere tra le due diverse spiegazioni precedentemente


illustrate per giustificare e caratterizzare la natura aleatoria del processo deci-

39
sionale, tuttavia, da entrambe le impostazioni scaturiscono modelli di scelta
identici. Fintantoché questi modelli consentono una rappresentazione corret-
ta della scelta individuale, la decisione circa l’impostazione da prediligere
assume una valenza meramente formale anche se con risvolti epistemologici
non secondari (Anderson et al. 2001).
Facendo riferimento al lavoro di Block e Marschak (1960) si è soliti di-
stinguere tra due tipologie di modelli: quelli in cui si considera stocastica
la regola decisionale (random orderings - Luce e Tversky) e quelli in cui
è l’utilità ad essere considerata stocastica (random utilities - McFadden e
Thurnstone, vedi figura 2.1).

Figura 2.1: I modelli di scelta probabilistica

In economia, in sintonia con l’impostazione neoclassica, ciò che si desi-


dera conoscere è sotto quali condizioni tali probabilità possono essere deri-
vate dal principio di massimizzazione dell’utilità stocastica. Questo aspetto,
di fondamentale importanza per la corretta definizione di un modello RUM,
sottoinsieme della classe di modelli di scelta probabilistica, è stato trattato
da molti autori tra cui si ricorda (Block e Marschak 1960, McFadden e Ri-
chter 1971, McFadden e Richter 1990, McFadden 1973, McFadden 1975,
Falmagne 1978, Fishburn 1978, Cohen 1980, McLennan 1991, Fishburn e
Falmagne 1989, Barbara 1991, Cohen e Falmagne 1990, Fishburn 1992,
Bandyopadhyay et al. 1999).
Bisogna sottolineare che i modelli di massimizzazione dell’utilità stoca-
stica danno sempre origine ad un sistema di scelta probabilistica ma, al con-

40
trario, non è sempre possibile associare un sistema di scelta probabilistica
ad un modello di massimizzazione di utilità stocastica (Barbera e Pattanaik
1986, Moulin 1985). Nell’esposizione che segue le preferenze sono model-
late direttamente come distribuzioni rispetto ad ordinamenti delle alternative
piuttosto che rispetto a scale di utilità. La scelta è motivata dal fatto che tale
approccio consente di semplificare l’esposizione senza nessuna controindica-
zione poiché è possibile dedurre dai comportamenti di scelta individuali solo
informazioni relative ad aspetti ordinali delle preferenze. La razionalizzabi-
lità delle scelte stocastiche in termini di ordinamenti probabilistici risulta di
considerevole interesse specialmente per i fondamenti concettuali connessi
alla modellizzazione econometrica delle scelte discrete. Per una trattazione
di dettaglio analitico si veda (McFadden e Richter 1971) e (McFadden 1976).

2.4.1 Modelli con regola decisionale stocastica

Per la classe di modelli in cui si ipotizza che la regola decisionale applicata


dagli agenti sia stocastica si ha anche, implicitamente, una assunzione de-
terministica circa l’utilità derivante dalle varie alternative di scelta (Tversky
1972:a). Due sono i modelli principali che assumono l’ipotesi di regola
decisionale stocastica: il modello di Luce e quello di Tversky.

Il modello di Luce

Il modello di Luce (Luce 1959) adotta un approccio assiomatico. Si supponga


che Cu rappresenti l’insieme universale di scelta che può essere interpretato
come l’universo di tutte le possibili alternative (stimoli o risposte) a disposi-
zione e, inoltre, che l’agente scegliendo sia in grado di valutare gli elementi
di Cu secondo una qualche dimensione di comparazione e sia anche in grado
di scegliere alcuni sottoinsiemi finiti degli elementi di Cu che ritiene superiori
rispetto alla dimensione di valutazione scelta. Sia C un sottoinsieme finito di
Cu e si supponga di dover scegliere un elemento i da C(i ∈ C). Si denota la
probabilità di scelta di i con PC (i) o, più in generale, se S ⊂ C, sia PC (S)
la probabilità che l’elemento scelto risulti all’interno del sottoinsieme S. Gli
assiomi ordinari della probabilità prevedono che:

• per S ⊂ C, 0 ≤ PC (S) ≤ 1,

• PC (C) = 1 e

41
• che se R, S ⊂ C e R ∩ S = , allora PC (R ∪ S) = PC (R) + PC (S) che im-
plica PC (S) = ∑i∈S PC (i) che, a sua volta, spiega perché sia sufficiente
esprimere i risultati solo in termini di PC (i).
Gli assiomi ordinari della probabilità impongono delle restrizioni su cia-
scuna delle misure ma non ipotizzano nessuna “connessione”, secondo quan-
to affermato da Luce stesso, tra le diverse misure, anche se ciò, per una classe
di scelte, non appare convincente poiché le misure non sono del tutto indipen-
denti. L’assioma della scelta di Luce (1959) può essere espresso come segue.
Sia C un sottoinsieme finito di Cu tale che ∀S ⊂ C, PS è definito se:
• P (i, j) 6= 0, 1 ∀i, j ∈ C tale che, per R ⊂ S ⊂ C, si ha
PC (R) = PS (R) PC (S) ;
• P (i, j) = 0 per alcune i, j ∈ C, tale che, ∀S ∈ C, si ha
PC (S) = PC−{i} (S − {i}).
Per spiegare il senso dell’assioma è opportuno dettagliare alcuni punti,
tecnici e concettuali. La prima parte dell’assioma è alquanto innocua ed equi-
vale ad ipotizzare la path-independence in un processo decisionale a due stadi
dove un individuo considera prima un sottoinsieme e poi sceglie un dato ele-
mento da S, dato che la probabilità che i sia scelto dato C non è funzione del
sottoinsieme S di C che contiene i. In particolare la seconda parte dell’as-
sioma afferma che se j è sempre scelto rispetto ad i allora i può non essere
considerato, il che appare ragionevole, quando si valutano le alternative pre-
senti in C. Quando l’assioma della scelta è verificato per C e tutti i suoi
sottoinsiemi allora il rapporto PPSS((i)j) è indipendente da S. Un lemma dell’as-
sioma della scelta riguarda l’indipendenza dalle alternative irrilevanti (IIA) e
può essere formulato come segue: se P (i, j) 6= 0, 1 ∀i, j ∈ C questo implica
che, per qualsiasi S ⊂ C tale per cui i, j ∈ S, sarà verificato:
P (i, j) P (i)
=
P ( j, i) P ( j)
Sulla base dell’assioma della scelta, Luce formula un importante teorema
di esistenza che produce un interessante risultato. Si supponga che C sia un
sottoinsieme finito di Cu , che P (i, j) 6= 0, 1∀i, j ∈ C , e che l’assioma della
scelta sia valido per C e per tutti i suoi sottoinsiemi, allora esiste una funzio-
ne v positiva con valori reali in C, che è unica per moltiplicazioni per una
costante positiva, tale per cui per ciascun S ⊂ C è vero che:
v (i)
PS (i) = (2.9)
∑ j∈S v ( j)

42
Infatti, se si definisce v (i) = kPC (i) con k > 0, applicando la prima parte
dell’assioma della scelta e la parte terza degli assiomi della probabilità si può
scrivere che:
PC (i) kPC (i) v (i)
PS (i) = = =
PC (S) ∑ j∈S kPC ( j) ∑ j∈S v ( j)

che assicura, quindi, l’esistenza1 di una funzione v(i) che può essere interpre-
tata, nel nostro caso, come la parte di utilità deterministica (sino ad un fattore
positivo moltiplicativo) dell’alternativa i. Visto che v(i) è sempre positiva
lo stesso varrà per PS (i) e, dato che v(i) è finita, PS (i) sarà sempre inferiore
ad 1. Con riferimento alla (2.9) è possibile affermare che la probabilità di
un’alternativa di scelta risulta crescente con la sua utilità e decrescente al cre-
scere dell’utilità delle altre alternative. Inoltre, ponendo V (i) = ln v(i) si può
riscrivere la (2.9) nel modo seguente:

expV (i)
PS (i) = (2.10)
∑ j∈S expV ( j)

che corrisponde alla formula del modello MNL che è trattato in maggior det-
taglio in seguito. Il MNL e l’assioma della scelta di Luce sono, in realtà,
equivalenti. Il modello di Luce non tratta correttamente tutte le situazio-
ni di scelta in cui una nuova alternativa riduce più che proporzionalmente
le probabilità di scelta di alternative ad essa simili e che, per converso, ri-
duce meno che proporzionalmente le probabilità di scelta delle alternative
più dissimili. In altre parole, la validità ed applicabilità dell’assioma del-
la scelta è limitato ai casi in cui l’insieme di scelta è composto da alter-
native distinte (Ben-Akiva e Lerman 1985). La validità dell’assioma della
scelta su cui poggia la IIA, interpretabile come una versione probabilisti-
ca del concetto di transitività, dipende, quindi, dalla struttura dell’insieme
di scelta. Sarà Tversky (1972:a) a dimostrare che l’assioma della scelta di
Luce è un caso speciale della proprietà della scalabilità semplice che im-
plica anche l’indipendenza dall’ordine. Infatti, se: P(i | Cn ) ≥ P( j | Cn ) al-
lora P(i | Cen ) ≥ P( j | Cen ) per qualsiasi Cen e i, j ∈ Cen ⊂ Cn . La IIA risul-
ta un caso particolare dell’indipendenza dall’ordine poiché implica anche
P(i|Cn )
= P(i|Cn ) per qualsiasi Cen e i, j ∈ Cen ⊂ Cn .
e
P( j|Cn ) P( j|Cen )

1 Luce dimostra anche l’unicità supponendo che v0 sia un’altra funzione e che per i ∈ C sia
kv0 (i)
v (i) = kPC (i) = ∑ v0 ( j) . Si ponga k0 = ∑ kv0 (i) e sapendo che v (i) = k0 v0 (i) si ottiene la
j∈C i∈C
dimostrazione.

43
Il modello di Tversky

Anche Tversky (1972:b), partendo dalla constatazione che le decisioni de-


gli agenti sono spesso caratterizzate da inconsistenza ed incertezza quando
viene loro chiesto di scegliere all’interno di un insieme di scelta con diver-
se alternative, propone un modello in cui assume che il processo decisionale
stocastico avvenga tramite l’eliminazione successiva di alternative presenti
all’interno dell’insieme di scelta. La visione probabilistica della scelta serve
proprio a dare conto dell’inconsistenza osservata e dell’incertezza intrinseca
che caratterizza la scelta degli agenti. La gran parte del lavoro teorico sulle
preferenze probabilistiche, prima della pubblicazione del lavoro di Tversky
(Tversky 1972:b), si era concentrato sulla nozione di indipendenza tra le al-
ternative (Luce 1959). Questa nozione, tuttavia, appare palesemente incom-
patibile con alcuni insiemi di scelta in cui si manifesta una dipendenza siste-
matica tra le alternative. Una tra le formulazioni più generali della nozione di
IIA è l’ipotesi che le alternative possono essere scalate così da rappresentare
la probabilità di scelta per ciascuna di loro tramite una funzione monotona
dei valori della scala delle rispettive alternative. Tale proprietà, in letteratura,
prende il nome di scalabilità semplice (Krantz 1964). Prima di definire for-
malmente la scalabilità semplice si introducono le seguenti notazioni. Siano:
Cu = {i, j, ..., z} un insieme finito che rappresenta tutte le alternative consi-
derate per la scelta; Cn ,Co , ...,Cp i sottoinsiemi non vuoti di Cu con, al loro
interno, rispettivamente, n, o e p variabili; P(i,Cn ) la probabilità di scelta del-
l’alternativa i ∈ Cn ⊆ Cu ; P(i, j), per brevità, è equivalente a P(i, {i, j}). Si
assume, inoltre, P(i,Cn ) ≥ 0, ∑i∈Cn P(i,Cn ) = 1 per qualsiasi Cn e P(i,Cn ) = 0
per qualsiasi i ∈ / Cn . Per scala si intende una funzione non-negativa in un
argomento e con dominio nei numeri reali.
Formalmente la scalabilità semplice è verificata se e solo se esiste una
scala u definita per le alternative presenti in Cu e se esistono delle funzioni Fn
di n argomenti, 2 ≤ n ≤ t, tale per cui per ogni Cn sia vero che:

P(i,Cn ) = Fn [u(i), ..., u(z)] (2.11)

dove ciascuna Fn è strettamente crescente nel suo primo argomento e stret-


tamente decrescente nei rimanenti n − 1 argomenti dato che P(i,Cn ) 6= 0, 1.
Nonostante la sua generalità, la scalabilità semplice porta con se forti conse-
guenze che possono essere testate empiricamente. In particolare, implica che
∀i, j ∈ Cn , si ha che:
1
P(i, j) ≥ if P(i,Cn ) ≥ P( j,Cn ) (2.12)
2

44
supposto che P( j,Cn ) 6= 0. La (2.12) afferma che l’ordinamento di i e di
j, in termini di probabilità di scelta, è indipendente dal set di scelte offerto.
Se un individuo è indifferente tra i e j allora dovrebbe sceglierli con uguale
probabilità all’interno di qualsiasi insieme che li contiene. Sia le riflessioni
teoriche di Debreu (1960) sia l’evidenza empirica di Becker et al. (1963) han-
no mostrato i limiti di tale impostazione.
Per rispondere a queste critiche Tversky sviluppa il modello elimination
by aspects (EBA). Ciascuna alternativa può essere descritta tramite un insie-
me di caratteristiche che la contraddistinguono. Queste hanno natura binaria
così che ciascuna alternativa o le possiede o non le possiede. Nel caso in cui
le caratteristiche non abbiano una natura intrinsecamente binaria possono,
tramite un processo di discretizzazione, essere rese binarie definendo soglie
rispetto alle quali si suddividono opportunamente le alternative in classi che
superano e classi che non superano la soglia stabilita così individuando se
possiedono o meno una determinata caratteristica. A ciascuna caratteristica
viene assegnata una scala positiva che può essere interpretata come l’utilità.
Tale scala rappresenta il livello di soddisfazione prodotto dalla scelta dell’al-
ternativa data la struttura delle preferenze dell’agente. Il modello EBA può
essere inteso come una versione stocastica della scelta lessicografica. Infatti,
il meccanismo di selezione delle alternative prevede che, prima, venga se-
lezionata una caratteristica e siano eliminate dall’insieme di scelta tutte le
alternative che non la possiedono; successivamente viene selezionata una se-
conda caratteristica ed adottata come criterio per eliminare altre alternative,
tra quelle rimaste dopo il primo round di scelta, dall’insieme delle alternative
possibili. Il processo di selezione ha termine quando non è più possibile eli-
minare nessuna altra alternativa. Nel caso in cui rimanga una sola alternativa,
quella sarà l’alternativa scelta dall’agente. Nel caso in cui, invece, al termi-
ne del processo di eliminazione, rimangono all’interno dell’insieme di scelta
più alternative, si può affermare che esse avranno tutte la stessa probabilità di
essere scelte. In modo più formale e generale si consideri una mappatura che
associa a ciascun i ∈ Cu un insieme non vuoto i0 = {α, β, ...} di elementi che
sono da intendersi come aspetti/attributi di i. Un’alternativa i si dice che in-
clude un aspetto α ogni volta che α ∈ i0 . Gli aspetti possono rappresentare va-
lori rispetto a determinate dimensioni quantitative o qualitative (ad esempio,
prezzo, qualità, comfort del trasporto, ecc.) o, ancora, possono rappresentare
una caratteristica arbitraria delle alternative che non rientra in una qualsiasi
struttura dimensionale tanto che la stessa caratterizzazione delle alternative
in termini di aspetti/attributi non è univocamente determinata. Tanto più che

45
tali aspetti potrebbero variare anche per uno stesso individuo in diverse situa-
0
zioni di scelta. Per qualsiasi Cn ⊆ Cu sia Cn = {α | α ∈ i0 per alcune i ∈ Cn }
0 0
e Cn = {α | α ∈ i0 ∀i ∈ Cn }. Quindi Cn è l’insieme degli aspetti (attributi nel
nostro gergo) che appartengono ad almeno ad una delle alternative in Cn ,
0
mentre Cn è l’insieme degli aspetti che appartengono a tutte le alternative in
0
Cn . In particolare, Cu è l’insieme di tutti gli aspetti considerati dall’agente,
0
mentre Cu è l’insieme degli aspetti caratterizzanti tutte le alternative oggetto
0
di decisione. Dato ogni aspetto α ∈ Cu , Cα rappresenta le alternative di Cn
che includono α ovvero Cα = {i | i ∈ Cn e α ∈ i0 }. Il modello EBA asserisce
che esiste una scala positiva u definita rispetto agli aspetti o, più in dettaglio,
0 0
rispetto a (Cu −Cu ), tale che ∀i ∈ Cn ⊆ Cu si ha che:

∑α∈i0 −Cu0 u(α)P(i,Cα )


P(i,Cn ) = (2.13)
∑β∈Cu0 −Cu0 u(β)

fatto salvo che il denominatore non sia pari a 0, ovvero quando tutti gli
elementi di Cn condividono gli stessi aspetti, nel qual caso si assume che
P(i,Cn ) = α1 . Il modello di Luce, di fatto, risulta un caso particolare del
modello EBA. In particolare, si deriva il modello di Luce dal modello EBA
quando si assume che le alternative sono caratterizzate da aspetti totalmente
disgiunti. Questo implica che tutte le coppie di alternative sono caratterizzate
dagli stessi aspetti, ovvero che i0 ∩ j0 = z0 ∩ w0 ∀i, j, z, w ∈ Cu . In questo caso
tutti gli aspetti sono in comune a tutte le alternative presenti in Cu e, come
tali, non influenzano il processo decisionale. Le alternative possono essere
trattate a coppie in modo disgiunto ovvero i0 ∩ j0 = ∀i, j ∈ Cu .
Tversky dimostra come per il modello EBA non sia indispensabile caratte-
rizzare le alternative in funzione degli attributi nonostante la sua formulazione
in termini della scala u definita sulla base degli attributi considerati rilevan-
ti ai fini della scelta. Il modello, infatti, può essere formulato anche solo in
termini di alternative o, più propriamente, in funzione dei sottoinsiemi di Cu .
Una delle caratteristiche innovative del modello EBA è che la probabilità
di scegliere un’alternativa dipende non solo dal suo valore ma anche dalle
relazioni che essa ha con le altre alternative disponibili all’interno dell’insie-
me di scelta. I vantaggi di questo approccio alla modellizzazione riguardano
la sua facile applicazione, spiegazione e giustificazione in termini di priorità
dell’ordinamento definito in funzione degli aspetti. Sotto il profilo stretta-
mente normativo il principale punto di debolezza del modello EBA consiste
nell’incapacità dello stesso di garantire che l’alternativa scelta, che ha supe-

46
rato tutti i processi di eliminazione, sia, di fatto, superiore rispetto a quelle
eliminate.

2.4.2 Modelli con utilità stocastica

I modelli con utilità stocastica sono più affini allo spirito della teoria neoclas-
sica tradizionale della scelta individuale rispetto a quelli sino ad ora trattati.
Qui di seguito si propongono due diverse interpretazioni del modello RUM.
La prima, proposta da Thurstone, affonda le radici nelle teorie psicologiche
della scelta individuale e la seconda, proposta da McFadden, poggia su basi
più strettamente econometriche.

Il modello di Thurstone

La dicitura “modello di Thurstone” ha scopo più classificatorio che defini-


torio. Il contributo di Thurstone può, infatti, essere considerato il pilastro
fondante dei modelli RUM anche se si inquadra, più propriamente, nel cam-
po della psicometria e della psicofisica. L’articolo fondamentale A law of
comparative judgment è del 1927 e si caratterizza per due idee principali. La
prima riguarda la modellizzazione matematica (intervallo infinito di numeri
reali) di attributi psicologici per cui giudizi del tipo “più grande”, “maggiore
di” vengono, intuitivamente, considerati parte di un continuum psicologico.
La seconda idea riguarda l’ipotesi che un qualsiasi stimolo provoca una rispo-
sta non deterministica ma aleatoria. In partiolare, l’esempio che fa Thurstone
riguarda la diversa percezione che gli agenti hanno di raggi di luce di stessa
intensità. Presentando il medesimo stimolo alla stessa persona in occasioni
diverse si ottengono risposte diverse. Thurstone descrive questa rappresenta-
zione dello stimolo sul continuum psicologico come “processo discriminan-
te” affermazione che oggi potrebbe essere riformulata asserendo che la de-
scrizione degli effetti dello stimolo è rappresentata da una variabile casuale.
L’intuizione sottostante l’idea di Thurstone può essere fatta risalire a Fech-
ner (1860) che rileva come, anche quando applicato nello stesso modo, uno
stimolo può essere percepito come più forte o meno forte da un soggetto o
organo rispetto ad un altro o dallo stesso soggetto od organo in un momento
o in un altro. Il contributo fondamentale di Thurstone non è tanto il rico-
noscimento dell’esistenza della variabilità soggettiva nella valutazione degli
stimoli, quanto più l’intuizione che questa potesse essere modellizzata espli-
citamente così producendo interessanti risultati.
Thurstone assume una distribuzione normale delle percezioni poiché in

47
molti casi la distribuzione normale approssima in modo soddisfacente le ri-
sposte a determinati stimoli. Thurstone ha offerto un quadro di riferimento
semplice e facilmente comprensibile al cui interno è possibile analizzare mol-
ti fenomeni empirici. L’impatto del suo lavoro, sviluppato nel settore della
psicofisica, è stato grande anche in altri settori (Luce 1994). Anche se con un
certo ritardo, gli economisti svilupparono un profondo interesse per il lavoro
di Thurstone che darà poi origine, grazie al contributo di Block e Marschak
(1960), al modello ad utilità aleatoria. L’applicazione in economia della leg-
ge del giudizio comparato di Thurstone implica assumere che le utilità varino
di momento in momento e che il processo decisionale adotti la semplice leg-
ge di scelta, fissa e data, che prevede la selezione dell’alternativa con l’utilità
momentanea maggiore (Edgell e Geisler 1980). Anderson et al. (2001) sugge-
riscono, per legare questo approccio alla teoria economica, di ipotizzare che
un agente sia composto da diversi tipi di homo economicus e che ciascuno
faccia riferimento alla teoria neoclassica. Un determinato homo economicus
viene scelto in funzione di ciascun stato mentale e l’agente si comporta razio-
nalmente secondo la sua specifica funzione di utilità deterministica. Secondo
questo approccio i valori delle alternative in Cn sono considerati come varia-
bili aleatorie u1 + ε1 + ... + un + εn che l’agente confronta al fine di effettuare
la scelta. In questo caso le u1 + ... + un rappresentano i valori di scala associa-
ti con le alternative e gli ε1 + ... + εn sono le variabili aleatorie e, quindi, se le
εi hanno media zero − in caso contrario è sufficiente inserire un’alternative
specific constant (ASC) nella specificazione del modello − le probabilità di
scelta possono essere espresse come segue:

PCn (i) = Pr[ui + εi = max (u j + ε j )], i = 1...n (2.14)


j=1...n

che è formalmente equivalente all’espressione proposta da Thurstone (Thurstone


1927:b). Di fatto la formulazione e rappresentazione del processo di valu-
tazione comparata proposta da Thurstone lo rende il padre fondatore della
teoria moderna dell’utilità stocastica.

Il modello di McFadden

Quello che qui viene definito il modello di McFadden, anche per ragioni di
simmetria espositiva rispetto alla trattazione degli altri tre modelli, di fatto
costituisce un’interpretazione econometrica di un modello probabilistico di
scelta con regola decisionale deterministica (massimizzazione dell’utilità) ed
utilità aleatoria.

48
L’impostazione dei modelli econometrici di scelta discreta differisce so-
stanzialmente rispetto all’impostazione adottata da Thurstone soprattutto sot-
to un profilo concettuale. In questo caso, infatti, si ipotizza che una popola-
zione di individui scelga tra alternative appartenenti ad un insieme di scelta
Cn e si vuole determinare la porzione della popolazione che sceglie una de-
terminata alternativa. Nel marketing, ad esempio, si cerca di determinare la
quota di mercato che un dato prodotto è in grado di acquisire. Nello studio dei
trasporti si è, similmente, interessati a determinare la quota di trasporto che
ciascun modo può, in potenza, soddisfare. La popolazione viene suddivisa,
sulla base di una qualche caratteristica socioeconomica (reddito, età, sesso,
professione, ecc.), in sottopopolazioni tra loro omogenee e la scelta di cia-
scun individuo viene caratterizzata da una funzione di utilità deterministica
U definita in Cn . Supponendo che l’analista non è, se non imperfettamen-
te, in grado di osservare e, conseguentemente, descrivere tutte le specificità
dell’individuo e del contesto che influenza la scelta, inclusa la capacità di
rappresentare correttamente l’eterogeneità delle preferenze, appare opportu-
no scomporre la funzione di utilità in due parti: una nota (utilità sistematica)
e definita in funzione delle variabili osservabili ed un’altra (utilità aleatoria)
legata ad una componente di errore ε che è data dalla differenza tra U (utilità
totale) e V (utilità sistematica) (Manski 1977). L’utilità viene modellizzata
come una variabile aleatoria in modo tale da riflettere la presenza di tale gap
conoscitivo che accompagna sempre l’analista. In maggior dettaglio, si può
affermare che l’utilità (Uin ) che l’individuo n associa all’alternativa i è data
da:
Uin = Vin + εin (2.15)

dove Vin costituisce la parte sistematica dell’utilità mentre εin rappresenta


quella stocastica che da conto dell’incertezza. Si suppone che verrà scelta
l’alternativa con l’utilità più alta e, conseguentemente, la probabilità che l’al-
ternativa i, appartenente all’insieme di scelta Cn , venga scelta da parte del
decisore n è pari a:
Pn|Cn = P[Uin = max U jn ] (2.16)
j∈Cn

La derivazione econometrica dei modelli basati sul principio dell’utilità


aleatoria poggia su una distinzione netta tra il patrimonio conoscitivo del-
l’agente e quello dell’analista. Quando l’agente n deve effettuare una scelta
tra le alternative presenti nell’insieme Cn egli selezionerà l’alternativa i che
produce l’utilità massima che dipenderà da fattori sia legati all’agente sia
caratterizzanti le alternative da scegliere. Definito xin il vettore di tutte le

49
caratteristiche rilevanti dell’alternativa i che l’agente n è chiamato potenzial-
mente a scegliere all’interno dell’insieme Cn e definito sn il vettore di tutte
le caratteristiche rilevanti dell’agente n, è possibile esprimere l’utilità come
funzione di questi fattori:
Uin = U(xin , sn ) ∀i ∈ Cn (2.17)
dove Uin rappresenta appunto l’utilità. L’agente sceglie, per ipotesi, l’alter-
nativa che gli procura l’utilità massima ovvero l’alternativa i ∈ Cn se e solo
se:
Uin > U jn ∀ j ∈ Cn , j 6= i (2.18)
e, utilizzando la (2.17) si ha che n sceglie i ∈ Cn se e solo se:
Uin (xin , sn ) > U jn (x jn , sn ) ∀ j ∈ Cn , j 6= i (2.19)
che completa la descrizione del processo decisionale dell’agente n. È im-
portante evidenziare come la regola decisionale adottata sia deterministica
poiché si sceglie sempre l’alternativa con l’utilità massima. Nel caso l’a-
nalista intenda definire le probabilità di scelta dell’agente per prevederne il
comportamento e se egli osserva tutti gli xin e gli sn oltre che U allora, sulla
base della (2.19), sarebbe perfettamente in grado di prevedere la scelta. Tutta-
via, l’analista, non dispone di tutto il patrimonio informativo ipotizzato e non
può avvalersi di tutte le informazioni rilevanti ai fini del processo decisiona-
le. Partizionando rispettivamente gli elementi di xin in due sottovettori, quelli
noti all’analista hin e quelli a lui ignoti kin , e quelli di sn in due sottovettori,
quelli noti all’analista rn e quelli a lui ignoti pn , è possibile decomporre l’uti-
lità U (xin , sn ), per ciascun i ∈ Cn , in due sottofunzioni (Train 1986) in cui la
prima V (hin , rn , β) dipende solo dai fattori che l’analista è in grado di osser-
vare e la cui forma gli è nota a meno di un vettore di parametri β da stimare,
e la seconda che è data da tutti i fattori e gli elementi dell’utilità (kin , pn ) che,
ignoti all’analista, vengono cumulati tutti in εin . In altre parole si può scrivere
che:
Uin = U (xin , sn ) = V (hin , rn , β) + εin (2.20)
Se l’incapacità dell’analista nel prevedere perfettamente il comportamen-
to dell’agente è dovuta alla incompleta informazione circa la sua funzione di
utilità tuttavia la conoscenza di una sua parte V (hin , rn , β) consente di effet-
tuare delle previsioni circa la probabilità con cui certe scelte verranno com-
piute. In particolare, la definizione delle probabilità di scelta Pin che esprime
la probabilità che la (2.19) sia verificata, si può scrivere come segue:
Pin = Pr (Uin > U jn , ∀ j ∈ Cn , j 6= i) (2.21)

50
e, sostituendo la (2.20) nella (2.21) e ponendo Vin = V (hin , rn , β) si può scri-
vere che:

Pin = Pr (Vin + εin > V jn + ε jn , ∀ j ∈ Cn , j 6= i)


= Pr (ε jn − εin < Vin −V jn , ∀ j ∈ Cn , j 6= i) (2.22)

Dato che l’analista osserva soltanto la parte deterministica dell’utilità e


non quella aleatoria sarà in grado di calcolare la differenza tra le V e non
quella tra le ε tanto più che la differenza di due variabili aleatorie è, es-
sa stessa, una variabile aleatoria. Conseguentemente, la parte destra della
(2.22) altro non è che una distribuzione cumulata che misura la probabilità
che la differenza tra le ε sia inferiore alla differenza tra le V . Se si conosce
la distribuzione dei termini di errore, pur non sapendo i loro valori esatti, è
possibile derivare la distribuzione di ciascuna differenza e calcolare la pro-
babilità che l’agente scelga un’alternativa in funzione della differenza tra le
parti deterministiche dell’utilità. Tale probabilità è esprimibile come segue:

Pin = f (hin , h jn ∀ j ∈ Cn , j 6= i, rn , β) (2.23)

Da quanto affermato emerge l’importanza dell’ipotesi circa la specifica-


zione della distribuzione del termine di errore che serve a scomporre l’utilità
dell’agente.
I RUM sono i modelli a scelta discreta più diffusamente impiegati per
lo studio del settore dei trasporti. La derivazione dei RUM per lo studio
empirico delle scelte poggia sulla specificazione della funzione di utilità così
come specificata nella (2.15). Assunzioni differenti circa il termine di errore
εin danno origine a modelli diversi. Qui di seguito vengono discusse le ipotesi
solitamente adottate circa le componenti strutturali dei modelli RUM.

2.5 Le componenti strutturali

La struttura di un modello RUM poggia su quattro componenti fondamen-


tali che è importante definire, specificare e caratterizzare. In particolare tali
componenti sono: 1) decisore; 2) insieme di scelta; 3) attributi; 4) regola
decisionale.

2.5.1 Il decisore
I modelli di scelta a cui si fa riferimento in questo libro sono modelli com-
portamentali disaggregati in cui si ipotizza che sia il singolo individuo a sce-

51
gliere. Nella gran parte dei casi tale ipotesi non risulta restrittiva. Il concet-
to di individuo può essere convenientemente esteso in funzione del contesto
di analisi in modo tale da assumere, ad esempio, che la famiglia o un al-
tro gruppo di persone (impresa) costituisca l’unità decisionale. Adottando
questa semplificazione implicitamente si ipotizzano come irrilevanti le dina-
miche decisionali all’interno del gruppo quando questo sceglie. Proprio per
la loro natura intrinsecamente disaggregata i modelli trattati solitamente in-
cludono le caratteristiche o attributi dell’individuo come, ad esempio, l’età,
il sesso, il reddito, ecc. È compito dell’analista individuare quegli attributi
che, con maggiore probabilità, avranno un peso predominante nello spiegare
la scelta. Non esiste un processo automatico e sempre valido che consenta di
procedere con certezza a tale identificazione. La conoscenza del contesto di
scelta e la disponibilità di dati giocano un ruolo cruciale in tale processo di
selezione.

2.5.2 L’insieme di scelta

L’analisi del processo decisionale presuppone sia la conoscenza di ciò che


è stato scelto sia di ciò che è stato rifiutato così da comprendere il trade-off
compiuto. Si desume il valore attribuito alla alternativa scelta considerando
proprio le caratteristiche delle alternative rifiutate. È necessario, quindi, ef-
fettuare delle ipotesi circa le alternative considerate dall’individuo durante il
processo decisionale. Dato il rilievo sia teorico sia empirico della definizione
dell’insieme di scelta (Hicks e Strand 2000) è opportuno, in alcuni casi, co-
me fa Cascetta (2006), simulare esplicitamente la generazione dell’insieme
di scelta tramite un modello specifico. Spesso, in letteratura, si adotta un ap-
proccio implicito che, anche se più semplice da implementare, si connota per
una scarsa consistenza poiché, nei fatti, confonde gli attributi di utilità con
la disponibilità o meno dell’alternativa producendo, così, stime distorte. La
caratterizzazione dell’insieme che comprende le alternative di scelta dipende
dal contesto specifico d’analisi. Se si suppone di allocare una data quantità di
tempo, ad esempio due ore, tra due attività alternative che non possono esse-
re compiute contemporaneamente (studiare o andare in piscina) e si decide di
compiere ciascuna delle due azioni nel tempo a disposizione, allora il tempo
dedicato a ciascuna delle due attività separatamente può assumere qualsia-
si valore purché la somma non superi le due ore. In altre parole, l’insieme
di scelta che ne deriva può essere rappresentato graficamente come in figura
(2.2) o descritto analiticamente come segue.

52
Figura 2.2: Un insieme di scelta continuo

C = {(tStudio ,tPiscina ) |tStudio + tPiscina ≤ 2,tStudio ≥ 0,tPiscina ≥ 0}

L’esempio descrive un insieme di scelta continuo dove le alternative sono


definite da un vincolo e non sono numerabili. Al contrario, in questo lavoro,
ci si concentra esclusivamente su insiemi di scelta discreti, ovvero contenenti
un numero finito di alternative che possono essere esplicitamente enumerate,
e autoescludentisi. I modelli di scelta che trattano insiemi di scelta aventi
queste caratteristiche vengono detti, appunto, modelli a scelta discreta. La
scelta tra un modo di trasporto ed un altro costituisce un caso in cui l’insieme
di scelta è discreto. In questo caso, infatti, la caratterizzazione dell’insieme
di scelta consiste nell’identificare il numero delle alternative effettivamente
presenti. Per procedere a tale identificazione è opportuno considerare due di-
versi concetti: l’insieme di scelta universale (Cu ) e l’insieme di scelta ridotto
(Cn ). L’insieme di scelta universale contiene tutte le potenziali alternative
disponibili. In altre parole, se si sta studiando la scelta modale nel viaggio
casa-lavoro, le alternative possibili potrebbero essere: auto, bus, bicicletta,
andare a piedi, ecc. ma l’utilizzo dell’aereo, che rimane pur sempre un modo

53
di trasporto, non rientra, verosimilmente, all’interno dell’insieme di scelta e,
quindi, non viene incluso nell’insieme di scelta universale. L’insieme di scel-
ta ridotto è un sottoinsieme dell’insieme universale al cui interno si trovano
i soli modi di trasporto espressamente disponibili e considerati da un dato
individuo. Alcune alternative presenti nell’insieme di scelta universale ma
non disponibili per l’individuo in considerazione sono escluse dall’insieme
ridotto. Ad esempio, l’alternativa “auto come conducente” non è all’interno
dell’insieme di scelta di chi non possiede un’auto o di chi non ha una paten-
te di guida. Oltre che l’effettiva disponibilità dell’alternativa si deve anche
considerare la consapevolezza dell’esistenza dell’alternativa effettivamente
disponibile. Infatti, nel caso in cui vi sia un’alternativa effettivamente dispo-
nibile di cui l’individuo non è a conoscenza, essa, di fatto, non verrà presa in
considerazione durante il processo decisionale e, come tale, andrebbe esclusa
dall’insieme di scelta.

2.5.3 Gli attributi


Ciascuna alternativa nell’insieme di scelta viene caratterizzata da un insieme
di attributi. Come già fatto per la caratterizzazione del decisore, l’analista de-
ve, allo stesso modo, identificare gli attributi di ciascuna alternativa che, con
maggiore probabilità, influenzano la decisione dell’individuo. In un contesto
di scelta modale, ad esempio, la lista degli attributi da utilizzare per caratte-
rizzare il modo auto potrebbe includere il tempo di viaggio, i costi diretti, il
comfort, ed altro ancora. Nel caso, invece, del modo bus gli attributi utilizza-
bili per spiegare la scelta potrebbero essere il tempo totale di viaggio, il costo
del biglietto, il comfort, il tempo di attesa al terminale, il tempo necessario
per raggiungere la fermata, il numero di cambi necessari per raggiungere la
destinazione ed altro ancora. Si noti che si possono avere degli attributi gene-
rici che valgono per tutti i modi considerati (costo, durata del viaggio) mentre
altri possono essere specifici per un dato modo (frequenza, tempo di attesa al
terminale caratterizzano solo il modo bus) e, inoltre, si possono avere attributi
qualitativi (comfort) e quantitativi (costo e durata del viaggio). Un attributo
non è necessariamente determinato da una quantità direttamente osservata e,
anzi, può derivare da un qualsiasi calcolo sui dati disponibili. In altre paro-
le, al posto del tempo di viaggio in quanto tale si potrebbe utilizzare, ai fini
della stima del modello, il suo logaritmo se sussistono degli a priori teorici
per procedere ad una trasformazione in tale senso. Secondo la stessa logica,
si potrebbe utilizzare il rapporto costo/reddito piuttosto che il solo costo se
si suppone una diversa sensibilità al costo per diversi redditi (Cherchi 2003).

54
La definizione degli attributi in funzione dei dati disponibili è strettamente
connessa alla natura del problema che si sta studiando e, solitamente, si de-
vono testare diverse definizioni prima di trovare quella che meglio si adatta
alla natura dei dati a disposizione e del contesto specifico di scelta.

2.5.4 Le regole decisionali


In questo paragrafo si riassume, per necessità di simmetria espositiva, quan-
to già riportato nel dettaglio in precedenza. Si può ipotizzare che l’agente
impieghi diverse regole decisionali nell’effettuare una scelta. L’adozione di
un’ipotesi piuttosto che un’altra consente la modellizzazione di diversi conte-
sti di scelta. Sono stati sviluppati sia modelli con regole decisionali aleatorie
sia con utilità aleatoria. La specifica fonte dell’incertezza rimane una que-
stione aperta, tanto che alcuni modelli assumono regole decisionali con una
natura intrinsecamente stocastica e, quindi, anche una conoscenza comple-
ta del problema non riuscirebbe a porre rimedio alla questione determinata
dall’incertezza. In altri casi si ritiene che le regole decisionali siano deter-
ministiche ma si spiega l’incertezza tramite l’impossibilità dell’analista di
osservare e catturare tutte le dimensioni del problema proprio a causa della
sua stessa complessità. In ossequio all’impostazione neoclassica (razionali-
tà del consumatore e massimizzazione dell’utilità) si approfondisce lo stu-
dio dei modelli RUM in cui si assume una regola decisionale deterministica
(massimizzazione dell’utilità) e l’utilità stocastica.

2.6 Conclusioni

In questo capitolo si è trattato dei fondamenti teorici alla base dei modelli
a scelta discreta e, in particolare, delle caratteristiche specifiche dei modelli
RUM. L’inquadramento storico del processo che ha portato la letteratura al
suo attuale stadio evolutivo consente di comprendere le difficoltà teoriche e
concettuali che hanno, da un lato, ostacolato, in alcuni periodi, il processo
evolutivo e che, dall’altro, hanno, in altre fasi, stimolato la ricerca e l’adozio-
ne di soluzioni innovative. Certamente i cicli di espansione, consolidamento,
e nuova espansione sono stati molto influenzati sia dalla disponibilità di da-
ti, sia dall’evoluzione delle tecniche di acquisizione dei dati ma anche dalla
disponibilità di capacità di calcolo a basso costo. Se la ricostruzione del pro-
cesso evolutivo della letteratura serve ad inquadrare i problemi con i quali
oggi ci si confronta in una corretta prospettiva storica è altrettanto opportuno
ed interessante analizzare l’impostazione RUM in un quadro più ampio che

55
comprende anche altri approcci per studiare le decisioni umane in contesti di
scelta caratterizzati da alternative, finite, numerabili e mutuamente esclusive.
Un sano confronto tra teorie e impostazioni diverse favorisce la compren-
sione di vantaggi e svantaggi derivanti dall’approccio adottato e dei risultati
ottenuti in altri campi del sapere favorendo una fertilizzazione incrociata che
è utile per superare, mutuando intuizioni e soluzioni, le difficoltà poste dal
desiderio di rendere più sofisticata l’analisi e realistico il contesto.

56
3. I modelli in forma chiusa

3.1 Introduzione

Questo capitolo tratta dei modelli a scelta discreta in forma chiusa. Tali sono i
modelli la cui soluzione può essere ottenuta analiticamente senza fare ricorso
a metodi simulativi. In particolare, si analizzano in dettaglio le caratteristi-
che, specificità, punti di forza e di debolezza del MNL e NL. Si tratta anche
della più ampia famiglia dei modelli GEV mostrando come MNL e NL ne
rappresentino casi particolari. Essendo questi ultimi i modelli più utilizzati
se ne approfondisce l’analisi. La struttura espositiva adottata è uniforme; pri-
ma si descrivono le caratteristiche statistiche e matematiche dei modelli poi
se ne illustra brevemente una applicazione ad un caso.
Anche se il MNL presenta alcuni punti deboli esso costituisce la base da
cui partire per la stima di modelli comportamentali di scelta. A detta di emi-
nenti studiosi (Hensher et al. 2005a) è sempre bene impiegare più del 50%
del totale del tempo dedicato alla stima di un modello di scelta discreta allo
studio del MNL.
Le famiglie di modelli a scelta discreta che è possibile definire e stimare
sono funzione delle diverse ipotesi effettuate circa la distribuzione dei termini
di errore e quella congiunta delle loro differenze. I modelli logit (e.g. MNL),
ad esempio, poggiano sull’ipotesi che i termini di errore si distribuiscono ex-
treme value type I (EV), per i probit (e.g. MNP), invece, si suppone che i
termini di errore siano distribuiti in modo normale. Le ipotesi sui termini
di errore hanno implicazioni profonde sia sulla possibilità di rappresentare
in modo più o meno flessibile i processi decisionali sia sulla stima empirica
del modello. Il presente capitolo si articola come qui di seguito riportato. In

57
primo luogo si tratta della descrizione generale e della forma funzionale dei
modelli in forma chiusa con una attenzione particolare dedicata alle caratte-
ristiche della matrice di varianza-covarianza dei residui aleatori oltre che alle
ipotesi sul termine deterministico e su quello di errore. Il paragrafo 3.3 de-
scrive le principali caratteristiche del MNL, definendo le probabilità di scelta
ed approfondendo alcuni aspetti relativi al parametro di scala. La trattazione
prosegue illustrando sia i punti di forza sia quelli di debolezza del MNL e
la determinazione del surplus del consumatore, derivate ed elasticità a cui fa
seguito una illustrazione di una applicazione del modello. La parte dedicata
al MNL si chiude con un paragrafo che tratta le questioni relative alla stima,
bontà del modello e verifica delle ipotesi. Alla sintetica trattazione di alcuni
modelli membri della più ampia famiglia dei modelli GEV fa seguito la de-
scrizione del NL di cui si definiscono le probabilità di scelta e, specularmente
a quanto fatto per il MNL, se ne analizzano punti di forza e di debolezza. Si
determinano anche surplus del consumatore, effetti marginali ed elasticità per
poi illustrare un’applicazione ad un caso specifico. Il capitolo si chiude con
una breve panoramica di alcune evoluzioni del NL e, in particolare, si tratta
del NL eteroschedastico e del NL a nidificazioni sovrapposte.

3.2 Descrizione generale e forma funzionale

I modelli ad utilità aleatoria ipotizzano che gli agenti scelgano tra alternati-
ve diverse con l’intento di massimizzare l’utilità che ciascuna è in grado di
fornire. Pertanto, la definizione della funzione di utilità assume un ruolo cru-
ciale nel processo di modellizzazione della scelta individuale. Tale funzione,
infatti, stabilisce il processo tramite il quale gli attributi delle alternative e
le caratteristiche socioeconomiche degli agenti si combinano, interagiscono,
influenzano le probabilità di scelta e, in ultima analisi, determinano la bontà,
descrittiva o predittiva, del modello. L’ipotesi fondamentale è che l’agente n
sceglierà l’alternativa i se e solo se Uin > U jn ∀ j 6= i ∈ C. Supponendo che
Uin = Vin + εin , separando la parte aleatoria da quella sistematica, si avrà che
l’alternativa i verrà scelta se e solo se(Vin −V jn ) > (ε jn − εin ). Dato che l’a-
nalista non è in grado di osservare (ε jn − εin ) non sarà nemmeno in grado di
determinare con certezza quando (Vin −V jn ) > (ε jn − εin ) e, pertanto, potrà
solo effettuare affermazioni di natura probabilistica circa gli esiti della scel-
ta. In altre parole, l’analista può affermare che la probabilità che l’agente
n, estratto in modo casuale da un campione della popolazione, caratterizzato
dagli attributi sn ed avente a disposizione un insieme di scelta C, scelga l’al-

58
ternativa i è pari alla probabilità che la differenza tra le parti aleatorie delle
alternative i e j risulti inferiore a quella tra le utilità sistematiche per tut-
te le alternative disponibili all’interno dell’insieme di scelta. L’analista non
conosce l’effettiva distribuzione di [ε (sn , x j ) − ε (sn , xi ) ] all’interno della po-
polazione ma assume che tale distribuzione sia connessa alla probabilità di
scelta attraverso una distribuzione da definire. Al fine di mettere in relazione
il modello di utilità aleatoria descritto con una specificazione statistica uti-
le per applicazioni empiriche è bene richiamare due concetti fondamentali
della teoria della probabilità. Ci si riferisce, in particolare, alla funzione di
distribuzione cumulata e alla funzione di densità congiunta. La struttura di
un modello di scelta discreta dipende, in buona sostanza, dalle ipotesi che
si effettuano circa questi due elementi. Un breve richiamo circa le proprietà
delle distribuzioni statistiche servirà a chiarire la centralità delle ipotesi sul
termine di errore per tutti i modelli a scelta discreta. L’esposizione di quanto
segue, in questo paragrafo, si rifà, in parte, a Louviere et al. (2000).
Si consideri una variabile H e si definisca la funzione F (H) in modo tale
che F (m) sia la probabilità che H assuma un valore inferiore o uguale ad m.
La funzione F (H) prende il nome di distribuzione cumulata (FDC) dato che
cumula la probabilità di H sino ad m e risulta monotona crescente per tutti
i valori di H. Se ci si limita ai casi in cui la FDC è continua la derivata di
F (H) data da F 0 (H) = ∂H ∂F
= f (H), prende il nome di funzione di densità
di probabilità (FDP) della variabile H. La probabilità, quindi, che H si situi
tra due punti, ad esempio m e p, è semplicemente data dall’area al di sotto di
f (H) tra i punti m e p e può essere calcolata come segue:
Z m
P (m ≤ H ≤ p) = f (h) dh (3.1)
p

dove h è una variabile dummy di integrazione. Nel nostro caso, quindi, la


probabilità che H ≤ m è data da:
Z m
F (m) f (h) dh
−∞

Generalizzando a n variabili aleatorie H1 , H2 , H3 , ...., Hn la probabilità che


la condizione H1 ≤ m1 , H2 ≤ m2 , H3 ≤ m3 , ...., Hn ≤ kn sia congiuntamente
soddisfatta, è data da:
Z m1 Z m2 Z mn
F (m1 , m2 , ..., mn ) = ... f (h1 , h2 , ..., hn ) dh1 , dh2 , ..., dhn
−∞ −∞ −∞

59
Tramite una FDP congiunta di n variabili aleatorie si può calcolare la FDP
marginale congiunta di un qualsiasi sottoinsieme d di queste variabili aleato-
rie integrando da −∞ a +∞ tutte le altre n − d variabili. Nel caso, ad esem-
pio, si desiderasse calcolare la FDP marginale congiunta di H1 e H2 questa
risulterebbe pari a:
Z ∞ Z ∞
... f (h1 , h2 , ..., hn ) dh3 , dh4 , ..., dhn
−∞ −∞
che ci fornisce la densità marginale congiunta (FDP) di H1 e H2 visto che sono
state integrate tutte le altre variabili e, inoltre, la FDC marginale congiunta di
H1 e H2 può essere espressa come segue:
Z m1 Z m2 Z ∞ Z ∞
... f (h1 , h2 , ..., hn ) dh1 , dh2 , ..., dh
−∞ −∞ −∞ −∞
Tale risultato è ottenuto integrando la FDP marginale congiunta di H1 e
H2 per H1 e H2 rispettivamente da −∞ sino ad m1 e m2 ; la FDP marginale
congiunta di H1 e H2 può essere intesa come F(m1 , m2 ,∞,∞,...,∞).
Per chiarire il legame tra il tipo di modello a scelta discreta e le assunzioni
effettuate circa la distribuzione del termine di errore è opportuno ricordare
quali sono i passi logici necessari per sviluppare un modello a scelta discre-
ta. In primo luogo si assume che l’agente n scelga un’alternativa i se e solo
se Uin è maggiore del livello di utilità associato con qualsiasi altra alternati-
va presente all’interno dell’insieme di scelta. Successivamente, si calcola la
probabilità che l’individuo ritenga che l’alternativa i produca per sé un’utili-
tà maggiore di quella di qualsiasi altra alternativa j disponibile supponendo,
quindi, di conoscere Vin per tutte le j alternative all’interno dell’insieme di
scelta dell’agente. Assumendo per ipotesi che il valore di V jn sia pari a v jn
allora si potrà dire che:

Pin = P Uin > U jn V jn = v jn , j ∈ Cn ∀i 6= j (3.2)
Per procedere alla stima empirica dei parametri della funzione di utilità
tramite il metodo della massima verosimiglianza è necessario effettuare delle
ipotesi circa la distribuzione congiunta delle εin , specificare le Vin in termini
di attributi (gli xi considerati rilevanti ai fini della scelta).
Dato che εin ha una distribuzione di valori nella popolazione campionata,
si denotano tutti i possibili valori di εin con θh (h = 1, ..., r) e, ipotizzando
una distribuzione continua di θh con un intervallo che va da −∞ a +∞ si può
scrivere:

Pin = ∑ P [εin = θh ] ∆θh [P (εin < Vin −V jn + θk ) , ∀i ∈ Cn , i 6= j] (3.3)
h=1

60
Quando si ha che ∆θk → 0, allora la (3.3) si può scrivere come segue:
Z ∞
lim Piq = P [εin = θk ] [P (ε jn < Vin −V jn + θk ) , ∀i ∈ Cn , i 6= j] (3.4)
∆θ→0 −∞

L’equazione (3.4) costituisce un’espressione generale che descrive la rela-


zione tra la probabilità di scelta e gli attributi delle alternative all’interno del-
l’insieme di scelta per un agente razionale che massimizza la propria utilità.
L’analista interpreta e tratta tale probabilità, a causa della sua informazione
imperfetta (Manski 1977), come una variabile aleatoria. Per passare dall’e-
quazione (3.4) ad un modello operativo che possa essere stimato è necessa-
rio effettuare altre ipotesi. Per giungere alla determinazione empirica della
probabilità di scelta si devono specificare le formule per la selezione delle
probabilità e determinare, successivamente, se tali formule sono compatibi-
li con l’equazione (3.4) qualora venissero impiegate da parte di una qualche
distribuzione di agenti che cercano di massimizzare la propria utilità.

3.2.1 La matrice di varianza - covarianza dei residui aleatori


La varianza, in statistica, è un indice di dispersione; viene solitamente indi-
cata con σ2 . La varianza in un insieme di osservazioni rappresenta la devia-
zione media al quadrato delle singole osservazioni rispetto alla media ed è
nulla solo nel caso in cui tutte le osservazioni sono uguali tra di loro e, con-
seguentemente, pari alla media. In generale nel caso in cui x rappresenti una
variabile casuale la sua varianza si definisce come segue:
1 n
σ2 = · ∑ (xi − µ)2
n i=1

dove µ è la media aritmetica dei valori xi . La varianza è la somma di valori


elevati al quadrato e non sarà mai negativa.
La covarianza è, invece, un indice di contemporaneità della variazione
(in termini lineari) anche detto indice di associazione di due variabili. La
covarianza si definisce come segue:
1 n
σxy = ∑ (xi − µx ) (yi − µy )
n i=1

dove µx , µy sono rispettivamente, le medie delle variabili x e y. La covarianza


può assumere sia valori positivi sia negativi e, nel caso di indipendenza tra
variabili, essa risulta pari a zero anche se non è verificato necessariamente il
contrario. Nel caso in cui x = y, essa, di fatto, si trasforma in varianza.

61
Per i modelli invarianti le probabilità di scelta dipendono dalle differen-
ze tra l’utilità sistematica di ciascuna alternativa e quella di un’alternativa di
riferimento (Vi −V j ) (Cascetta 2006). Le ipotesi che si formulano, quindi,
circa la funzione di densità o di distribuzione congiunta dei termini di er-
rore determinano le caratteristiche fondamentali del modello. La matrice di
varianza-covarianza, in generale, simmetrica e semidefinita, sintetizza tutte le
ipotesi, e le implicazioni da queste derivanti, circa la distribuzione congiunta
dei termini di errore. Per chiarire il ruolo della matrice di varianza-covarianza
si ricorda, ad esempio, che il modello di scelta deterministico, in cui si ipo-
tizza l’assenza di errori previsionali e, conseguentemente, ciascun residuo
aleatorio può essere posto pari a zero  (ε1 = ε2 = ... = εk = 0), è caratteriz-
zato da una varianza nulla σ2x = 0 e, conseguentemente, covarianze nulle
(σkh = 0). L’utilità totale sarà pari a quella sistematica (Ui = Vi ). Nei model-
li aleatori, di seguito trattati, si ipotizza che la matrice di varianza-covarianza
è non nulla; si assume che  la varianza di ciascun residuo aleatorio sia stret-
tamente positiva σ2 > 0 , e che i residui siano, a coppie, non perfettamente
 x 
correlati (σxy )2 < σ2x σ2y ovvero che la matrice di covarianza sia non singo-
lare (Cascetta 2006). I modelli probabilistici di scelta che ne discendono sono
caratterizzati da una funzione continua e con derivate prime parziali continue.

3.2.2 Le ipotesi sul termine deterministico e su quello di errore

Per rendere operativi e stimabili i modelli a scelta discreta si effettuano op-


portune ipotesi. In particolare, come si è detto, si suppone che sia possibile
suddividere l’utilità totale in due parti: una deterministica ed una aleatoria.
Questo serve per procede alla loro specificazione, identificazione e stima.

Il termine deterministico

La specificazione dei livelli assoluti delle utilità ordinali è irrilevante. Ai fini


della determinazione della scelta, solo le differenze tra utilità sono di rilievo.
In primis è opportuno chiarire quali variabili entrano nelle funzioni di utilità.
Per ciascun agente n una qualsiasi alternativa i può essere caratterizzata da un
vettore di attributi hin comprendente gli elementi più importanti considerati
dal soggetto nell’effettuare la scelta (Lancaster 1966). Nel caso, ad esempio,
di un modello di scelta modale gli elementi che solitamente si considerano ri-
levanti ai fini della scelta del modo di trasporto sono: tempo, costo, comfort,
sicurezza, ecc. È importane anche caratterizzare l’agente n che compie la

62
scelta utilizzando un vettore di attributi, denotato con rn , comprendente ele-
menti quali: reddito, età, sesso, tipo di occupazione, possesso o meno della
patente di guida, possesso di una o più automobili in famiglia, ecc. In breve
la specificazione della parte deterministica dell’utilità consiste nell’effettuare
delle ipotesi, realistiche e rispettose della teoria economica, da un lato, oltre
che funzionali ad una facile trattazione matematica del modello, circa le hin e
rn . Le ipotesi effettuate servono a descrivere in modo convincente come tali
variabili possano influenzare la scelta. Non è insolito che i due obiettivi, che
si cerca di perseguire contemporaneamente, risultino tra di loro in contrasto.
Appare spesso conveniente definire solo un vettore degli attributi xi che inclu-
de sia hin sia rn . Si ipotizza che ciascuna scelta è funzione degli attributi della
alternativa oltre che delle caratteristiche dell’agente. La parte deterministi-
ca dell’utilità di un individuo i è, quindi, associata con l’alternativa i come
segue:
Vin = Vin (xin ) (3.5)

dove xin è un vettore che contiene tutti gli attributi sia dell’agente n sia del-
l’alternativa i. Di solito si assume che la (3.5) sia una funzione lineare nei
parametri, vale a dire che se si considerano n attributi, avremo che:

n
Vin (xin ) = β1 xin (1) + β2 xin (2) + ... + βn xin (n) = ∑ βk xin (k) (3.6)
k=1

dove β1 , ... , βn sono i parametri da stimare. Questa ipotesi semplificatrice


rende più diretta la formulazione ed il procedimento di stima del modello
senza introdurre eccessive restrizioni poiché, ad esempio, si possono, co-
munque, stimare effetti non lineari definendo opportunamente gli attributi
o trasformando le variabili considerate.

Il termine di aleatorio

Le ipotesi fondamentali da considerare con riferimento al termine di errore


riguardano: la media, la varianza e la sua distribuzione.
La media del termine stocastico di errore viene solitamente supposta pari
a zero. Si può dimostrare che questa ipotesi non è restrittiva. Ad esempio,
si consideri il caso in cui si deve scegliere tra due alternative, vale a dire che
l’insieme di scelta C contiene due sole alternative: C = {1, 2}. La probabilità

63
che un dato decisore scelga l’alternativa 1 è data da:

P{1,2} (1) = P [U1 ≥ U2 ]


= [V1 + ε1 ≥ V2 + ε2 ] (3.7)
= [V1 −V2 ≥ ε2 − ε1 ]

e si indichi, rispettivamente, la media del termine di errore di ciascuna alter-


nativa come µ1 = E [ε1 ] e µ2 = E [ε2 ]. Il termine di errore può, quindi, essere
specificato come segue:
0
ε1 = µ1 + ε1 (3.8)
e:
0
ε2 = µ2 + ε2 (3.9)
0 0
dove ε1 e ε2 sono variabili stocastiche con media zero e questo ci consente di
scrivere:

P{1,2} (1) = P [V1 −V2 ≥ ε2 − ε1 ]


h 0 0
i
= P V1 −V2 ≥ (µ2 + ε2 ) − (µ1 + ε1 ) (3.10)
h 0 0
i
= P (V1 + µ1 ) − (V2 + µ2 ) ≥ ε2 − ε1

I valori µ1 e µ2 , detti costanti specifiche dell’alternativa (ASC), catturano


la media del termine di errore. Quindi, si può ipotizzare, senza perdita di
generalità, che i termini di errore abbiano media zero se la specificazione del
modello include le ASC. In pratica è impossibile stimare il valore di tutte le
ASC poiché, la probabilità di scelta dell’alternativa 1 non si modifica se una
costante arbitraria K viene aggiunta ad entrambe le utilità. Quindi, si può
identificare solo la differenza tra due ASC infatti, dalla (3.7) si ha che:
h 0 0
i
P{1,2} (1) = P (V1 + µ1 ) − (V2 + µ2 ) ≥ ε2 − ε1
h 0 0
i
= P V1 + µ1 + ε1 ≥ V2 + µ2 + ε2 (3.11)
h 0 0
i
= P V1 + µ1 + ε1 + K ≥ V2 + µ2 + ε2 + K ∀K ∈ R

Posto K = −µ1 si ha che:


h 0 0
i
P{1,2} (1) = P V1 + ε1 ≥ V2 + (µ2 − µ1 ) + ε2

64
o, in modo analogo, definendo M = µ2 − µ1 si ha che:
h 0 0
i
P{1,2} (1) = P V1 + ε1 ≥ V2 + M + ε2

Si ottiene lo stesso risultato definendo K = −µ2 . Tale risultato può facil-


mente essere esteso a modelli con più alternative.
Le ipotesi circa la varianza del termine di errore poggiano sulla constata-
zione che la scala dell’utilità può essere specificata in modo arbitrario. Infatti,
per qualsiasi α ∈ R, α > 0 si ha che:

P{1,2} (1) = P [U1 ≥ U2 ] = [αU1 ≥ αU2 ]


= [(αV1 − αV2 ≥ α (ε2 − ε1 )] (3.12)

La scelta di α equivale ad ipotizzare una determinata varianza v della


distribuzione del termine di errore, infatti se:

v = σ2 [α (ε2 − ε1 )] (3.13)

ciò equivale ad affermare che:


v
α= p
2
σ [(ε2 − ε1 )]
Di solito, per convenienza, si assume α = 1 anche se qualsiasi altro valore
andrebbe, comunque, bene.
Definite le ipotesi circa media e varianza della distribuzione del termine
di errore si discute della forma funzionale della distribuzione delle differenze
dei termini di errore. Si illustrano le caratteristiche di tre distribuzioni che
danno origine a tre famiglie diverse di modelli: lineare, probit e logit.
Il modello lineare si ottiene ipotizzando che la funzione di densità del
termine di errore sia data da:
 1
f (x) = 2L se x ∈ [−L, L] (3.14)
0 altrimenti
dove L ∈ R, L ≥ 0 è una costante arbitraria. Tale funzione di densità è impie-
gata per derivare la probabilità di scelta di una particolare alternativa. Pren-
dendo per riferimento la (3.7), la probabilità di scelta può essere espressa
come segue:

 0 se V1 −V2 < −L
V1 −V2 +L
P{1,2} (1) = 2L se − L ≤ V1 −V2 ≤ L (3.15)
1 se V1 −V2 > L

65
Il modello lineare presenta alcuni problemi dovuti a: 1) la probabilità as-
sociata con valori estremi (nel nostro caso |V1 −V2 | ≥ L) è pari a 0 o 1 e il
modello non è in grado di darne una spiegazione compiuta ove tale occor-
renza si verificasse in concreto; 2) i punti di discontinuità L e −L provo-
cano seri problemi con la maggior parte dei metodi di stima. Nel modello
lineare la costante L determina la scala della distribuzione e, nel caso bina-
2
rio, si ha che σ2 (ε2 − ε1 ) = L3 e, utilizzando la (3.13), si ha che ipotizzare

σ2 (α(ε2 − ε1 )) = 1 equivale a α = L3 . Di solito si ipotizza L = 12 ovvero

α = 2 3.
Nel modello probit o, normal probability unit model, si assume una distri-
buzione normale dei termini di errore, ovvero che:
1 1 x 2
f (x) = √ e− 2 ( σ ) (3.16)
σ 2π
dove σ ∈ R, σ > 0 è una costante arbitraria. Riprendendo l’esempio (3.7)
ed ipotizzando che ε1 ed ε2 siano distribuiti secondo una normale con media
zero, varianza σ21 ,σ22 e covarianza σ12 , allora la probabilità di scelta dell’al-
ternativa 1 è data da:
Z V1 −V2
1 1 x 2
P{1,2} (1) = √ e− 2 ( σ ) dx (3.17)
x=−∞ σ 2π
dove σ2 = σ21 + σ22 − 2σ12 è la varianza di (ε2 − ε1 ). Il modello probit, pog-
giando sul teorema del limite centrale, assume che i termini di errore siano la
somma di quantità inosservate tra loro indipendenti e confrontabili. Uno dei
punti deboli di tale modello, che sino a poco tempo fa ne ha limitato forte-
mente l’impiego pratico, è che, in presenza di più di 3 o 4 attributi di scelta
impiegati per caratterizzare un’alternativa, tale modello non ha una soluzione
analitica in forma chiusa che va, quindi, cercata tramite metodi di simula-
zione numerica. Daganzo (1979) fornisce una trattazione approfondita delle
caratteristiche di tale modello. Per il parametro di scala del probit, con rife-
rimento all’esempio (3.7), si può affermare che se Var (ε2 − ε1 ) = σ2 , allora,
ipotizzando che Var [α (ε2 − ε1 )] = 1, equivale ad assumere che α = σ1 . Si è
soliti porre σ = 1 ovvero α = 1.
Il modello più largamente utilizzato è il logit o logistic probability unit
model ove si ipotizza che i termini di errore siano distribuiti IID secondo una
distribuzione EV. La funzione di densità di tale distribuzione è:
    
1 − (x −V ) − (x −V )
f (x) = exp − φ exp − exp −φ (3.18)
θ θ θ

66
e la sua funzione di distribuzione è pari a:
  
− (x −V )
F (x) = exp − exp −φ (3.19)
θ

dove φ = 0, 577 è la costante di Eulero, V è la media (µx ) e la varianza σ2x



2
è pari a πθ6 . Una qualunque trasformazione lineare di una variabile aleato-
ria EV è, essa stessa, ancora una variabile EV e risulta stabile rispetto alla
massimizzazione (Cascetta 2006). In altre parole, se U j , j = 1, 2, ..., N sono
tutte variabili EV indipendenti con medie diverse da V j e con varianza paria
a θ, il massimo delle variabili è ancora una variabile EV con varianza θ. La
distribuzione EV costituisce una approssimazione della normale. Qui di se-
guito nella figura (3.1) si riportano quattro funzioni di densità di probabilità
EV per diversi valori di θ (θ = 1, 2, 3, 4).
Con riferimento all’esempio della (3.7) si deriva la funzione di probabilità
nel caso binario di scelta. Se ε1 è distribuito EV con un parametro di localiz-
zazione η1 e un parametro di scala µ1 , ed ε2 è distribuito EV con un parametro
di localizzazione η2 ed un parametro di scala µ, allora ε = ε2 − ε1 segue una
distribuzione logistica con un parametro di localizzazione (η2 − η1 ) ed un
parametro di scala µ. La funzione di densità di una distribuzione logistica è
data da:
µe−µx
f (x) = (3.20)
(e−µx + 1)2
dove µ ∈ R, µ > 0 è il parametro di scala. Di conseguenza si ha che:
1
P{1,2} (1) = (3.21)
e−µ(V1 −V2 ) + 1
ovvero:
eµV1
P{1,2} (1) = (3.22)
eµV1 + eµV2
Per determinare la relazione tra il parametro di scala e la varianza della
2
distribuzione si calcola Var(ε2 − ε1 ) = Var(ε2 ) + Var(ε1 ) = 2π
6µ2
che, assu-

µ 3
mendo Var (α (ε2 − ε1 )) = 1, equivale ad ipotizzare α = π . Di solito si

3
pone µ = 1 ovvero α = π .
Anche se nella maggior parte dei casi la decisione circa il parametro di
scala è arbitraria e può essere trascurata, tuttavia, quando si confrontano ri-
sultati derivati da modelli diversi, si deve ricordare che il confronto, può av-
venire correttamente solo utilizzando un unico α per tutti i modelli che si

67
vogliono comparare. In altre parole, si può dire che√ una stima dell’utilità ef-
fettuata con un logit deve essere prima divisa per π3 per confrontarla con una
ottenuta tramite un probit. Il problema permane anche quando si desidera
confrontare risultati di modelli logit tra di loro non nidificati. L’argomento
viene approfondito in connessione al NL.

Figura 3.1: Alcune funzioni di densità di probabilità EV con diversa varianza

3.3 Il modello logit multinomiale

Il modello logit multinomiale (MNL) è il modello a scelta discreta più diffu-


samente utilizzato. La formula che ne esprime la probabilità di scelta assume
una forma chiusa ed è facilmente interpretabile. Un modello di scelta pro-
babilistica si dice in forma chiusa quando la probabilità di scelta può essere
calcolata senza l’impiego di metodi di integrazione numerica o di simulazio-
ne. L’ipotesi alla base del MNL è che i residui aleatori εi relativi alle diverse
alternative e ai diversi agenti siano distribuiti in modo identico (stessa varian-
za) ed indipendente (covarianza nulla) (IID) secondo una variabile aleatoria
EV con media nulla e varianza θ. Queste considerazioni ci suggeriscono che
la matrice di varianza-covarianza del MNL avrà valori (solitamente degli 1)
solo lungo la diagonale e sarà vuota altrove (covarianze nulle). L’indipen-
denza dei residui aleatori implica che la covarianza tra un qualsiasi coppia di
residui sia nulla e, quindi σεi ,ε j = 0 ∀i, j ∈ Cn dove Cn rappresenta l’insieme

68
di scelta e la matrice di varianza-covarianza dei residui per tutte le alterna-
tive disponibili è diagonale e proporzionale alla matrice identità secondo σ2ε
(Cascetta 2006). Il caso in cui vi siano tre alternative di scelta (1, 2, 3) può
essere rappresentato come segue:
 
A B C
1 0 0 A 
∑ = σ2εC = 


 0 1 0 B 
s
0 0 1 C

Il MNL è molto utilizzato poiché è facile da stimare, interpretare e perché


possiede altre interessanti caratteristiche oltre a qualche punto di debolezza
di cui si dice più diffusamente in seguito.

3.3.1 Le probabilità di scelta

In questo paragrafo, seguendo Train (2003), si illustra analiticamente la de-


terminazione delle probabilità di scelta del MNL. Si ipotizzi che un decisore
n deve scegliere tra i alternative e, l’utilità che deriva da tale scelta possa
essere decomposta in due parti. Una, Vni nota al ricercatore (derivabile da
caratteristiche oggettive e misurabili sia delle alternative sia del decisore) e
una ignota εni , considerata aleatoria, tale che Uni = Vni + εni . Il MNL pog-
gia sull’ipotesi che ciascun εni sia distribuito IID secondo una distribuzione
EV. Tale ipotesi implica che la parte di utilità non osservata di una alternativa
non è correlata alla parte non osservata di un’altra alternativa. Lo stesso vale
per le caratteristiche degli agenti. Tale ipotesi, in alcuni casi, risulta molto
vincolante tanto da non poterla considerare realistica. A volte, infatti, si do-
vrà esplicitamente tenere conto della correlazione tra i termini di errore delle
funzioni di utilità. Allo stesso tempo però la bontà dell’ipotesi IID può co-
stituire il frutto di una corretta specificazione del modello. Le caratteristiche
di εni sono, connesse alla buona specificazione di Vni effettuata dall’analista
oltre che dal contesto di scelta considerato. Una buona specificazione di Vni
lascerebbe all’interno di εni solo “rumori di fondo” non correlati tra alternati-
ve o agenti. Un sano grado di realismo ci suggerisce però di riconoscere che,
spesso, le conoscenze e la disponibilità di dati, non permettono una rappre-
sentazione dettagliata di Vni così da non poter escludere, a priori, che vi sia
correlazione tra i residui.
La derivazione nel dettaglio delle probabilità di scelta del MNL segue il
contributo di McFadden (1974:a) dove si assume che il decisore n sceglie

69
l’alternativa i se:

Pni = Pr (Vni + εni > Vn j + εn j )


= Pr (εn j < εni +Vni −Vn j ) , ∀ j 6= i (3.23)

se si considera εni dato, la (3.23) costituisce la distribuzione cumulata di cia-


scun εn j valutato a εni +Vni −Vn j che è data da exp(− exp(−(εni +Vni −Vn j ))),
e poiché gli ε sono distribuiti IID tale funzione di distribuzione cumulata per
tutti gli i 6= j è data semplicemente dal prodotto delle distribuzioni cumulate
individuali, ovvero:
(
− εni +Vni −Vn j )
Pni | εni = Π e−e (3.24)
i6= j

Non essendo εni dato, la probabilità di scelta di (Pni | εni ) sarà espressa
dall’integrale di tutti i valori di εni pesati per la loro densità:
!
−e ( ni ni n j )
Z − ε +V −V −εni
Pni = ∏e e−εni e−e dεni (3.25)
i6= j

che può anche essere espressa come:

eVni
Pni = (3.26)
∑ j eVn j

che è la probabilità di scelta del modello logit. Per una derivazione della
(3.26) si veda Train (2003).
La parte dell’utilità deterministica viene di solito specificata lineare nei
parametri: Vni = β0 xni dove xni rappresenta un vettore di variabili osservate
che si riferiscono all’alternativa i e disponibili all’agente n. Data questa spe-
cificazione le probabilità di scelta di un modello logit possono essere espresse
come segue:
0
eβ xni
Pni = 0 (3.27)
∑ j eβ xn j
McFadden (1974:a) ha dimostrato che la funzione di log-verosimiglianza
con queste probabilità di scelta è globalmente concava nei parametri β.
Le probabilità di scelta Pni di un MNL sono comprese tra 0 ed 1 anche se
non sono mai né zero (se una alternativa avesse probabilità pari a zero di es-
sere scelta essa dovrebbe essere esclusa dall’insieme di scelta) né uno (questo
è possibile solo se esiste una sola alternativa all’interno dell’insieme di scelta

70
caso che risulta di scarso interesse per un modello probabilistico) e la somma
delle probabilità di scelta di tutte le alternative disponibili è pari ad 1 (l’a-
gente necessariamente sceglie una delle alternative presenti nell’insieme di
scelta, in altre parole non si può non scegliere nulla).
La relazione tra la probabilità di un modello logit di scelta e l’utilità rap-
presentativa (V ) è fatta a forma di S come riportato nella figura (3.2).

Figura 3.2: Grafico di una curva logistica

L’impatto delle variabili esplicative sulla probabilità di scelta dipende dal


livello di utilità rappresentativa di partenza rispetto al quale avviene il cam-
biamento. In altre parole, se il livello di utilità di partenza è molto basso
(alto) un piccolo incremento di utilità avrà uno scarso effetto sulla probabilità
di scelta. L’effetto sarà di gran lunga superiore se la probabilità di scelta di
partenza si aggira attorno al 50%. In questo caso anche una piccola variazione
dell’utilità avrà un grande impatto in termini di probabilità di scelta dell’al-
ternativa. Questa caratteristica, condivisa dalla maggior parte dei modelli a
scelta discreta, ha importanti implicazioni in termini di politica di intervento.
Infatti, ove, per ragioni di politica economica, si mirasse ad ottenere risultati
consistenti sarebbe conveniente intervenire su quelle alternative di scelta che
già godono di una buona probabilità di essere scelte.

71
Il parametro di scala

Come indica Train (2003), che si tiene a riferimento, è opportuno chiarire le


implicazioni delle ipotesi precedentemente effettuate circa la scelta del va-
lore della varianza π6 che equivale, come si è detto, a normalizzare la scala
dell’utilità del modello. La funzione di utilità può, in generale,essere
 espres-
2
2 π
sa come Uni = Vni + eεni dove la eεni ha una varianza pari a σ × 6 ovvero la
e
2
varianza può essere qualsiasi multiplo di π6 . La scala dell’utilità è irrilevante
ai fini della scelta. L’utilità può essere divisa per σ senza che ciò influenzi la
stima delle probabilità di scelta degli agenti. Diverse normalizzazioni hanno
implicazioni importanti in fase di interpretazione dei coefficienti. In altre pa-
role l’utilità viene espressa come Uni = Vσni + εni dove εni = eεσni e la varianza
2
di eεni è paria π6 e la probabilità di scelta diventa:
Vni
σ
e
Pni = Vn j (3.28)
∑j e σ

Data una Vni lineare nei parametri, le probabilità di scelta possono essere
scritte:  0
β∗
xni
e σ
Pni = 0 (3.29)
β∗

xn j
∑j e σ

dove il coefficiente σ è detto parametro di scala poiché scala tutti i coeffi-


cienti per dare conto della varianza della parte non osservata della funzione

di utilità. È possibile calcolare solo il rapporto β = βσ poiché non si possono
identificare separatamente β∗ e σ. In altre parole i coefficienti stimati indi-
cano l’effetto di ciascuna variabile osservata rispetto alla varianza dei fattori
non osservati. Una varianza maggiore nei fattori osservati produce dei coeffi-
cienti più piccoli anche se i fattori osservati hanno lo stesso effetto sull’utilità.
Poiché:  ∗
β1
β1 σ β∗
=  ∗  = 1∗
β2 β2 β2
σ

il parametro di scala non modifica il rapporto di due coefficienti e, quindi,


nel caso il β al denominatore rappresenti l’impatto della variabile monetaria,
la disponibilità a pagare non cambia. Ciò che cambia è l’interpretazione dei
coefficienti. Ben-Akiva e Lerman (1985) dimostrano che nel caso la varianza

72
tenda ad infinito il parametro di scala tende a zero così che il MNL predice
identiche probabilità di scelta per tutte le alternative. Al contrario, nel ca-
so la varianza tenda a zero il parametro di scala tende ad infinito così che il
MNL predice, in modo deterministico, implicando che verrà scelta l’alterna-
tiva con la più alta utilità deterministica. Particolare importanza assume la
questione relativa al parametro di scala quando si devono confrontare risulta-
ti tra diversi MNL. In maggior dettaglio, un confronto che non tenesse conto
della scala tra parametri stimati da due diversi data set, ad esempio, potrebbe
produrre coefficienti statisticamente differenti pur essendo, nei fatti uguali,
a causa dell’influenza di diversi parametri di scala (differenze nelle varian-
ze). Per svolgere correttamente un confronto tra parametri si dovrà, prima
di tutto, verificare la presenza di varianze differenti. Se le varianze risultas-
sero differenti se ne dovrà tenerne conto opportunamente. Nonostante non
si possa identificare l’effettivo parametro di scala si può,
 comunque, iden-
β∗
tificarne il rapporto con il coefficiente non scalato σ . Swait e Louviere
(1993) dimostrano come sia possibile verificare tramite un semplice test di
ponderazione l’effettiva differenza tra coefficienti per diversi MNL. Sebbene
la questione possa apparire tecnica ed irrilevante per alcuni aspetti essa risul-
ta, invece, di grande interesse come in quei casi, ad esempio, in cui si cerca
di utilizzare in modo integrato dati di diversa natura (RP e SP) (Ben-Akiva e
Morikawa 1990) e quelli in cui si cerca di “esplodere” i dati riportanti giudizi
di tipo rank per la stima dei MNL (Ben-Akiva et al. 1992), o per quei casi in
cui si confrontano tra loro modelli non nidificati.

3.3.2 Punti di forza e di debolezza del MNL

Il modello MNL ha dei punti di forza che, al variare delle caratteristiche del
fenomeno studiato (ad esempio, correlazione tra le alternative all’interno del-
l’insieme di scelta, o tra agenti), possono diventare anche punti di debolezza.
Le caratteristiche che qualificano il MNL riguardano il tipo di variazioni che
il modello è in grado di rappresentare correttamente. Infatti, il modello MNL
è in grado di dare correttamente conto di variazioni sistematiche nelle prefe-
renze, di pattern di sostituzione proporzionali tra alternative e di variazioni di
fattori non osservati tra loro indipendenti nel caso di scelte ripetute nel tempo
(Train 2003).
Con riferimento ai tre punti precedentemente ricordati, in maggior detta-
glio si può rispettivamente affermare quanto segue.
Il MNL consente di cogliere solo variazioni sistematiche delle preferenze,

73
ovvero variazioni delle preferenze che cambiano in modo sistematico rispetto
alle variabili osservabili. Non è, invece, in grado di cogliere variazioni delle
preferenze dovute a variabili non osservate o aleatorie. Il valore che il deci-
sore attribuisce a ciascun attributo delle alternative disponibili, in generale,
varia tra decisori. Ad esempio, famiglie numerose sceglieranno con minore
probabilità auto sportive e decisori meno abbienti saranno più attenti al costo
del bene da scegliere. Si possono ragionevolmente ipotizzare variazioni nelle
preferenze non attribuibili a caratteristiche socio-demografiche dei decisori
ma semplicemente dovute all’eterogeneità che caratterizza il genere umano.
Quando si cerca di spiegare le variazioni nelle preferenze degli agenti che
hanno una natura non sistematica il MNL risulta teoricamente inappropria-
to e il suo impiego difficilmente adattabile al problema studiato. Una sua
applicazione forzata produce una cattiva specificazione del modello e stime
distorte. Nonostante le avvertenze appena esposte si rileva come, in pratica, il
MNL si dimostra alquanto robusto rispetto a cattive specificazioni riuscendo,
comunque, a catturare bene la variazione media delle preferenze anche nel
caso in cui esse risultino di natura aleatoria. In questo caso il MNL mostrerà,
comunque, una bassa capacità esplicativa.
Il MNL ipotizza uno specifico e alquanto restrittivo pattern di sostituzione
tra le alternative considerate. Infatti, quando gli attributi di una alternativa
migliorano, ovvero si passa a livelli più elevati di un attributo che influenza
positivamente la probabilità di scelta dell’alternativa (più elevata frequenza
del servizio di trasporto pubblico) o, viceversa, si passa a livelli più bassi
di un attributo che influenza negativamente la probabilità di scelta dell’al-
ternativa (più bassi prezzi del servizio di trasporto), la probabilità di scelta
dell’alternativa cresce. Poiché si è detto che la somma delle probabilità per
tutte le alternative è pari ad 1, ciò implica che la probabilità di scelta per al-
tre alternative si sia, necessariamente, ridotta. I pattern di sostituzione per
il modello MNL sono caratterizzati dalla IIA che implica per due qualsiasi
alternative i e h che il rapporto tra le probabilità di scelta può essere espresso
come segue:
eVni
Pni V
∑j e nj eVni
= = = eVni −Vnh (3.30)
Pnh eVnh eVnh
V
∑j e nj

e dipende solo dalla parte deterministica dell’utilità delle due alternative. In


altre parole non essendo il rapporto tra le due probabilità di scelta influenzato
da altre alternative, tale proprietà viene definita indipendenza dalla alterna-
tive irrilevanti (IIA). Tale proprietà può risultare perfettamente adeguata alla

74
realtà in alcune situazioni ed inappropriata in altre così come per la prima
volta venne evidenziato da Chipman (1960) e Debreu (1960). Il paradosso
dell’autobus rosso e dell’autobus blu ne è l’esemplificazione per eccellen-
za. Si ipotizzi che la parte deterministica dell’utilità di un agente che deve
scegliere tra l’auto ed un autobus di colore blu per andare al lavoro sia esat-
tamente uguale per i due modi così che Pauto = Pbus−blu = 21 e quindi sarà
Pauto
Pbus−blu = 1. Si consideri ora l’introduzione di un ulteriore alternativa all’in-
terno dell’insieme di scelta dell’agente che è data da un autobus in tutto e
per tutto uguale al primo (costo, frequenza, comfort, ecc.) ad esclusione del
colore che, in questo caso, è rosso. In questa situazione il MNL prevede
che le nuove probabilità di scelta tra le tre alternative siano pari ad 13 cia-
Pauto
scuna. Infatti, poiché Pbus−blu deve essere, indipendente dall’introduzione di
altre alternative (nel nostro caso l’autobus di diverso colore), tale che sia ve-
Pauto
ro che Pbus−blu = 1 oltre che PPbus−rosso
bus−blu
= 1, questo sarà possibile se e solo se
1
Pbus−blu = Pbus−rosso = Pauto = 3 che è proprio la probabilità di scelta previ-
sta da un MNL. Il semplice buon senso ci suggerisce che sarà, invece, lecito
attendersi che Pbus−blu = Pbus−rosso = 14 ; Pauto = 12 . In questo caso è evidente
che il MNL sovrastima la probabilità di scelta di entrambi i mezzi pubbli-
ci rispetto alla scelta dell’auto poiché il rapporto tra le probabilità di scelta
dei mezzi pubblici varia a dispetto di quanto previsto da un MNL. Questo
caso di cattiva specificazione del modello si verifica ogniqualvolta si introdu-
ce all’interno dell’insieme di scelta una nuova alternativa che risulta simile
(attributi comuni) ad una già esistente. Esempi di questo tipo sono discussi
in Ortúzar (1983) e Brownstone e Train (1999). La stessa proprietà può es-
sere illustrata tramite l’analisi delle elasticità incrociate delle probabilità del
MNL. Infatti, se il miglioramento negli attributi di una alternativa ne fa cre-
scere la probabilità di essere scelta dell’x% questo implica che la probabilità
di scelta di tutte le altre alternative cala esattamente e, necessariamente, della
stessa percentuale in totale. In altre parole il miglioramento della probabilità
di scelta di una alternativa implica il peggioramento proporzionale di quella
di tutte le altre. Il rapporto tra le probabilità di scelta di due alternative i e j
rimane costante quando varia l’attributo della scelta k solo se le due probabi-
lità variano della stessa proporzione. Anche se in alcune situazioni di scelta
la proprietà IIA può risultare inadeguata per rappresentare la realtà, tuttavia,
quando, al contrario, ne è fedele specchio o realistica approssimazione, allora
ne discendono dei vantaggi rilevanti. Infatti, se la IIA è verificata si possono
stimare i parametri del modello in modo consistente utilizzando solo un sot-
toinsieme di alternative effettivamente disponibili per ciascun agente. Questa

75
caratteristica risulta particolarmente utile quando si ha un elevato numero di
alternative all’interno dell’insieme di scelta. Nel concreto la bontà e reali-
smo della proprietà IIA non è tanto dovuta allo specifico contesto di scelta
quanto più è ascrivibile ad una certa specificazione della parte deterministica
dell’utilità e, soprattutto, è determinabile empiricamente tramite test statisti-
ci. I primi test definiti a tale scopo sono stati sviluppati da McFadden et al.
(1977). Due sono i test che possono essere condotti. Il primo consiste nel ri-
stimare il modello utilizzando solo un sottoinsieme di alternative e verificare
se il rapporto tra le probabilità di due alternative qualsiasi di scelta rimane lo
stesso indipendentemente dalla presenza od assenza di altre alternative. Nel
caso in cui la IIA sia verificata le stime dei parametri ottenuti non saranno
statisticamente differenti da quelle derivate impiegando l’intero insieme delle
alternative. Hausman e McFadden (1984) forniscono una statistica che serve
ad effettuare questo test. Il secondo metodo di verifica consiste nello stimare
nuovamente il modello con nuove variabili, ovvero con alternative incrociate,
vale a dire con variabili di una alternativa che entrano nell’utilità di un’altra
alternativa. In questo caso la verifica della proprietà IIA la si ottiene control-
lando che le probabilità di scelta dell’alternativa i e j in effetti dipendano o
non dipendano dall’esistenza di una terza alternativa k. Nel caso in cui la IIA
sia violata si avrà che l’attributo dell’alternativa k entrerà in modo significa-
tivo nella funzione di utilità delle alternative i o j data una specificazione di
tipo MNL del modello. McFadden (1987) ha sviluppato una procedura per
questo tipo di test.
Nel caso in cui l’analista possa osservare un insieme di scelte ripetute nel
tempo effettuate dallo stesso agente (panel data) come, ad esempio, nel ca-
so delle indagini di tipo preferenze dichiarate, allora il test della IIA assume
un significato particolare. Infatti, il modello MNL potrà essere opportuna-
mente utilizzato solo se gli elementi non osservati che influenzano l’agente
sono tra loro indipendenti nella sequenza delle scelte effettuate. Nel caso vi
fossero, ad esempio, dei fenomeni di state dependence in cui le scelte ef-
fettuate in passato influenzano quelle attuali allora si potrebbe tenere conto
della risposta ritardata alla variazione degli attributi. In questo caso, infatti,
gli aspetti dinamici del comportamento possono essere catturati specificando
l’utilità sistematica in modo tale da farla dipendere dalle variabili osservate
in periodi precedenti (Adamowicz 1994). Se, invece, si verificassero delle
dinamiche legate a fattori non osservati, allora non sarebbe possibile tenerne
conto poiché nei MNL si ipotizza che tali fattori siano tra loro non correlati

76
né, tanto meno, correlati con le scelte1 . L’ipotesi di una mancanza di corre-
lazione tra gli errori nel tempo, specialmente quando a scegliere è sempre lo
stesso agente, risulta particolarmente forte poiché è lecito attendersi che vi
siano alcuni elementi, non osservati dall’analista, che possono influenzare le
scelte dell’agente.

3.3.3 Surplus del consumatore, derivate ed elasticità


Per valutare gli effetti di politiche di intervento l’analista deve misurare le
variazioni di benessere dovute ai cambiamenti introdotti. Il surplus del con-
sumatore (CS), nel MNL, assume una forma chiusa semplice da calcolare
grazie alle ipotesi che lo caratterizzano. Il CS, di chi sceglie l’alternativa che
massimizza l’utilità, è dato, per definizione, dall’utilità, espressa in termini
monetari, che l’agente deriva dalla scelta effettuata.  Il CS dell’agente n che
1
sceglie l’alternativa i sarà, pertanto, dato da CSni = αn maxi (Uni ∀i ∈ Cn )
dove αn rappresenta l’utilità marginale del reddito: dU dYn = αn , con Yn che de-
n

nota il reddito della persona n. La divisione dell’utilità dell’alternativa (Un )


dYn
per αn serve a tradurla in termini monetari dato che α1n = dU n
. Poiché l’analista
non è in grado di osservare Uni e non potendo, conseguentemente, utilizzare
questa espressione per calcolare il CS, utilizza Vni ed effettua delle ipotesi
circa la distribuzione della parte di utilità rimanente. Come riportato da Train
(2003), dato questo patrimonio informativo il CS può essere calcolato come
segue:  
1
CSn = E max (Vni + εni ∀i ∈ Cn ) (3.31)
αn i

dove il valore atteso è calcolato per ogni possibile valore di εni . Come dimo-
strato da Williams (1977) e da Small e Rosen (1981) se ciascun εni si distri-
buisce IID EV e l’utilità è lineare nel reddito, ovvero se αn risulta costante
rispetto al reddito, allora la (3.31) può essere espressa come segue:
!
I
1 Vni
CSn = ln ∑ e +Z (3.32)
αn i=1

dove Z è una costante ignota poiché il livello assoluto dell’utilità non può
essere misurato anche se risulta, nel nostro caso, irrilevante e può essere, ai
1 In questi casi si potrebbero utilizzare opportunamente modelli a classi latenti. Vedi Mar-

cucci (a cura di), I modelli a scelta discreta per l’analisi dei trasporti, Carocci, Roma, 2005.
pp. 177-190.

77
fini predittivi, ignorato. L’argomento del logaritmo è il denominatore della
probabilità di scelta del modello logit. Il valore atteso del CS in un modello
MNL altro non è, quindi, che il logaritmo del denominatore della probabilità
di scelta tanto che spesso ci si riferisce a tale valore con il termine log-sum.
Di fatto CSn è il CS medio del consumatore nella sottopopolazione di agenti
che sono caratterizzati dalle stesse utilità deterministiche (Vn ) della persona
n. Il calcolo del CS totale della popolazione è dato dalla somma ponderata
di CSn su un campione di agenti con i pesi dati dal numero di membri nella
popolazione contraddistinti dalle stesse utilità deterministiche della persona
campionata. Le variazioni di CS derivanti da cambiamenti nelle alternative
e/o nelle scelte possono essere calcolate facendo uso della (3.32) e calcolando
CSn due volte, ovvero, prima dell’intervento e dopo. Il risultato netto del
cambiamento può essere scritto come segue:

" ! !#
I1 I0
1 Vni1 Vni0
CSn = ln ∑e − ln ∑e
αn i=1 i=1

dove 0 e 1 si riferiscono al periodo prima e dopo il cambiamento. Per cal-


colare il CS l’analista deve aver prima stimato l’utilità marginale del reddito
αn . A tale fine si è soliti inserire sempre una variabile monetaria di prezzo
o costo all’interno della parte deterministica dell’utilità così che il valore del
suo parametro, cambiato di segno, fornisce, per definizione, il valore di αn .
Si evidenzia come la formula del valore atteso del CS dipenda strettamente
dall’ipotesi effettuata circa l’indipendenza dell’utilità marginale del reddito
dal reddito stesso. In altre parole, se l’utilità marginale del reddito cambia al
variare del reddito stesso allora si rende necessario l’impiego di una formula
di calcolo di αn più complessa per la quale si rimanda a McFadden (1999) e
Karlström (2000).
Altra questione di interesse per l’economista applicato riguarda la varia-
zione delle probabilità di scelta in funzione della variazione di qualche fatto-
re osservabile. Rispondere a tale quesito implica calcolare le derivate delle
probabilità di scelta al variare dei livelli degli attributi considerati. Il cambia-
mento nella probabilità che il decisore n scelga l’alternativa i dato un cam-
biamento nel fattore osservato hni che entra nella parte deterministica della
funzione di utilità e, mantenendo costante l’utilità rappresentativa delle altre

78
alternative, è dato da:
 
eVni
∂ V
∂Pni ∑j e nj
=
∂hni ∂hni
eVni Vni ∂Vni
= 2 e
∑ j eVn j ∂hni
∂Vni  ∂Vni
= Pni − Pni2 = Pni (1 − Pni )
∂hni ∂hni
Se l’utilità deterministica è lineare in hni e nei coefficienti βh , la derivata
risulta pari a βh Pni (1 − Pni ) che sarà massima quando Pni = 1 − Pni ovvero
quando Pni = 12 e si riduce quando Pni si avvicina a 0 o a 1. L’impatto sulla
probabilità di scelta di una alternativa al variare di una variabile osservata
relativa ad un’altra alternativa può essere espresso come segue:
 
V
e ni
∂ V
∂Pni ∑l e nl eVni ∂Vn j ∂Vn j
= =− 2
eVn j =− Pni Pn j
∂hn j ∂hn j V
(∑l e nl ) ∂hn j ∂hn j
dove hn j è un attributo dell’alternativa j e Pni è la probabilità che l’agente n
scelga l’alternativa i al variare di hn j .
Quando Vn j è lineare in hn j con coefficienti βh allora la derivata incrocia-
ta diventa −βh Pni Pn j e, nel caso hn j rappresenti un attributo desiderabile (la
frequenza di un servizio di autobus) allora βh sarà di segno positivo e, con-
seguentemente, un incremento di hn j farà calare, in modo proporzionale al
valore della probabilità di scelta della variabile prima della variazione di hn j ,
la probabilità di scegliere alternative diverse da j.
In economia, spesso, si utilizzano come indicatori di misurazione delle
variazioni imputabili alle variabili dipendenti le elasticità piuttosto che le de-
rivate poiché, di fatto, le elasticità sono normalizzate per le unità nelle quali
vengono espresse le variabili e, quindi, risultano di immediato impiego nei
confronti. L’elasticità rappresenta la variazione percentuale in una variabile
imputabile al cambiamento dell’1% in un’altra variabile. L’elasticità di Pni
rispetto a una variabile hni esplicativa dell’utilità dell’alternativa i è data da:
∂Pni hni ∂Vni hni ∂Vni
Eihni = = Pni (1 − Pni ) = hni Pni (1 − Pni )
∂hni Pni ∂hni Pni ∂hni
Con l’utilità deterministica lineare sia in hni sia in βh , allora si avrà che
Eihni = βh hni (1 − Pni ). L’elasticità incrociata di Pni rispetto alla variabile che
entra nell’alternativa j è data da:

79
∂Pni hn j ∂Vn j
Eihn j = = hn j Pn j
∂hn j Pni ∂hn j
che nel caso lineare si riduce a Eihn j = −βh hn j Pn j .

3.3.4 Stima e test della bontà del modello


I parametri della funzione di utilità di un modello MNL possono essere sti-
mati in diversi modi. Qui si tratta del metodo della massima verosimiglianza
(MLE) che è quello più comunemente utilizzato. Il metodo della MLE assu-
me che un dato campione potrebbe essere generato da diverse popolazioni e
vi è una maggiore possibilità che esso venga da una popolazione piuttosto che
da un’altra. Le stime MLE sono date dall’insieme di parametri della popo-
lazione che generano le osservazioni di cui si dispone in modo più frequente
ovvero per le quali è massima la verosimiglianza. Per illustrare questo princi-
pio si supponga di disporre di un campione aleatorio di n osservazioni di una
variabile aleatoria H denotata da (h1 , h2 , ... , hn ) estratta da una popolazione
caratterizzata da un parametro sconosciuto θ (media, varianza o altro). As-
sociata alla variabile aleatoria H si ha una funzione di densità di probabilità
(PDF) denotata f (H|θ) che dipende dal valore di θ. Se tutti gli n valori di H
nel campione sono tra loro indipendenti la PDF (condizionata) congiunta del
campione può essere scritta:

f (h1 , h2 , ... , hn |θ) = f1 (h1 |θ) f2 (h2 |θ) , ... , fn (hn |θ) (3.33)

Sino ad ora si è ipotizzata data la PDF congiunta e si è assunta l’esistenza


delle H variabili per un dato valore fisso di θ. D’ora in poi, invece, si conside-
rino fisse le H e variabile θ così che la (3.33) possa essere interpretata come
una funzione di verosimiglianza piuttosto che come una PDF congiunta. La
massimizzazione della (3.33) rispetto a θ, considerata variabile, fornisce una
stima di θ detta appunto stima di massima verosimiglianza poiché rappresenta
il valore di θ (la caratteristica della popolazione in esame) che, con massima
probabilità avrebbe potuto generare il campione di osservazioni dato dalle H.
Il metodo della MLE, qui descritto, può facilmente essere esteso a situazioni
in cui la popolazione è caratterizzata da più parametri incogniti.
La massimizzazione di una funzione di verosimiglianza implica, come per
la massimizzazione di qualsiasi altra funzione, l’individuazione dei valori di
∂L
θ per cui ∂θ i
= 0 dove i serve ad indicizzare gli elementi di θ ed L denota la
funzione di verosimiglianza. Di fatto si preferisce, per ragioni di semplicità,

80
lavorare con il logaritmo naturale della funzione di verosimiglianza poiché le
stime MLE di θ sono invarianti rispetto a trasformazioni monotonicamente
crescenti di L.
Si ricordi che la probabilità di scelta dell’alternativa i da parte dell’indivi-
duo n è data per il MNL da:

exp (Vin )
Pin = J (3.34)
∑ j=1 exp (V jn )

e che si ipotizza che le Vin siano funzioni lineari additive rispetto agli attributi
che determinano l’utilità della i esima alternativa. In altre parole, Vin può
essere scritto come:
K
Vin = ∑ βik xikn (3.35)
k=1

Ponendo per una data alternativa i una delle x pari a 1 per tutti gli n agenti
consente di interpretare il parametro dell’utilità βi1 come una costante spe-
cifica dell’alternativa (ASC) per l’alternativa i di cui, in un modello con I
alternative, se ne potranno, al massimo, specificare I − 1. Se un elemento xik
appare nell’espressione dell’utilità (Vin ) per tutte le alternative I allora tale
variabile viene detta generica e, conseguentemente si può sostituire βik con
βk poiché il parametro risulta lo stesso per tutte le alternative. Al contrario,
se la variabile compare solo nella funzione di utilità di una data alternati-
va Vin allora essa viene detta specifica dell’alternativa e l’indicizzazione va
mantenuta.
Si supponga di disporre di un campione aleatorio di N individui e per
ciascuno di essi si osserva la scelta effettivamente compiuta ed i valori xikn
(alternativa i, persona n, e caratteristica k) per tutte le alternative disponibi-
li. Dato che si è osservato l’individuo n scegliere l’alternativa i la FDP per
quella specifica osservazione è f (rn | β) dove rn rappresenta il sottoinsieme
delle caratteristiche socioeconomiche s dell’agente n note all’analista e β è
il vettore dei parametri da stimare. Quindi, se tutte le osservazioni sono tra
loro indipendenti, la funzione di verosimiglianza per il campione può essere
semplificata rimpiazzando l’espressione f (rn | β) con quella della probabilità
dell’alternativa effettivamente scelta dall’individuo n. Ordinando le osserva-
zioni in modo tale che i primi n1 individui siano quelli che hanno di fatto
scelto l’alternativa 1, n2 quelli che hanno scelto l’alternativa 2 e così via,
allora si potrà scrivere la funzione di verosimiglianza del nostro campione

81
come:
n1 n1 +n2 N
L = ∏ P1n ∏ P2n ... ∏ Pin (3.36)
n=1 n=n1 +1 n=N−ni +1

Definendo una variabile dummy fin tale che fin = 1 se viene scelta l’alter-
nativa i e fin = 0 in caso contrario la (3.36) può essere scritta come:
N I
f
L = ∏ ∏ Pinin (3.37)
n=1 i=1

e la funzione di log-verosimiglianza L∗ può essere scritta:


N I
L∗ = ∑ ∑ fin ln Pin (3.38)
n=1 i=1

Sostituendo i Pin nella (3.36) con l’espressione (3.34) si ottiene un’equa-


zione che è funzione soltanto dei parametri β da stimare che spiegano il varia-
re dei Vin . La massimizzazione di L∗ rispetto ai β avviene nel modo classico.
Infatti, il criterio implica l’identificazione dei punti stazionari della funzione:
!
I I
Max L∗ (θ) = ln (L (θ)) = ln ∏ Pxi (xi |θ) = ∑ ln (Pxi (xi |θ)) (3.39)
i=1 i=1

che, nel caso risulti matematicamente trattabile, fornirà il seguente insieme


di equazioni simultanee:
I

∑ ∂θh ln (Pxi (xi |θ)) = 0, h = 1, 2, ... , z (3.40)
i=1

In alcune situazioni sarà necessario ricorrere ad una tecnica di ricerca ite-


rata del gradiente come, ad esempio, avviene con il metodo Newton-Raphson2 .
Tale tecnica di ricerca del gradiente per la massimizzazione della funzione L∗
prevede di iniziare la ricerca del punto di massimo partendo da una soluzione
iniziale in cui si ipotizza θ0 = θ01 , θ02 , ... , θ0z e, dopo una serie di iterazio-


ni, ci si muove verso diverse soluzioni θ1 , θ2 , ... in modo tale da migliorare


(facendolo crescere) sempre il valore L∗ (θ). Il cambiamento per l’iterazione
(p + 1) è dato da:
θ p+1 = θ p + d p m
2I metodi di massimizzazione numerica sono più diffusamente trattati nel terzo capitolo.

82
dove d P = d1P , d2P , ... , drP è un vettore di direzione scelto in modo tale che


il valore di L∗ (θ) cresce mentre θ si muove nella direzione scelta a partire da


θP , e m è uno scalare che definisce la grandezza dello scalino di avanzamento
ovvero rappresenta la grandezza del movimento nella direzione d P . La scelta
dell’ampiezza dello scalino m è importante poiché anche se d P definisce una
direzione per far crescere il valore di L∗ (θ) a θP , una qualsiasi non linearità
di L∗ (θ), implica che il suo valore potrebbe eventualmente iniziare a decre-
scere a seguito di un eccessivo incremento del valore di m. La definizione
dell’ampiezza ottima della variazione è data dalla soluzione della seguente
espressione:
∂ ∗ p
L (θ + d p m) = 0 (3.41)
∂m
e la scelta della direzione d P che garantisce, solitamente, la più rapida conver-
genza è determinata dalla soluzione della seguente espressione:
 2 ∗
∂L∗ (θ)
  
∂ L (θ)  p 
dk = − (3.42)
∂θl ∂θk ∂θl

dove k = 1, 2, ...d ; l = 1, 2, ... , r, e la prima e seconda derivata di L∗ (θ) so-


no calcolate in θP . Nel caso L∗ (θ) abbia una forma quadratica, ad esempio,
il metodo di Newton – Raphson converge dopo una sola iterazione con una
grandezza dello scalino pari a 1.
Per dare conto della bontà di stima del modello, ovvero di quanto il mo-
dello sia in grado di spiegare l’andamento dei dati, nel caso dei modelli a
scelta discreta di solito si impiega una statistica detta indice del rapporto di
verosimiglianza. La statistica misura quanto i coefficienti stimati nel modello
riescono a spiegare del fenomeno in analisi rispetto al caso in cui li si assuma,
per ipotesi, tutti pari a zero. Tale confronto avviene sulla base della funzio-
ne di log-verosimiglianza calcolata sia in funzione dei parametri stimati sia
assumendo che tali parametri siano tutti pari a zero. L’indice del rapporto di
verosimiglianza è definito come segue:
LL (β∗ )
ρ2 = 1 − (3.43)
LL (0)

dove LL (β∗ ) rappresenta il valore della funzione di log-verosimiglianza im-


piegando i valori dei parametri stimati e LL (0) è il valore della stessa funzio-
ne quando si assume che tutti i coefficienti siano pari a zero. Nel caso l’im-
piego dei parametri stimati non riesca a fornire un incremento nella capacità
esplicativa soddisfacente rispetto al non avere affatto dei parametri esplicativi

83
(questo infatti significa supporli tutti pari a zero!) si avrà allora che ρ2 = 0
dato che LL (β∗ ) = LL (0) . La statistica ρ2 varia tra 0 e 1 0 ≤ ρ2 ≤ 1 . Infat-
ti, nel caso i parametri del modello non riescano a spiegare nulla tale statistica
risulterà pari a 0, mentre nel caso di perfetta predizione (modello determini-
stico) la funzione di verosimiglianza calcolata al valore dei parametri stimati
risulterebbe pari ad 1 dato che la probabilità di osservare le scelte che effet-
tivamente vengono effettuate è esattamente pari ad 1 il cui logaritmo è pari
a 0 fornendo un risultato di ρ2 = 1. La statistica ρ2 può essere interpretata
come l’incremento percentuale della funzione di log-verosimiglianza rispetto
al valore che essa assume quando tutti i β sono posti pari a 0. L’indice ρ2
può, infatti, essere anche espresso come segue:

[LL (0) − LL (β∗ )]


ρ2 =
LL (0)

L’accuratezza dell’indice può essere migliorata se si tiene anche conto dei


gradi di libertà dei diversi modelli. A tale fine si definisce l’indice ρ2 che,
analiticamente, può essere espresso come segue:
LL(β)
2 ∑N
n=1 n −1)−K
(C
ρ = 1− LL(0)
(3.44)
∑Nn=1 (Cn −1)

dove Cn rappresenta il numero di alternative tra cui l’agente n può scegliere e


K è il totale delle variabili (xk ) presenti nel modello.
Con riferimento al test delle ipotesi si rileva come per i singoli parametri
si utilizza, anche in questo caso, il test t . Nel caso si desideri verificare la dif-
ferenza statistica di più parametri rispetto al valore 0 o l’uguaglianza tra due
parametri si possono impiegare test che impongono restrizioni sui parametri
stessi. La stima di massima verosimiglianza vincolata dei parametri produce
quel valore di β che massimizza il valore della log-verosimiglianza senza vio-
lare il vincolo posto dall’ipotesi nulla che si intende testare. Wilks ha dimo-
strato che −2 ln LL (β) si distribuisce approssimativamente χ2 con M gradi di
libertà per campioni grandi se l’ipotesi nulla è verificata (Wilks 1962). Il test
consiste nel calcolare LL (β) e verificare se −2 ln LL (β) è maggiore rispetto
al valore critico di χ2M per un dato valore di significatività precedentemente
stabilito (di solito si usa α = 0, 05). Nel caso il valore χ2M è maggiore del va-
lore pre-specificato per il livello di confidenza scelto, allora si rigetta l’ipotesi
nulla che il particolare sottoinsieme di β sottoposti a test siano da considerarsi
pari a 0. Dato che l’ipotesi di indipendenza delle variabili esplicative è quasi

84
sempre rifiutata, l’utilità del test di log-verosimiglianza risulta particolarmen-
te significativo nel testare se sottoinsiemi di coefficienti (β) sono statistica-
mente diversi da zero. Questo approccio risulta utile quando si confrontano
modelli nidificati. Un confronto tipico è quello tra un modello per il quale un
attributo ha un coefficiente generico (AGV - attribute generic variable) per
tutte le alternative ed un modello, invece, per il quale si utilizzano parametri
specifici per ciascuna alternativa3 . In questo caso dopo aver stimato i due
modelli con gli stessi dati si possono confrontare le log-verosimiglianze per
ciascun modello e calcolare il rapporto di log-verosimiglianza. Se il valore
calcolato è maggiore del valore critico per il grado di confidenza che si è scel-
to si potrà rigettare l’ipotesi nulla che non vi sia una differenza statisticamente
significativa tra i parametri dei due diversi modelli.

3.3.5 Una applicazione del MNL: la qualità nel TPL

In questo paragrafo si illustra una applicazione del MNL. A tale fine si da


conto di uno studio mirato a valutare l’importanza assegnata dagli utenti agli
attributi del trasporto pubblico locale (Marcucci et al. 2004).
Tra gennaio e marzo 2004 è stato condotto uno studio sulla tratta Urbino-
Sogesta della linea 18, esercita dalla AMI S.p.A. che congiunge il comune di
Urbino a quello di Fermignano nelle Marche. Lo studio mira ad analizzare gli
attributi del trasporto pubblico locale (TPL) e la loro rilevanza nella scelta.
Indagini preliminari evidenziano che la qualità del servizio offerto non è del
tutto soddisfacente. La distanza che separa Urbino dalla Sogesta è di circa 2
Km e la durata media del tragitto dell’autobus è di 9 minuti.
Una prima fase della ricerca è servita ad individuare, tramite un focus
group ed un’analisi della letteratura, gli attributi rilevanti per la qualità del
servizio di TPL. I cinque attributi più importanti sono risultati il costo (abbo-
namento mensile), la frequenza del servizio, gli orari di inizio e fine corse, la
presenza di pensiline alle fermate e la presenza di paline informative. Gli at-
tributi del servizio sono stati articolati per livelli come riportato nella tabella
(3.1).
Successivamente, utilizzando un software dedicato (CBC, Choice Based
Conjoint Analysis, www.sawtoothsoftware.com) si sono predisposti 50 diver-
si questionari cartacei successivamente somministrati nell’arco di una setti-
mana ad un gruppo di utenti.
3 Si
pensi, ad esempio, al caso in cui si decide di utilizzare un parametro del valore del
tempo diverso per i diversi modi di trasporto in un modello di scelta modale.

85
Tabella 3.1: Esempio di attributi e livelli

Attributi Livelli
12,80e
15,40e
Costo Mensile
16,00e
19,20e
20,80e
ogni 28 minuti
ogni 31 minuti
Frequenza
ogni 45 minuti
ogni 59 minuti
ogni 64 minuti
06:00÷03:30
06:15÷02:30
Orario inizio e fine corse
07:15÷01:00
08:15÷24:00
09:00÷22:00
Presenza paline Si/No
Presenza pensiline Si/No

86
Utilizzando il CBC sono stati definiti 15 esercizi di scelta per ciascuno dei
50 intervistati generando un dataset di 750 osservazioni. Un esempio di un
esercizio di scelta è riportato nella tabella (3.2).

Tabella 3.2: Esempio di esercizio di scelta

Se fossero disponibili i seguenti servizi di


TPL Urbino-Fermignano quale sceglieresti?
Costo 15,40 e Costo 20,80 e Costo 12,80 e
Ogni 31 minuti Ogni 28 minuti Ogni 59 minuti
Inizio 7:15 fine Inizio 8:15 fine Inizio 7:15 fine Nessuna
1:00 24:00 1:00
Senza paline Senza paline Con paline di queste
Con pensiline Con pensiline Con pensiline
A B C D

Congiuntamente agli esercizi di scelta si è somministrato un questionario


per acquisire dati circa le condizioni socio-economiche degli intervistati e la
frequenza di utilizzo del TPL. Le domande poste riguardavano: 1) la valuta-
zione della qualità complessiva del TPL sulla tratta oggetto di indagine; 2) la
frequenza di utilizzo del servizio; 3) il domicilio dell’intervistato; 4) la dispo-
nibilità di mezzi propri di trasporto e la loro tipologia; 5) lo status lavorativo;
6) il peso assegnato ex ante a ciascun attributo del servizio. Si è anche rileva-
to il sesso dell’intervistato/a ed il budget mensile, al netto delle spese di vitto
ed alloggio, per stimare il reddito disponibile allocabile al trasporto.
Per acquisire informazioni sulla domanda effettiva e potenziale sono stati
somministrati 100 questionari, solo relativi alla situazione socioeconomica
ed alla valutazione della qualità del servizio a bordo dell’autobus. La tabella
(3.3) riporta la distribuzione percentuale, per un totale di 150 interviste (100
a bordo dei mezzi e 50 a terra), delle risposte relative alla qualità del servizio.
La criticità della qualità del servizio è evidente. Solo il 2,6% del campione
intervistato ritiene che il livello del servizio si possa considerare buono e
quasi la metà degli intervistati ritengono, invece, che la qualità del servizio
sia scarsa.

87
Tabella 3.3: Percezione della qualità del TPL

Livello del servizio Percentuale


Scarso 48,7%
Accettabile 48,7%
Buono 2,6%

I dati relativi agli esercizi di scelta sono stati elaborati utilizzando un


MNL, in cui l’utilità è espressa come funzione lineare degli attributi. No-
nostante la sua semplicità, il modello produce risultati molto interessanti
riportati nella tabella (3.4).

Tabella 3.4: Stima dei parametri del MNL

Attributi β st. error β/st.error p-value


Costo -0,2086 0,0277 -7,392 0,0000
Tempo di attesa -0,0651 0,0063 -10,346 0,0000
Dummy orario 06:00/03:30 1,5452 0,2162 7,157 0,0000
Dummy orario 06:15/02:30 1,0256 0,2203 4,645 0,0000
Dummy orario 08:15/24:00 -0,8515 0,2061 -4,115 0,0000
Dummy orario 09:00/22:00 -2,0796 0,2899 -7,166 0,0000
Dummy paline -0,0767 0,1482 -0,519 0,5571
Dummy pensiline 0,2744 0,1521 1,808 0,0741

Il modello è risultato nel complesso buono con una LL pari a –323,6706


e significativamente più alta della LL per il modello in cui tutti i coefficienti
sono posti pari a zero, uguale a –606,4340. ρ2 è risultato pari a 0,4624.
Si rileva che un incremento di un 1 e per il costo dell’abbonamento men-
sile determina una riduzione dell’utilità pari a 0,21 e che l’incremento del
tempo di attesa (opposto della frequenza) di un minuto induce una riduzione
del livello di utilità pari a 0,07. Con la sola eccezione della variabile paline,

88
Tabella 3.5: Disponibilità a pagare/ricevere in Euro.

WTP (in e) per passare per i cambiamenti riportati


Risparmio di 1 min. attesa 0,31
da 07:15/01:00 a 06:00/03:30 7,41
da 07:15/01:00 a 06:15/02:30 4,92
da 07:15/01:00 a 08:15/24:00 -4,08
da 07:15/01:00 a 09:00/22:00 -9,97
Da assenza pensiline a presenza pensiline 1,32

già considerata poco rilevante nell’analisi ex ante, tutti gli attributi risultano
significativi anche se la variabile pensiline è significativa ad un livello di circa
il 10%.
Il modello consente la stima dei saggi marginali di sostituzione dato che
ogni parametro della tabella (3.4) rappresenta la variazione marginale dell’u-
tilità indotta da una variazione unitaria dell’attributo. Il rapporto tra ciascun
coefficiente e quello del costo definisce il saggio marginale di sostituzione tra
la variabile considerata ed il costo dell’abbonamento. La tabella (3.5) riporta
i saggi marginali di sostituzione tra i diversi attributi ed il costo. I valori indi-
cano la disponibilità a pagare (segno positivo) o ad accettare (segno negativo)
per la variazione dell’attributo indagato.
La tabella (3.5) conferma quando evidenziato nella pre-intervista. Infatti,
la grande importanza della frequenza viene ribadita dalla disponibilità a pa-
gare 0,31 centesimi di e per una riduzione del tempo di attesa di un minuto.
Si può supporre che un valore così elevato sia dovuto al fatto che il tempo di
attesa speso alla fermata è considerato, in linea con altri risultati ottenuti in
letteratura, particolarmente oneroso (Cherchi 2003). Tale conclusione appa-
re credibile anche per la breve durata del tragitto considerato. Risparmiare
anche un minuto di attesa su un percorso di complessivi 9 minuti rappresenta
l’11,1% del tempo totale di viaggio. La disponibilità a pagare per un servizio
che inizi alle 6:00 e termini alle 3:00 è di 7,41 e. Tale incremento rappre-
senta un incremento del 46,3% rispetto al costo attuale dell’abbonamento e
conferma la grande rilevanza dell’attributo. La valutazione del passaggio ad
un orario di inizio e fine corse, invece, che vada dalle 6:15 alle 2:30 è valutato

89
4,92 e pari ad un incremento del 30,8% rispetto al costo dell’abbonamento.
La disponibilità, invece, ad accettare un peggioramento è pressoché simmetri-
ca rispetto al valore per un miglioramento dell’orario. Infatti, la disponibilità
ad accettare un peggioramento per un orario con inizio corse alle 8:15 e fi-
ne corse alle 24:00 risulta pari a 4,08 e. Ove si prevedesse l’inizio corse
alle 9.00 e la fine corse alle 22:00, la compensazione dovrebbe essere sostan-
zialmente maggiore rispetto alla disponibilità a pagare per un miglioramento
equivalente (9,97 e di compensazione a fronte di una disponibilità a pagare
di 7,41e).
Al di là di una più approfondita verifica della robustezza dei risultati otte-
nuti4 si sottolinea che i risultati ottenibili da questo tipo di indagini sono utili
per segmentare il mercato, e per simulare gli effetti di diverse configurazioni
di servizi alternativi. L’impatto che le variazioni dei singoli attributi han-
no sull’utilità dei passeggeri e sulla disponibilità a pagare per miglioramenti
o ad accettare compensazioni per peggioramenti del servizio sono utili per
stimare ex ante gli effetti di politiche tariffarie o di altra natura. Tali strumen-
ti consentono di studiare le variazioni della domanda indotte da mutamenti
dell’offerta.

3.4 Il modello Generalized Extreme Value

Nei precedenti paragrafi sono state illustrate le caratteristiche salienti del mo-
dello MNL evidenziandone sia i punti di forza sia quelli di debolezza. Con
riferimento a questi ultimi si sottolinea la semplicità della matrice di cova-
rianza che pone dei problemi quando le alternative non sono tra loro indipen-
denti come nel caso in cui alcuni gruppi di alternative possono risultare più
uguali tra loro (bus e metro) rispetto ad altre (bus e auto) o quando si hanno
variazioni nelle preferenze tra gli individui5 . In questi casi si deve far uso di
modelli più sofisticati.
Le evoluzioni del MNL mirano, pur preservandone le desiderabili carat-
teristiche di stima, a consentire, ad esempio, la rappresentazione di pattern
di sostituzione tra le alternative più flessibili o, come per i dati SP, a trattare
la correlazione tra le risposte. Tale generalizzazione del modello mirata ad
4 Tale procedimento dovrebbe prevedere, tra l’altro, un allargamento del campione analiz-
zato, una segmentazione per altre variabili socio economiche, una specificazione più approfon-
dita della frequenza, del tempo risparmiato, e dei tempi di attesa in funzione delle condizioni
e dei luoghi in cui avvengono.
5 Si pensi al caso in cui la percezione del costo, ad esempio, muta al variare del reddito ma

non si è misurata questa variabile e non la si può utilizzare per le stime.

90
incrementarne la flessibilità deve avvenire garantendo, comunque, la consi-
stenza con il principio RUM. Alcuni modelli, infatti, possono risultare non
consistenti con i principi RUM come, ad esempio, nel caso dello universal
logit proposto da McFadden (1975). Per generalizzare il MNL nel rispetto
di principi RUM, McFadden (1978) suggerisce di partire da una distribuzio-
ne indipendente EV multivariata più generale rispetto a quella univariata che
consente di derivare solo il MNL nel rispetto dei principi RUM. Riprenden-
do l’esposizione proposta dallo stesso McFadden, nell’ormai famoso e citato
articolo, si illustrano le caratteristiche dei modelli GEV e, successivamente,
si chiarisce e si analizza nel dettaglio gli elementi distintivi del più noto ed
applicato modello della famiglia GEV, ovvero il modello logit nidificato o, in
inglese, nested logit (NL).
McFadden ha realizzato tramite il modello GEV, o meglio tramite la classe
di modelli GEV, un’imponente generalizzazione del modello MNL. Anche
se il numero di possibili modelli di questa classe è illimitato, solo un piccolo
numero di forme funzionali specifiche è stato esplorato. Qui di seguito si
definisce il modello GEV e, successivamente, si illustra la derivazione del
modello NL e del MNL come suoi casi specifici.
McFadden introduce la famiglia di modelli GEV in un articolo del 1978
nel contesto dell’analisi della scelta residenziale e dimostra come tutti i mo-
delli GEV siano consistenti con la teoria dell’utilità aleatoria (McFadden
1978).
Sia G (y1 , y2 , ..., yJn ), per y1 , y2 , ..., yJn ≥ 0 una funzione caratterizzata
dalle seguenti proprietà:
• G è non-negativa;

• G è omogenea di grado µ > 0 ovvero sarà vero che


G (αy1 , αy2 , ..., αyJn ) = αµ G (y1 , y2 , ..., yJn );

• limyi →∞ G (y1 , y2 , ..., yJn ) = ∞ per i = 1, 2, ..., Jn ;

• la lesima derivata parziale di G rispetto ad una qualsiasi combinazione


di l variabili yi con i = 1, 2, ..., Jn è non-negativa se l è dispari e non-
positiva se l è pari.
Se G soddisfa le precedenti condizioni e Gi (y1 , y2 , ..., yJn ) denota ∂G
∂yi , con
i = 1, 2, ..., Jn , allora:

eVin Gi eV1n , eV2n , ..., eVJn n



Pn (i) = (3.45)
µG (eV1n , eV2n , ..., eVJn n )

91
definisce un modello di utilità aleatoria GEV. Si noti che visto che G (·) è
omogenea di grado µ allora Gi (·) è omogenea di grado µ − 1. McFadden
(1978) dimostra che il modello di scelta definito dalla (3.45) è compatibile
con il RUM.
Per vedere come il modello GEV rappresenti una generalizzazione rile-
vante si mostra ora come il MNL ne costituisca un caso particolare. La pro-
babilità di scelta di una alternativa i stimata tramite un modello GEV può
essere espressa utilizzando la (3.45) che, per semplificare la notazione, può
essere scritta come segue:
eVi Gi eV1 , eV2 , ..., eVn

P (i) = (3.46)
µG (eV1 , eV2 , ..., eVn )
dove la funzione G è legata alla distribuzione di probabilità congiunta dei
residui aleatori. Nel caso del MNL la funzione G può scriversi nel modo
seguente:
n Vl
G= ∑eθ (3.47)
l=1
e si può verificare che la (3.47) soddisfa le quattro proprietà enunciate. Si può
constatare, infatti, che:
• G ≥ 0 ∀θ, Vl (l = 1, 2, ..., n) dato che una qualsiasi funzione esponen-
ziale è strettamente positiva;
1 1 1
• G µeV1 , ..., µeVn = ∑nl=1 µeVl θ = µ θ ∑nl=1 eVl θ =

1
µ θ G eV1 , ...eVn e, conseguentemente, G risulta omogenea di grado θ1 ,


e, quindi, positivo per θ > 0;


Vl
• limeVl →∞ G eV1 , ..., eVn = limeVl →∞ ∑nl=1 e θ = ∞, per l = 1, ..., n;


Vl ( 1 −1)
• Gl = ∂G(·)
∂eVl
= e θθ , ovvero la derivata prima di G (·) rispetto ad un qua-
lunque eVl , è non negativa per θ ≥ 0 e, dato che tutte le derivate miste
di ordine superiore sono tutte nulle esse saranno, contestualmente, sia
non negative sia non positive.
Sostituendo, infine, l’espressione di G riportata nella (3.47) nell’espres-
sione (3.46), che rappresenta la probabilità di scelta del modello generico
GEV, si ottiene:
1 Vi
eVi θ1 · eVi ( θ −1) eθ
P (i) = 1 · Vl = Vl (3.48)
θ ∑nl=1 e θ ∑nl=1 e θ

92
che è l’espressione della probabilità di scelta del MNL con il parametro di
scala posto pari a θ.
Nel caso, invece, del NL6 la rappresentazione grafica del modello può
essere rappresentata tramite un albero in cui il nodo iniziale o radice è colle-
gato a N nodi intermedi ln (n = 1, 2, ..., N) che si connettono alle i alternative
elementari. Nel nostro caso esamineremo il NL sotto l’ipotesi di omoscheda-
sticità sia delle varianze sia delle covarianze7 .
Nel caso del NL la funzione generatrice G può essere espressa come
segue:
! θθ1
N Vi 0
G eV1 , eV2 , ..., eV n = ∑ ∑ e θ1

(3.49)
n=1 i∈ln
Per verificare che la (3.49) sia compatibile con il RUM e dia origine alla
probabilità di scelta del NL si deve verificare che essa rispetti le quattro con-
dizioni precedentemente enunciate e che, sostituendola nella (3.46), dia, in
effetti, origine alla probabilità di scelta del NL nel caso di omoschedasticità
delle varianze e covarianze. Si vede che:
1) G ≥ 0 ∀θ1 , θ0 , Vl (l = 1, 2, ..., n) dato che una qualsiasi funzione espo-
nenziale è strettamente positiva;
θ
h  1 i θ10
2) G µeV1 , µeV2 , ..., µeVn = ∑Nn=1 ∑i∈ln µeVi θ1

θ
N
h 1
V
 θ1 i θ10
= ∑n=1 (µ) ∑i∈ln e
θ1 i 1

θ
N
1
h
V
 θ1 i θ10
= ∑n=1 (µ) ∑i∈ln e 1
θ0 i

θ
1
N
h
V
 θ1 i θ10
= (µ) ∑n=1 ∑i∈ln e
θ0 i 1

1
= (µ) θ0 G eV1 , eV2 , ..., eVn


1
da cui G risulta omogenea di grado e, quindi, positiva se θ0 > 0;
θ0
 Vi
 θθ1
0
V V V N

3) limeVi →∞ G e , e , ..., e = limeVi →∞ ∑n=1 ∑i∈ln e
1 2 n θ1
= ∞, per i =
1, 2, ..., n;
6 Si tratta solo il caso di un solo livello di nidificazione poiché la sostanza non cambia
rispetto a più livelli di nidificazione e la notazione risulta più facilmente comprensibile.
7 I fattori di scala θ associati a tutti i nodi intermedi l (denominati θ ) sono tra di loro
1
uguali e saranno anche uguali tra loro le varianze associabili ai rami di primo e secondo livello
e, conseguentemente, le covarianze tra le alternative elementari all’interno di uno stesso nido,
per tutti i nidi.

93
 
θ1    !
 Vi
 θ0 −1 Vl 1 −1
θ1
∂G(·) e
4) Gl = ∂eVl
= θθ01 ∑i∈hk e θ1 θ1 con l ∈ hk, ovvero la

derivata prima di G (·) rispetto ad un qualunque eVl , è non negativa ∀θ0 ≥ 0


che è verificata ogni volta che è verificata la condizione 2) sopra riportata
mentre le derivate miste di secondo ordine sono pari a:
 
   θ1   
−2 1
eVi 1
!
−1 Vi θ0 Vl −1
∂2 G(·) θ1
θ1
 
θ
∂eVi ∂eVl
= θ0 · θ1 −1 · ∑i∈hn e θ1
0
· e
θ1 (3.50)

per i, l ∈ hn ∀hn che, dato che θ0 ≥ 0, saranno positive quando θ0 ≥ θ1 ≥ 0


che, a sua volta costituisce anche la condizione affinché sia verifica anche la
condizione per le derivate miste di ordine superiore al secondo.
In questo caso, sostituendo la (3.49) nella (3.46) si ottiene l’espressione
della probabilità di scelta nel caso del NL ad un solo livello con varianze e
covarianze fisse poste pari a θ0 e θ1 :


θ1   
θ0 −1 Vi
Vj 1
!
θ1 θ1 −1
e
θ0 · ∑ j∈hm e θ1 θ1
P (i) = θ e · Vi
0 
θ 1

Vj ! θ
0
∑Nn=1 ∑ hn e θ1


! θ1
 (3.51)
Vj θ0
Vi ∑ j∈hm e θ1
e θ1
= Vj · 
! θ1

Vj θ0
∑ j∈hm e θ1
∑N n=1 ∑hn e
θ1

L’interpretazione della probabilità di scelta del NL tramite la formula ri-


portata chiarisce come questa sia il frutto dalla probabilità (definita trami-
te un MNL) di scelta dell’alternativa elementare all’interno del nido per la
probabilità di scegliere il nido che la contiene.

3.5 Il modello logit nidificato

Storicamente il NL ha rappresentato il primo tentativo di superare i vincoli


restrittivi posti dal MNL. Si ricordi, ad esempio, il già citato paradosso del-
l’autobus rosso e dell’autobus blu. Il modello NL consente di trattare scelte
tra alternative con caratteristiche comuni e, quindi, di scomporre una singola
decisione in modo da minimizzare le restrizioni connesse al pattern di sosti-
tuibilità proporzionale tra diverse alternative caratteristico del MNL. Il NL

94
consente di identificare la relazione comportamentale tra le scelte a ciascun
livello della nidificazione e testare la consistenza della struttura partizionata
con il principio RUM.
La trattazione riportata in questo paragrafo e nei sottoparagrafi che lo
compongono fanno riferimento alla discussione dell’argomento fatto da Train
(2003) e da Louviere et al. (2000). Il modello NL risulta particolarmente ap-
propriato in quelle situazioni in cui l’insieme delle alternative tra cui l’agente
deve scegliere può convenientemente essere partizionato in sottoinsiemi (nidi
o nests in inglese) in modo tale che sia vero: 1) che per qualsiasi coppia di
alternative all’interno dello stesso nido il rapporto tra le probabilità di scelta
rispetti la IIA e 2) che per qualsiasi coppia di alternative in nidi differenti la
IIA non sia più verificata e il rapporto tra le probabilità di scelta delle alter-
native possa dipendere dagli attributi di altre alternative presenti nei due nidi.
Un diagramma ad albero8 costituisce un modo utile ed intuitivo di rappre-
sentare quanto appena detto circa i pattern di sostituzione tra le alternative
(figura 3.3).

Figura 3.3: Diagramma ad albero per la scelta modale

8 Si chiarisce che la rappresentazione ad albero delle scelte non deve considerarsi indicativa

di una sequenza nelle scelte ma, semplicemente, una opportuna convenzione per illustrare
graficamente similitudini e differenze nella caratterizzazione delle alternative.

95
3.5.1 Le probabilità di scelta
La trattazione delle probabilità di scelta viene fatta nel contesto di seguito
descritto. Si consideri una scelta che avviene su due livelli dato un insieme di
scelta (Cl1 ) contenente due alternative (trasporto pubblico e trasporto priva-
to), ed un insieme di scelte elementari (Cl2 ) che contiene quattro alternative
(auto, carpooling, autobus e treno). Si definisce la funzione di utilità indiret-
ta associata ad una alternativa elementare, vale a dire al modo m contenuto
all’interno di una generica categoria g:
Ugm = Ug +Umg , m ∈ Cl2|g , g ∈ Cl1 (3.52)
Si esprima tale grandezza in funzione delle componenti osservate (V ) e
non osservate (µ, ε) che influenzano la scelta, come segue:
Ugm = Vg +Vmg + µg + εmg , m = 1, ...,Cl2|g , g = 1, ...,Cl1 (3.53)
e si definisca la matrice di varianza-covarianza come segue:
 
∑ E (µg + εmg ) · µg0 + εm0 g0 (3.54)
gm,g0 m0

si dimostra (McFadden 1981,Williams 1977,Williams 1981, Daly e Zacha-


ry 1978) che, impiegando l’assunzione di indipendenza delle distribuzioni
nella scelta bi-dimensionale ed il principio RUM, la probabilità congiunta di
scegliere l’alternativa gm può essere definita come segue:

exp (λg (Vg +Vg∗ )) exp λmVm|g
Pgm =  ·  (3.55)
∑g0 ∈Cl1 exp λg Vg0 +Vg0 ∗ ∑m0 ∈Cl2|g exp λm0 Vm0 |g
dove:  
1 
Vg∗ = Ig∗ = log ∑ exp λmVm0 |g + γ (3.56)
λm m0 ∈Cl2|g

dove γ è la costante di Eulero, Ig∗ è l’inclusive value (IV), λg è il parametro


di scala associato al livello decisionale superiore, λm quello relativo al livello
decisionale inferiore9 .
Sostituendo la (3.56) nella (3.55) si ottiene:
 !
λm Vm0 |g
λgVg + λ g log ∑m0 ∈Mg e
λ

e(λmVm|g )
m
e
Pgm =  ! ·   (3.57)
λ 0 λm0 Vm0 |g λm0 Vm0 |g
λg0 Vg0 + λ g log ∑m0 ∈Mg e ∑m0 ∈Cl2|g e
m0
∑g0 ∈Cl1 e
che fornisce la probabilità di scelta desiderata.
9 Di solito si normalizza ad 1 il parametro λg .

96
Il parametro di scala

Il parametro di scala della scelta condizionata (λm ) tra le scelte elementa-


ri in ciascuna partizione viene lasciato libero di variare. Alternativamente
si potrebbe porre λm = 1 lasciando λg libero di variare e, quindi, di essere
stimato. Va chiarito subito che le due diverse normalizzazioni non produco-
no, in genere, risultati identici in termini di elasticità, bontà di stima, ecc.
Si ottengono risultati uguali solo quando i parametri degli IV sono gli stessi
per tutti i nidi ad un determinato livello decisionale. Questo aspetto è fon-
damentale per garantire la confrontabilità dei risultati ottenuti tramite diverse
normalizzazioni dei parametri oltre che per esprimere un univoco giudizio sui
risultati. In pratica, purtroppo, questo aspetto, solo in apparenza di dettaglio,
viene spesso trascurato (Hensher e Greene 1999, Koppelman e Wen 1998).
Quando gli IV possono variare all’interno di un dato livello dell’albero deci-
sionale si avranno risultati differenti in funzione della diversa normalizzazio-
ne. Quando si sceglie un parametro di normalizzazione della scala, la scala
non-normalizzata deve essere la stessa per tutti i nidi in un dato livello deci-
sionale per risultare consistente con il principio RUM. Una condizione glo-
balmente sufficiente per rendere il modello NL definito nell’equazione (3.57)
consistente con il principio RUM è che il parametro dell’IV sia compreso
nell’intervallo 0 ÷ 1 e tale da risultare non decrescente mano a mano che si
passa a livelli più elevati dell’albero decisionale (McFadden 1981). Questa
caratteristica è dovuta alla presenza di maggiore varianza nelle componenti
di errore dei livelli più elevati che includono le componenti della varianza sia
delle scelte dei livelli più bassi sia di quelle del livello a cui ci si riferisce. I
parametri di scala, correlati inversamente con le deviazioni standard, devono
λ
soddisfare le disuguaglianze deboli λg ≤ λm , o λmg ≤ 1. Si ricorda che nel caso
λ
del MNL si ipotizza implicitamente che λg = λm e, quindi, λmg = 1. Il rappor-
 
λ
to tra due qualsiasi parametri di scala λmg può essere interpretato come il
livello di correlazione tra due espressioni di utilità indiretta per le alternative
al di sotto del nodo del ramo dove Ig∗ è definito. Ben-Akiva e Lerman (1985)
dimostrano infatti che:

√ π
λg ( 6σ(εg +εg∗ ))
=
λm √ π
( 6σ(εm|g ))

97
e data la stessa varianza di εg∗ e εm|g si ha:
v  
u
u var ε
λg u m|g
=t  
λm var ε + ε g m|g

e, dopo ulteriori passaggi, si giunge a:


v " #
u
λg u var (εg∗ )
= t1 −  (3.58)
λm var εg∗ + εm|g

e, dato che la covarianza di due utilità all’interno di una partizione è pari a


var (εg∗ ), si ottiene:
v "
u #
λg u cov Vm1|g ,Vm2|g
= 1−
t 
λm var εg∗ + εm|g

Se si nota che la varianza di due componenti non osservabili dell’utilità


per l’alternativa m | g è pari alla varianza di Vm|g si può scrivere che :
q
λg 
= 1 − corr Vm1|g ,Vm2|g
λm
In altre parole, quindi, "  2 #
λg
1−
λm
è pari alla correlazione delle utilità indirette di un qualsivoglia paio di alter-
native che condividono un ramo comune in un nido. Più la correlazione si
avvicina ad 1 più il parametro dell’IV tenderà a zero e nel caso la correlazio-
ne si avvicina a zero il coefficiente dell’IV tenderà ad uno. Il caso limite è
rappresentato dal MNL per il quale si ipotizza che le alternative non hanno
alcun elemento dell’utilità in comune. Un test che serve ad evidenziare la
differente struttura della correlazione presente in un modello NL rispetto ad
un MNL consiste nel verificare se il parametro dell’IV non è statisticamente
differente da 1. In questo caso la specificazione del NL può essere ricondotta
a quella di un MNL (λm prossimi allo zero) e si può desumere la presenza di
un ramo degenere. Valori dell’IV, invece, compresi tra zero ed uno indica-
no diversi gradi di similitudine e, comunque, sono valori significativamente

98
diversi da 1 che giustificano strutture di tipo NL. Nel caso in cui il NL si di-
mostri il modello migliore per rappresentare la scelta non si hanno indicazioni
o metodi consolidati per determinarne la struttura migliore sia da un punto di
vista strettamente statistico sia comportamentale. Infatti, diverse possono es-
sere le strutture che danno origine a valori dei parametri λ compresi tra zero
ed uno. L’analista dovrà, quindi, testare diverse strutture del NL per le quali
risulti verificata la condizione 0 ≤ λ ≤ 1 e, successivamente, confrontando le
log-verosimiglianze tra di loro, scegliere la struttura del NL che è in grado di
spiegare meglio i dati.

Punti di forza e di debolezza del NL

Il modello NL consente di superare il principale limite posto dal MNL rela-


tivamente alle interrelazioni tra le alternative. Allo stesso tempo il numero
delle interdipendenze che è possibile trattare è funzione del numero di nidi
specificati nella struttura dell’albero. La matrice di varianza-covarianza del
NL è una matrice simmetrica, definita per blocchi legati ai nidi individuati
nella struttura dell’albero (Cherchi 2003).

∑(1) · · · ···
 
0 0
 =. .. .. 
 .
 . . . 

∑ =  0 · · · ∑= ( j) · · · 0 
 
(3.59)
=  . . . 
 .. .. .. 
 
0 ··· 0 · · · ∑(I)
=

dove si ha che il blocco relativo al nido generico j è caratterizzato da una


matrice di varianza-covarianza:
· · · 1 − φ2j · · · 1 − φ2j
 
1
 .. .. .. 
. . .
π2 
 

∑ ( j) = 
2
1 − φ2j ··· 1 · · · 1 − φ2j  (3.60)
= 6β  .. .. ..


 . . . 
1 − φ2j · · · 1 − φ2j · · · 1

dove con φ j si denota il parametro del nido immediatamente successivo alle


alternative elementari. In questo caso, quindi, la correlazione tra alternative
all’interno dello stesso nido è posta pari a zero. In una formulazione alla
Williams l’utilità associata alla alternativa i appartenente al nido j è pari a:

99
U (i, j) = U j +Ui/ j (3.61)

dove la componente Ui/ j rappresenta la quota di utilità ascrivibile alla sin-


gola alternativa i all’interno di ciascun nido j mentre U j costituisce la quota
dell’utilità deterministica di tutte le alternative appartenenti allo stesso nido j
(Williams 1977). Suddividendo l’utilità in aleatoria e deterministica la (3.61)
può essere scritta:
U (i, j) = V j + ε j +Vi/ j + εi/ j (3.62)
| {z } | {z }
Uj Ui/ j

e, quindi, la covarianza può essere scritta:

cov ε (i, j) , ε i0 , j = cov ε i0 , j , ε (i, j) , ∀i, i0 ∈ j, ∀ j ∈ I


  
(3.63)

Rispetto al MNL si può, almeno parzialmente, superare i vincoli posti dal-


la IIA poiché tenendo conto della correlazione tra sottogruppi di alternative
si riesce a calcolare i valori delle elasticità non indipendenti dalle alternative
concorrenti10 .

Surplus del consumatore, effetti marginali ed elasticità

Nella letteratura economica il surplus del consumatore è definito in funzione


della variazione della massima utilità attesa che si denota con ∆CS ipotiz-
zando che non vi siano rilevanti effetti di reddito. Assumendo un contesto
di scelta bidimensionale caratterizzato sia dalla scelta del modo (m) sia della
destinazione (d) si rappresenta la funzione di utilità come segue:

U(m, d) = ud + umd ; m = 1, ..., M; d = 1, ..., D (3.64)

L’esistenza della eventuale correlazione tra le distribuzioni delle utilità per


differenti coppie di alternative (m, d) può essere testata scomponendo l’utilità
nella parte rappresentativa e stocastica come segue:

U(d, m) = Vd +Vmd + εd + εmd (3.65)


10 Un interessante approfondimento di molte questioni critiche relative al modello NL è
proposto in un recente lavoro da Carrasco e Ortùzar (2002) dove si ricorda come le ipotesi del
modello sono sia essenziali sia non-ambigue e dovrebbero essere sempre tenute ben presenti
al fine di garantirne un uso corretto.

100
e definendo la matrice di varianza-covarianza in funzione dei suoi elementi
come segue:
∑ = E [εd + εmd , εd0 + εd0 m0 ] (3.66)
dm,d 0 m0

La probabilità Pdm che l’alternativa (dm) sia scelta è data da:

Pdm = Pr u (d, m) > u d 0 , m0 ∀d ∈ D, m ∈ M


  
(3.67)

che può essere caratterizzata come segue:

Pdm = Fdm [vD , vDM ; σD , σDM ] (3.68)

dove i vettori vD , vDM , contengono tutti i valori medi delle componenti del-
l’utilità indiretta nell’insieme di scelta {D, M} ed i vettori σD , σDM rappre-
sentano i vettori delle deviazioni standard.
La variazione del surplus del CS può, quindi, essere espressa nel modo
seguente (λ è l’inverso della deviazione standard):
 " #β 
λ
1 
∆CS = log ∑ ∑ exp (λ (vd + vdm0 ))  (3.69)
β d 0 ∈D m0 ∈M

Più nel dettaglio si può dire che nel NL

P (k, j, i, l) = P (k | j, i, l) P ( j | il) P (i | l) P (l)

rappresenta l’effetto marginale della variazione dell’attributo r della funzione


di utilità per l’alternativa K nel ramoscello J del ramo I del tronco L, sulla
probabilità di scelta dell’alternativa k presente nel ramoscello j del ramo i del
tronco l.
Per derivare, invece, l’espressione delle elasticità nel caso del NL si ri-
corda che i parametri IV forniscono una base per valutare differenze nelle
elasticità di sostituzione incrociata tra alternative. La formula dell’elasticità
per il NL varia in funzione del fatto che ci si riferisca o ad alternative (ela-
sticità diretta) associate con lo stesso nido o a coppie di alternative (elasticità
incrociate) associate con nidi differenti della partizione. Infatti, nel caso delle
elasticità dirette queste risultano identiche a quelle del MNL per le alternative
m in un nido non partizionato. Se, al contrario, l’alternativa m è all’interno di
un nido partizionato la formula deve essere modificata per tenere conto della

101
correlazione tra le alternative nel ramo. L’elasticità diretta in un NL per una
alternativa partizionata è data da:
   
1 
(1 − Pm ) + 1 − Pm|C βk Xmk (3.70)
λm − 1

dove Pm rappresenta la probabilità marginale m e Pm|C la probabilità di sce-


gliere l’alternativa m condizionata alla scelta dell’insieme di scelta. L’ela-
sticità incrociata per le alternative m e m0 in una partizione del nido è pari
a:    
1
− Pm + − 1 Pm|C βk Xmk (3.71)
λm

3.5.2 Stima e test della bontà del modello


La stima del NL può essere sequenziale o simultanea. L’ampia disponibilità
di software applicativi rende facile propendere per una scelta a favore del me-
todo simultaneo anche se si ritiene utile, a scopo prevalentemente didattico,
illustrare brevemente anche il procedimento di stima sequenziale.

La stima sequenziale del NL

La stima sequenziale implica una stima separata di ciascuna scelta come nel
caso del livello gerarchico più basso a cui fa seguito il calcolo degli IV pro-
cedendo poi alla stima delle scelte ai livelli superiori utilizzando gli IV come
variabili esplicative. Dato che si stimano modelli diversi per ciascun ramo, al
livello inferiore vi è la possibilità di perdere una gran quantità di informazioni
con conseguenze sensibili sia rispetto alla dimensione campionaria necessa-
ria per le stime sia sulla distribuzione dei livelli degli attributi. Infatti, nella
stima del livello basso, l’approccio sequenziale include nell’insieme di scelta
solo quelle osservazioni che hanno una alternativa scelta ed almeno un’altra
alternativa in quel ramo. Il procedimento sequenziale di stima è inefficiente.
Non produce stime dei parametri, a tutti i livelli al di sopra del più basso, con
varianza minima (Hensher 1986). Questo fenomeno è ascrivibile all’impiego
di stime per calcolare il contributo di utilità aggregate (gli IV sono proprio
questo) oltre che alla difficoltà e onerosità derivante dal calcolo degli IV per
poi confrontarli con i livelli decisionali superiori. Sono state sviluppate delle
tecniche per correggere gli standard error delle stime derivanti da un approc-
cio sequenziale per tutti i livelli al di sopra del livello più basso. Tali tecniche
risultano particolarmente complicate pur in presenza di semplici modelli a

102
due livelli (Amemiya 1978, Cameron 1982, Small e Brownstone 1982) anche
se gli attuali software applicativi effettuano la correzione automaticamente. Il
metodo sequenziale viene di solito applicato in presenza di modelli nidificati
molto grandi con più livelli gerarchici di scelta mentre fino a che il modello
consiste di tre o quattro livelli di scelta si utilizza la full information maximum
likelyhood (FIML).

La stima simultanea del NL

Dato che in letteratura di solito si stimano NL con meno di quattro livelli ge-
rarchici di scelta appare opportuno approfondire la stima simultanea del NL
poiché fornisce stime efficienti. Il NL viene utilizzato sia con insiemi di scel-
ta fissi sia variabili (ad esempio differenti disponibilità di modi di trasporto
in funzione del luogo di residenza considerato).
La FIML introduce alcuni aspetti critici che vanno trattati separatamen-
te. Da un punto di vista strettamente strutturale la stima di un modello NL
equivale alla stima di un insieme di MNL separati, ciascuno dei quali carat-
terizzato da una soluzione ottima unica quando considerato individualmen-
te. Poiché la stima FIML del NL non è caratterizzata da una soluzione di
ottimo globale si possono avere diversi massimi locali sub-ottimali e tale cir-
costanza suggerisce grande cautela nella scelta dei valori di inizializzazione
del processo di stima dei parametri. Le procedure di ottimizzazione, inoltre,
necessitano di soluzioni analitiche sia per le derivate prime sia seconde. Que-
st’ultime non sono facilmente calcolabili e, in pratica, si utilizzano loro ap-
prossimazioni computate numericamente11 . L’uso delle sole derivate prime è
sconsigliato a fronte dell’andamento non lineare dei parametri degli IV. Lou-
viere et al. (2000) riportano l’espressione completa della log-verosimiglianza
per un modello NL con tre livelli gerarchici stimato con il metodo FIML:

M
log L = ∑ ∑ δmi log [P (i | xi , β, θ, λ)] (3.72)
m=1 i⊆(1,...,I)

dove m = 1, ..., M sono le osservazioni, i = 1, ..., I sono le alternative in un


insieme di scelta universale finito, θ e λ sono la stima dei parametri dell’IV
per i livelli alto ed intermedio, xi rappresenta l’insieme degli altri attributi
esogeni, e β i loro parametri delle utilità. Sarà δmi = 1 se l’alternativa i è
scelta nell’osservazione m e zero altrimenti. Per un modello NL a tre livelli
11 Questi temi vengono più diffusamente trattati nel quarto capitolo.

103
del tipo:
Pagi = P (a) ∗ P (g | a) ∗ P (i | a, g) (3.73)

la funzione di distribuzione congiunta cumulata delle componenti non osser-


vate stocastiche è data da:

F (ε1 , ε2 , ..., εz ) = exp {−G [exp (−ε1 ) , ..., exp (−εz )]} (3.74)

dove:
" !#θ
1
G (y1 , ..., yz ) = ∑ ∑ ∑ y0 ( λm ) (3.75)
a g0 ∈a0 i∈g0

e la sommatoria comprende il più elevato livello che contiene l’alternativa


a0 , i sottoinsiemi dell’alternativa g0 contenuta in ciascun ramo del livello più
elevato, oltre che tutte le alternative elementari i0 in ciascuno dei rami nei
livelli intermedi (McFadden 1979;1981).

Test della bontà del modello

Il metodo più semplice per confrontare due modelli nidificati qualsiasi è, co-
me precedente descritto, il test del rapporto di verosimiglianza. Il confronto
tra due modelli stimati utilizzando lo stesso data set avviene confrontando la
log-verosimiglianza alla convergenza. Tale valore viene raffrontato con un
valore critico derivato da una tavola statistica del χ2 utilizzando, solitamen-
te, il livello di significatività dello 5% per il numero di gradi di libertà del
modello.
Tra gli altri test impiegati per confrontare modelli con campionamento
esogeno ricordiamo il test del moltiplicatore di Lagrange di Small-Hsiao e il
metodo di regressione di McFadden di cui si dice qui di seguito in maggior
dettaglio.
Small e Hsiao (1985) impiegano il moltiplicatore di Lagrange per testare
l’uguaglianza della sostituzione incrociata di coppie di alternative. Utilizzano
un test del rapporto di verosimiglianza asintoticamente non distorto, separano
in modo aleatorio un insieme di agenti in due sottoinsiemi S1 e S2 e calcolano
le medie ponderate dei parametri ottenute dai due modelli stimati per i diversi
sottoinsiemi di agenti:
   
1 1
b Sk 1 S2
α = 1
b Sk 1
α + 1− 1 α b Sk 2 (3.76)
2− 2 2− 2

104
Si definisce un insieme di scelta ristretto un sottoinsieme dell’insieme di
scelta universale ed il sottoinsieme S2 viene definito in modo tale da compren-
dere solo gli individui che hanno scelto le alternative nel sottoinsieme ristret-
to. Si stima un modello ristretto (parametri α b Sk 1 S2 ) ed uno non-ristretto (pa-
S2
rametri αb k ) e si testa l’ipotesi nulla che una struttura del tipo MNL implica
una statistica χ2 : h   i
χ2 = −2 LRS2 α b Sk 1 S2 + LRS2 α b Sk 2 (3.77)
(il pedice R denota il modello ristretto) con un numero di gradi di libertà pari
al numero dei parametri nei vettori α b Sk 1 S2 e αb Sk 2 . La procedura va ripetuta
invertendo i sottoinsiemi S1 e S2 .
McFadden (1987) mostra come utilizzare tecniche di regressione per effet-
tuare test equiparabili al moltiplicatore di Lagrange. Si stimi una regressione
ausiliaria utilizzando sia le osservazioni sia le alternative in cui la variabile
esplicativa è:
[δi − PC (i)]
ui = 1 (3.78)
(PC (i)) 2
dove δi = 1 se una alternativa in una partizione Cn (k) dell’insieme di scelta
universale Cu è scelta e zero altrimenti, e PC (i) è la probabilità di scelta del
MNL dell’alternativa i contenuta all’interno dell’insieme di scelta universale
Cu . Le variabili esplicative sono xiCu e xii , xik dove:
(xi − xCu )
xiCu = 1 (3.79)
(PC (i)) 2

xCu = ∑ x j PC ( j) (3.80)
j∈Cu
e " #
1
wik = vik − ∑ PC ( j) v jk [PC (i)] 2 (3.81)
j∈C
con (
− ln PCn (k) (i) se i ∈ Cn (k)
vik = (3.82)
0 se i ∈
/ Cn (k)
dove Cn = (C1 , ...,Ck ) è una partizione di Cu . I dati sono ottenuti dal model-
lo MNL e McFadden dimostra che, posto N pari al numero di osservazioni
nella regressione ausiliaria (individui moltiplicati per le alternative), avendo
T individui nel campione utilizzati per stimare il MNL che vengono impie-
gati anche per stimare la regressione ausiliaria ed essendo R2 il coefficiente

105
non aggiustato di correlazione multipla ottenuto dalla regressione ausiliaria,
allora (N − T ) R2 ed il moltiplicatore di Lagrange sono asintoticamente equi-
valenti con una distribuzione che al limite si distribuisce χ2 con K gradi di
libertà.

3.5.3 Evoluzioni del NL


In linea con lo spirito che ne aveva motivato la nascita12 al fine di meglio
rappresentare alcuni contesti decisionali che, in pratica, si verificano spesso
sono state successivamente proposte in letteratura delle varianti del NL che
costituiscono delle evoluzioni importanti rispetto alla formulazione iniziale.
Qui di seguito si trattano due delle più significative: il NL eteroschedastico
ed il NL a nidificazioni sovrapposte.

Il NL eteroschedastico

Il NL è mirato a catturare la correlazione tra le alternative. A volte si può


verificare il caso in cui sia più opportuno o interessante studiare la variabilità
dei fattori non osservati tra le diverse alternative. In altre parole si potrebbe
verificare il caso in cui si debba testare per la possibilità di eteroschedasticità
tra le componenti non osservate della funzione di utilità che si vuole stima-
re. Diversi autori descrivono una categoria di modelli detti heteroschedastic
extreme value (HEV) in cui, associata alla struttura logit classica, il modello
consente di considerare varianze diverse per ciascuna alternativa (Steckel e
Vanhonacker 1988, Bhat 1995, Recker 1995). In questo caso la funzione di
utilità è specificata come segue:

Uni = Vni + εni (3.83)


2
(θ j π)
dove εni si distribuisce in modo indipendente EV con varianza 6 e, pur
non essendoci correlazione tra i fattori non osservati delle alternative di scelta,
tuttavia la varianza dei fattori non osservati è diversa per le diverse alternati-
ve. Per determinare la scala dell’utilità, la varianza di una alternativa viene
2
normalizzata a π6 che rappresenta la varianza della distribuzione standardiz-
zata EV e sarà, quindi, possibile stimare le varianze delle altre alternative
12 IlNL nasce per dare conto di una certa differenza nella struttura della componente alea-
toria di errore dell’utilità tramite la partizione dell’insieme di scelta per consentire che al-
cune alternative potessero condividere delle componenti non osservate tra di loro rispetto ad
alternative non nidificate.

106
rispetto alla varianza normalizzata. Bhat (1995) dimostra che le probabilità
di scelta di un logit eteroschedastico sono pari a:

( )
 − Vni −Vn j +θi w

Z
 e−e−w e−w dw
θj
−e
Pni = Πe (3.84)
j6=i

dove w = εθnii . L’integrale non assume una forma chiusa, tuttavia, dato che è
solo unidimensionale le probabilità del logit eteroschedastico possono essere
opportunamente calcolate attraverso il sistema della quadratura.
La classe di modelli HEV consentono, rispetto ai modelli GEV, di trattare
strutture della covarianza della parte non osservata dell’utilità anche molto
generali e risultano, quindi, più flessibili.
Sia G (Y1 , ...,YI ) la funzione generatrice del modello GEV  precedentemen-
−ε −ε

te descritto. F (ε1t , ...εIt ) = exp −G e
e 1t θ1t , ..., e It θIt sia una funzione
di distribuzione multivariata EV se θit > 0, ∀i, ∀t e:
Z ∞  
pit = θit e−εit θit Gi e−(vit +εit −v1t )θ1t , ..., e−(vit +εit −vIt )θIt e−G(·) dεit (3.85)
−∞

definisce un modello di probabilità di scelta in linea con il principio RUM


dove G ha gli stessi argomenti di Gi . Nel caso in cui θit = θi avremo che:

1 Gi (evit θti )
pit = εvit θt (3.86)
µ G(evit θt )

dove (evit θti ) denota un vettore con evit θti come suo iesimo elemento. Come per
i modelli GEV anche per i modelli HEV si può dimostrare che essi assumono
particolari forme funzionali data una peculiare funzione generatrice G (·). Nel
caso, ad esempio, in cui G sia la funzione generatrice del modello MNL,
ovvero quando G (Y1 , ...,YI ) = ∑Ii=1 Yi , si ha che Gi = 1 ∀i, e si verifica che:
( )
Z ∞ J
−εθit −(vit +ε−v jt )θ jt
p =it θ e exp − e
it ∑ dε (3.87)
−∞ j=1
e
evit θt
pit = (3.88)
∑Jj=1 ev jt θt
Il modello (3.86) rappresenta un MNL con eteroschedasticità sia tra deci-
sori sia tra alternative e include il modello HEV come caso speciale quando
θit = θ1i ovvero quando si ha eteroschedasticità solo nelle alternative (Bhat

107
1995). Il modello (3.87) rappresenta una situazione con eteroschedasticità
solo tra gli agenti.
Un modello particolarmente interessante è il modello logit eteroschedasti-
co nidificato (NL-HEV). Nel caso di tre alternative con due livelli gerarchici
dell’albero decisionale, la funzione HEV generatrice è data da:
 σ
1 1
G (Y1 ,Y2 ,Y3 ) = Y1 + Y2σ +Y3σ (3.89)

sostituendo tale funzione G e le sue derivate parziali nel modello (3.86) si


possono derivare le probabilità di scelta NL-HEV con eteroschedasticità negli
agenti:
eθt v1
p1 =  θt v θt v3 σ
 (3.90)
2
eθt v1 + e σ + e σ

θt v3 σ
 θt v 
2
e σ +e σ
p(2,3) =  θt v θt v3 σ
 (3.91)
2
eθt v1 + e σ + e σ
θt v j
e σ
Pj|(2,3) = θt v2 θt v3 (3.92)
e σ +e σ

Il modello NL standard pone un rimedio parziale ai vincoli posti dalla IIA


nel modello MNL. Il modello NL-HEV consente di ridurre ulteriormente la
portata delle ipotesi relative alla omoschedasticità degli errori del NL garan-
tendo, quindi, un maggiore grado di flessibilità funzionale. I modelli HEV
in generale consentono di rappresentare situazioni in cui si vogliano consen-
tire elasticità incrociate differenti tra tutte le possibili coppie di alternative
(Bhat 1995).
Anche in questo caso il modello può, pur con una perdita di efficien-
za, essere stimato in modo sequenziale. Si definisce con J, una quantità
assimilabile all’IV del modello NL standard, come segue:
θt v3
 θt v2 
J = log e σ + e σ (3.93)

e si riscrivono la (3.90) e la (3.91) rispettivamente come segue:

eθt v1
p1 = (3.94)
eθt v1 + eσJ

108
eσJ
p(2,3) = (3.95)
eθt v1 + eσJ
Si possono stimare prima i coefficienti in v1 , v2 e θ dal modello di scelta
condizionata (3.92) che è un modello logit eteroschedastico e, successiva-
mente, si può ottenere J dalla (3.93), così da trasformare la (3.94) e la (3.95)
in due probabilità logit standard dalle quali stimare i parametri in v1 e σ.
In generale la stima di un modello HEV può essere effettuata utilizzando
il metodo della massima verosimiglianza. Sia θit una funzione di variabili
osservabili che assumono soltanto valori positivi, ad esempio,

θit = (1 + Zi α1 + Zt α2 )2 (3.96)

oppure:
θit = eZi a1 +Zt a2 (3.97)
dove Zi e Zt possono essere vettori che variano con le alternative di scelta e
con gli agenti. Le variabili Z possono essere parte delle variabili indipendenti
che entrano nella funzione di utilità del modello di scelta o possono essere
altre variabili osservabili che si ritiene influenzino le varianze degli errori.
Nella parametrizzazione proposta entrambi gli α1 o α2 possono essere pari
a zero ovvero si può ricadere nei casi di eteroschedasticità tra i soli decisori
od eteroschedasticità solo tra le alternative. Nel caso in cui entrambi i coeffi-
cienti siano posti pari a zero si ricade nel caso di omoschedasticità dei termini
di errori e, quindi, in un GEV standard. Si supponga, ad esempio, di disporre
di dati campionari (cin , xim ) dove cin = 1 se l’individuo n sceglie l’alternativa
i e cin = 0 altrimenti, mentre xim rappresentano le variabili indipendenti della
funzione di utilità. La funzione di log-verosimiglianza, in questo caso è data
da:
N I
L (cin , xim , θ) = ∑ ∑ cin ln pin (3.98)
n=1 i=1

dove pin è dato dalla (3.86) o dalla (3.85) in funzione del fatto che sia verifi-
cato o meno α = 0, e θ è il vettore di tutti i parametri ignoti in pin , incluso β
in vit , α in θit , e qualsiasi altro parametro nella funzione G (·).
Gli stimatori di massima verosimiglianza per θ possono essere derivati uti-
lizzando metodi standard di massimizzazione numerica. McFadden (1973)
fornisce un insieme di condizioni di regolarità verificate le quali la stima
delle probabilità di scelta tramite il metodo della massima verosimiglianza
risulta consistente ed asintoticamente normale. Le condizioni sono facilmen-
te soddisfatte nei modelli solitamente stimati. La condizione più importan-

109
te è che pin sia continua e differenziabile nei parametri sconosciuti θ. La
generalizzazione dei GEV proposta preserva questa condizione.
La specificazione del test dell’eteroschedasticità nei modelli GEV consiste
nel verificare se α1 = 0 o α2 = 0 o α1 = α2 = 0 nella (3.96) e nella (3.97).
Dato che il modello ristretto è un caso parametrico speciale del modello non-
ristretto, si possono applicare i test di Wald, rapporto di verosimiglianza e
moltiplicatore di Lagrange per effettuare il test.

Il NL con nidificazioni sovrapposte

Nel modello NL standard ciascuna alternativa appartiene ad un solo nido.


Questa struttura, a volte, risulta un vincolo forte per una corretta rappresenta-
zione del contesto decisionale in cui avvengono le scelte degli agenti. In una
circostanza di scelta modale, ad esempio, nel caso in cui si ponesse il carpoo-
ling e l’auto in un unico nido supponendo che tali modi siano caratterizzati
da attributi non osservati comuni si rischia di sottovalutare il fatto che il car-
pooling condivide per alcuni attributi non osservati (la ridotta flessibilità, per
esempio) che caratterizzano anche i mezzi pubblici. In questo caso sarebbe
bene tenere conto di entrambi gli aspetti e assumere la parte non osservata
della funzione di utilità dell’alternativa carpooling correlata sia a quella del-
l’auto sia, anche se con diversa intensità, a quella dei mezzi pubblici. In altre
parole, sarebbe opportuno inserire il carpooling in due diversi nidi dell’albe-
ro decisionale. Un’interessante applicazione del modello è stata effettuata da
Vovsha e Bekhor (1998) in uno studio di scelta del percorso in presenza di
correlazioni topologiche che non potevano essere opportunamente catturate
né da un MNL né da un NL.
La recente letteratura sui modelli GEV con nidi sovrapposti comprende di-
versi contributi tra cui si ricordano (Vovsha 1997, Bierlaire 1998, Ben-Akiva
et al. 1999, Bierlaire 2001, Wen e Koppelman 2001, Papola 2004).
Il nome cross-nested logit (CNL), ovvero logit a nidificazioni sovrappo-
ste, appare per la prima volta in letteratura nel paper di Vovsha (1997) che
usa questo modello per uno studio di scelta modale in Israele. Il modello
si presta ad interessanti applicazioni proprio per la sua peculiare capacità di
dare conto di un’ampia varietà di strutture di correlazione. Il CNL ha una
formulazione in forma chiusa che è possibile derivare dal GEV. L’analisi più
approfondita del CNL è probabilmente quella di Wen e Koppelman (2001)
che presentano, pur non fornendone una prova formale, il CNL come caso
particolare derivato dalla famiglia GEV. Prova formale di tale appartenenza
viene, invece, prodotta da Bierlaire (2006) a cui ci si rifà per l’esposizione

110
che segue.
Oltre ai limiti già in precedenza esposti che caratterizzano il NL ed am-
piamente discussi in letteratura (Williams 1977, Forinash e Koppelman 1993)
si ricorda che la necessaria e non ambigua assegnazione delle alternative ai
vari nidi non consente di catturare interazioni composite tra alternative. A se-
guito dell’articolo seminale di McFadden (1978) è Small (1987) che impiega
per primo il CNL per studiare la scelta del tempo di partenza. Il modello di
Small è, di fatto, un GEV ordinale (OGEV) ed adotta la seguente funzione di
generazione: ! ρr
J+M 1
ρr
G (x1 , ..., xJ ) = ∑ ∑ wr− j x j (3.99)
r=1 j∈Br

dove M è un numero intero positivo, ρr e wm sono costanti che soddisfano le


condizioni 0 < ρr ≤ 1, wm ≥ 0 e
M
∑ wm = 1 (3.100)
m=0

Le Br rappresentano sottoinsiemi di alternative sovrapposte:

Br = { j ∈ [1, ..., J]} | r − M ≤ j ≤ r (3.101)

Vovsha (1997) per la prima volta utilizza la dicitura CNL ed applica il


modello ad un caso di scelta modale in cui l’alternativa park and ride è con-
tenuta sia nel nido composite auto sia in quello composite transit. La funzione
generatrice GEV utilizzata per il CNL è la seguente:

G (x1 , ..., xJ ) = ∑ ∑ α jm x j (3.102)
m j∈C

dove m è l’indice del nido, e α jm sono i parametri del modello tali per cui:

0 ≤ α jm ≤ 0 ∀ j, m (3.103)

e
∑ α jm > 0 ∀ j (3.104)
m

Vovsha (1997), inoltre, impone, che:

∑ αµjm = 1 ∀ j (3.105)
m

111
Ben-Akiva et al. (1999) trattano il CNL come caso specifico di un GEV
generato dalla seguente funzione:
! µµ
m
µ
G (x1 , ..., xJ ) = ∑ ∑ α jm x j m (3.106)
m j∈C

dove m è l’indice del nido e µm il parametro associato con il nido m.


Analoga formulazione è stata proposta da Papola (2004) utilizzando la
seguente funzione di generazione:

! θθk
θ0 0
Vj
θk
G (x1 , ..., xJ ) = ∑ ∑ α jk e θk
(3.107)
k j∈Ck

dove Ck ⊆ C è l’insieme delle alternative nel nido k, 0 ≤ θk ≤ θ0 e ∑k α jk =


1 ∀ j.
Wen e Koppelman (2001) denominano il CNL generalised nested logit
model (GEN-NL) ed impiegano la seguente funzione di generazione:
!µm
1
G (x1 , ..., xJ ) = ∑ ∑ (αn0 m xn0 ) µm (3.108)
m n0 ∈Nm

dove αn0 m ≥ 0, 0 < µm ≤ 1, e Nm è l’insieme delle alernative all’interno del


nido m e la condizione:
∑ αn0 m = 1 ∀n0 (3.109)
m

fornisce una utile interpretazione del meccanismo di allocazione delle al-


ternative ai nidi. La (3.102) e la (3.106) consentono a tutte le alternati-
ve di appartenere a tutti i nidi mentre la (3.107) e la (3.108) definiscono
esplicitamente l’insieme di alternative presenti all’interno di ciascun nido
(Ck , Nm ).
La formulazione più generale tra quelle considerate è quella proposta da
Ben-Akiva et al. (1999) tanto che è possibile dimostrare come tutte le al-
tre formulazioni costituiscano suoi casi specifici. Infatti, se nella (3.106)
poniamo µ = 1 e µm = ρ1m si ottiene la (3.99) (Small); si deriva, invece la
(3.102) (Vovsha) ponendo µm = 1 ∀m; si consegue la (3.107) (Papola) ponen-
θ0

do µ = θ10 , µm = θ1m e αim = α θjmm ; infine, si può raggiungere la (3.108) ponendo


semplicemente µ = 1 che è una condizione standard per i modelli GEV.

112
I vantaggi della (3.106) si estendono oltre la sua generalità poiché a ciò
si associa anche la formale dimostrazione della sua appartenenza ai model-
li GEV fornita da Bierlaire (2001). In maggior dettaglio Bierlaire (2001)
individua le seguenti condizioni:

α jm ≥ 0, ∀ j, m
∑m α jm > 0, ∀ j
µ>0
µm > 0, ∀m
µ ≤ µm , ∀m

per dimostrare come la (3.106) rispetti tutte le condizioni delle funzioni ge-
neratrici dei modelli GEV così come descritte da McFadden.
I primi metodi di stima del CNL (Small 1987, Vovsha 1997) erano basati
su procedimenti euristici. La stima tramite la massima verosimiglianza mira
all’identificazione di un insieme di parametri che massimizzino la probabi-
lità che un dato modello riesca a riprodurre perfettamente le osservazioni a
disposizione. Il problema da risolvere in questo caso è di programmazione
non lineare. La natura della funzione obiettivo e dei vincoli determinano la
scelta dell’algoritmo da utilizzare. Nel caso del CNL la funzione obiettivo
da massimizzare è non lineare. In generale la funzione non è concava e ciò
complica l’identificazione di un massimo globale. La maggior parte degli
algoritmi non-lineari di programmazione (Dennis e Schnabel 1983, Bertse-
kas 1995) servono a determinare massimi locali della funzione obiettivo e
richiedono la conoscenza delle derivate della funzione obiettivo e dei vincoli.
Dato che il CNL ha forma chiusa lo stesso si può affermare per la funzione di
log-verosimiglianza e, quindi, si può derivare analiticamente la formula delle
derivate che Bierlaire (2006) fornisce nell’appendice al suo lavoro. Anche
se esistono alcune meta-euristiche che consentono di identificare gli ottimi
globali, tuttavia non vi è certezza che la soluzione individuata sia, in effetti,
anche un ottimo globale. Indipendentemente dall’algoritmo impiegato è rac-
comandabile provare ad avviarlo da diversi punti iniziali. Si dovranno impor-
re dei vincoli per la stima dei parametri che ne facilitino anche una corretta
ed intuitiva interpretazione (il coefficiente del costo, ad esempio, dovrebbe
avere sempre segno negativo), altri per garantire la validità del modello e,
infine, altri ancora per normalizzare il modello consentendone la stima.

113
3.5.4 Una applicazione del NL: la scelta modale

In questo paragrafo si analizza una applicazione del NL alla scelta del modo
di trasporto. Particolare attenzione è dedicata alla formulazione del modello
e al confronto tra diversi tipi di nidificazione. Il caso illustrato è dettaglia-
tamente descritto da Louviere et al. (2000) cui si rimanda per approfondi-
menti relativi al progetto ed obiettivi dello studio. In sintesi si può affermare
che scopo del progetto, sviluppato nel 1986 da Hensher presso l’Institue for
Transport Studies dell’Università di Sydney, è studiare la scelta del modo di
trasporto tra le città di Sydney e Melbourne per motivi di lavoro. Sono inter-
vistati 210 viaggiatori somministrando un questionario relativo alla scelta del
modo di trasporto utilizzato. Vengono presentate quattro alternative all’inter-
no degli esercizi di scelta e, segnatamente, aereo, auto, treno e autobus. Gli
attributi impiegati per caratterizzare i modi di trasporto sono: il tempo di at-
tesa al terminale, il tempo passato all’interno del veicolo, il costo e il reddito.
I dati relativi allo studio sono disponibili all’interno del pacchetto applicati-
vo LIMDEP. Come è sempre bene fare, l’analisi preliminare della scelta del
modo di trasporto è partita dalla stima di un MNL. L’utilità delle alternative
è rappresentata da una funzione lineare degli attributi rilevanti: 1) tempo di
attesa al terminale, 2) costo generalizzato (costo di trasporto più tempo tra-
scorso all’interno del mezzo di trasporto moltiplicato per il valore monetario
del tempo), 3) ASC del modo di trasporto e 4) reddito. Quest’ultimo è stato
incluso per valutare eventuali effetti differenziali sull’utilità delle alternati-
ve autobus e treno rispetto all’utilità delle alternative auto e aereo. Il MNL
è servito a testare l’ipotesi di IIA che è risultata non verificata. A seguito di
tale constatazione si è impiegato il NL poiché più atto a rappresentare struttu-
re d’errore non strettamente vincolate alla IIA. Tale modello consente, infatti,
come appare ragionevole supporre per il caso in esame, che alcune alternative
si caratterizzino per una correlazione tra le proprie utilità a causa di attributi
comuni, non osservati. Gli Autori esaminano diverse strutture di nidificazio-
ne rispettivamente denotate NL1, NL2 e NL3 e rappresentate rispettivamente
nelle figure (3.4), (3.5) e (3.6) dove si riporta il modello più complesso che
prevede una struttura gerarchica più articolata e nidificata a tre livelli.
Qui di seguito (tabella 3.6) si riportano le stime del MNL.
Le costanti Aereo, Treno, Autobus sono dummy che assumono valore 1
se l’alternativa considerata è rispettivamente l’aereo, il treno o l’autobus, e
assumono il valore 0 altrimenti. I coefficienti di tali costanti risultano signi-
ficativamente diversi da 0 e positivi, ciò testimonia una preferenza, ceteris
paribus, per mezzi di trasporto diversi dall’auto. I coefficienti del tempo di

114
Figura 3.4: Struttura gerarchica del modello NL1

Figura 3.5: Struttura gerarchica del modello NL2

115
Figura 3.6: Struttura gerarchica del modello NL3

Tabella 3.6: Stima dei parametri del MNL

Attributi Coeff. Stand. err. Stat. t p-value


Tempo di attesa -0,0945 0,0104 -9,105 0,0000
Costo generalizzato -0,0120 0,0045 -2,657 0,0079
ASC Coeff. Stand. err. Stat. t p-value
Aereo 5,6001 0,6527 8,579 0,0000
Treno 5,1798 0,5806 8,921 0,0000
Bus 4,5230 0,5900 7,666 0,0000
Variabili economiche Coeff. Stand. err. Stat. t p-value
Reddito·(Treno+Bus) -0,0439 0,0111 -3,953 0,0001

116
attesa e del costo generalizzato sono statisticamente significativi e, come pre-
visto a priori, di segno negativo. Loro incrementi riducono l’utilità per gli
agenti che utilizzano il trasporto. Il reddito ha un effetto negativo sull’uti-
lità di treno e autobus e, al suo aumentare, gli agenti preferiscono scegliere
l’aereo o l’auto. Nel complesso il modello ha una buona capacità esplicativa
tanto che la sua log-verosimiglianza risulta –191,0665, significativamente più
bassa di quella (–291,1218) di un modello che assume tutti i parametri senza
alcun effetto esplicativo. Il ρ2 è 0,3437 ed equivalente ad un ρ2 aggiustato di
0,3374. Estromettendo dall’insieme di scelta l’alternativa auto e applicando
il test di Hausman e McFadden (1984) per la verifica dell’ipotesi IIA, si è
ottenuto un valore altamente significativo della statistica test (51,4229) che
induce a rifiutare tale ipotesi. Il MNL non può essere impiegato poiché non
sono soddisfatte le assunzioni su cui poggia.
Le stime dei parametri per il modello nidificato NL1, sono riportate nel-
la tabella (3.7). La log-verosimiglianza del modello è –188,4056 che risulta
significativamente inferiore a quella del MNL con un ρ2 di 0,3972 che equi-
vale ad un ρ2 aggiustato di 0,3895. Si sottolinea che i parametri dell’IV sono
altamente significativi e ciò conferma la presenza di correlazione degli errori.
La tabella (3.8) riporta le stime dei parametri del modello NL2.
Il modello NL2 ha una log-verosimiglianza di –184,3104 che indica una
migliore capacità esplicativa di questo modello rispetto al NL1. L’auto sem-
bra avere più attributi non osservati in comune con l’aereo (il comfort, l’af-
fidabilità, ecc.) rispetto al treno o l’autobus. La tabella (3.9) riporta le stime
dei coefficienti del modello NL3 che ha invece una log-verosimiglianza di –
185,5006 e, nonostante la sua maggiore complessità rispetto al modello NL2,
non produce miglioramenti apprezzabili della capacità esplicativa.
La tabella (3.10) riporta, con riferimento al modello NL2, le elasticità del-
le probabilità di scelta dei diversi modi di trasporto all’aumentare del costo
generalizzato per l’auto. Pr (m) indica la probabilità di scelta del nido m e
Pr ( j|m) indica la probabilità di scegliere l’alternativa j nel caso si sia già
scelto il nido m che la contiene.
Un incremento di un punto percentuale nel costo generalizzato dell’auto
provoca una riduzione dell’1,049% nella probabilità di scelta del nido che
contiene l’auto e un incremento dello 0,910% dell’altro nido. Inoltre, all’in-
terno del nido che contiene l’auto si ha un secondo effetto. In particolare, la
preferenza si sposta verso l’alternativa aereo, infatti la probabilità di scegliere
l’aereo, condizionata alla scelta di un mezzo privato, aumenta dello 0,809%.
Le probabilità condizionate di scegliere il treno o l’autobus non sono, invece,

117
Tabella 3.7: Stima dei parametri del modello NL1

Attributi Coeff. Stand. err. Stat. t p-value


Tempo di attesa -0,1079 0,0140 -7,690 0,0000
Costo generalizzato -0,0233 0,0079 -2,945 0,0032
Treno 6,1368 0,8000 7,671 0,0000
Autobus 5,2861 0,7590 6,965 0,0000
Reddito·(treno+autobus) -0,0443 0,0127 -3,485 0,0005
Attributi dei nidi Coeff. Stand. err. Stat. t p-value
Aereo 4,5229 1,1156 4,054 0,0001
Parametri per l’IV Coeff. Stand. err. Stat. t p-value
Via aria 0,6902 0,1605 4,301 0,0000
Via terra 0,5083 0,1559 3,260 0,0011

Tabella 3.8: Stima dei parametri del modello NL2

Attributi Coeff. Stand. err. Stat. t p-value


tempo di attesa -0,0861 0,0118 -7,303 0,0000
costo generalizzato -0,0148 0,0042 -3,497 0,0005
Treno 3,7573 0,6462 5,814 0,0000
Autobus 2,9767 0,6784 4,388 0,0000
Reddito*(treno+autobus) 4,9802 0,7452 6,683 0,0000
Attributi dei nidi Coeff. Stand. err. Stat. t p-value
Aereo -0,0416 0,0121 -3,427 0,0006
Parametri per l’IV Coeff. Stand. err. Stat. t p-value
Via aria 2,4209 0,5226 4,632 0,0000
Via terra 1,2832 0,2513 5,106 0,0000

118
Tabella 3.9: Stima dei parametri del modello NL3

Attributi Coeff. Stand. err. Stat. t p-value


Tempo di attesa -0,1090 0,0202 -5,386 0,0000
Costo generalizzato -0,0223 0,0089 -2,501 0,0124
Treno 5,0328 1,3140 3,830 0,0001
Autobus 4,1356 1,2965 3,190 0,0014
Reddito*(treno+autobus) -0,0417 0,0191 -2,187 0,0287
Attributi dei nidi Coeff. Stand. err. Stat. t p-value
Aereo 4,2941 1,080 3,975 0,0001
Parametri per l’IV Coeff. Stand. err. Stat. t p-value
Privato 1,5968 0,6169 2,588 0,0096
Pubblico 1,0638 0,3724 2,857 0,0043
Via terra 0,4136 0,1743 2,373 0,0177

Tabella 3.10: Elasticità delle probabilità di scelta modale.

Alternative Effettu su Pr(m) Effettu su Pr(j| m) Effetto Totale


Aereo -1,049 0,80 -0,240
Auto -1,049 -0,601 -1,649
Treno 0,910 0,000 0,910
Autobus 0,910 0,000 0,910

119
influenzate dal cambiamento nell’attributo di un’alternativa appartenente ad
un altro nido. L’effetto totale, calcolato come somma degli altri due effet-
ti, rappresenta la variazione marginale nella probabilità di scelta di ciascuna
alternativa. L’aumento di un punto percentuale nel costo generalizzato del-
l’auto determina un aumento dello 0,910% nella probabilità di scegliere il
treno o l’autobus (l’IIA è valida all’interno dei nidi) e una diminuzione dello
0,240% nella probabilità di scegliere l’aereo e dell’1,649% nella probabilità
di scegliere l’auto.
Come si è detto la correlazione presente tra le utilità delle alternative di
scelta non suggerisce l’impiego del MNL. Il problema è stato affrontato im-
piegando un NL che tratta la correlazione adottando una struttura gerarchica.
Le alternative che si assume caratterizzate da attributi non osservati comuni
che danno origine ad utilità correlate vengono collocate nello stesso nido. Il
termine aleatorio della loro funzione di utilità viene scomposto in una parte
comune al nido ed un’altra specifica per ciascuna alternativa in esso contenu-
ta. Per tutte le alternative del nido si suppone che questa ultima componente
si distribuisca IID EV. Tale ipotesi consente di utilizzare la forma chiusa del
MNL all’interno e tra i nidi. Il procedimento descritto non costituisce l’unico
modo per trattare la correlazione tra le utilità. Un’alternativa, ad esempio,
è rappresentata dai modelli logit a parametri casuali di cui si dirà nel pros-
simo capitolo. Questi modelli permettono di rappresentare qualsiasi tipo di
struttura di sostituzione tra le alternative e qualsiasi forma di correlazione o
eteroschedasticità degli errori. Il costo da sopportare per l’impiego di tali
modelli è dato dall’impiego di metodi simulativi per la stima dei coefficienti
di interesse e il beneficio, spesso superiore al costo, è costituito dalla loro
grande flessibilità che potrebbe rivelare aspetti della struttura di correlazione
non catturabili attraverso il modello NL.

3.6 Conclusioni

In questo capitolo si è discusso dei modelli a scelta discreta in forma chiu-


sa. L’attenzione si è concentrata su MNL e NL mostrandone le principali
caratteristiche, punti di forza, di debolezza e, nel caso del NL, alcune sue
recenti evoluzioni. Entrambi i modelli trattati nel dettaglio appartengono alla
più ampia famiglia dei modelli GEV di cui si sono discusse le caratteristiche
salienti ed illustrate la proprietà di compatibilità con i modelli RUM. Il ca-
pitolo include anche la trattazione di un caso applicativo che da conto delle

120
implicazioni pratiche dell’utilizzo sia del MNL sia del NL discutendo anche
dell’interpretazione dei risultati delle stime.

121
122
4. I modelli in forma aperta

4.1 Introduzione

Nel mondo dei modelli a scelta discreta si sono recentemente verificate delle
profonde trasformazioni che hanno avuto un impatto diretto sia sulle diverse
possibilità di specificazione sia di stima dei modelli. La sostanziale innova-
zione è connessa al diffuso impiego di metodi basati sulla simulazione nu-
merica. Tali metodi sono adottati nei casi in cui la stima delle probabilità di
scelta del modello non possono essere ottenute con soluzioni in forma chiusa.
In questi casi, infatti, la simulazione ha permesso di analizzare e modellizza-
re articolati contesti di scelta consentendo di ipotizzare peculiari strutture del
termine di errore. Tale innovazione ha consentito di introdurre un maggiore
grado di realismo nella rappresentazione e nell’analisi delle scelte studiate
rendendo possibile, inoltre, prevedere il comportamento umano in situazioni
molto più complesse di quanto non fosse prima possibile. Si può sostenere
che stia emergendo e si stia consolidando un diffuso consenso tra i ricercatori
circa un nuovo modo di procedere alla modellizzazione. Tuttavia, se da un
lato, sembra esservi un accordo circa le nuove procedure, dall’altro, bisogna
riconoscere che questo risulta tanto più vero quanto più ci si riferisce ad un
ristretto gruppo di ricercatori, soprattutto a livello internazionale, che hanno
lavorato per lungo tempo in questo campo influenzandone le evoluzioni e de-
terminandone gli avanzamenti. Nonostante, infatti, si assista alla progressiva
diffusione delle innovazioni, tuttavia, allo stesso tempo, i concetti sviluppati
e le tecniche implementate non sono diffusamente conosciuti all’interno del
più ampio ambito di coloro che, conducendo ricerca applicata, ne potrebbero
trarre consistenti benefici. La conoscenza di queste innovazioni è disseminata

123
attraverso lavori di natura scientifica che hanno una diffusione eminentemen-
te accademica o tramite presentazioni effettuate in convegni specialistici a cui
pochi interessati partecipano. In questa parte del libro si fornisce una visione
sintetica, articolata e, per quanto possibile, completa delle recenti innovazio-
ni che hanno aperto nuove possibilità da cui i ricercatori applicati potranno
trarre sostanziali benefici.
La novità più importante alla base di tutte le innovazioni è, sotto un pro-
filo materiale, la disponibilità a basso costo di capacità di calcolo e, sotto
uno concettuale, l’individuazione di opportuni algoritmi di calcolo per la si-
mulazione numerica. Infatti, si utilizzano metodi simulativi sia per calcolare
probabilità di scelta di modelli sostanzialmente più complessi di quelli impie-
gati in precedenza sia per simulazioni a scopo previsionale. Lo sviluppo di
metodi di simulazione ha introdotto degli ampi margini di libertà nella stima
dei modelli a scelta discreta. Infatti, ora è possibile, definita una rappresen-
tazione del comportamento che si desidera studiare, individuare la procedura
di simulazione più adatta per stimare lo specifico modello. In precedenza l’a-
nalista era costretto a ricercare un compromesso accettabile tra l’impiego di
un modello sufficientemente rappresentativo dello specifico comportamento
oggetto di studio e la sua trattabilità matematica. Ora non è più necessario
scendere a questo compromesso con un conseguente e sostanziale migliora-
mento del tipo e qualità di ricerca empirica che è possibile condurre. I vincoli
imposti dalle procedure standard di stima erano molto rilevanti e la possibi-
lità di adattare tali procedure allo specifico contesto di studio spesso limitata
tanto da richiedere sovente una buona dose di eroismo nel definire le ipote-
si di lavoro. La simulazione ha, in effetti, reso possibile la definizione di
modelli “su misura”. In altre parole è come se si fosse passati da una im-
postazione taylorista dei modelli a scelta discreta in cui “una specificazione
del modello va bene per tutti” ad una post-taylorista in cui il modello vie-
ne definito in funzione delle necessità specifiche dell’analista senza che la
trattabilità matematica costituisca più un vincolo stringente. Ciascuno può
definire lo specifico modello secondo le proprie necessità e, tramite metodi
simulativi, stimare le probabilità di scelta da utilizzarle poi a scopi predittivi
ove necessario. Questo capitolo si concentra, quindi, sui metodi di simula-
zione alla base dei modelli in forma aperta trattando, nell’ordine: i metodi di
campionamento dei termini di errore, i metodi di massimizzazione numerica,
quelli di inferenza statistica basati su simulazioni per poi mostrarne la con-
creta applicazione al Mixed Logit (ML).
Prima di tutto è bene chiarire che, come ci ricorda Train (2003) a cui ci si

124
rifà in questo paragrafo e, per la struttura espositiva in quelli che seguono, il
concetto stesso di simulazione è, in effetti, molto semplice e, di fatto, implica
essenzialmente l’approssimazione numerica di un integrale. In tutti quei casi
in cui non si riesce a calcolare un integrale analiticamente si ricorre a meto-
di che consentono di compiere tale operazione in un modo numericamente
soddisfacente. Per contestualizzare quanto affermato si parte da un esempio
molto generale per dimostrare come tale questione è stata affrontata in lette-
ratura e come la simulazione serva a risolvere i problemi di integrazione posti
dai modelli che si desidera stimare (Train 2003).
Nella forma più generale possibile del problema si immagini un qualsia-
si processo che produce un risultato che si denota con y e che, supposto un
qualche nesso di causazione, si ritiene provocato da un insieme di elementi
che l’analista è in grado di osservare denotati con x e da un secondo insieme
di elementi, denotati con ε, che l’analista, pur presumendone gli effetti in ter-
mini di impatto sul comportamento degli agenti, non è in grado di conoscere.
Il processo generale descritto può essere rappresentato da una funzione che
pone in relazione i risultati con gli elementi che la influenzano, siano essi
osservabili e noti (x) o non osservabili e ignoti (ε). In altre parole, si può
scrivere che:
y = g (x, ε) (4.1)

dove, nel nostro caso g rappresenta la descrizione sintetica e stilizzata del mo-
dello comportamentale. Nel caso, ipotetico, in cui fossimo in grado di osser-
vare tutti i fattori, ovvero nel caso in cui l’analista fosse in grado di osservare
anche le ε, allora si disporrebbe di una previsione perfetta dei comportamenti
degli agenti (modello deterministico). L’ipotesi effettuata è irrealistica e diffi-
cile da concepire quando se ne chiariscono i presupposti e le implicazioni che
ne derivano. Infatti, è difficile immaginare di disporre di una perfetta infor-
mazione sempre e su tutto ed è per questo che, esplicitamente, si tiene conto
dei termini di errore ε. Dato questo contesto di riferimento, piuttosto che
mirare alla completa determinazione del comportamento si modificano, ridu-
cendole, le pretese esplicative e si effettuano delle affermazioni in probabilità
circa l’esito del comportamento dell’agente sulla base degli elementi noti al-
l’analista. Quindi, si effettuano affermazioni relative alla probabilità che, in
un certo contesto di riferimento, l’agente effettui una scelta essendo solo al-
cuni elementi che caratterizzano il contesto decisionale noti e sapendo che ve
ne sono altri ignoti ma che, comunque, influenzano il processo decisionale.
Per rendere operativo il modello si trattano gli elementi ignoti come variabili
casuali ipotizzandole caratterizzate da una distribuzione, magari ignota ma

125
che, comunque, determina una densità degli elementi non osservati. In altre
parole si può affermare che:
ε ∼ f (ε) (4.2)
Conseguentemente si può sostenere che la probabilità che si verifichi la
scelta y, dati gli elementi noti x, può essere espressa come segue:

P (y | x) = P (ε → g (x, ε) = y) (4.3)

ovvero che gli ε siano tali che il processo decisionale generi proprio il risul-
tato y. Una equivalente formulazione dello stesso problema che è però più
facilmente trattabile sotto il profilo della simulazione prevede la definizione
di una funzione indicatore I (·) che segnala, per l’appunto, se l’affermazione
contenuta tra le parentesi è vera e, in quel caso, la funzione assume valore 1
o, se falsa, assume valore 0. Si può, quindi scrivere che:

1 se vera
I (g (x, ε) = y) = (4.4)
0 altrimenti

Utilizzando la (4.4) si può trasformare in modo opportuno la (4.3) in un


integrale facile da calcolare. La probabilità che la scelta y si verifichi, dati gli
elementi osservati x, è pari all’integrale rispetto a tutti i valori possibili degli
elementi non osservati della funzione indicatore sotto riportata:
Z
P (y | x) = I (g (x, ε) = y) f (ε) d (ε) (4.5)

La probabilità con cui una data scelta verrà effettuata, dati gli elementi os-
servabili, è pari all’integrale di tutti gli elementi non osservati, per qualsiasi
loro valore, ovvero indipendentemente dal fatto che diano o meno origine a
quella scelta. Il problema da risolvere riguarda proprio il calcolo dell’integra-
le (4.5) tramite metodi di simulazione che il computer sia in grado di trattare.
Come ci ricorda Train (2003), a cui si deve il grande merito di aver per primo
sistematizzato i contributi comparsi in letteratura su questi temi, esistono tre
diversi metodi per calcolare, o meglio per valutare l’integrale (4.5). In parti-
colare si può, ove possibile, affrontare il problema (si ricordi quanto detto nel
capitolo III), tramite la formulazione di opportune ipotesi circa g ed f così
da risolvere analiticamente il suddetto integrale. In questo caso si ottiene una
funzione parametrica da stimare tramite computer e calcolata per la proba-
bilità P (y | x). In questo settore, si è, in larga misura, sino a poco tempo fa,
cercato di definire modelli comportamentali [g (x, ε) = y] e distribuzioni dei

126
termini di errore che, una volta combinate tra di loro, rendessero sia possibile
una rappresentazione realistica del processo decisionale sia la determinazione
di integrali risolvibili analiticamente. Seguendo questa impostazione si im-
ponevano severe restrizioni alla possibilità di modellare in modo realistico i
contesti di scelta. I modelli trattati nel terzo capitolo rientrano nella categoria
appena descritta1 . La spiegazione del particolare apprezzamento e frequente
impiego di tali modelli risiede nella loro capacità di generare integrali risol-
vibili analiticamente in forma chiusa. Più in dettaglio, si ipotizzi che l’utilità
(U) di un agente connessa alla scelta di una alternativa presente all’interno
del suo insieme di scelta sia funzione di elementi osservati x e di elementi
non osservati ε, ovvero che sia:
U = β0 x + ε
dove β rappresenta un vettore di parametri da stimare che descrivono l’im-
patto che variazioni degli elementi osservati x hanno su U. L’utilità derivante
dalla scelta potrà essere sia positiva sia negativa e, si suppone, in accordo con
la teoria microeconomica, che l’agente scelga una alternativa solo nel caso in
cui essa gli fornisca un’utilità positiva. Per calcolare la probabilità di scelta
abbiamo bisogno di un ulteriore informazione e, in particolare, si deve spe-
cificare la distribuzione degli elementi non osservati (ε). Supponendo che la
distribuzione degli ε sia EV proprio perché ciò ci permette di ottenere una
forma analiticamente risolvibile dell’integrale (4.5), si rileva come la diffe-
renza degli ε risulti distribuita secondo una logistica ed abbia una densità che
può essere espressa come segue:
−ε
f (ε) = e−ε e−e
e una distribuzione cumulata pari a:
1
F (e) = (4.6)
1 + e−ε
Inserendo la (4.6) nella funzione indicatore si può calcolare la probabilità
di scelta desiderata. In altre parole sarà:
Z
P = I β0 x + ε > 0 f (ε) dε

(4.7)

che, per rendere più facilmente comprensibile la trattazione, può anche essere
scritta come: Z
P = I ε > −β0 x f (ε) dε

(4.8)
1 Si ricorda che tutti i modelli della famiglia GEV rientrano in questa categoria.

127
La (4.8) è una distribuzione cumulata e rappresenta la probabilità che il
termine di errore ε risulti maggiore di −β0 x e, quindi può essere riscritta come
segue:
P = 1 − F −β0 x

(4.9)
Infine, sostituendo nella (4.9) il valore effettivo della funzione cumulata
(4.6) , nel nostro caso si ottiene:
0
1 eβ x
P = 1− 0 = 0 (4.10)
1 + eβ x 1 + eβ x
che, come noto, da origine ad un modello comportamentale in forma chiusa
facile da stimare ed in grado di fornirci la probabilità desiderata. Il risultato
è stato ottenuto definendo un modello comportamentale in cui si ipotizza che
un agente compia una azione solo nel caso l’utilità derivante da tale compor-
tamento sia positiva e adottando una conveniente distribuzione dei termini di
errore, ovvero in grado di dare origine ad un integrale facilmente risolvibile
analiticamente. Si ipotizza, in altri termini, che la distribuzione delle diffe-
renze dei termini di errore sia logistica non tanto per la presenza di un forte
a priori circa tale ipotesi, del resto non si hanno strumenti per determinare il
realismo dell’assunto, quanto più perché tale ipotesi è in grado di fornirci la
soluzione riportata nell’equazione (4.10).
Esistono numerosi modelli che possono essere rappresentati e stimati se-
guendo il percorso riportato nel paragrafo precedente. La maggior parte di
questi sono o MNL o NL. Quando, però, si impongono le restrizioni neces-
sarie a garantire la forma chiusa del modello si finisce, implicitamente, per
determinarne la struttura in funzione delle convenienze matematiche piut-
tosto che della realistica rappresentazione comportamentale della scelta. In
altre parole, si deve selezionare, all’interno di un insieme finito di modelli
che consentono la stima delle probabilità di scelta in forma chiusa, quello
che garantisce la migliore rappresentazione del contesto. Ogni analista pre-
ferirebbe, invece, stimare il modello meglio in grado di riprodurre la realtà
senza doversi preoccupare di vincoli di natura prettamente matematica. La
scelta di adottare un modello in forma chiusa dovrebbe costituire una libera
scelta dell’analista e non un vincolo a cui sottostare. Ora è possibile stima-
re le probabilità di scelta di modelli comportamentali realistici e complessi,
frutto dell’immaginazione e dell’esperienza attraverso metodi simulativi. In
questo caso, invece di calcolare analiticamente l’integrale (4.5), si procede
alla sua simulazione partendo dalla constatazione che un integrale, per una
qualsiasi densità, di fatto si riduce al calcolo di una media. Si supponga di

128
voler calcolare l’integrale di una statistica t per valori di ε con una funzione
di densità f (ε), ovvero sia:
Z
t= t (ε) f (ε) dε (4.11)

In questo caso si calcola una funzione di una variabile [t (ε)] per la densi-
tà della stessa variabile [ f (ε)] e il computo dell’integrale equivale al calcolo
della media di [t (ε)] rispetto alla popolazione [ f (ε)]. In effetti, per calcolare
un integrale numericamente, si deve semplicemente individuare un metodo
in grado di approssimare una media. Dato un campione della variabile di cui
si desidera approssimare la media, si sommano i valori assunti dalla variabile
e la si divide per il numero di osservazioni campionarie. Il processo appe-
na descritto è rappresentativo di un approccio simulativo alla stima. Infatti,
estratto un campione da una popolazione che, nel nostro caso, è la funzione di
distribuzione dei termini di errore [ f (ε)], per ciascun elemento del campione
si computa la statistica di interesse [t (ε)] e se ne calcola, successivamente, la
media. L’approssimazione della media effettiva avviene attraverso il computo
di una media simulata ottenuta campionando dalla distribuzione, calcolando
la statistica di interesse e, infine, stimandone la media. In effetti, qualsiasi
metodo di simulazione adotta, nella sostanza, il processo sopra riportato e le
uniche differenze riguardano l’oggetto della media –ovvero le varie possibili
[t (ε)]– e la densità [ f (ε)] da cui si campiona. I metodi simulativi altro non
sono che meccanismi per simulare medie. È bene assicurarsi che si stia cal-
colando esattamente la media a cui si è interessati, chiedendosi quali siano
le proprietà di tale media poiché, inevitabilmente, da questo dipenderanno i
risultati ottenuti. Tale consapevolezza costituisce un pre-requisito indispen-
sabile per procedere al corretto confronto tra i risultati delle stime dei vari
modelli. L’approccio descritto può essere adottato indipendentemente dalle
funzioni che caratterizzano le variabili di interesse.
Alternativo all’approccio descritto ve ne è uno più bilanciato che, rico-
noscendo l’importanza di percorrere, fino a quando possibile senza accettare
eccessivi compromessi in termini di realismo del modello, la via del calcolo
analitico interpreta l’approccio simulativo come residuale e complementare
rispetto a quello analitico. Tale approccio mira ad una soluzione mista che
sia solo parzialmente simulativa. Si impiega una strategia composita. Dove
possibile, si calcola in modo analitico parte dell’integrale di interesse e si fa
ricorso a metodi simulativi solo per la parte residua. Tale approccio non solo
garantisce una maggiore efficienza ma riconosce anche che qualsiasi simula-
zione non potrà mai, per sua stessa natura, fornire risultati altrettanto precisi

129
rispetto a soluzioni analiticamente determinate. Senza entrare nel dettaglio
della trattazione per la quale si rimanda a Train (1995), si rileva come questo
metodo sia interessante poiché garantisce un minor grado di approssimazio-
ne rispetto ai metodi completamente simulativi ma, allo stesso tempo, non
richiede compromessi eroici come nel caso di soluzioni puramente analiti-
che e, non a caso, prende il nome di partizionamento conveniente dell’errore
(convenient error partitioning). Un interessante applicazione di quanto illu-
strato è data dalla stima del ML di cui si dirà più diffusamente in seguito.
L’esempio è particolarmente calzante poiché il ML associa in sé la flessibilità
del MNP, da un lato, e la trattabilità del MNL, dall’altro. Infatti, tale modello
prevede sia l’utilizzo di soluzioni simulative sia analitiche (il cosiddetto logit
kernel).
Il vantaggio derivante dalla comprensione e dominio dei temi esposti in
questa parte del libro si manifesta e si concretizza nelle consistenti capacità
di ricerca applicata che è possibile sviluppare attraverso l’impiego dei modelli
qui descritti. Infatti, molto spesso l’analista si deve confrontare con specifici
problemi per i quali la disponibilità dei software già esistenti non garantisce
la completa e perfetta adattabilità del modello al problema. In altre parole,
l’analista deve sviluppare il proprio modello in funzione delle caratteristiche
specifiche del problema che intende studiare e per fare ciò deve non solo co-
noscere le caratteristiche strutturali dei modelli in forma aperta di cui intende
fare uso consapevole, ma anche tutte le questioni inerenti ai metodi di sti-
ma, alle caratteristiche degli algoritmi di simulazione e, in particolare, ai loro
punti di forza e di debolezza.
Questo capitolo è strutturato come segue: prima si trattano i metodi di
campionamento delle distribuzioni dei termini di errore, quelli di massimiz-
zazione numerica e di inferenza statistica basati su simulazioni, successiva-
mente è trattato il ML di cui si illustra una applicazione a cui fa seguito la
descrizione delle recenti evoluzioni, metodologiche e tematiche, dei modelli
a scelta discreta in forma aperta.

4.2 Il campionamento dei termini di errore

I modelli in forma aperta poggiano essenzialmente sulla soluzione di un pro-


blema di integrazione tramite simulazione numerica che, a sua volta, implica
il campionamento di alcune osservazioni dalla funzione di densità, il calco-
lo della statistica desiderata per ciascuna estrazione e, infine, il calcolo del
suo valore medio. In altre parole, l’analista, quando utilizza metodi di si-

130
mulazione deve approssimare la media della statistica che desidera calcolare
attraverso il campionamento dalla funzione di densità della variabile di inte-
resse. È per questo motivo che nei prossimi paragrafi si approfondisce tale
problema2 .

4.2.1 Il campionamento da densità univariate

In questo paragrafo, e nei sotto paragrafi in cui esso si articola, si concentra


l’attenzione sul campionamento delle funzioni di densità dei termini di errore
prendendo in considerazione le sole densità univariate e posponendo la trat-
tazione di quelle multivariate. In particolare, si discute del campionamento
dalla normale standard univariata, della distribuzione uniforme, dalla normale
standard trasformata, delle cumulate inverse e delle distribuzioni troncate.

Normale standard, uniforme e normale standard trasformata

Nel caso in cui l’analista sia interessato ad estrarre un campione da una den-
sità normale standard con media 0 e deviazione standard pari ad 1 o, alter-
nativamente, da una densità di probabilità uniforme standard, ovvero con di-
stribuzione uniforme tra 0 e 1, la soluzione più semplice ed affidabile è ri-
correre al pacchetto statistico – econometrico di cui si dispone utilizzandone
la funzione di generazione di numeri stocastici. In effetti, qualsiasi nume-
ro venga generato tramite un computer è solo pseudo-stocastico poiché ha
sempre in sé una componente deterministica. L’individuazione precisa della
stocasticità di un numero ha dei risvolti molto profondi sotto un profilo teo-
rico e la sua determinazione è sostanzialmente legata a quanto esso rispecchi
alcune caratteristiche desiderabili che la teoria definisce tipiche di un numero
stocastico.

Cumulate inverse e troncate univariate

In alcuni casi può essere utile concepire le variabili di interesse come tra-
sformazioni (lineari) di distribuzioni normali standard in cui, ad esempio, il
termine di errore aleatorio ε viene espresso come la somma di un valore me-
dio a e di una varianza σ2 . In questo caso, effettuata una estrazione da una
2 Nella illustrazione degli argomenti presentati in questo paragrafo e nei sottoparagrafi in
cui esso si articola si è fatto riferimento al lavoro di Train (2003) ed alla sua struttura espositiva
che rappresenta, ad oggi, un ineguagliato esempio di chiarezza espositiva e completezza nella
trattazione.

131
distribuzione normale standard (φ) si può scrivere il numero aleatorio desi-
derato moltiplicando φ per σ e sommando a al risultato, ovvero si può scri-
vere: ε = a + σφ. Dato che non è sempre possibile modificare la densità di
interesse attraverso una trasformazione di una distribuzione normale od uni-
forme, è opportuno illustrare un metodo alternativo più flessibile. Il metodo
dell’inversione delle densità cumulate, normali o troncate, per distribuzioni
univariate, poggia sulla constatazione che, data una densità di una variabile
aleatoria f (ε), la corrispondente funzione di distribuzione cumulata F (ε) è,
almeno sotto il punto di vista teorico, sempre invertibile. Infatti, la distribu-
zione cumulata F (ε) varia tra 0 e 1, è non-decrescente in ε, e definisce la
probabilità di ottenere un valore pari o non inferiore ad uno specifico ε. Per
ottenere una estrazione aleatoria da una qualsivoglia distribuzione univariata
di termini di errore ε si può effettuare una estrazione casuale (µ) da una di-
stribuzione uniforme standard (0, 1). Tale estrazione può essere interpretata
come il valore della probabilità che la cumulata produce quando è calcolata
per ε (F (ε) = µ). Successivamente, si provvede ad invertirla per calcolare il
valore di ε che la ha generata. In altre parole si calcola l’ε che rende vero
ε = F −1 (µ). Questa procedura prevede l’estrazione aleatoria da una distribu-
zione cumulata per calcolare, a ritroso, il termine di errore ε compatibile con
tale estrazione casuale. Il metodo appena descritto può sempre essere appli-
cato in tutti i casi in cui si può determinare la funzione cumulata. Almeno
sotto il profilo teorico, anche in quei casi in cui tale funzione non assume una
forma chiusa facile da trattare, la funzione di distribuzione cumulata è sem-
pre invertibile poiché, per definizione, si caratterizza per essere una relazione
univoca tra le variabili.
Molto spesso nei modelli comportamentali di interesse (si pensi a tutti
quei casi in cui si suppone un comportamento diverso da parte dell’agente
in funzione del superamento o meno di certi livelli di soglia da parte di va-
riabili latenti che ne caratterizzino il comportamento) è utile immaginare che
la densità da cui si desidera estrarre delle osservazioni sia troncata. Si sup-
ponga, ad esempio, di voler effettuare delle estrazioni solo all’interno di un
certo intervallo di interesse dato che la scelta di un agente si suppone che
vari al passaggio di punti di discontinuità. Pertanto all’interno dell’intervallo
l’agente compie una scelta mentre questa varia prima del punto inferiore e
dopo quello superiore. Tipicamente i modelli che hanno questa impostazione
sono detti modelli ordered3 . Per questi modelli si devono estrarre campioni

3 Si parla di orderd probit quando si immaginano le differenze dei termini di errore distri-
buite in modo normale e di orderd logit, invece, quando si suppone che queste siano distribuite

132
dei termini di errore da distribuzioni troncate. Questo problema può esse-
re affrontato utilizzando l’approccio impiegato in precedenza adattandolo al
contesto di interesse ovvero tenendo conto che il campionamento deve avve-
nire solo all’interno di un predefinito intervallo di riferimento. Per fare questo
è sufficiente utilizzare una combinazione lineare che serva a ri-scalare l’inter-
vallo in questione. In altre parole se si suppone che l’intervallo di interesse
sia compreso tra h e k, sarà sufficiente ri-scalare la statistica di interesse (µ)
tra tali valori. In prima battuta si estrae µ e si crea una variabile b
µ che ne sia
una media ponderata e si ri-scala poi µ in modo che risulti una media di h e
k, tale per cui:
µ = (1 − µ) F (h) + µF (k)
b (4.12)
In questo caso, quando µ = 0 si ha b µ = h e quando µ = 1 si ha bµ = k che è
quanto serve per calcolare l’inversa della funzione di distribuzione cumulata
di b
µ che varia tra h e k e ci garantisce che anche ε vari tra h e k.

4.2.2 Il campionamento da densità multivariate


I metodi sino ad ora descritti per estrarre campioni di osservazioni (termini di
errore nel nostro caso) da distribuzioni funzionano solo nel caso di distribu-
zioni univariate poiché per quelle multivariate non si ha più un’unica combi-
nazione in grado di produrre esattamente la stessa funzione di distribuzione
cumulata dei termini di errore rendendo impossibile il calcolo dell’inversa.

La scomposizione di Choleski

La generalizzazione del caso di distribuzioni univariate e la trattazione delle


distribuzioni multivariate avviene illustrando prima un metodo che si utilizza
solamente per distribuzioni multivariate normali per discutere, poi, metodi
applicabili anche a distribuzioni multivariate diverse dalla normale.
Si impiega la trasformazione di Choleski per l’estrazione campionaria da
una distribuzione normale multivariata. Tale metodo prevede la scomposi-
zione di una matrice in più matrici moltiplicate tra di loro. Risulta utile nel
caso in cui si desideri esprimere una matrice trasformata in funzione di una
sequenza di trasformate più semplici da trattare. Nel nostro caso la scompo-
sizione di Choleski di una matrice simmetrica positiva definita C può essere
espressa come il prodotto di una matrice triangolare bassa B per la sua tra-
0
sposta (che è una matrice triangolare alta) B = A e ne consegue che C = BA.
in modo logistico.

133
Tale formulazione risulta particolarmente utile nel nostro caso visto l’interes-
se per il calcolo di C−1 . Infatti, una volta calcolata B trovare C−1 = A−1 B−1
risulta semplice, veloce ed accurato.
Nel nostro caso si supponga di avere una distribuzione normale multiva-
riata in cui i termini di errore ε possono essere rappresentati da un vettore con
K elementi (K × 1), con media b e con una matrice di varianza – covarianza
Ω di dimensione (K × K). In questo caso il computer è in grado di fornirci
estrazioni da distribuzioni normali standard (tra loro indipendenti) mentre ci
interessano estrazioni tra loro correlate secondo quanto previsto dalla matrice
di varianza – covarianza Ω. Per ottenere il risultato desiderato si utilizza il
fattore di Choleski. Nel caso univariato, ovvero in cui K = 1, la procedura
di campionamento è nota poiché è sufficiente trasformare il termine di errore
ponendo ε = a + σφ. Nel nostro caso, invece, si generalizza tale procedura
sostituendo lo scalare σ, che rappresenta la deviazione standard del termine
di errore, con una matrice che ne è un suo equivalente in forma matriciale, il
fattore di Choleski appunto. Tale fattore, costituito da una matrice triango-
lare bassa di dimensione(K × K) denotata con T , possiede una interessante
0
proprietà, ovvero è tale per cui si verifica che T T = Ω e costituisce una gene-
ralizzazione della deviazione standard di ε. Per ottenere il campionamento di
interesse si estrae un vettore di K valori dalla distribuzione normale standard
e, denotandoli con φ, si calcola poi ε = a + T φ verificando poi che le pro-
prietà di ε siano proprio quelle desiderate. Infatti, ora ε ha una media pari ad
a, dato che per le proprietà delle distribuzioni normali la somma di distribu-
zioni normali è ancora una normale, ed una matrice di varianza – covarianza
pari a Ω. In altre parole il fattore di Choleski genera un vettore di K termini
correlati, partendo da K termini indipendenti, con ciascuna componente che
influenza in modo differente ciascun termine di errore e, quindi, per una qual-
siasi struttura della covarianza esiste un insieme di influenze che associate a
componenti indipendenti riesce a riprodurre la covarianza desiderata.

Il metodo “accetto – rifiuto”

Il metodo di campionamento denominato “accetto - rifiuto” (AR) sempre ap-


plicabile, anche se non efficiente in termini di utilizzo delle capacità di calco-
lo, viene illustrato tramite una applicazione al caso delle densità multivariate
troncate. Tale metodo serve a generare valori campionari partendo da una
qualsiasi funzione di distribuzione di probabilità f (x) ed utilizzando una di-
stribuzione strumentale g (x) sotto l’unico vincolo che sia f (x) < Mg (x) dove
f (x)
M > 1 rappresenta un opportuno limite rispetto al rapporto g(x) . Il metodo

134
AR, sviluppato da von Neumann (1951), viene di solito impiegato in quei casi
in cui la forma di f (x) rende il campionamento difficile e si preferisce im-
piegare una distribuzione di inviluppo Mg (x) per rendere il campionamento
più semplice e poi accettare o rifiutare probabilisticamente i campioni estratti
da Mg (x). Questo metodo appartiene alla più ampia famiglia delle tecniche
Monte Carlo, che include gli algoritmi Markov Chain Monte Carlo (MCMC)
che utilizzano una distribuzione proxy per produrre una simulazione dalla
distribuzione obiettivo f (x) e costituiscono la base di algoritmi più sofistica-
ti ed efficienti come, ad esempio, l’importance sampling, Gibbs sampling e
Metropolis-Hastings di cui si dirà successivamente. L’algoritmo AR prevede
f (x)
l’estrazione di x da g (x) e u da U (0, 1) per poi verificare se u < Mg(x) o meno
e, in caso positivo, si accetta x come realizzazione di f (x) mentre, in caso
contrario, si rifiuta il valore di x e si ripete il processo dall’inizio.
La validazione del metodo poggia sul principio dell’inviluppo e con un nu-
mero sufficiente di ripetizioni del processo l’algoritmo genera un campione
dalla distribuzione desiderata f (x). In questo paragrafo si illustra un’appli-
cazione dell’algoritmo alle densità multivariate troncate. Nel caso si desideri
estrarre un campione di termini di errore ε da una distribuzione g (ε) solo al-
l’interno del generico intervallo dato da due vettori a e b della stessa dimen-
sione di ε, si procede come di seguito descritto. Nel nostro caso si desidera
estrarre un termine di errore ε da una distribuzione f (ε) = 1k g (ε) solo nel ca-
so risulti a ≤ ε ≤ b dove con k si denota una costante di normalizzazione. Il
metodo per procedere all’estrazione da f (ε) prevede l’estrazione da g (ε) e,
se il valore di ε risulta compreso nell’intervallo di interesse (a ≤ ε ≤ b), lo si
accetta e lo si rifiuta in caso contrario. Il metodo descritto ha sia punti di for-
za sia di debolezza. In particolare presenta il vantaggio di essere applicabile
in tutti i casi in cui è possibile campionare la distribuzione non troncata di
partenza e non richiede la conoscenza della costante di normalizzazione. Gli
svantaggi sono connessi alla stocasticità del numero di estrazioni che verran-
no accettate e che, in particolare, saranno pari a k moltiplicato per il numero
di estrazioni effettuate. Se si desidera un certo numero di estrazioni accet-
tate non è possibile, ex ante, conoscere quante dovranno essere le estrazioni
totali da effettuare e queste saranno funzione dell’ampiezza dell’intervallo di
interesse ovvero della dimensione di k.

Il metodo dell’importance sampling

Il cosiddetto metodo dell’importance sampling (IS) costituisce un metodo


alternativo per ottenere estrazioni campionarie dei termini di errore ε. Tale

135
metodo è più efficiente del metodo AR ed applicabile a distribuzioni che non
godono di desiderabili proprietà di inviluppo. Anche esso fa parte dei metodi
MCMC che, in generale, poggiano sulla legge dei grandi numeri per appros-
simare valori attesi quando le variabili simulate sono tra di loro indipendenti.
In alcuni casi, possono anche venire applicati in presenza di correlazione tra
le variabili.
Si supponga di dover effettuare delle estrazioni campionarie dei termini
di errore ε da una funzione di densità f (ε) per cui non è possibile adottare
le procedure precedentemente illustrate e si ipotizzi una diversa distribuzione
g (ε) da cui è, invece, facile effettuare estrazioni campionarie. In questo caso
si possono effettuare delle estrazioni da g (ε) e pesarle in funzione del rap-
porto tra le densità delle due distribuzioni che si può sempre calcolare anche
quando è difficile effettuare delle estrazioni campionarie dalla funzione ori-
ginaria f (ε). Note le densità delle due distribuzioni è possibile calcolarne il
rapporto ottenendo, quindi, il peso da utilizzare per pesare l’estrazione effet-
tuata da g (ε) e trasformarla in una che risulterà, a tutti gli effetti, come se
fosse stata effettuata direttamente da f (ε). Ripetendo l’operazione più vol-
te si otterranno delle estrazioni da g (ε) equivalenti ad estrazioni dirette da
f (ε). La logica del metodo impiegato è assimilabile a quanto avviene per il
campionamento stratificato in cui dato un qualsiasi campionamento non alea-
torio lo si trasforma pesandolo e rendendolo compatibile con le caratteristiche
della popolazione. L’IS equivale all’applicazione dei principi adottati per il
campionamento stratificato al campionamento da una densità di elementi non
osservati. Questo metodo è interessante poiché applicabile in diversi contesti
che si incontrano nel corso di indagini empiriche.
Per dimostrare la bontà della procedura si illustra come la distribuzione
cumulata delle estrazioni pesate da g (ε) risulti uguale alla distribuzione della
funzione di densità cumulata delle estrazioni dei termini di errore da f (ε). Un
modo diverso di intendere il metodo dell’IS può essere illustrato riconoscen-
do che l’integrale che si desidera calcolare è, genericamente, quello riportato
nell’equazione (4.11) e che ciò implica l’estrazione, di norma non semplice,
di valori dei termini di errore ε da una distribuzione f (ε). A tale fine si pro-
cede ad una simultanea modifica sia della statistica che si desidera calcolare
sia della distribuzione dalla quale si effettuano le estrazioni per procedere, in-
fine, al calcolo della loro media. In altre parole si trasforma l’integrale dell’e-
quazione (4.11) moltiplicandolo e dividendolo contemporaneamente per g (ε)
così da ottenerne una versione equivalente ma più direttamente interpretabile.

136
L’integrale che si ottiene è il seguente:

f (ε)
Z
t= t (ε) g (ε) dε (4.13)
g (ε)
f (ε)
dove g(ε) rappresenta la nuova statistica di interesse di cui si calcolerà la me-
dia e la g (ε) è una densità dalla quale sappiamo con agio estrarre campioni
di osservazioni.

Il metodo di campionamento di Gibbs

Il metodo di campionamento di Gibbs ha acquisito un’iniziale popolarità a se-


guito del contributo di Geman e Geman (1984) che lo applicarono allo studio
dei modelli per il processamento delle immagini. Le radici del metodo posso-
no, tuttavia, essere fatte risalire almeno, ai lavori di Metropolis et al. (1953),
che furono poi sviluppati da Hastings (1970). L’ampia diffusione del meto-
do di campionamento, tuttavia, è avvenuta a seguito del più recente paper di
Gelfand e Smith (1990) in cui se ne sono chiarite le potenzialità rispetto ad
una vasta classe di problemi comunemente incontrati in statistica. Il campio-
namento di Gibbs costituisce una tecnica per generare variabili aleatorie da
una distribuzione (marginale) indiretta senza doverne calcolare la densità. Il
metodo consente di evitare rilevanti problemi di calcolo sostituendoli, invece,
con una serie di calcoli più semplici. Nonostante la gran parte delle applica-
zioni del campionamento di Gibbs siano state effettuare in modelli bayesiani,
la loro utilità è rilevante anche per applicazioni classiche come il calcolo del-
la log-verosimiglianza (Tanner 1991). Si supponga di avere una distribuzione
congiunta f (x, y1 , ..., y p ) e di volerne conoscere alcune caratteristiche, come
la media o la varianza, della densità marginale:
Z Z
f (x) = ... f (x, y1 , ..., y p ) dy1 ... dy p (4.14)

L’approccio più diretto e naturale consiste nel calcolare f (x) ed utilizzare


il risultato per ottenere le informazioni desiderate. Tuttavia, vi sono molti
casi in cui le integrazioni richieste dalla (4.14) sono molto difficili da effet-
tuare sia da un punto di vista analitico sia numerico e, in tutti questi casi, il
campionamento di Gibbs costituisce una valida alternativa per ottenere le in-
formazioni desiderate senza calcolare o approssimare f (x) poiché consente
di generare un campione X1 , ..., Xm ∼ f (x) senza conoscere f (x). Simulan-
do un campione sufficientemente ampio si potrà calcolare, per un qualsiasi

137
livello di accuratezza desiderata, la media, la varianza, o qualsiasi altra ca-
ratteristica della f (x). È importante ricordare che, nonostante si adotti un
processo simulativo, in effetti, il risultato finale, produce delle osservazio-
ni riferite alla popolazione. Ad esempio, per calcolare la media di f (x), si
potrebbe utilizzare la seguente formula m1 ∑m i=1 Xi sapendo che:
  m
1
Z ∞
lim
m→∞ m
∑ Xi = −∞ x f (x) dx = EX (4.15)
i=1

e, pertanto, utilizzando un valore di m sufficientemente grande si può cal-


colare, con un qualsivoglia livello di accuratezza desiderata, qualsiasi carat-
teristica della popolazione, compresa la densità stessa. L’applicazione del
metodo di Gibbs prevede la generazione di una sequenza di Gibbs, appunto,
di variabili aleatorie del tipo:
0 0 0 0 0 0 0 0
Y0 , X0 ,Y1 , X1 ,Y2 , X2 , ...,Yk , Xk (4.16)
0 0
dove, dopo aver specificato il valore iniziale Y0 = y0 , tutti gli altri valori di
(4.16) vengono calcolati iterativamente come segue:

0
 0 0

X j ∼ f x | Yj = y j
0
 0 0
 (4.17)
Y j+1 ∼ f y | X j = x j

È possibile dimostrare, sotto condizioni non molto stringenti, che la di-


0
stribuzione delle Xk converge a f (x) (l’effettiva distribuzione marginale di X)
0 0
quando k → ∞ e, quindi, Xk = xk risulta effettivamente una estrazione cam-
pionaria da f (x) che è ciò che si desiderava ottenere. Il metodo poggia sulla
constatazione che una serie di estrazioni campionarie da densità condizionate
permette, dato un campione sufficientemente ampio, di ottenere delle estra-
zioni dalla distribuzione congiunta. In effetti condizionando una qualsiasi
distribuzione congiunta a sufficienza la si può, almeno sotto un profilo teori-
co, sempre ridurre ad una distribuzione univariata trattabile con gli strumenti
precedentemente descritti.

L’algoritmo Metropolis – Hastings

In questo paragrafo si illustrano le caratteristiche salienti e l’applicazione del-


l’algoritmo Metropolis – Hastings (MH) chiarendone le rilevanza ai nostri

138
fini. La gran parte delle applicazioni di questo metodo si rifanno ad un ap-
proccio bayesiano4 visto che molti dei problemi della statistica bayesiana,
come ad esempio il calcolo dei momenti posteriori e le funzioni marginali di
densità, possono essere risolti simulando la distribuzione a posteriori. Il me-
todo MH si colloca all’interno della famiglia MCMC che consente di gene-
rare campioni di osservazioni da una distribuzione obiettivo che costituisce il
kernel di transizione di un processo markoviano di cui risulta la distribuzione
limite invariante. La catena di Markov viene successivamente iterata per un
elevato numero di volte tramite una simulazione di tipo Monte Carlo generata
al computer e i risultati ottenuti, dopo una fase di transizione iniziale (burn in)
e soddisfatte diverse condizioni, costituiscono il campione desiderato deriva-
to dalla distribuzione obiettivo. Sotto condizioni generali l’ergodicità della
catena markoviana garantisce che le stime siano consistenti da un punto di
vista simulativo e soddisfino le condizioni necessarie per applicare il teore-
ma del limite centrale quando il numero delle simulazioni tende all’infinito.
I metodi MCMC possono essere applicati senza conoscere preventivamente
la costante di normalizzazione della densità obiettivo e, inoltre, è possibile,
definendo in maniera adeguata uno schema MCMC, simulare anche modelli
con una funzione di verosimiglianza non trattabile.
Più nel dettaglio si può affermare che l’integrazione attraverso i metodi
Monte Carlo prevede la valutazione di :
R
f (x) π (x) dx
E [ f (X)] = R (4.18)
π (x) d
dove X è un vettore di k variabili aleatorie caratterizzate da una distribuzio-
ne π (·) che per i bayesiani costituisce una distribuzione a posteriori men-
tre per i frequentisti può rappresentare una qualsiasi funzione di verosimi-
glianza. Estraendo campioni {Xt ,t = 1, ..., n} da π (·), si calcola E [ f (X)] per
approssimazione impiegando la seguente equazione:

1 n
E [ f (X)] ≈ ∑ f (Xt ) (4.19)
n t=1

Dalla (4.19) risulta che la media della popolazione viene calcolata trami-
te la media campionaria. Nel caso in cui i campioni {Xt } sono tra di loro
indipendenti, la legge dei grandi numeri assicura che si ottiene il livello di
4 È bene ricordare che, come per il campionamento di Gibbs, anche questo strumento è

altrettanto utile in una prospettiva frequentista poiché consente di esplorare le caratteristiche


della funzione di verosimiglianza e di effettuare stime di massima verosimiglianza.

139
approssimazione desiderato incrementando la dimensione n dei campioni che
può essere opportunamente variata dall’analista. In generale estrarre campio-
ni {Xt } indipendenti da π (·) non è sempre fattibile poiché le caratteristiche
di π (·) possono essere estremamente non-standard. Un modo per procedere
a tale estrazione consiste proprio nell’impiegare catene markoviane con π (·)
come distribuzione stazionaria e che prendono, appunto, il nome di Catene
Markoviane Monte Carlo in cui si genera una sequenza di variabili casuali
{X0 , X1 , X2 ...} tali per cui in ciascun t ≥ 0 lo stato della variabile nel periodo
successivo Xt+1 viene generato da una distribuzione P (Xt+1 | Xt ) che dipende
soltanto dallo stato corrente Xt della catena. In altre parole, partendo da Xt
lo stato successivo della catena Xt+1 non dipende dalla sua storia pregressa
{X0 , X1 , ..., Xt−1 } che prende il nome di catena di Markov e P (· | ·) viene detto
kernel di transizione. È importante che, per condizioni di regolarità modera-
te, la catena progressivamente “dimentichi” il suo stato iniziale e P(t) (· | X0 )
converga progressivamente verso una distribuzione unica e stazionaria (in-
variante), denotata φ (·), che non dipende né da t né da X0 . Pertanto dopo
un periodo di aggiustamento, detto in letteratura burn in, di m iterazioni, i
punti {Xt ;t = m + 1, ..., n} risultano campioni dipendenti, in maniera appros-
simata, di φ (·) e, quindi, si può utilizzare il seguente stimatore della funzione
desiderata:
n
1
f= ∑ f (Xt ) (4.20)
n − m t=m+1

che viene detto media ergodica la cui convergenza rispetto alla aspettative ri-
chieste è garantita dal teorema ergodico.
Sebbene l’equazione (4.20) costituisce una parte rilevante della soluzione
bisogna ancora mostrare come si costruisce una catena di Markov in modo ta-
le che la sua distribuzione stazionaria φ (·) risulti uguale a quella di interesse
π (·). Il metodo per costruire una tale catena è dovuto ad Hastings (1970) che
ha generalizzato il metodo per la prima volta proposto da Metropolis et al.
(1953). Infatti, il metodo MH prevede che, per ogni periodo t, lo stato suc-
cessivo della variabile Xt+1 venga scelto campionando un punto Y candidato
da una distribuzione proposta q (· | Xt ) che, si noti, può dipendere dal punto
attuale Xt . Ad esempio q (· | Xt ) può essere una distribuzione normale multi-
variata con media X ed una matrice di covarianza fissa. Il punto Y candidato
viene, quindi, accettato con probabilità α (Xt ,Y ) se:
 
π (Y ) q (X | Y )
α (Xt ,Y ) = min 1, (4.21)
π (X) q (Y | X)

140
Nel caso in cui il punto Y candidato viene accettato lo stato successivo
diventa Xt+1 = Y e se, al contrario, il punto viene rifiutato la catena non si
sposta e sarà, quindi, Xt+1 = Xt . L’algoritmo MH prevede in t = 0 l’estra-
zione di X0 per procedere poi al campionamento di un punto Y da q (· | Xt )
e, quindi, al campionamento da una distribuzione uniforme U (0, 1) di una
variabile aleatoria U e se U ≤ α (Xt ,Y ) si pone Xt+1 = Y altrimenti Xt+1 = Xt
per poi incrementare t.
Si sottolinea l’importanza che, indipendentemente dalla forma della distri-
buzione proposta q (· | ·), la distribuzione stazionaria della catena converge a
π (·).

4.3 La massimizzazione numerica

Spesso il calcolo analitico degli stimatori di massima verosimiglianza (MLE),


che vengono normalmente impiegati, non è possibile e, conseguentemente, si
rende necessaria l’adozione di metodi computazionali per il loro calcolo. In
questo paragrafo e nei sottoparagrafi che lo compongono si presenta una ras-
segna degli algoritmi più utilizzati che servono ad individuare il massimo di
una funzione. I problemi derivanti da questioni connesse ad ottimi locali mul-
tipli, discontinuità, instabilità numerica, e grandi dimensioni del problema
pongono, spesso, punti controversi che, in pratica, sono difficili da risolve-
re se non del tutto impossibili da affrontare. Il ruolo che esperienza e buon
senso ricoprono nell’affrontare questi problemi rimane, comunque, fonda-
mentale poiché i computer sono caratterizzati da capacità di calcolo progres-
sivamente crescenti ma, comunque, limitate ed i software, necessariamente,
produrranno risultati con affidabilità ed accuratezza limitata.

Il grid search

Il cosiddetto grid search (GS) è un metodo semplice ed affidabile per cerca-


re le radici di equazioni non lineari ed i massimi delle funzioni all’interno
di intervalli chiusi. La trattazione di questo metodo fornisce anche una illu-
strazione del tipo di problemi impliciti nella massimizzazione di funzioni in
generale. Nel caso di massimizzazione unidimensionale si ha:
max Q (θ) (4.22)
θ∈[a,b]

dove l’intervallo [a, b] può essere suddiviso in sub-intervalli


{[a, θ1 ] , .., [θn , b]}

141
e, dopo aver calcolato il valore della funzione per ciascun punto di confine, si
determina la localizzazione del massimo all’interno dell’intervallo per cui la
funzione assume il valore massimo. In altre parole sarà:
 
[θi , θi+1 ] | max Q (θ j ) = max [Q (θi ) , Q (θi+1 )] (4.23)
j

Iterando il procedimento in ciascuno dei sotto-intervalli, come se si trat-


tasse dell’intervallo originale, si delimitano intervalli progressivamente più
piccoli contenenti massimi locali in modo tale da ottenere la precisione de-
siderata per il valore critico che si è interessati a determinare. Il metodo
descritto può risultare inadeguato per la ricerca di un massimo globale per
certe categorie di problemi con i quali ci si deve confrontare. Infatti, si po-
trebbe erroneamente scartare un intervallo contenente un massimo globale
nel caso in cui la dimensione dell’intervallo scelto non sia sufficientemente
piccola anche nel caso in cui la funzione risulti continua. L’alternativa è data
da una divisone sempre più fine degli intervalli che diviene progressivamente
più onerosa da trattare sotto un profilo numerico e che, portata all’infinito,
è impossibile da perseguire a causa della finitezza delle capacità di calcolo.
Tutti i problemi evidenziati si complicano in un contesto multidimensionale
come quello in cui si è chiamati ad operare nei casi di nostro interesse.

4.3.1 L’approssimazione polinomiale


Un metodo usato di frequente che sfrutta la differenziabilità del massiman-
do Q è l’approssimazione polinomiale. Il massimo del polinomio che si
massimizza è un’approssimazione dell’ottimo di Q. L’approssimazione più
semplice è quella attraverso una funzione quadratica:
1
Q (θ) ≈ a + b (θ − θ0 ) + c (θ − θ0 )2 (4.24)
2
dove a, b e c vengono scelti in modo da approssimare bene Q nell’intorno
del punto di partenza θ0 . Dati i valori di a, b e c il valore da approssimare
rispetto al valore del punto di ottimo di Q è −bc , c < 0. Vi sono diversi modi
per scegliere tali parametri. Quando Q è differenziabile, una serie di Taylor
di secondo ordine genera un’approssimazione quadratica centrata su Q e le
sue due derivate prime sono:
1
Q (θ) ≈ Q (θ0 ) + Qθ (θ0 ) (θ − θ0 ) + Qθθ (θ0 ) (θ − θ0 )2 (4.25)
2

142
4.3.2 Il line search
Un approccio generale utile a superare l’elevata dimensionalità dei problemi
di massimizzazione è il cosiddetto line search (LS) ovvero un GS in una
sola dimensione attraverso lo spazio dei parametri con diverse dimensioni.
Dato un punto di partenza θ1 ed una direzione di ricerca o linea di ricerca
δ, attraverso un processo iterativo si cerca di risolvere il seguente problema
unidimensionale:

λ∗ = arg maxQ (θ1 + λδ) (4.26)


λ

dove il parametro scalare λ rappresenta la lunghezza del passo. Il punto di


partenza per l’iterazione successiva diventa, quindi:

θ2 = θ1 + λ∗ · δ (4.27)
che costituisce il valore ottimo di θ lungo la linea di ricerca δ partendo dal
punto θ1 . I metodi che fanno uso del LS si differenziano sia per la scelta di δ
sia per il metodo di approssimare λ∗ .
Per convenzione si restringe l’analisi al caso in cui λ ≥ 0. Dato che la
derivata direzionale di Q è data da:

∂Q (θ1 + λ · δ) 0
= Qθ (θ1 + λ · δ) δ (4.28)
∂λ
tutti i metodi di LS richiedono che sia verificato:

∂Q (θ1 + λ · δ) 0
= Qθ (θ1 ) δ > 0 (4.29)
∂λ λ=0

così che Q sia crescente rispetto all’incremento di lunghezza λ in un intor-


no del punto di partenza θ1 . Quindi, esisterà sempre un valore di λ che fa
crescere Q.

4.3.3 Il metodo della massima ascesa


La direzione che è più ovvio seguire per ricercare un massimo locale di una
qualsiasi funzione è quella indicata dal suo gradiente, ovvero il vettore del-
le derivate prime parziali della funzione. In questo caso, quindi, si procede
ponendo δ = Qθ (θ1 ). Per definizione, gli elementi del gradiente rappresen-
tano i tassi di variazione, ceteris paribus, della funzione per un incremento
infinitesimale di ciascun elemento θ. Questa direzione di ricerca garantisce,

143
almeno localmente, che il valore della funzione cresca se l’intero vettore θ si
sposta in quella direzione:

∂Q [θ1 + λ · Qθ (θ1 )] 0
= Qθ (θ1 ) Qθ (θ1 ) > 0 (4.30)
∂λ λ=0

a meno che θ1 non sia un valore critico di Q. Il gradiente, inoltre, possiede


anche una proprietà di ottimalità locale, ovvero per tutte le direzioni a parità
di incremento, porre δ = Qθ (θ1 ) garantisce il più elevato tasso di incremento
di Q (θ1 + λ · δ) rispetto a λ, ovvero :

∂Q (θ1 + λ · δ)
Qθ (θ1 ) = arg max (4.31)
{δ:kδk=kQθ (θ1 )k} ∂λ

che costituisce una proprietà fondamentale del gradiente5 . Il metodo del-


la massima ascesa implicitamente approssima il massimando Q (θ) con una
funzione lineare nell’intorno di θ1 :
0
Q (θ) ≈ Q (θ1 ) + Qθ (θ1 ) (θ − θ1 ) (4.32)
Il metodo fornisce un’indicazione circa la direzione di ricerca (δ) ma nes-
suna indicazione, al contrario, rispetto all’ampiezza dello spostamento (λ).
Nel processo di massimizzazione si deve tenere conto anche della curvatura
di una funzione ed il metodo dell’ascesa massima non utilizza le informazio-
ni relative alla curvatura della funzione e risulta particolarmente lento e poco
utilizzato.

4.3.4 I metodi quadratici


Prima di trattare i metodi di ottimizzazione quadratica è bene richiamare ra-
pidamente alcune caratteristiche delle funzioni quadratiche. Si ricorda che se
Q è una funzione quadratica allora essa ha la seguente forma funzionale:
0 1 0
Q (θ) = a + b θ + θ Cθ (4.33)
2
e dato che le derivate prime e seconde parziali sono, rispettivamente:

Qθ (θ) = b +Cθ (4.34)


5 Il gradiente è anche il vettore normale rispetto a tutte le direzioni di θ che lasciano Q co-

stante ovvero Qθ (θ1 ) è ortogonale rispetto alla direzione δ . In un’ottica locale l’ortogonalità
costituisce una condizione di distanza ottima.

144
e
Qθθ (θ) = C (4.35)
allora la matrice C è l’Hessiana che è negativa definita se Q è strettamente
concava e, in quel caso, Q raggiunge il suo massimo per:

θ∗ = −C−1 b (4.36)

che rappresenta il valore di θ che univocamente soddisfa le condizioni di


primo ordine Qθ (θ∗ ) = 0. Funzioni quadratiche strettamente concave sono
relativamente semplici da massimizzare. Esprimendo, invece, θ∗ in funzione
delle derivate parziali prime e seconde rispetto a Q per qualsiasi valore dei
parametri θ1 si può dire che:

θ∗ = C−1 b
= θ1 −C−1 (b +Cθ1 ) (4.37)
−1
= θ1 − Qθθ (θ1 ) Qθ (θ1 )

chiarendo come θ∗ dipende dalla funzione originaria solo attraverso la sua


derivata prima e seconda in qualsiasi punto θ1 . L’equazione (4.37) sugge-
risce una modifica integrativa alla direzione di ricerca impiegata nel meto-
do della massima ascesa. Infatti, per le funzioni quadratiche, se si ponesse
δ = −Qθθ (θ1 )−1 Qθ (θ1 ) allora una singola ricerca lungo la linea consentireb-
be di raggiungere il valore ottimo di θ con una lunghezza dello spostamento
pari ad 1 indipendentemente dal punto di partenza. In questo caso, a diffe-
renza del metodo di massima ascesa, il gradiente viene pre-moltiplicato per
l’inversa del negativo dell’Hessiano dando origine ad una direzione di ricerca
che rende ottimo l’aggiustamento rispetto al punto di partenza sia in termini
di direzione sia di ampiezza dello spostamento.

I metodi quadratici e la massima log-verosimiglianza

In questo paragrafo si illustra l’impiego dei metodi quadratici per il calcolo


degli stimatori MLE comunemente utilizzati per la stima dei modelli di nostro
interesse.
La presentazione presuppone un contesto di riferimento di campionamen-
to IID, ovvero si assume che la coppia (U,V ) sia una variabile aleatoria e
le N variabili {(U1 ,V1 ) ... (UN ,VN )} costituiscano un campione stocastico IID

145
di (U,V ). Si suppone che, con la sola eccezione di θ0 , il vettore dei pa-
rametri da stimare e la distribuzione condizionata di U dato V sia nota. Si
ritiene che la forma funzionale di FU|V (uv | θ0 ) è completamente nota fatta
eccezione per il valore del vettore dei parametri θ0 dove θ0 ∈ R che è dimen-
sionalmente finito ed ha K elementi tanto che si può affermare che θ0 ∈ RK .
Si definisce con l (θ;U) ≡ f (U; θ) la funzione di verosimiglianza di θ per
una data variabile aleatoria U con una funzione di probabilità f (u; θ0 ) e con
L (θ;U) = log l (θ;U) la funzione di log-verosimiglianza. Lo stimatore di
massima verosimiglianza è il valore del vettore dei parametri che massimizza
la media campionaria della funzione di log-verosimiglianza e lo si denota con
θN , e può essere espresso analiticamente come segue:
b

θN ≡ arg maxEN [L (θ)] .


b
θ∈Θ

Si può immaginare intuitivamente che il metodo proposto equivale a tro-


vare il valore di θ che con maggiore probabilità è in grado di produrre il
campione aleatorio delle osservazioni (U1 ... UN ) di cui si dispone. Lo stima-
tore MLE costituisce la migliore razionalizzazione di ciò che si è osservato.
Si può interpretare la funzione di log-verosimiglianza campionaria come una
misura della bontà della stima e, quindi, la stima migliore possibile si caratte-
rizza per avere la log-verosimiglianza massima. Dando per risolti i problemi
connessi all’identificazione, ovvero supponendo di aver verificato che il pro-
cesso di generazione dei dati è sufficientemente informativo rispetto ai para-
metri del modello che si desidera stimare, si assume anche la differenziabilità
ovvero si assume che la funzione di probabilità f (u | v; θ) sia continua e due
volte differenziabile in θ per tutti i θ ∈ Θ dove con Θ si denota lo spazio dei
parametri. In tutti i casi trattati lo stimatore MLE b
θN è una funzione implicita
dei dati u caratterizzati dal fatto che:

θN = arg maxEN [L (θ)] ∈ arg zeroEN [L (θ)]


b (4.38)
θ∈Θ θ∈Θ

Le condizioni di primo ordine possono, pertanto, essere espresse come


segue:
h  i
0 = EN Lθ b θN ⇔ b θN ∈ arg zeroEN [Lθ (θ)] (4.39)
θ∈Θ

e sono dette equazioni di verosimiglianza. In certi casi non è possibile tro-


vare una soluzione in forma chiusa per l’espressione di b θN che deve essere
espressa come funzione implicita dei dati. In pratica si calcola b
θN attraverso

146
l’impiego di metodi numerici per la massimizzazione di funzioni differenzia-
bili di cui si dirà in seguito. A questo punto è bene, visto che il concetto sarà
utilizzato in seguito, definire anche la funzione di score (Rao 1973) che è data
dal vettore delle derivate prime parziali della funzione di log-verosimiglianza
calcolato rispetto al vettore dei parametri θ. Dato che le equazioni di massima
verosimiglianza sono di solito complesse e le soluzioni non ottenibili in mo-
do diretto, un metodo generale consiste nell’assumere una soluzione di prova
e derivare le equazioni lineari per piccole correzioni additive. In altre parole,
si adotta un processo che viene ripetuto sino a che le correzioni diventano
trascurabili. La quantità d log L
dθ dove L è la verosimiglianza del parametro θ,
viene definita lo score efficiente di θ. La stima di massima verosimiglianza è
il valore di θ che rende pari a zero lo score efficiente6 .

Il metodo Newton-Raphson

Tra i più consolidati e popolari metodi quadratici utilizzati per calcolare i


MLE vi è il metodo di Newton-Raphson (NR) che si basa sulla scelta del
termine Hessiano esatto della funzione di log-verosimiglianza in θ1 . La
direzione di ricerca è data da:

δ (θ1 ) = {−EN [Lθθ (θ1 )]}−1 EN [Lθ (θ1 )] (4.40)

In altre parole il metodo approssima EN [L (θ)] tramite una serie di Taylor


di secondo ordine in θ1 . Possono insorgere problemi nell’impiego del meto-
do NR quando la funzione di log-verosimiglianza non è strettamente concava
così che l’Hessiano non è negativo definito. Vale la pena chiarire due aspetti.
Infatti, l’Hessiano potrebbe essere semplicemente negativo semi-definito co-
sì che il problema è costituito dalla singolarità dell’Hessiano, ma può anche
verificarsi il caso in cui la funzione non è concava in θ1 così che l’Hessiano
6 Se θ d log L
0 è il valore di prova della stima, allora espandendodθ ed utilizzando solo la prima
2
d log L
d log L d log L d log L
potenza di δθ = θ−θ0 si avrebbe dθ ' dθ0 +δθ dθ20 ' dθ0 −δθℑ (θ0 ) e θ = θ0 , dove
d 2 log L
ℑ (θ0 ) è il valore atteso di dθ20
. Per campioni di grandi dimensioni l’approssimazione di
2
d log L
dθ20
con −ℑ (θ0 ) risulta valida sino alla prima potenza per piccole quantità. La correzione
δθ è ottenuta dalla seguente equazione:

d log L d log L
δθℑ (θ0 ) = , δθ = ÷ ℑ (θ0 )
d log θ0 d log θ0
La prima approssimazione è data da (θ0 + δθ) e tale processo può essere ripetuto utilizzando
il primo valore come nuovo valore di prova.

147
non è negativo semi-definito. Nel caso in cui l’Hessiano è singolare e negati-
vo semi-definito, la direzione di ricerca non può essere calcolata utilizzando
la (4.40) che potrebbe però essere generalizzata modificando l’inversa e tra-
sformandola in una inversa generalizzata. Tale metodo costituisce una prati-
ca soluzione per affrontare i problemi numerici posti dalle matrici Hessiane
quasi-singolari. Anche se l’Hessiano è singolare la direzione di ricerca con-
tinuerà a puntare verso una direzione che fa crescere localmente la funzione
di log-verosimiglianza, ovvero:

∂EN [L(θ1 +λ·δ)]

0
∂λ = δ EN [Lθ (θ1 )]
λ=0

=−EN [Lθ (θ1 )]0 {EN [Lθθ (θ1 )]}−E N [Lθ (θ1 )]≥0 (4.41)

Quando l’Hessiano è non-singolare ma non è negativo semi-definito, la


direzione di ricerca potrebbe puntare verso una direzione che fa decrescere la
funzione di log-verosimiglianza. In questo caso, si può cercare nella direzio-
ne opposta provvedendo semplicemente a cambiare il segno della direzione
di ricerca. In particolare Goldfeld et al. (1966) hanno suggerito di utilizzare
la seguente direzione:

δ (θ1 ) = {−EN [Lθθ (θ1 )] + α · IK }−1 EN [Lθ (θ1 )] (4.42)

dove α viene scelto in modo tale che l’Hessiano modificato sia negativo
definito.
Altri due metodi, che si descrivono qui di seguito, hanno un interesse
maggiore sotto il profilo statistico – econometrico.

Il modello dello score modificato


n 0
o
Una qualsiasi direzione di ricerca z ∈ RK | v Qθ (θ1 ) ≥ 0 , dove z rappre-
senta un vettore appartenente allo spazio vettoriale Z e dove per mezzo spa-
zio si intende il sotto insieme {u ∈ Z | hu, zi ≥ 0}, garantisce un incremento
poiché:

0 ∂Q (θ1 + λ · δ) 0
δ Qθ (θ1 ) ≥ 0 ⇒ = δ Qθ (θ1 ) ≥ 0 (4.43)
∂λ λ = 0

Premoltiplicare lo score per una qualsiasi matrice semidefinita positiva


garantirà una direzione di incremento. Il metodo classico dello score evita
il problema posto dall’Hessiano che è non negativo definito rimpiazzando la

148
media della matrice Hessiana negativa con la matrice informativa empirica,
ovvero si pone:
δS (θ1 ) = EN [ℑ (θ1 )]−1 EN [Lθ (θ1 )] (4.44)
e dato che la matrice informativa è positiva semidefinita, δS indicherà sempre
una direzione che garantisce un incremento. Dato che Rao (1973) ha deno-
minato l’iterazione θi = θi−1 + δS (θi−1 ) il metodo dello score, la sua com-
binazione con un metodo quadratico di LS è stato definito da Ruud (2000) il
metodo dello score modificato.

L’algoritmo BHHH

Il metodo sviluppato da Berndt, Hall, Hall e Hausman, (Berndt et al. 1974)


noto in letteratura come l’algoritmo BHHH o BH3 approssima l’Hessiano
attraverso l’utilizzo dei momenti secondi empirici dello score. In altre parole
si può scrivere che:
n h 0
io−1
δBHHH (θ1 ) = EN Lθ (θ1 ) Lθ (θ1 ) EN [Lθ (θ1 )] (4.45)

La matrice (4.45) presenta il vantaggio di essere positiva semidefinita così


che la direzione di ricerca punta sempre verso un incremento locale. La di-
rezione di ricerca è data dal vettore dei coefficienti OLS di una regressione
della costante 1 rispetto al vettore degli score per ciascuna osservazione. Se
0
si ipotizza una matrice N x K di scores G = [Lθ (θ1 ; un ; n = 1, ... , N)] e sia
 0 −1 0
ιN un vettore di N numeri 1, allora δBHHH (θ1 ) = G G G ιN . Una carat-
teristica interessante della direzione di ricerca fornita dall’algoritmo BHHH
è che prevede solo il calcolo dello score e ciò garantisce un significativo van-
taggio in termini di tempo macchina per il calcolo. Questo metodo prevede
il calcolo solo delle derivate prime mentre, ad esempio, il metodo dello score
modificato e NR prevedono entrambi ulteriori calcoli per l’approssimazio-
ne dell’Hessiano. In letteratura non vi è significativa evidenza empirica che
giustifichi una preferenza per l’impiego di uno specifico metodo.

4.3.5 I metodi Quasi-Newton-Raphson


Si presentano, sommariamente gli algoritmi Davidon – Fletcher – Powel
(DFP) e Broyden – Fletcher – Goldfarb – Shanno (BFGS) di ricerca dei punti
di ottimo che appartengono ad una classe che, in letteratura, prende il nome di
metodi Quasi - Newton (QN) (Fletcher 1980). Il punto di forza di tali metodi

149
è che garantiscono una efficace, flessibile ed elaborata soluzione del problema
di ottimizzazione. Tra le caratteristiche desiderabili di un algoritmo di massi-
mizzazione sicuramente vi è la capacità di convergere rapidamente dal punto
di inizio della ricerca verso l’intorno del punto di ottimo e che, conseguente-
mente, le iterazioni cessino quando un test di convergenza risulti soddisfatto.
I metodi QN fanno partire la ricerca del punto di ottimo lungo una linea di
gradiente ed usano l’informazione del gradiente stesso. I vantaggi derivanti
dall’impiego di questi algoritmi sono connessi proprio ai punti deboli dei me-
todi di tipo Newton. Infatti, anche nel caso di metodi Newton modificati per
assicurare la convergenza globale l’analista deve sempre calcolare le derivate
seconde della funzione da massimizzare. I metodi QN cercano di risolvere il
problema del massimo senza dover affrontare questo difficile problema.
L’algoritmo DFP, utilizza la forma tipica dei metodi QN per cui Wt+1 =
Wt + Et dove Et rappresenta una matrice definita positiva (Fletcher 1980) e
Wt è la matrice positiva definita che, nel metodo del gradiente, si utilizza nel-
 ∆t = Wt gt dove gt è il gradiente di F (θt ) ovvero gt = g (θt ) =
l’algoritmo

∂F(θt )
∂θt . Sin quando W0 è definita positiva (di solito si utilizza la matrice
identità I), Wt sarà positiva definita per ciascuna iterazione. Dopo un suffi-
ciente numero di iterazioni Wt+1 risulta una approssimazione di −H −1 . Po-
nendo δt = λt ∆t e γt = g (θt+1 ) − g (θt ), l’algoritmo DFP utilizza la seguente
formula (Greene 2003):

0 0
δt δt Wt γt γt Wt
Wt+1 = Wt + 0 + 0
δt γt γt Wt γt

L’algoritmo BFGS rappresenta una generalizzazione dell’algoritmo DFP.


Per riassumere l’essenza di questo tipo di algoritmi si può considerare che
l’Hessiano è la matrice delle derivate seconde e come tale ci dice di quanto
cambia l’inclinazione della curva mano mano che ci si muove lungo di essa.
L’Hessiano è, quindi, definito per piccole variazioni infinitesimali e dato che
per i nostri scopi ci serve conoscere la curvatura della curva per spostamenti
non-infinitesimali, è sufficiente definire un Hessiano d’arco ed è, quindi, suf-
ficiente utilizzare i cambiamenti del gradiente da un punto ad un altro. Sia
il metodo DFP sia il BFGS, sulla base di queste considerazioni, traggono
vantaggio dal fatto che un Hessiano d’arco offre più informazioni di quanto
non faccia un Hessiano nel caso in cui la funzione di log-verosimiglianza sia
non-quadratica.

150
4.3.6 Convergenza, massimi locali e globali

E’ difficile sopravvalutare l’importanza delle questioni connesse alla conver-


genza degli algoritmi e alla qualificazione del punto di massimo individuato.
Si dovrebbe esprimere un giudizio circa la convergenza delle procedure ite-
rative alla luce dei criteri standard di ricerca di un punto di massimo, ovvero,
si dovrebbe esprimere il giudizio sulla base delle derivate prime e secon-
de. Anche se improprio e pericoloso spesso si assume che l’algoritmo abbia
raggiunto la convergenza rispetto ad un punto critico della funzione di log-
verosimiglianza nel corso della i-esima iterazione quando la variazione nel
valore dei parametri è inferiore ad un limite preventivamente scelto come ri-
ferimento. È bene ricordare, però, che una tale occorrenza può determinarsi
quando l’algoritmo riesce a spostare la ricerca solo molto lentamente nel-
lo spazio dei parametri a causa di una direzione di ricerca errata o, magari,
perché la funzione da massimizzare non è approssimata bene da una forma
quadratica. In altre parole si dovrebbe determinare la convergenza sulla base
di quanto vicino a zero sia lo score e sulla base del fatto che l’Hessiano risulti
negativo definito.
Quando si impiegano metodi quadratici, giudicare la convergenza sulla
base dell’ampiezza della parte quadratica nel vettore dello score che può,
sotto un profilo geometrico, essere considerato un criterio appropriato, ri-
schia di indurre l’analista in errore. Infatti, quando la derivata seconda è
grande si possono tollerare delle derivate prime relativamente grandi poi-
chè possiamo essere sufficientemente certi che si è in prossimità del valo-
re critico ricercato. Una derivata seconda piccola, al contrario, suggerisce
che la derivata prima sta cambiando solo lentamente così che per farla av-
vicinare a zero può richiedere un movimento rilevante nello spazio dei pa-
rametri. Prima di considerare raggiunta la convergenza rispetto ad un va-
lore critico locale della funzione da massimizzare si deve avere conferma
che l’Hessiano sia negativo definito. È, infatti, possibile, che per metodi
di massimizzazione quadratica si possa ritenere di aver raggiunto, conside-
0
rando ∂EN [L(θ∂λi +λ·δi )] = EN [Lθ (θi ; u)] {EN [Lθθ (θi )]}−1 EN [Lθ (θi )], la conver-
genza quando non è questo il caso. Si dovrebbe, infatti, essere in grado di
dimostrare, magari calcolando numericamente l’Hessiano, che la funzione
di log-verosimiglianza è localmente strettamente concava. Si ricordi, infine,
che aver trovato un massimo locale non significa aver individuato il massi-
mo globale e, in molti casi pratici, è bene provare a far partire il processo di
massimizzazione da molti punti diversi dimostrando che si converge sempre e
solo verso un unico massimo locale così da poter ragionevolmente affermare

151
che la convergenza verso un unico massimo locale può essere assimilata alla
convergenza verso un massimo globale la cui unicità è garantita dalla con-
cavità globale della funzione di massima verosimiglianza che rappresenta, in
pratica, un caso alquanto speciale.

4.4 L’inferenza statistica basata su simulazioni

Nell’econometria contemporanea sono diversi gli approcci alla stima che van-
no da metodi strettamente parametrici come, ad esempio, le tecniche basate
sulla verosimiglianza fino a quelle non parametriche che ipotizzano poco più
della semplice associazione tra le variabili. Anche se la decisione circa la
scelta dell’approccio da utilizzare è molto personale, e sicuramente al di fuo-
ri degli obiettivi del presente lavoro, si rileva come vi sia una tendenza in atto
ad adottare metodi che richiedano un numero limitato di ipotesi. In generale
si può affermare che il passaggio da un approccio completamente parametri-
co ad uno semi-parametrico e, infine, ad uno non-parametrico di stima, se da
un lato consente di ridurre il numero e la portata delle ipotesi che è necessario
effettuare, dall’altro implica l’accettazione di un costo in termini di indebo-
limento delle conclusioni che si possono trarre dall’analisi dei dati. Quanto
affermato è particolarmente vero nell’analisi di questioni di trasporti che si
caratterizzano per la natura discreta dei dati trattati. Un modello probit o lo-
git consente la stima di probabilità di scelta, degli effetti marginali, e di altre
rilevanti informazioni di interesse anche se come contropartita si deve impor-
re una distribuzione normale o EV dei termini di errore. Al contrario approcci
semiparametrici o non parametrici consentono di fare a meno di tali ipotesi
restrittive anche se offrono risultati delle stime validi solo rispetto a intervalli
di probabilità (se del caso) e ciò impedisce la stima delle probabilità di scelta
o degli effetti marginali. Associato a questi aspetti vi è il dibattito relati-
vo alle proprietà della stima che costituiscono un altro ambito di confronto
tra i diversi approcci che è possibile adottare. Appare opportuno discutere
sinteticamente queste considerazioni generali prima di descrivere tre diversi
approcci ed i rispettivi punti di forza e debolezza.
Relativamente recenti sono alcune innovazioni rilevanti nel campo della
simulazione numerica applicata all’econometria. In particolare McFadden
(1989) e Pakes e Pollard (1989) hanno sviluppato metodi di simulazione per
ottenere valori attesi di funzioni aleatorie ed hanno dimostrato come utilizza-
re tali simulatori in routine di stima econometrica. Le applicazioni sono state
numerose e variegate. I metodi di simulazione forniscono soluzioni interes-

152
santi quando con una generica variabile aleatoria U, una funzione di densità
f (·) ed una qualche funzione h (U) si deve, di solito, valutare un’equazione
del tipo:
Z
Eh (U) = h (u) f (u) du (4.46)

per stimare un insieme di parametri θ di interesse. Non sono pochi i casi in


cui Eh (U) non può essere calcolato analiticamente o anche numericamente
con precisione. Tuttavia, si è di solito in grado di simulare Eh (U) tramite
computer estraendo R variabili pseudo-aleatorie da f (·) , u1 , u2 , u3 , ... , uR e
costruendo poi stimatori del tipo:

R
b (U) = 1 ∑ h (ur )
Eh (4.47)
R r=1

che risultano stimatori non distorti di Eh (U) e che, per la maggior parte dei
casi in seguito discussi, sono sufficienti per fornire stime consistenti (o solo
leggermente distorte) di θ.

4.4.1 Le motivazioni della simulazione delle stime

Prima di procedere all’illustrazione delle tecniche, descritte nei sottoparagra-


fi seguenti è bene chiarire quali siano le proprietà degli stimatori utilizzati. In
queste applicazioni, infatti, le probabilità di scelta inserite nella funzione di
verosimiglianza da massimizzare sono simulate e non esatte e, quindi, anche
se la procedura proposta appare intuitivamente accettabile, è sempre bene
chiarire, comunque, quali siano le caratteristiche desiderabili di cui godo-
no gli stimatori utilizzati (consistenza, normalità asintotica, efficienza, ecc.).
Al fine di rendere più circostanziata la trattazione si è scelto di illustrare i
tre metodi discussi con riferimento alla specificazione funzionale del probit
multinomiale (MNP). Si è scelto il MNP poiché è stato storicamente il primo
modello comportamentale per cui si è dovuto fare ricorso a metodi simulativi
per il calcolo delle probabilità di scelta. Si procede, pertanto all’illustrazione
ed alla caratterizzazione del MNP evidenziandone le necessità di simulazione
ai fini della stima delle probabilità di scelta per poi trattare rispettivamente il
metodo dei momenti simulati (MMS), quello della massima verosimiglianza
simulata (MVS) e, infine, il metodo degli score simulati (MSS).

153
Il Probit multinomiale

Il MNP si caratterizza per l’ipotesi che il termine di errore della funzione di


utilità stocastica si distribuisca in modo normale. Gli impedimenti che hanno
ostacolato una ampia e diffusa applicazione del MNP erano principalmente
connessi alle difficoltà nella stima, che non potendo essere effettuata impie-
gando metodi analitici nel caso in cui le variabili esplicative fossero più di
quattro o cinque, richiedeva l’impiego di metodi simulativi. La progressiva
disponibilità di capacità di calcolo a basso costo ha posto rimedio a questo
problema. Oltre a considerazioni di natura prettamente tecnica ve ne sono
altre legate alla capacità di rappresentare correttamente il contesto di scelta.
Il MNP presenta vantaggi e svantaggi quando lo si confronta con il MNL.
In particolare il MNP garantisce una maggiore flessibilità nel rappresenta-
re le diverse possibili strutture del termine di errore tramite una matrice di
varianza-covarianza generale anche se l’ipotesi circa la distribuzione norma-
le del termine di errore equivale ad assumere che vi sia sempre una parte della
popolazione che ha un coefficiente di segno positivo per l’attributo costo che,
inevitabilmente, pone rilevanti problemi interpretativi.

La forma funzionale delle probabilità di scelta

Il vantaggio che il MNP offre rispetto al MNL riguarda alcuni fondamenta-


li limiti che caratterizzano quest’ultimo. In particolare tre importanti limiti
del MNL hanno a che vedere rispettivamente con la variazione aleatoria delle
preferenze, la presenza di vincoli nella struttura della sostituibilità tra alterna-
tive (limiti connessi alla IIA) e l’ipotesi di assenza di correlazione nel tempo
tra fattori non osservati per i diversi decisori7 . Con il NL, ad esempio, è pos-
sibile porre, parzialmente, rimedio alle limitazioni derivanti dall’ipotesi della
IIA, circoscrivendone la validità a specifiche porzioni della matrice di cova-
rianza, mentre non è possibile trattare in modo appropriato la variazione non
sistematica delle preferenze e la correlazione tra i termini di errore tra più
osservazioni pertinenti allo stesso agente. Al contrario il MNP può trattare
correttamente tutti e tre i tipi di problemi poiché non solo non si caratterizza
per restrizioni sulla componente non osservata della funzione di utilità, spes-
so irrealistiche, tipiche del MNL ma, soprattutto, prevede una distribuzione
normale congiunta di ciascun εin per tutti gli i in Cn che possono avere va-
rianza differente e possono anche essere correlati con altri ε jn ∈ Jn , j 6= i.
7 Si pensi a quanto eroica possa risultare questa ipotesi nel caso di dati panel derivanti da
esercizi di tipo SP ripetuti più volte per ciascun intervistato.

154
Le probabilità di scelta del probit sono derivate assumendo che le compo-
nenti non osservate della funzione di utilità siano distribuite congiuntamente
secondo una distribuzione normale.
Il MNP si caratterizza, come si è detto, per un limite strutturale legato all’i-
potesi di distribuzione normale dei termini di errore che, non rappresentando,
a volte, correttamente il fenomeno in analisi potrebbe condurre a previsioni
distorte. Si pensi, come accennato, al caso emblematico delle previsioni re-
lative al coefficiente della variabile costo (praticamente sempre presente in
qualsiasi modello di stima della domanda di trasporto) che, per il fatto stes-
so che la funzione di densità di probabilità della distribuzione normale si
estende da entrambe le parti rispetto allo zero, implica necessariamente che
alcuni membri della popolazione abbiano un coefficiente positivo rispetto al
costo. Tale occorrenza risulta in contrasto con i fondamenti microeconomici
della scelta del consumatore. Il primo modello di probit binario sviluppato
da Thurstone (1927:a) nel campo della psicologia e successivamente adattato
da Marschak (1960) in termini economici e di utilità viene analizzato in due
studi ormai classici di Hausman e Wise (1978) e Daganzo (1979).
Come si è detto, le probabilità di scelta del modello probit sono deriva-
te sulla base dell’ipotesi che le parti non osservate della funzione di utili-
tà siano distribuite congiuntamente in modo normale. In altre parole, da-
ta la scomposizione della funzione di utilità tra la parte osserva e quella
non-osservata:
Uin = Vin + εin (4.48)
si assume che il vettore composto da ciascuna εin ∀i ∈ Cn , denotato eεn , abbia
una distribuzione normale con un vettore con media paria zero ed una matri-
ce di varianza-covarianza Ωn i cui elementi sono parametri che possono, in
teoria, essere specificati a priori oppure essere stimati dall’analista. In altre
parole, la funzione di densità di eεn è data da:
 
− 12 mn − 21 1 −1
φ (eεn ) = (2π) |Ωn | exp − eεn Ωn eεn (4.49)
2
dove |Ωn | è il determinante di Ωn e mn rappresenta il numero di alternative
presenti in Cn . Rimanendo invariato il criterio di scelta ovvero la massimiz-
zazione della utilità aleatoria, la probabilità che l’alternativa i sia scelta è
data dalla probabilità che l’utilità ad essa associata risulti maggiore rispetto a
quella di qualsiasi altra alternativa presente all’interno dell’insieme di scelta.
Pertanto, nel nostro caso,
Pin = Prob (Vin + εin > V jn + ε jn , ∀ j ∈ Jn , j 6= i) (4.50)

155
e, quindi,
Pin = Prob (ε jn < εin +Vin −V jn , ∀ j ∈ J, j 6= i) (4.51)
Per calcolare tale probabilità si supponga, in prima battuta, che εin sia dato
e che, quindi, la probabilità di scelta dell’alternativa i dipenda dal fatto che ε jn
risulti inferiore al termine noto εin +Vin −V jn , ∀i ∈ Cn , j 6= i, che, per un dato
εin , equivale a calcolare la funzione cumulata di ε jn in εin + Vin − V jn , ∀ j ∈
Cn . In altre parole, si deve calcolare l’integrale della funzione di densità che
rappresenta la probabilità di scelta dell’alternativa i dato un particolare valore
di εin . Quindi, la probabilità Pin (εin ) è data dalla densità del vettore aleatorio
eεn integrato da −∞ sino a εin +Vin −V jn , ∀ j ∈ Cn , j 6= i:
Z εin +Vin −V1n Z εin +Vin −Vm m
n
Pin (εin ) = ... ... φ (eεn ) dεmn m ...dε1n (4.52)
ε1n =−∞ εmn m =−∞

dove l’integrazione avviene per tutti gli elementi ε jn nel vettore eεn ad ecce-
zione di εin che si assume pari al suo valore dato. Questa esposizione tratta
da Train (Train 1986) ha scopo prevalentemente didattico al fine di illustrare
il tipo di problema da affrontare poiché, in effetti, il valore εin non è dato e,
quindi, la probabilità di scegliere l’alternativa i è data dalla probabilità che
essa venga scelta per un qualsiasi valore di εin integrato per tutti i valori che
εin può, di fatto, assumere. In altre parole:
Z ∞
Pin = Pin (εin ) φ (eεn ) dεin (4.53)
εin =−∞

Infine, sostituendo (4.52) in (4.53) si ottiene:


Z ∞ Z εin +Vin −V1n Z εin +Vin −Vm m
n
Pin = ... ...φ (eεn ) dεmn m ...dε1n (4.54)
εin =−∞ ε1n =−∞ εmn m =−∞

dove entrambi i parametri che entrano in Vin e quelli che entrano nella matrice
di varianza-covarianza Ωn sono determinati tramite la stima o la specificazio-
ne a priori da parte dell’analista.

4.4.2 Stima e simulazione delle probabilità di scelta


Le probabilità di scelta del modello MNP non possono, a volte, essere calco-
late analiticamente e si deve utilizzare la simulazione numerica (McFadden
1976, Maddala 1983, Kamakura e Russell 1989, Keane 1992). Imponen-
do una struttura sul temine di errore del modello, assumendo, ad esempio,
che tutte le covarianze tra le alternative siano pari a zero e tutte le varianze

156
siano pari a uno si ottiene il cosiddetto Independent Probit (IP) (Hausman e
Wise 1978) che può essere utilizzato anche in presenza di molte alternative di
scelta. Tuttavia il modello IP è strettamene legato al MNL e soffre, anch’esso,
dei vincoli posti dalla IIA (Amemiya 1981, Ben-Akiva e Lerman 1985). Nei
casi in cui, invece, non si desideri imporre una struttura per i termini di errore
allora si deve necessariamente risolvere il problema derivante da un integrale
multi-dimensionale. Tra i primi metodi proposti per affrontare il problema
si ricorda l’approssimazione di Clark (Clark 1961, Daganzo 1979). Succes-
sivamente si mostrò che, specialmente nei casi di: (a) correlazione negativa,
(b) diverse covarianze e (c) all’aumentare del numero delle alternative, non
era possibile associare al metodo nessuna proprietà asintotica (Horowitz et al.
1982, Langdon 1984, McFadden 1989, Chintagunta 1992). La prima ipotesi
circa l’utilizzo di metodi simulativi per affrontare il problema viene formula-
ta da Lerman e Manski (1981) che utilizzano estrazioni di tipo Monte Carlo
dei termini di errore per simulare i vettori latenti delle utilità U. La stima
della probabilità di scelta dell’alternativa i, successivamente denominata cru-
de frequency simulator (Hajivassiliou 1993) veniva espressa dalla frequenza
con cui uin = max (ui1 , ..., uiN ). Tale metodo si caratterizza per due punti de-
boli. Infatti, da un lato, necessita di un elevato numero di estrazioni prima
che le frequenze empiriche risultino buone approssimazioni delle probabilità
di scelta e questo è tanto più vero quanto più la probabilità di scelta stimata
risulta vicina o a 0 o a 1 e, dall’altro, il simulatore può solo assumere valori
discreti. Dopo la prima proposta di Manski e Lerman diversi altri simulatori
sono stati sviluppati. Questi differiscono nel modo in cui vengono effettua-
te le estrazioni dei termini di errore. Da un test condotto da McFadden e
Ruud (1994), che hanno confrontato 13 diversi simulatori risulta che il GHK,
altrimenti detto SRC (smooth recursive conditioning ) è uno dei migliori poi-
ché minimizza la media, mediana e deviazione standard delle distorsioni. Il
simulatore SRC viene anche detto smooth simulator poiché piccoli cambia-
menti nei parametri non provocano discontinuità nella stima delle probabilità
di scelta simulata o nella funzione di verosimiglianza. La funzione di verosi-
miglianza risulta continua nei parametri. Un potenziale punto debole di tale
metodo riguarda il fatto che la somma delle probabilità simulate non è vin-
colata ad essere pari ad 1 quando viene calcolata per tutte le N possibilità di
scelta (McFadden 1989, Mühleisen 1991, Lee 1992) anche se tale problema
può essere risolto normalizzando i simulatori originali e, contestualmente,
provvedendo però alla simulazione delle probabilità di scelta per tutte le al-
ternative (Lee 1992).

157
La grande innovazione per la stima delle probabilità del MNP, come si è
detto, è avvenuta con la pubblicazione simultanea di due articoli, uno di Mc-
Fadden (1989) e l’altro di Pakes e Pollard (1989) relativi al metodo dei mo-
menti simulati (MMS). McFadden ha dimostrato che quando un simulatore
non distorto viene utilizzato per simulare le probabilità di scelta, le funzio-
ni che devono essere simulate compaiono linearmente nelle condizioni che
definiscono lo stimatore, e lo stesso insieme di estrazioni casuali può essere
utilizzato per simulare il modello per differenti valori dei parametri stimati
nel processo iterativo di ricerca dello stimatore. Soltanto un piccolo numero
di estrazioni casuali è necessario per approssimare le probabilità di scelta.
Successivamente sono stati sviluppati altri metodi di simulazione come, ad
esempio, il metodo MSS (Hajivassiliou e McFadden 1990) e il metodo MVS
(Hajivassiliou 1993). Una ampia rassegna di questi metodi di simulazione
viene fornita in Hajivassiliou (1993).

Il metodo dei momenti simulati

Il metodo dei momenti cerca gli stimatori per analogia e poggia sulla con-
siderazione che i residui di un modello non sono correlati nella popolazione
con i fattori che risultano esogeni al comportamento che si sta modellando.
Il metodo può consentire, inoltre, di generare stimatori più facilmente trat-
tabili rispetto al metodo della massima verosimiglianza. Si supponga che la
log-verosimiglianza di un modello multinomiale di scelta sia data da:
I N
l=∑ ∑ yin ln (pin ) (4.55)
i=1 n=1

La stima di un MNP, utilizzando la massima verosimiglianza, implica il


calcolo della derivata di primo ordine della log-verosimiglianza. Si assu-
ma che tutti i parametri siano contenuti nel vettore θ di dimensioni (T × 1),
quindi si ottengono le stime di θ risolvendo per θ la seguente funzione:
I N I N
∂ ln l ∂ ln pin yin ∂pin
= ∑ ∑ yin · =∑∑ =0 (4.56)
∂θ i=1 n=1 ∂θ i=1 n=1 pin ∂θ

Si noti che p dipende da θ anche se, per convenienza espositiva, lo si


tralascia. Poiché la somma delle probabilità è pari a 1, si ha che:
N
∂pin
∑ =0 (4.57)
n=1 ∂θ

158
Dalla (4.57) deriva che la (4.56) può essere scritta anche come segue:

I N I N
yin ∂pin 1 ∂pin
∑ ∑ p ∂θ ∑ ∑ (yin − pin ) p ∂θ = 0
= (4.58)
i=1 n=1 in i=1 n=1 in

Si definisca ora W come segue:

1 ∂pin
W= · (4.59)
pin ∂θ

e sarà, quindi, possibile scrivere la (4.58) in forma matriciale come segue:

W (θ)0 (Y − P (θ)) = 0, (4.60)

dove W (θ) è una matrice di dimensione (IN × T ), P (θ) è il vettore delle


probabilità di scelta di dimensione (IN × 1) ed Y è il vettore delle scelte os-
servate. La (4.60) può essere interpretata come l’insieme delle equazioni dei
momenti del modello MNP, infatti, risolvere per θ la (4.60) equivale a trovare
il θ che minimizza la seguente espressione:

(Y − P (θ))0 W (θ)W (θ)0 (Y − P (θ)) (4.61)

Poiché, di fatto, per il modello MNP le probabilità P (θ) nella (4.61) so-
no costituite da integrali multi-dimensionali (si veda la (4.54)), in pratica,
impossibili calcolare, con il MMS si sostituisce P (θ) con un vettore di pro-
babilità simulate non distorte F (θ) così da procedere alla stima del vettore di
parametri θ attraverso la minimizzazione della seguente espressione:

(Y − F (θ))0 W (θ)W (θ)0 (Y − F (θ)) (4.62)

Gli stimatori di θ calcolati in questo modo sono consistenti e asintotica-


mente normali, quando: i simulatori F (θ) sono non distorti, i numeri aleatori
utilizzati per la costruzione di F (θ) sono indipendenti da quelli utilizzati per
la costruzione di W (θ), F (θ) e W (θ) e i numeri aleatori non sono ri-estratti
durante il processo di iterazione (McFadden 1989),(Mühleisen 1991).
Gli stimatori risultano efficienti quando sono utilizzati strumenti ottimali
W (θ). La matrice asintotica di covarianza è uguale (McFadden 1989) a:
−1 −1
∑= D0 D D0 GD D0 D (4.63)
θ

159
e può essere stimata in modo consistente utilizzando (Mühleisen 1991):

1 I N 0
I = ∑i=1 ∑n,n−1 Win (yin − f in ) (yin − fin )Win ,
b=
G
1 0 ∂P(θmsm )
b (4.64)
b=
D .
I W ∂b θ0msm

Il metodo MMS presenta due svantaggi. In primo luogo si devono simu-


lare tutte le probabilità di un dato modello e, in secondo luogo, gli stimatori
risultano efficienti solo quando si usano strumenti ottimi che dipendono dai
parametri “veri” che sono, nei fatti, ignoti (McFadden 1989, Hajivassiliou
1993). Un modo per ovviare ai problemi evidenziati consiste nel replicare
più volte il percorso descritto (McFadden 1989). In questo caso si utilizza
un vettore di parametri iniziali θ0 per calcolare W (θ0 ) e con questa matrice
di strumenti si stimano i parametri che sono poi impiegati per stimare una
nuova W (θ) e così via. È fondamentale, per le caratteristiche asintotiche
dello stimatore MMS, che i simulatori delle probabilità di risposta e le loro
derivate utilizzate per costruire gli strumenti risultino indipendenti dal simu-
latore F (θ) utilizzato nella (4.62) (McFadden 1989). La procedura descritta
dovrebbe essere ripetuta almeno due o tre volte e ciò provoca un incremento
del tempo necessario per le stime.

Il metodo della massima verosimiglianza simulata

Con il metodo della massima verosimiglianza simulata (MVS) si simulano


soltanto le probabilità delle alternative effettivamente scelte che, sotto un
profilo di calcolo, risulta più efficiente del MMS. Il metodo illustrato vie-
ne anche detto, in letteratura, smooth MVS (SMVS) quando viene applicato
utilizzando, ad esempio, un simulatore SRC che garantisce delle proprietà de-
siderabili. Con il SMVS, per assicurare l’efficienza asintotica dello stimatore
si richiede che √RJ → ∞ quando J → ∞ (Börsch-Supan e Hajivassiliou 1993),
dove R rappresenta il numero di ripetizioni o estrazioni. Tuttavia, diversi studi
mostrano come il SMVS risulti efficiente anche quando il numero di ripeti-
zioni è relativamente basso, ovvero nell’intorno delle 10 o 20 ripetizioni (Lee
1992, Börsch-Supan e Hajivassiliou 1993, Geweke et al. 1994). Le probabili-
tà simulate rimpiazzano, semplicemente, le probabilità pin nell’equazione di
verosimiglianza (4.55) e si rimane, quindi, nel contesto standard di analisi di
massima verosimiglianza che è quello più spesso adottato. Tutte le proprietà
asintotiche della massima verosimiglianza risultano ancora valide per stima-
re i parametri θ in un contesto di tipo SMVS. La log-verosimiglianza risulta

160
adesso pari a:
I N
l=∑ ∑ yin ln ( fin ) (4.65)
i=1 n=1
dove fim sono le probabilità di scelta simulate. Come evidenziato in prece-
denza, il vantaggio del metodo SMVS rispetto al metodo MMS con riferi-
mento al numero di probabilità da simulare viene meno quando si deve usare
l’approccio proposto da Lee (1992) per garantire che la somma delle proba-
bilità di tutte le opzioni di scelta presenti all’interno dell’insieme di scelta
risulti pari a uno.

Il metodo degli score simulati

Il metodo degli score simulati (MSS) prende il suo nome dal fatto che il vetto-
re delle derivate prime parziali della funzione di log-verosimiglianza rispetto
al vettore dei parametri θ viene, appunto, detto score.

∂L (θ)
Lθ (θ) ≡
∂θ
Il MSS cerca di trovare i valori dei parametri che rendono pari a zero lo
score medio. Con il metodo degli score simulati il vettore dei parametri θ
viene stimato risolvendo per θ la seguente espressione:

1 1 ∂ ln l
∑ si (θ) = =0 (4.66)
I i I ∂θ

dove lo score, si (θ) viene simulato direttamente. Anche questo metodo pro-
duce delle stime consistenti ed asintoticamente normali se si usa lo stimatore
SRC.
Quando si impiegano le probabilità esatte, il metodo degli score produce
risultati identici alla massima verosimiglianza dato che la funzione di Log-
Likelyhood (LL) risulta massima proprio quando lo score medio è paria a
zero. Il vantaggio potenziale del MSS è che si può utilizzare uno stimatore
con le proprietà di efficienza della massima verosimiglianza e le proprietà di
consistenza del metodo MMS che risulta asintoticamente efficiente se ven-
gono utilizzati i pesi opportuni. La difficoltà del metodo è intrinseca alla
costruzione di uno stimatore non distorto della statistica dello score.
Hajivassiliou e McFadden (1998) hanno dimostrato che l’impiego degli
score simulati al posto di quelli esatti, in funzione del metodo di simulazio-
ne adottato per la loro stima, può produrre dei risultati diversi e, soprattutto,

161
consente di ottenere degli stimatori consistenti ed efficienti, anche sotto con-
dizioni meno stringenti. Nel caso si fosse in grado di costruire uno stimatore
non distorto dello score l’equazione che lo definisce non conterrebbe nessu-
na distorsione dovuta alla simulazione poiché il simulatore entra linearmente
nell’equazione e, quindi, il MSS è consistente con una data relazione tra il
numero di estrazioni che sono utilizzate per la simulazione ed una data nu-
merosità campionaria N. La distorsione dovuta alla simulazione si riduce al
crescere di R in modo tale che il MSS risulta asintoticamente efficiente ed
equivalente al SMVS quando R cresce al crescere di N. In conclusione, si
può affermare che vi sono vantaggi e svantaggi nell’utilizzare questo me-
todo e che solo la conoscenza dei punti di forza e di debolezza permetterà
all’analista di effettuare scelte consapevoli.

4.5 Il Mixed Logit

Il Mixed Logit (ML) è un modello a scelta discreta che ha una componen-


te di errore aleatoria additiva distribuita EV IID, come per il MNL, ed una
componente di errore flessibile che può essere normale, additiva o di altra
natura. Il ML risulta intuitivo, pratico e potente. Si caratterizza sia per la
flessibilità del Probit sia per la trattabilità del logit. Queste caratteristiche lo
stanno rendendo sempre più popolare tra gli addetti ai lavori ed è anche stato
inserito, recentemente, in software applicativi molto diffusi quali, ad esem-
pio, NLOGIT 4.0. Anche se la struttura del ML è relativamente semplice e
facile da comprendere, tuttavia, sono diversi gli aspetti tecnici che richiedono
approfondimenti per poterne fare un uso corretto e fruttuoso.
Il MNL si caratterizza per la sua apprezzata trattabilità e, allo stesso tempo,
per l’altrettanto noto vincolo posto dalla rigida struttura imposta sulla com-
ponente d’errore che porta alla proprietà IIA. Nonostante i modelli NL, ad
esempio, riducono parzialmente la rigidità connessa alle ipotesi circa la com-
ponente d’errore del MNL pur mantenendo una forma chiusa per il calcolo
della funzione di probabilità di scelta, tuttavia tale famiglia di modelli non
riesce a catturare opportunamente molte forme di eterogeneità non osservata
tra le quali, per citare un caso emblematico, quella connessa alla variazione
non sistematica delle preferenze.
Il ML con una completa specificazione della componente di errore, assi-
milabile a quella del modello Probit, rende possibile rappresentare qualsiasi
struttura di errore. Anche in questo caso, tuttavia, al pregio della flessibilità si
associa il costo della stima. Infatti, poiché le funzioni di probabilità sono date

162
da integrali multi-dimensionali che non consentono soluzioni in forma chiu-
sa si deve fare ricorso a metodi di stima basati su simulazioni. Il vantaggio
connesso all’utilizzo di un termine di errore additivo distribuito IID EV è che
consente di determinare uno stimatore della probabilità di scelta con caratte-
ristiche particolarmente interessanti sotto il profilo computazionale poiché si
configura come una semplice stima di un insieme di probabilità logit.

4.5.1 Le probabilità di scelta del Mixed Logit


Il ML costituisce una generalizzazione del MNL. Non soffre delle restrizioni
poste dalla IIA. Consente di trattare esplicitamente: le correlazioni nella parte
non osservata dell’utilità, le variazioni non sistematiche delle preferenze e la
correlazione nelle risposte ripetute. Il ML, come ci ricorda Train (2003) alla
cui struttura espositiva ci si riferisce per gli argomenti trattati in questo para-
grafo, è noto in letteratura da tempo (Boyd e Mellman 1980, Cardell e Dunbar
1980) anche se la sua diffusa applicazione si è avuta solo recentemente grazie
alla crescente disponibilità di metodi di simulazione e di capacità di calcolo
a basso costo così da rendere possibile l’onerosa integrazione numerica che
è connessa alla sua stima (Train 2003, Revelt e Train 1998). Nelle prime
applicazioni di tali modelli le variabili esplicative riguardano interi segmenti
di mercato e non si scende nell’analisi al livello di singolo individuo. Così
facendo le variabili dipendenti osservate risultano le quote di mercato piut-
tosto che le scelte dei singoli decisori. Tali accorgimenti vengono impiegati
per ridurre le simulazioni necessarie per la stima del modello anche se, allo
stesso tempo, il risultato è di natura aggregata e con un contenuto informativo
inferiore rispetto ai modelli ora stimati. Successivamente si assiste all’intro-
duzione di un numero limitato di dimensioni di integrazione come nel caso
di Train et al. (1987) e Ben-Akiva et al. (1993) che si avvalgono del metodo
della quadratura per il calcolo degli integrali. Il ML è definito in letteratura
in modo diverso da diversi autori che ne hanno enfatizzato caratteristiche pe-
culiari pertinenti all’applicazione di riferimento. In particolare ci si è riferiti
al ML sia come “logit a coefficienti aleatori” o “logit a parametri casuali”,
per evidenti motivi (Ben-Akiva e Lerman 1985, Bhat 1998, Train 1999) sia
come “logit con componenti di errore” (error component logit) sottolineando
che la porzione non osservata della funzione di utilità è costituita da diverse
componenti e che queste possono essere specificate in modo da dare origine a
pattern di sostituzione realistici secondo quanto ritenuto necessario dall’ana-
lista (Brownstone e Train 1999). Ben-Akiva e Bolduc (1996) usano il termine
“probit con un kernel logit” per descrivere un qualsiasi modello dove, data la

163
0
funzione di utilità dell’agente Ui = β xi + [φi + εi ] si ha φ distribuita in modo
normale ma gli elementi di ε, invece, sono distribuiti IID EV. Tale denomina-
zione è utile a chiarire che la distinzione tra un modello probit ed un modello
ML con una funzione di distribuzione (mistura) normale è veramente esigua
e, al limite, empiricamente irrilevante (Brownstone e Train 1999).
Si supponga che un agente n possa scegliere tra le alternative i di un in-
sieme di scelta Cn in ciascun periodo T o in diversi esercizi di scelta (e.g.
contesto SP). Il numero di alternative, il tipo di dati considerati ed il contesto
di scelta possono variare da agente ad agente e l’utilità che egli (n) deriva
dallo scegliere l’alternativa j nella situazione di scelta t può essere espressa
come segue:
0
Un jt = βn xn jt + εn jt
dove xn jt è il vettore delle variabili osservate, il vettore dei coefficienti βn
non è osservato per ciascun agente n e varia nella popolazione secondo una
densità f (βn | θ∗ ), θ∗ sono i parametri effettivi di questa distribuzione e εn jt
è il vettore dei termini aleatori non osservati che sono distribuiti IID EV.
Condizionato a βn , la probabilità che la persona n scelga l‘alternativa i nel
periodo t è data dal MNL:
0
eβn xnit
Lnit (βn ) = 0 (4.67)
∑ j eβn xn jt
La probabilità non condizionata, invece, è espressa dall’integrale della
probabilità condizionata rispetto a tutti i possibili valori di βn in altre parole
si può dire che:
Z
Qnit (θ∗ ) = Lnit (βn ) f (βn | θ∗ ) dβn

Per calcolare tale probabilità di scelta tramite il metodo della massima


verosimiglianza si deve conoscere la probabilità della sequenza di scelte os-
servate per ciascun agente campionato. Sia i (n,t) l’alternativa che l’agente n
sceglie nel periodo t. La probabilità di osservare una data sequenza di scelte
da parte della persona n, condizionata a βn , può essere espressa dal prodotto
del MNL come segue:

Sn (βn ) = ∏ Lni(n,t)t (βn )


t

La probabilità non condizionata per questa sequenza di scelte è, invece,


data da:

164
Z

Pn (θ ) = Sn (βn ) f (βn | θ∗ ) dβn (4.68)

Si noti che il vettore dei coefficienti βn rappresenta l’insieme di parametri


associati con l’agente n che possono essere interpretati come l’insieme delle
sue preferenze e possono variare da agente ad agente. La densità di questa
distribuzione è caratterizzata dai parametri θ∗ che rappresentano, ad esem-
pio, la media e la covarianza di βn . Scopo dell’analista è stimare θ∗ ovvero
i parametri della popolazione che descrivono la distribuzione dei parametri
individuali.
La funzione di log-verosimiglianza è data da LL (θ) = ∑n ln Pn (θ) e non
può essere stimata tramite la semplice massima verosimiglianza poiché l’inte-
grale (4.68) non può essere calcolato analiticamente. Si approssima la proba-
bilità desiderata attraverso la simulazione e la massimizzazione della funzio-
ne di massima-verosimiglianza simulata. Per un dato valore dei parametri θ
un valore di βn viene estratto dalla sua distribuzione e lo si usa per calcolare
Sn (βn ) (logit standard) e ripetendo tale processo molte volte e calcolando la
media dei Sn (βn ) calcolati si ottiene una approssimazione della probabilità
desiderata che risulta pari a:
 
1  
r|θ
SPn (θ) = ∑ n βn S
R r=1,...,R

r|θ
dove R è il numero di estrazioni di βn , βn è la r-esima estrazione da f (βn | θ),
e SPn (θ) è la probabilità simulata della sequenza di scelte dell’agente n. Per
costruzione SPn (θ) è uno stimatore non distorto di Pn (θ) la cui varianza si
riduce al crescere di R. Lo stimatore è smooth, ovvero la funzione di verosi-
miglianza è due volte differenziabile nei parametri e questo facilita la ricerca
numerica del massimo della funzione di massima verosimiglianza simulata.
La funzione è strettamente positiva per un qualsiasi numero finito di estra-
zioni R così che il logaritmo della probabilità simulata è sempre definito e le
probabilità simulate per una sequenza di scelte sommano ad 1 rispetto a tutte
le possibili sequenze e, allo stesso modo, le probabilità di scelta simulate in
ciascun periodo (una versione simulata di Qnit (θ)) sommano anch’esse ad 1
e ciò è particolarmente utile a scopo previsionale.
La funzione di log-verosimiglianza simulata è data da:

MV S (θ) = ∑ ln (SPn (θ))


n

165
e i parametri stimati sono quelli che la rendono massima. Lee (1992) e Ha-
jivassiliou e Ruud (1994) derivano la distribuzione asintotica dello stimato-
re MVS sulla base di simulatori smooth della probabilità con il numero di
estrazioni che cresce all’aumentare dell’ampiezza del campione. Date alcune
condizioni di regolarità, lo stimatore è consistente e asintoticamente normale.
Quando il numero di ripetizioni cresce più velocemente della radice quadrata
del numero di osservazioni esso risulta asintoticamente equivalente allo sti-
matore di massima verosimiglianza. Anche se la probabilità simulata è una
stima non distorta della probabilità effettiva, il logaritmo della probabilità
simulata con un numero fisso di ripetizioni costituisce, invece, una stima di-
storta del logaritmo della probabilità effettiva. La distorsione dello stimatore
MVS si riduce al crescere del numero delle ripetizioni.
In letteratura diverse specificazioni del ML sono state denominate in mo-
do diverso evidenziandone peculiari caratteristiche. Seguendo Train (2003)
nei prossimi due paragrafi si descrive l’interpretazione del ML a coefficienti
aleatori e quello con componenti di errore.

Il ML a coefficienti aleatori

La gran parte dei lavori empirici che utilizzano il ML mirano a verificare e


studiare la stocasticità dei parametri della funzione di utilità (Allenby e Lenk,
Bhat 2000, Mehndiratta 1996, Revelt e Train 1998, Train 1998, Train 2003).
L’unica differenza tra un ML a coefficienti aleatori e un ML con componenti
di errore risiede nell’interpretazione.
Se nella specificazione del ML con parametri aleatori si ipotizza che la
0
funzione di utilità sia data da equazioni del tipo Ui = b xi + εi dove i coef-
ficienti b sono aleatori con media β e deviazioni µ, lo stesso modello può
essere rappresentato specificandolo con componenti di errore del tipo Ui =
0 0
β xi + µ zi + εi in cui (µ è un vettore aleatorio con media zero che non varia
tra le diverse alternative, zi è un vettore di dati osservati che sono pertinenti
all’alternativa i ed εi è distribuito IID EV) sia z = x.
Per derivare il ML nella versione a coefficienti aleatori si suppone che il
decisore debba effettuare una scelta tra diverse alternative e l’utilità che la
persona n deriva dall’alternativa i è data da:
0
Uni = βn xni + εni (4.69)

dove xni sono le variabili osservate che si riferiscono all’alternativa ed al de-


cisore, βn è un vettore di coefficienti di queste variabili per la persona n che

166
rappresentano i gusti di tale persona, e εni è il termine di errore aleatorio che
si distribuisce IID EV. I coefficienti variano per ciascun agente nella popola-
zione con una densità f (β) che è funzione dei parametri θ che rappresentano
la media e la covarianza dei β nella popolazione. Questa impostazione è la
più diretta poiché assume la stessa impostazione del MNL anche se si ipo-
tizzano coefficienti diversi per i diversi agenti. In altre parole si assume che
l’agente conosca il suo βn e εni per tutti gli i e sceglie l’alternativa che genera
l’utilità strettamente superiore a quella prodotta da qualsiasi altra alternativa.
L’analista, al contrario osserva solo le xni e non le βn o le εni e non può calco-
lare la probabilità di scelta condizionata a βn ma solo quella non condizionata
che è data dall’integrale di Lni (βn ) per tutte le possibili variabili di βn :
0
!
eβ xni
Z
Pni = 0 f (β) dβ
∑Jj=1 eβ xn j
che è la probabilità di scelta del ML.
L’analista specifica la distribuzione dei coefficienti e stima i parametri di
quella distribuzione. Nei paragrafi seguenti si approfondiscono i dettagli e
le implicazioni relative alla scelta di una specifica distribuzione. La log-
normale, ad esempio, appare utile nel caso in cui si ha un forte a priori circa
il fatto che tutti gli agenti sono influenzati dalla variabile allo stesso modo,
anche se l’esperienza ci insegna che utilizzando tale distribuzione le stime
con difficoltà convergono. Si pensi al caso classico del coefficiente del prez-
zo che viene universalmente assunto con segno negativo per tutti gli agenti.
La scelta di una data distribuzione ha implicazioni circa il peso dei coefficien-
ti stimati poiché, ad esempio, usando una normale o log-normale si avranno
dei coefficienti particolarmente grandi per una parte dei decisori (soprattutto
quelli distribuiti nelle code) mentre, utilizzando una distribuzione uniforme o
triangolare tale problema viene evitato poiché entrambe le distribuzioni sono
limitate su entrambi i lati.

Il ML con componenti d’errore

Un diverso modo di interpretare ed impiegare il ML consiste nell’utilizzar-


lo per sottolineare il ruolo che la suddivisione della componente dell’utilità
stocastica in parti aventi caratteristiche diverse può avere nel modellare le
correlazioni tra le diverse utilità per diverse alternative. In altre parole, si può
specificare l’utilità come segue:
0
Uni = α0 xni + µn zni + εni

167
dove xni e zni sono vettori di variabili osservate che si riferiscono alla alter-
nativa i, α è un vettore di coefficienti fissi, µ è un vettore di termini aleatori
con media zero e εni si distribuisce IID EV. I termini in zni sono delle com-
ponenti di errore che, assieme a quelle comprese in εni , compongono la parte
stocastica dell’utilità che può essere espressa nel modo seguente:

0
φni = µn zni + εni

Tramite la specificazione di zni si può rappresentare la correlazione tra


le diverse alternative. La proprietà IIA del MNL deriva proprio dall’ipotesi
di correlazione nulla tra le alternative di scelta mentre nel caso in cui tale
correlazione sia presente tra le alternative la componente di errore non sarà
nulla e può essere espressa come segue:

 0  0  0
Cov (φni , φn j ) = E µn zni + εni µn zn j + εn j = zniW zn j

con la covarianza tra le µn rappresentata da W . Diversi tipi di correlazione


possono essere definiti tramite l’appropriato uso di variabili all’interno del-
le componenti di errore così da definire diversi pattern di sostituzione tra le
variabili. Ad esempio, un NL può essere specificato definendo una variabile
binaria per ciascuno dei nidi che si desidera rappresentare e questa assumerà
valore 1 quando la variabile si trova all’interno del nido e zero altrimenti. Un
modello eteroschedastico, invece, può essere definito utilizzando una compo-
nente di errore diversa per ciascuna alternativa.
Si ribadisce che la specificazione del ML con componenti di errore piutto-
sto che con parametri aleatori può produrre modelli formalmente equivalenti
che si differenziano solo nella fase di interpretazione dei risultati. Infatti, se
si usa la specificazione a parametri aleatori si assume ciascun coefficiente
variabile e si possono ipotizzare anche delle correlazioni tra tali coefficienti.
Nel caso, invece, in cui si utilizzi la specificazione con componenti di errore
si studiano le variabili che possono provocare fenomeni di correlazione tra le
alternative in modo tale da individuare pattern di sostituzione realistici tra le
alternative. È opportuno, comunque, tenere sempre presente che in entram-
be le specificazioni la funzione di distribuzione (mistura continua) serve per
catturare la varianza e la correlazione tra i fattori non osservati che influen-
zano la probabilità di scelta pur riconoscendo che “esiste un limite naturale a
quanto si possa apprendere da fatti che non sono osservati” (Train 2003).

168
Alcune questioni pratiche connesse alla specificazione del ML

Il ML è il modello che rappresenta lo stato dell’arte nel settore. Il suo utilizzo


è in forte crescita sia da parte di ricercatori esperti sia da parte di professio-
nisti. È bene puntualizzare alcune questioni pratiche che, se sottovalutate,
potrebbero provocare gravi errori. Infatti, nonostante la chiarezza della teoria
alla base del ML il suo utilizzo implica specifiche decisioni circa aspetti con-
tingenti che possono influenzare pesantemente la qualità del risultato finale.
In altre parole, scelte errate possono determinare conseguenze disastrose in
termini di risultati distorti a causa, ad esempio, della bassa qualità dei dati
rispetto alle necessità implicite nell’utilizzo del ML. Il riferimento per que-
sta serie di importanti questioni è sicuramente il lavoro di Hensher e Greene
(2003) al quale si rimanda per una trattazione esaustiva e a cui si fa riferimen-
to nell’esposizione di quanto segue. Qui di seguito si discutono le questioni
più rilevanti connesse alla scelta dei parametri aleatori, della funzione di di-
stribuzione per tali parametri, del numero e tipo di estrazioni da utilizzare
per la simulazione degli integrali oltre che della possibile correlazione tra i
parametri.

La scelta dei parametri aleatori

La scelta dei parametri aleatori è connessa al livello di dettaglio con cui si


vuole indagare la struttura delle preferenze. Infatti, assumere fisso o varia-
bile un parametro di una variabile esplicativa significa determinare il livello
di eterogeneità nelle preferenze che si vuole studiare. I parametri aleatori
servono per catturare l’eterogeneità nelle preferenze sia attraverso la devia-
zione standard degli stessi sia attraverso lo studio dell’interazione tra la stima
della media dei parametri ed i criteri di segmentazione deterministica. La
scelta delle variabili aleatorie è anche legata al modo in cui si intende model-
lare la correlazione tra alternative e tra contesti di scelta. Stimare modelli in
cui si assumono aleatori diversi attributi delle alternative di scelta è impor-
tante anche al fine della scelta di diverse distribuzioni per ciascun attributo
specialmente per quei casi in cui si hanno forti a priori circa il segno del
coefficiente come nel caso, ad esempio, del parametro dell’attributo costo.
I risultati ottenuti non sono del tutto invarianti rispetto al numero e tipo di
estrazioni campionarie impiegate per la simulazione. Conseguentemente, la
decisione circa il numero di parametri aleatori da utilizzare non può avvenire
indipendentemente dalla scelta relativa alle funzioni di distribuzione da im-
piegare, dal numero e tipo di estrazioni che si intende effettuare o, infine, nel

169
caso di studi di tipo SP in cui più esercizi di scelta vengono sottoposti allo
stesso agente, dalla presenza di correlazione tra i contesi di scelta. Non sor-
prende, quindi, che di fronte a data set di grandi dimensioni i tempi di stima
dei modelli ML possono risultare anche molto lunghi.
Per selezionare i parametri da porre come aleatori è bene partire dalla
stima di un MNL e, tramite il test del moltiplicatore di Lagrange proposto
da McFadden e Train (2000), determinare se accettare o meno l’ipotesi di
parametri fissi. Una sintesi di tale test è riportata da Brownstone (2001) che
illustra come il funzionamento del metodo poggi sulla costruzione di variabili
artificiali (zin ) come riportato qui di seguito:
zin = (xin − xi )2 (4.70)
dove xi = ∑ j x jn Pjn , e la probabilità Pjn viene prima determinata tramite la
stima del MNL e poi stimata nuovamente includendo anche le variabili ar-
tificiali. L’ipotesi nulla è che non ci sia alcun coefficiente aleatorio per gli
attributi x e viene rifiutata se le variabili artificiali risultano significativamen-
te diverse da zero. Di fatto il test per la significatività congiunta delle variabili
x può essere effettuato utilizzando o un test di Wald oppure tramite il rapporto
di verosimiglianza. Nonostante i test suggeriti risultino alquanto robusti e fa-
cili da effettuare, tuttavia, non servono a suggerire quali componenti di errore
includere in una specificazione del ML più generale (Brownstone 2001).

La scelta della funzione di distribuzione dei parametri aleatori

La rilevanza e le difficoltà insite nella scelta della distribuzione da adottare


per i parametri aleatori possono difficilmente essere sovrastimate. Norma-
le, triangolare, uniforme e log-normale sono le distribuzioni utilizzate più di
frequente per rappresentare i parametri aleatori nel ML. Le motivazioni della
scelta possono essere diverse e, comunque, legate agli a priori dell’analista.
Nei casi in cui si ritiene che il segno di un determinato attributo non possa
essere negativo, di solito, si adotta la distribuzione log-normale mentre nel
caso di variabili dummy un buon candidato è la distribuzione uniforme che è
vincolata all’intervallo [0, 1]. La scelta della distribuzione rappresenta sempre
una approssimazione arbitraria dell’effettivo profilo comportamentale dell’a-
gente basata sugli a priori dell’analista ed è bene riconoscere che, in pratica,
vi è molto spesso un problema legato sia al segno sia alla lunghezza delle
code delle distribuzioni.
Con riferimento alla distribuzione uniforme si evidenzia come nonostante
si possa utilizzare sia lo spread della media sia la deviazione standard per

170
caratterizzare la distribuzione queste sono differenti tra di loro e, di solito,
si preferisce impiegare lo spread √ anche se è possibile ottenere la deviazione
standard dividendo lo spread per 3 (Hensher e Greene 2003).
La distribuzione triangolare assomiglia ad una tenda con un centro in h,
media e moda, e uno spread di k che determina l’ampiezza della base della
tenda. La densità parte da h − k cresce linearmente sino a h e poi cala, sempre
linearmente, sino a h + k ed è pari a 0 sia prima di h − k sia dopo h + k ed ha
una deviazione standard pari a √k6 .
La distribuzione log-normale viene di solito impiegata quando si desidera
imporre un determinato segno ad un coefficiente. Questa, infatti, ha un domi-
nio non-negativo ed è caratterizzata da una coda molto lunga verso destra che,
soprattutto, nel calcolo della disponibilità a pagare, può produrre delle stime
distorte ed irrealistiche. Il teorema del limite centrale dà conto di come una
curva normale dipenda dall’immaginare un grande numero di shock aleatori
che influenzano, in modo additivo, il valore di un dato attributo x. Nel caso
in cui, invece, l’effetto abbia natura moltiplicativa l’applicazione del teorema
del limite centrale a Y = ln (x) produce una distribuzione normale e, quindi, x
assume una distribuzione log-normale. Vi è evidenza empirica che l’utilizzo
della distribuzione log-normale quando si desidera ottenere un valore negati-
vo della media stimata (ad esempio, coefficiente dell’attributo costo) provoca
problemi o in termini di convergenza delle stime o di medie troppo elevate
rispetto a quanto è ragionevole attendersi. È stato suggerito per ovviare a que-
sto problema di variare il segno dell’attributo prima di procedere alla stima
invece di imporre un cambiamento del segno del parametro stimato (Hensher
e Greene 2003).

L’imposizione di vincoli sulle distribuzioni

L’adozione di una specifica distribuzione per i termini aleatori del modello


porta con sé, contemporaneamente conseguenze positive e negative. Que-
st’ultime sono associate allo spread o alla deviazione standard che, a volte,
producono risultati non realistici da un punto di vista comportamentale co-
me per il caso emblematico della variazione dei segni per una distribuzione
normale o, nel caso della log-normale, per la sua coda troppo lunga. Si può
affrontare il problema rendendo lo spread o la deviazione standard di ciascun
parametro aleatorio funzione della media. Nel caso, ad esempio, della di-
stribuzione normale si definisce βi = β + svi dove vi rappresenta la variabile
aleatoria e si vincola la specificazione o assumendo βi = β + βvi che impone
l’uguaglianza tra la deviazione standard e la media (la deviazione standard

171
di vi è pari a 1), oppure ponendo βi = β + zβvi con z che denota il coeffi-
ciente di variazione e che può assumere un qualsiasi valore positivo (di solito
compreso tra 0 e 1 per ottenere stime dei parametri accettabili sotto un pro-
filo comportamentale). La specificazione vincolata può essere applicata a
qualsiasi distribuzione e particolarmente utile risulta quella in cui il vincolo è
espresso rispetto alla distribuzione triangolare poiché nel caso in cui si ha che
la media è uguale allo spread, se z = 1, allora la densità parte da zero, cresce
linearmente sino alla media, e cala sino a zero ad una distanza paria 2 volte la
media presentando, quindi, delle caratteristiche desiderabili. Ha un massimo,
è simmetrica, è vincolata sotto lo zero ed è anche vincolata sopra ad un valo-
re pari a 2 volte la media che sembra ragionevole e, quindi, ha caratteristiche
idonee a rappresentare coefficienti della disponibilità a pagare.

L’utilizzo di distribuzioni discrete

Alternativa all’imposizione di restrizioni alle distribuzioni continue è l’ipote-


si di assumere delle distribuzioni discrete dei termini aleatori. Questa ipotesi
equivale a segmentare per classi i coefficienti che rimangono invariati per la
classe. Ipotizzare funzioni di distribuzioni mistura discrete equivale a svilup-
pare un modello a classi latenti in cui la probabilità di appartenere ad un dato
segmento è soltanto funzione di costanti. In applicazioni di marketing, ad
esempio, si assume che le classi latenti corrispondano a potenziali segmenti
di mercato ciascuno dei quali caratterizzato da specifiche preferenze. Swait
(1994) ha anche evidenziato come, tali classi possano anche essere caratteriz-
zate da diverse varianze postulando, ad esempio che la classe s ha preferenze
βs e scala λs . In questo caso la funzione di utilità indiretta per i membri della
classe risulta:
Uin|s = λs αi|s + λs βs xin + εiq|s

e i termini di errore εiq|s sono distribuiti IID EV all’interno della classe e la


probabilità di scelta per i membri della classe s risulta pari a :

exp (λs βs xiq )


Piq|s =
∑ j∈Cn exp (λs βs x jn )

In questo caso la specificazione completa del modello richiede anche di


sviluppare un meccanismo per stimare la probabilità di un agente di appar-
tenere ad una data classe (Swait 1994) e se, per ipotesi, la probabilità di ap-
partenere alla classe s è data da Wns , allora la probabilità non condizionata di

172
scegliere l’alternativa i è data da:
S
Pin = ∑ Pin|sWns
s=1

In questo lavoro ci si concentra sulle distribuzioni mistura continue delle


componenti aleatorie e si rimanda a Hensher e Greene (2003) per un confron-
to approfondito tra i vantaggi e svantaggi dei due diversi modi di modellare
il contesto di scelta.

La stima empirica della distribuzione dei termini aleatori

Per selezionare il tipo di distribuzione più appropriato rispetto al campione di


dati di cui si dispone è bene adottare un approccio empirico visti i problemi
legati alla scelta della distribuzione dei termini aleatori, alla loro compatibi-
lità con ragionevoli interpretazioni comportamentali e, soprattutto, conside-
rando che l’effettiva distribuzione potrebbe essere bi- o anche multi-modale
rendendo, quindi, le distribuzioni solitamente impiegate inappropriate. Si
cerca di effettuare una scelta della distribuzione dei termini aleatori facendo
riferimento alla stima di parametri a livello di singolo agente. Per procede-
re lungo questo percorso si deve disporre di data set sufficientemente ricchi.
La determinazione dell’effettiva distribuzione in modo empirico presenta, a
sua volta, diversi ostacoli soprattutto connessi alla scarsa variabilità che può
rendere difficile ottenere stime dei parametri asintoticamente efficienti. Le
stime dei parametri dei singoli agenti derivate empiricamente possono es-
sere rappresentate in modo non-parametrico utilizzando delle densità kernel
per estrarre informazioni circa la loro distribuzione tra gli agenti presenti nel
campione (Greene 2000). Lo stimatore kernel della densità è uno strumento
utile poiché è in grado di descrivere la distribuzione di un parametro in ma-
niera non-parametrica ovvero senza dover adottare un’ipotesi a priori circa
la sottostante distribuzione.

La scelta del numero e del tipo di estrazioni per le simulazioni

La stima delle probabilità di scelta del ML prevede la soluzione tramite si-


mulazione di integrali multi-dimensionali e, conseguentemente, il numero e
il tipo di estrazioni campionarie necessarie per assicurare stime stabili dei
parametri costituisce una questione di interesse. Anche a fronte di rilevanti
capacità di calcolo, la simulazione di modelli con un numero elevato di para-
metri aleatori, con ampi data set ed in presenza di correlazione tra le alterna-

173
tive e tra agenti, può risultare molto oneroso in termini di tempo. La rilevanza
della questione ha prevalentemente risvolti pratici ma, influenzando anche il
numero di diverse specificazioni del modello che sarà possibile testare a pa-
rità di tempo, ha un impatto non secondario sulla qualità finale del risultato
ottenibile a parità di tempo impiegato. Non è possibile definire ex ante quale
debba essere il numero di estrazioni necessarie a garantire stime stabili ed af-
fidabili poiché tale numero è funzione anche del tipo di estrazione effettuata.
Bhat (2001) e Train (2003) mostrano, ad esempio, come con sole 25 estrazio-
ni di tipo Halton sia già possibile ottenere risultati stabili per un ML con tre
alternative, uno o due parametri aleatori, senza correlazione tra gli attributi, e
senza nessuna scomposizione dell’eterogeneità attorno alla media. Il numero
delle estrazioni necessarie per garantire la stabilità è, comunque, collegato
alla complessità generale del modello stimato e da ciò dipende l’attendibilità
del risultato, la possibilità di testare, per ciascun modello, la relativa capacità
esplicativa rispetto a specificazioni alternative e la possibilità di confrontare
le stime ottenute. L’andamento dei due primi momenti della distribuzione ed
i loro margini di variazione durante il processo di assestamento (con il variare
del numero delle estrazioni) può fornire utili informazioni circa l’attendibi-
lità del risultato ottenuto soprattutto con riferimento ad eventuali variazioni
della forma o della dispersione della distribuzione. Tali elementi assumono
particolare rilievo quando si cerca di stimare empiricamente, ad esempio, le
distribuzioni della disponibilità a pagare (valore del tempo).
Bhat (2001) e Train (1999) hanno mostrato come la varianza dei parame-
tri stimati risulta inferiore utilizzando 100 estrazioni di tipo Halton rispetto
all’impiego di 1.000 estrazioni casuali con una riduzione di un fattore di 10
nei tempi di stima. L’impiego di questo tipo di estrazioni consente di imma-
ginare la stima di modelli di scelta progressivamente più complessi anche se
ancora la questione va approfondita poiché vi è evidenza empirica (Sándor
e Train 2002) che mostra come l’utilizzo di estrazioni aleatorie, di tipo Hal-
ton, Niederreiter e di altri tipi diversi, possano provocare risultati imprevisti e
indesiderati. Infatti, a volte estrazioni puramente casuali producono risultati
di gran lunga superiori rispetto a quanto sia lecito attendersi e, in altri casi,
altri tipi di estrazione producono risultati di qualità inaspettatamente bassa.
Recenti contributi (Bhat 2003) suggeriscono che la disomogeneità dei risul-
tati potrebbe essere legata ai diversi algoritmi di massimizzazione impiegati.
Bhat mostra, confrontando la dimensionalità degli integrali rispetto al tipo di
estrazioni effettuate, come l’uniformità delle sequenze di Halton venga meno
nel caso di elevate dimensioni (correlazione nelle sequenze di elevate dimen-

174
sioni) e suggerisce di adottare una versione scrambled delle estrazioni Hal-
ton per interrompere queste correlazioni ed una versione randomizzata per
calcolare le varianze delle stime. I risultati delle recenti ricerche confermano
la necessità approfondire tali questioni che assumeranno rilevanza crescente
con il diffondersi dell’uso del ML.

Eterogeneità delle preferenze e media dei parametri aleatori

L’introduzione nel modello della interazione tra la media stimata del para-
metro aleatorio ed una covariata serve per indagare la presenza o assenza di
eterogeneità delle preferenze attorno alla media del parametro stimato. Ag-
giungere covariate che interagiscono con la media del valore stimato del pa-
rametro per una qualsiasi distribuzione che non richieda una trasformazione
non-lineare equivale a far interagire una covariata con il parametro aleatorio
dell’attributo ed aggiungerlo al modello come parametro fisso. Il risultato
ottenuto non è equivalente alla deviazione standard della stima del parame-
tro associato ad un parametro aleatorio. Infatti, se l’interazione risulta non
statisticamente significativa allora è possibile concludere che non vi è etero-
geneità attorno alla media sulla base delle covariate osservate ma questo non
consente di affermare che non vi sia, in assoluto, eterogeneità attorno alla
media. Si può, più semplicemente, sostenere che non si è stati in grado di
rilevarne la presenza. In un tale contesto l’analista si avvale, per descrive-
re la scelta, soltanto della media e della deviazione standard della stima del
parametro che è considerata l’unica fonte di tutti i tipi di eterogeneità del-
le preferenze. Come ci suggeriscono Louviere et al. (2002) è bene adottare
un quadro interpretativo della componente aleatoria dell’utilità che consideri
l’eterogeneità non osservata come una componente della variabilità non os-
servata. Si deve supporre che le componenti aleatorie molto probabilmente
non sono indipendenti rispetto alle componenti deterministiche della funzio-
ne di utilità e che le varianze delle componenti aleatorie non sono costanti tra
diversi agenti o per lo stesso agente nel tempo o in situazioni differenti. Le
motivazioni dell’approfondimento di tali questioni riguardano: lo sviluppo
di modelli più generali di scelta o di domanda, il miglioramento della quali-
tà della stima dei parametri relativi alla componente sistematica dell’utilità,
la fusione di tipologie di dati di natura o con caratteristiche diverse, la pre-
visione e simulazione di comportamenti di scelta oltre che il test di teorie
diverse per studiare i processi di scelta. La questione riguarda la distorsio-
ne delle stime dovuta alla mancata ed esplicita considerazione di eventuali
differenze nella componente aleatoria delle varianze tra i contesti nei qua-

175
li le scelte vengono osservate. Nelle scienze economiche e sociali la gran
parte della ricerca applicata trascura questi aspetti e l’impostazione manca
della generalità necessaria producendo risultati la cui validità è confinata allo
specifico contesto di riferimento. In effetti si dovrebbero studiare meglio le
distribuzioni dei parametri utilizzate nei modelli per specificare le componen-
ti deterministiche ed aleatorie poiché se gli agenti si caratterizzano dall’avere
componenti aleatorie e deterministiche uniche e ciascuna di queste ha la sua
specifica distribuzione allora si incontreranno seri problemi di identificazio-
ne nell’interpretazione degli effetti casuali nei modelli probabilistici di scelta
discreta.

La correlazione tra i contesti di scelta

Sempre più frequente è l’utilizzo di dati derivanti da indagini di tipo SP so-


prattutto per la loro utilità nello studio di contesti di scelta ipotetici per cui
i dati RP non sono disponibili o per quei casi in cui i dati RP non sono suf-
ficienti al perseguimento degli obiettivi d’analisi. Per contenere i costi delle
indagini negli studi di tipo SP di solito vengono somministrati ad uno stesso
individuo più esercizi di scelta. Pur riconoscendo che i dati di tipo SP risul-
tano ricchi di informazioni, tuttavia, la presenza di risposte multiple da parte
di un singolo agente rende necessario verificare la presenza di correlazione
nelle risposte che costituirebbe una violazione dell’ipotesi di indipendenza
caratterizzante la stima dei modelli classici di scelta. Le origini di tale cor-
relazione possono essere fatte risalire a diverse fonti tra le più importanti si
ricordano: 1) le caratteristiche socio-economiche di ciascun intervistato non
variano per un pacchetto di esercizi di scelta e l’impatto di tale fenomeno
sarà tanto maggiore quanto più elevato è il numero di esercizi di scelta che
viene sottoposto allo stesso individuo, 2) la sequenza degli esercizi di scelta
sottoposti all’attenzione degli agenti può provocare sia fenomeni di inerzia
(si sceglie A perché in precedenza si è scelto A) sia a fenomeni di apprendi-
mento (al crescere del numero di esercizi la struttura del design diventa più
chiara). La specificazione dei ML consente di rappresentare la correlazione
delle componenti di errore tra le scelte effettuate da uno stesso individuo in
diversi contesti di scelta. Infatti, le fonti non osservate dell’utilità possono
essere trattate in modi diversi. In particolare la correlazione e l’eterogeneità
delle preferenze risultano tra loro interdipendenti e, quindi, centrali nel trat-
tamento della correlazione nel ML. Si consideri un modello di scelta discreta
con eterogeneità tra le preferenze sia per gli attributi osservati sia per quelli

176
non osservati. Dato :

Uitn = αin + γn pitn + βn xitn + εitn

dove pitn rappresenta il prezzo, xitn costituisce l’attributo osservato di i che


varia sia tra individui sia tra profili di scelta, αin è l’intercetta specifica per
ciascun individuo per la i − esima alternativa determinata dalle preferenze di
n per la parte non osservata dell’attributo i, γn e βn sono i parametri dell’utilità
specifici per ciascun individuo che non variano da un esercizio di scelta al-
l’altro e, infine, si possono interpretare le εitn come variazioni specifiche per
ciascun esercizio di scelta rispetto alle preferenze dell’individuo n che, per
semplicità, si ipotizzano indipendenti tra diversi esercizi di scelta, alternative
ed individui. Nello stimare un MNL si ipotizza, quindi, che l’intercetta e l’in-
clinazione dei parametri sia la stessa per tutta la popolazione e la componente
di errore del modello risulta:
_ _ _
witn = α in + γ n pitn + β n xitn + εitn

dove il simbolo _ sta a significare la deviazione del valore specifico per sin-
golo individuo dalla media della popolazione. Si ricorda che dal punto di
vista dell’analista la varianza di questa componente aleatoria per l’individuo
n nell’esercizio di scelta t è data da:

var (witn ) = σ2αi + σ2γ p2itn + σ2β xitn


2
+ σ2ε (4.71)

Ipotizzando sia l’assenza di correlazione tra i parametri sia che la cova-


rianza tra gli esercizi di scelta in t e in t − 1 sia:

cov (witn , wi,t−1,n ) = σ2αi + σ2γ p2itn pi,t−1,n + σ2β xitq xi,t−1,q (4.72)

la (4.71) e la (4.72) mostrano come ignorare l’eterogeneità delle preferen-


ze provochi sia un errato trattamento della varianza del termine di errore tra
esercizi di scelta al variare del prezzo p e dell’attributo x sia come l’eteroge-
neità delle preferenze possa indurre una correlazione tra gli errori tra diversi
esercizi di scelta. Con riferimento al primo caso quando si stima un MNL
con una varianza costante del termine di errore si avranno conseguenze sia
sull’intercetta sia sull’inclinazione dei parametri tra diversi esercizi di scel-
ta poiché la varianza intrinseca non opportunamente trattata si manifesterà
in altro modo nel modello. Nel caso, ad esempio, di dati SP si potrebbe er-
roneamente concludere che vi siano degli effetti connessi all’ordine con cui

177
vengono somministrati gli esercizi mentre, di fatto, si tratta semplicemente
di una forma di varianza trattata in modo errato. Con riferimento, invece,
alla seconda questione evidenziata, si rileva che la correlazione tra esercizi di
scelta può essere spiegata dall’eterogeneità delle preferenze come nel caso in
cui si proceda alla parametrizzazione dell’interazione tra i prezzi e gli altri at-
tributi in due contesti di scelta. In effetti l’eterogeneità può essere considerata
una forma di correlazione tra i contesti di scelta. Per stimare correttamente i
parametri del modello si deve specificare in modo opportuno la struttura del-
l’eterogeneità nel modello. In particolare Daniels e Hensher (2000) e Bhat e
Castelar (2002) hanno mostrato come la correlazione degli errori tra alternati-
ve può essere confusa con l’eterogeneità dovuta alle preferenze non osserva-
te se non viene esplicitamente specificata come nel caso in cui si ipotizzano
aleatori tutti i parametri associati con ciascun attributo compreso il prezzo.
Infatti, se si ipotizza che l’eterogeneità delle preferenze deve e può influenza-
re tutti i profili di scelta che definiscono l’insieme delle risposte dell’agente
allora sarà possibile trattare la correlazione automaticamente attraverso l’e-
splicita modellizzazione dell’eterogeneità delle preferenze presente tra tutti
i profili di scelta così come definito dalla sottostante matrice di covarianza
dei parametri aleatori. Soprattutto con riferimento agli esercizi di scelta di
tipo SP che vengono somministrati allo stesso individuo in tempi brevi, l’i-
potesi circa la correlazione non riguarda tanto le capacità di apprendimento o
di accumulazione di esperienza dell’individuo (che è ragionevole ipotizzare
limitate nel breve periodo) quanto più la presenza di eterogeneità nelle prefe-
renze. Si assume che ciascun attributo specificato con un parametro aleatorio
sia indipendente da altri attributi specificati in modo analogo.

La correlazione tra i parametri

Indipendentemente dal numero di esercizi di scelta somministrati a ciascun


agente, in tutti i data set si possono avere, comunque, effetti non osservati
che sono correlati tra alternative. In un ML si possono trattare questi aspet-
ti immaginando che vi sia correlazione tra i parametri aleatori degli attributi
comuni tra le alternative. Si ipotizza che la matrice di covarianza sia carica
anche al di fuori della diagonale e che le covarianze identificano la dipenden-
za di un attributo dall’altro sia esso generico o specifico. L’utilità per ciascuna
alternativa di scelta può essere espressa come segue:

0
Uitn = βq xitn + εitn (4.73)

178
e dato che βn è aleatorio può anche essere scritto come βn = β + un dove β
rappresenta la media ed è fissa mentre un è la deviazione dalla media. La
(4.73) può essere riscritta come segue:
0
 0 
Uitn = βn xitn + un xitn + εitn (4.74)

che da conto della correlazione. Infatti, un risulta la stessa per tutte le al-
ternative e, quindi, le preferenze di ciascun individuo sono utilizzate nella
valutazione delle alternative e la loro aleatorietà fornisce la base per tene-
re conto della correlazione sia tra le alternative sia tra gli esercizi di scelta.
Sapendo quali sono gli insiemi di scelta sottoposti a ciascun individuo è pos-
sibile trattare sia la correlazione tra le alternative sia tra gli esercizi di scelta.
Infatti, anche se sembra irrealistico supporre che le preferenze individuali va-
rino nel breve periodo da un esercizio di scelta all’altro, tuttavia non si può
escludere a priori che esse siano indipendenti tra gli esercizi di scelta. In
presenza di più parametri aleatori nel modello e se si ipotizza correlazione tra
di loro, allora le deviazioni standard non sono più indipendenti. Per tenere
nella dovuta considerazione tale fenomeno si deve procedere alla scomposi-
zione delle deviazioni standard nelle componenti (specifiche e di interazione)
tramite la scomposizione di Choleski descritta in precedenza.

4.5.2 L’identificazione del ML


L’identificazione nel ML ha un ruolo critico al fine di un suo corretto utiliz-
zo. La grande flessibilità del ML che ne spiega anche la grande popolarità
è anche fonte, in potenza, di seri problemi di identificazione. La rilevanza
della questione è grande poiché una errata comprensione delle questioni atti-
nenti all’identificazione può provocare gravi problemi. Ad esempio, nel ML
si ipotizza che l’eterogeneità non osservata può essere trattata attraverso un
termine di errore che misura lo scostamento del comportamento dell’agente
studiato rispetto alla media del campione osservato ma, recentemente (Mu-
nizaga e Alvarez-Daziano 2001, Munizaga e Alvarez-Daziano 2005, Bhat e
Castelar 2002, Louviere et al. 2002, Greene e Hensher 2003) si è evidenziato
come, a volte, non sia possibile distinguere tra correlazione nelle risposte,
eterogeneità non osservata ed eteroschedasticità. L’identificazione del ML si
caratterizza sia per risvolti teorici, relativi alla identificazione, indipendente-
mente dai dati di cui si dispone (Koopmans 1949), (Walker 2001), sia empiri-
ci, ovvero imputabili soltanto al tipo di informazioni di cui si dispone (Chiou
e Walker 2006, Cherchi e Ortúzar 2008).

179
Da un punto di vista strettamente teorico Koopmans (1949) individua le
tre condizioni di ordine, rango e definizione positiva che devono essere sod-
disfatte per garantire l’identificazione del modello. La condizione di ordine
è una condizione necessaria che stabilisce il numero massimo di parametri
stimabili sulla base del numero di alternative presenti all’interno dell’insieme
di scelta. La condizione di rango è una condizione sufficiente che definisce
il numero massimo di parametri stimabili sulla base del numero di equazioni
indipendenti di cui si dispone. La condizione di definizione positiva risulta
necessaria solo quando le due precedenti condizioni suggeriscono di imporre
ulteriori vincoli e serve a verificare la validità della normalizzazione effet-
tuata. Walker (2001) riporta una descrizione dettagliata dell’applicazione di
questi principi ai modelli a scelta discreta e, in particolare al caso del ML.
Sotto un profilo empirico, invece, la possibilità o meno di stimare l’intera
struttura della matrice di covarianza dipende dalla qualità dell’informazione
contenuta nei dati a disposizione. Come ricordano Cherchi e Ortúzar (2008) i
parametri possono essere empiricamente identificati se il numero di osserva-
zioni ed estrazioni sono sufficientemente numerose da fornire le informazioni
necessarie. Tuttavia, la numerosità dei dati è condizione necessaria ma non
sufficiente poiché ciò che effettivamente conta è la qualità e ricchezza delle
informazioni contenute in ciascuna osservazione anche se è lecito attendersi
che, in genere, il contenuto informativo dei dati sia correlato positivamente al
loro numero.
Nonostante il crescente impiego del ML spesso sono trascurate le questio-
ni legate alla sua identificazione come ci ricordanoWalker et al. (2007) in un
articolo che tratta in maniera approfondita della questione.
Per tutti i modelli econometrici si devono imporre delle condizioni restrit-
tive per procedere alla stima. L’identificazione del modello concerne l’esi-
stenza o meno di una soluzione unica al problema posto. Un esempio intui-
tivo della questione lo fornisce la necessità di normalizzare il parametro di
scala del MNL. Ciò che determina la scelta sono solo le differenze nell’utilità
e, quindi, si avrà sempre almeno un parametro non identificato. L’identifi-
cazione riguarda le conclusioni che si possono o non si possono trarre da un
modello e sotto quali ipotesi questo sia possibile. Posta diversamente, la que-
stione dell’identificazione riguarda quali siano le restrizioni da imporre sul
modello per ottenere un unico vettore della stima dei parametri. Tali restri-
zioni possono essere divise in due differenti classi. In primo luogo vi sono
quelle che hanno un impatto più profondo e che attengono all’influenza che
qualsiasi restrizione imposta su un modello ha sul modo di rappresentare il

180
comportamento oggetto dello studio e che ne influenzano le capacità previ-
sionali. Manski (1995) offre una approfondita discussione di questo tipo di
restrizioni che attengono, ad esempio, all’individuazione delle equazioni di
domanda e di offerta ed evidenzia come forti assunzioni vanno effettuate per
porre rimedio a questo tipo di problemi anche nella consapevolezza che pos-
sono determinare profonde variazioni nei risultati finali. Un secondo tipo di
restrizioni, di minore rilevanza ed impatto, concerne il metodo utilizzato per
selezionare tra le infinite soluzioni possibili del modello una soluzione uni-
ca che sia anche soluzione del modello senza restrizioni. Questo problema
di identificazione viene spesso detto di normalizzazione e consiste nel deter-
minare dei vincoli per un sottoinsieme di parametri così da individuare una
soluzione unica garantendo al contempo che tale soluzione appartenga anche
all’insieme delle soluzioni del modello non vincolato. Tale identificazione è
necessaria per determinare gli errori standard dei parametri stimati ed utiliz-
zare, conseguentemente, le statistiche t per la verifica delle ipotesi e per la
determinazione degli intervalli di confidenza.

4.5.3 L’approssimazione di altri modelli tramite il ML


Una caratteristica molto apprezzata e potente del ML è, come hanno dimo-
strato McFadden e Train (2000), la possibilità di approssimare, a piacimento,
qualsiasi modello a scelta discreta8 . Una rilevante conseguenza del teore-
ma, la cui dimostrazione segue l’impostazione utilizzata da Dagsvik (1994),
è la possibilità di approssimare modelli aleatori parametrici che presentano
rilevanti difficoltà computazionali tramite il semplice utilizzo delle distribu-
zioni dei parametri sottostanti, opportunamente scalate, come distribuzioni
mistura. Tali distribuzioni, infatti, possono essere interpretate come appros-
simazioni simulate in cui si utilizza il MNL come kernel. Per un generico
0
modello RUM in cui sia Uni = τn xni dove xni sono le variabili connesse all’al-
ternativa i e τ si caratterizza per una distribuzione f (τ), allora, condizionata
a τ la probabilità di scelta dell’agente è determinata poiché si conosce, per
ciascun i, l’utilità Uni che o sarà nulla o pari a 1. Nel caso di una probabilità
8 Tale prerogativa è condivisa con il Mixed Probit (MP). La scelta tra quale dei due mo-
delli utilizzare per l’approssimazione è da effettuarsi sulla base delle specifiche necessità di
modellizzazione da parte dell’analista. Infatti, se da un lato il ML ha il notevole vantaggio
della forma chiusa del kernel logit il MP, per il quale solitamente si usa il simulatore GHK per
la stima delle probabilità di scelta e, quindi, comporta uno sforzo computazionali maggiore,
tuttavia, può consentire una più articolata specificazione della matrice di covarianza. Nel caso
del MP Brownstone e Train (1999) e Ben-Akiva e Bolduc (1996) utilizzando il simulatore
GHK ottengono approssimazioni accurate con tempi di simulazione brevi.

181
di scelta non condizionata si avrà:
Z  
0 0
Pni = I τn xni > τn xn j ∀ j 6= i f (τ) dτ

e può essere approssimata tramite un ML. Scalare l’utilità per un elemento λ


non avrà alcun effetto pratico poiché solo le differenze nell’utilità sono rile-
vanti ai fini della scelta. Se si può studiare, senza alcuna conseguenza pratica,
la scelta sulla base dell’utilità modificata Uni∗ = λτ xni l’aggiunta di un termi-


ne di errore εni distribuito IID EV sarà, invece, rilevante poiché questo temine
ha un impatto aleatorio sull’utilità di ciascuna alternativa. La dimostrazione
del teorema di McFadden e Train evidenzia che, nonostante l’aggiunta del
termine εni distorce il modello, tuttavia, utilizzando opportuni accorgimen-
ti (scaling dell’utilità) il termine inserito non ha effetti pratici (McFadden e
Train 2000). Dato lo scalig dell’utilità la probabilità del ML può essere scritta
come segue:  0 
Z
e ( λτ ) xni
Pni =  0
 f (τ) dτ
e ( τ
λ ) xn j

La probabilità di scelta assume valori prossimi a 0 o ad 1 quando λ → 0


dato che, in questo caso, λτ cresce progressivamente tanto che si può immagi-
nare il ML come uno stimatore smooth con kernel logit di qualsiasi modello.
In questo caso lo scaling dell’utilità ci garantisce che le perturbazioni del mo-
dello provocate dall’inserimento dell’errore aleatorio possono considerarsi
ininfluenti nei fatti.

4.5.4 Un’applicazione del ML: il trasporto intermodale


L’esempio che segue illustra un’applicazione del ML a coefficienti casuali
allo studio delle caratteristiche del trasporto intermodale per un campione di
piccole e medie imprese localizzate nelle Marche. Il problema studiato si
colloca all’interno del dibattito relativo alla sostenibilità ambientale del tra-
sporto merci. I documenti di indirizzo, sia a livello nazionale sia europeo,
assumono come ipotesi di lavoro la necessità di ridurre o contenere la quota
di trasporto merci su gomma. Uno dei metodi possibili per perseguire tale
obiettivo consiste nello stimolare la crescita del trasporto intermodale. Per
comprendere quali siano le possibilità di successo di tale politica è neces-
sario studiare approfonditamente le caratteristiche che connotano tale modo
di trasporto alternativo al tutto-gomma. Si dovrà poi analizzare come tali
caratteristiche vengano valutate ed apprezzate dai potenziali utilizzatori. In

182
altre parole, quali sono le caratteristiche che il trasporto intermodale dovreb-
be possedere per potersi candidare a soddisfare i prevedibili futuri incrementi
di domanda di trasporto? Il problema descritto è studiato acquisendo infor-
mazioni sulle preferenze delle imprese che generano la domanda di trasporto
attraverso l’utilizzo di indagini dirette. La domanda di trasporto merci si ca-
ratterizza per un elevato grado di eterogeneità sia per l’ampia diversificazione
merceologica sia per la variegata organizzazione della produzione e delle re-
lative catene logistiche. La natura del problema affrontato si sposa bene con
le caratteristiche del ML che consente di catturare le varie fonti di eteroge-
neità.
Nel caso illustrato, prima di somministrare gli esercizi di scelta agli inter-
vistati si è chiesto se vi fossero livelli degli attributi considerati inaccettabili.
Tale domanda mira a rilevare se vi sia, e in tale caso quale sia, un valore
soglia superato il quale l’agente non adopera più una strategia di scelta com-
pensativa ma ne adotta una non compensativa (Swait 2001). Tali valori soglia,
cut-off nel gergo proposto da Swait (2001), consentono di stimare curve di
utilità “penalizzate”, ovvero che tengono conto della presenza, nei profili di
scelta sottoposti agli intervistati, di livelli degli attributi giudicati inaccettabili
ex ante9 .
La base dati utilizzata deriva dalla somministrazione di esercizi di scelta
ad un campione di 53 imprese marchigiane appartenenti ai settori ATECO
“metallurgia e fabbricazione di prodotti in metallo” (DJ) e “altre industrie
manifatturiere” (DN). In particolare per il settore DJ sono stati considerati
solo i sottosettori 28.11.00, 28.52.00 e 28.75.3, e per il settore DN sono sta-
ti considerati i sottosettori 36.11.01, 36.11.02, 36.12.01, 36.12.02, 36.13.00,
36.14.01, e 36.14.0210 . La scelta di circoscrivere ai soli settori Ateco DJ e
DN l’indagine, a differenza di precedenti studi sull’argomento (Danelis e Ro-
taris 2003, Polidori 2003) è mirata a ridurre le fonti possibili di eterogeneità.
Infatti, tale scelta consente sia una migliore comprensione delle caratteristi-
che della domanda di trasporto per una specifica tipologia merceologica sia

9I cut-off possono essere di tipo hard o di tipo soft. I primi rappresentano quei valori
soglia che, una volta dichiarati, non vengono mai violati. I secondi, invece, sono quelli che,
una volta dichiarati, sono violati nei casi in cui la violazione è adeguatamente compensata
da variazioni vantaggiose nei livelli dei rimanenti attributi. L’utilizzo di tale accorgimento sia
nell’elicitazione delle preferenze sia nella stima, si dimostra empiricamente importante poiché
i coefficienti dei cut-off per gli attributi considerati risultano molto spesso statisticamente
significativi ed hanno un impatto ragguardevole sui coefficienti degli attributi.
10 La classificazione ATECO è consultabile sul sito dell’ISTAT, all’indirizzo

http://www.istat.it/Definizion/index1.htm.

183
di focalizzare l’attenzione su due settori con una forte concentrazione territo-
riale (rispettivamente Ancona e Pesaro). L’estrazione campionaria è avvenuta
partendo dalla popolazione delle aziende delle Marche (ISTAT, Censimento
2001). Lo studio mira alla stima delle preferenze dei caricatori e, dati gli
stringenti vincoli di tempo e risorse, l’attenzione si è focalizzata su azien-
de con più di 40 addetti ipotizzando sia che tali aziende dispongono di un
responsabile aziendale della logistica da intervistare sia che ad un maggio-
re numero di addetti per azienda corrisponda anche un maggior numero di
spedizioni ed arrivi. La base dati utilizzata per le stime risulta composta di
51 interviste utilizzabili. A ciascuna impresa intervistata sono stati sottoposti
15 esercizi di scelta che hanno generato un totale di 765 osservazioni. Ini-
zialmente è stato stimato un MNL che ha fornito un’idea preliminare delle
caratteristiche salienti della domanda.
Successivamente sono stati inseriti i cutt-offs, sotto forma di variabili dum-
my, per tenere conto della presenza di livelli negli attributi considerati inac-
cettabili. Ad esempio, per includere nel modello la presenza di cut-off sul
modo di trasporto utilizzato, si è creata la variabile kmodoi j che assume va-
lore 1 se l’alternativa j viola il cut-off sul modo dell’azienda e 0 altrimenti
(l’azienda i non esclude a priori la possibilità di utilizzare un trasporto di tipo
intermodale). Anche le variabili relative alla presenza di cut-off violati sono
state inserite linearmente nella funzione di utilità così che la violazione del
cut-off viene considerata come un attributo addizionale.
La struttura delle preferenze relative alla scelta modale nel trasporto mer-
ci è caratterizzata da forte eterogeneità derivante da varie fonti. Tra queste si
ricordano, ad esempio: le peculiarità della merce trasportata (rinfuse, tempe-
ratura controllata, freddo, surgelato, pallettizzato, etc.); le preferenze dell’a-
zienda che commissiona il trasporto (determinate dalla struttura del mercato
sul quale opera e dalla posizione che in esso ricopre); le preferenze degli ope-
ratori che effettuano il trasporto, il contesto spaziale in cui viene effettuato il
trasporto (se extraurbano > 400 km l’intermodale è economicamente possi-
bile, se urbano o interurbano breve (50 < km < 400) solo il tutto gomma
risulta competitivo); gli standard di funzionamento del mercato di riferimen-
to. Tali a priori sulla domanda hanno suggerito di stimare un ML a parametri
casuali. L’effetto dei diversi attributi sull’utilità (misurato dai rispettivi para-
metri) non viene ipotizzato costante nella popolazione osservata ma varia da
azienda ad azienda.
I risultati delle stime sono riportati nella tabella (4.1).
L’attributo SQ è stato inserito nel modello per testare la presenza di av-

184
Tabella 4.1: Stima dei parametri del MNL

Attributo Coeff. Err. stnd. Stat. t p-value


SQ 0.8665 0.1554 5.578 0.0000
Modo 0.8665 0.1554 5.578 0.0000
Costo -9.7828 0.8995 -10.876 0.0000
Durata -0.2711 0.0933 -2.906 0.0037
Puntualità 2.0874 0.5572 3.747 0.0002
Danni -14.1060 1.3772 -10.243 0.0000
Frequenza -0.2028 0.2149 -0.944 0.3453
Flessibilità -0.3103 0.2153 -1.442 0.1494

versione al cambiamento da parte delle aziende. Infatti, SQ assume valore 1


se l’alternativa scelta è quella attualmente utilizzata e 0 altrimenti. Il coeffi-
ciente di tale parametro è risultato significativamente diverso da 0 e positivo,
indicando una preferenza delle aziende per la soluzione di cui fanno già uso.
Anche il coefficiente del modo è significativo e di segno positivo evidenzian-
do che, qualora le aziende abbandonino lo status quo, l’alternativa intermoda-
le risulta di interesse. Costo, durata e danni sono tutti attributi statisticamente
significativi e con coefficiente negativo. Miglioramenti della puntualità incre-
mentano l’utilità, mentre frequenza e flessibilità sono influenti nello spiegare
la scelta. Nel complesso il modello ha una buona capacità esplicativa con un
ρ2 di 0,4107 ed un ρ2 aggiustato di 0,4076.
La tabella (4.2) riporta i risultati considerando i cut-off. Il modello ha una
maggiore capacità esplicativa rispetto al precedente con un ρ2 di 0,4477, e
un ρ2 aggiustato di 0,4437. Tutti i cut-off influenzano negativamente l’utilità
e la loro violazione penalizza la probabilità di scelta di quella alternativa.
Durata e puntualità non hanno un effetto statisticamente significativo anche
se i cut-off di tali attributi mantengono, invece, un ruolo importante e negativo
sull’utilità. Costo e danni conservano un effetto negativo sull’utilità anche se
ridotto poiché i rispettivi cut-off contribuiscono a spiegare la scelta. Si rileva
che l’introduzione dei cut-off annulla l’effetto di avversione al cambiamento.
Le aziende preferiscono l’alternativa attuale perché vi sono alcuni livelli degli

185
attributi considerati inaccettabili nelle altre alternative piuttosto che a causa
di una aprioristica avversione nei confronti di soluzioni nuove.

Tabella 4.2: Stima del MNL con cut-off

Attributo Coeff. Err. stnd. Stat. t p-value


SQ -0.1090 0.2091 -0.521 0.6023
Modo 0.7931 0.1882 4.213 0.0000
Costo -5.9122 1.2641 -4.677 0.0000
Durata 0.0905 0.1280 0.707 0.4799
Puntualità 0.5224 0.9011 0.580 0.5621
Danni -8.9928 1.9188 -4.687 0.0000
K_Modo -0.4578 0.2273 -2.014 0.0440
K_Costo -1.6770 0.3591 -4.670 0.0000
K_Durata -0.9855 0.2370 -4.158 0.0000
K_Puntualità -0.6602 0.2561 -2.578 0.0099
K_Danni -0.8681 0.2477 -3.505 0.0005

La tabella (4.3) riporta le stime di un ML a parametri casuali (distribuiti


normalmente) per il costo e i danni. Sono state testate diverse combinazioni di
parametri (fissi e casuali) e per i parametri casuali diversi tipi di distribuzione.
Il modello riportato nella Tabella (4.3) è quello con migliore capacità espli-
cativa tra quelli testati. La log-verosimiglianza del MNL era pari a -464.7801
mentre quella del ML è -412.5812 testimoniando una presenza rilevante del-
l’eterogeneità nei processi di scelta che si manifesta, ad esempio, con una
sensibilità al costo e ai danni molto variabile da azienda ad azienda dato che
entrambe le distribuzioni hanno una deviazione standard significativamente
diversa da 0, pari rispettivamente a 11.6964 e a 15.3906.
Il ML a parametri casuali evidenzia la presenza di una rilevante etero-
geneità. Ai fini di politica di intervento è utile individuare la fonte di tale
eterogeneità così da tracciare linee di intervento customizzate e tali da otte-
nere i risultati desiderati. Se si intende incentivare l’utilizzo dell’intermodale
è bene conoscere quali siano le aziende più sensibili ad uno specifico attri-

186
Tabella 4.3: Stima del ML con cut-off

Attributo Coeff. Err. stnd. Stat. t p-value


Modo 1.0958 0.2161 5.070 0.0000
Costo -8.5409 2.2593 -3.780 0.0002
Danni -24.0243 4.8996 -4.903 0.0000
K_Modo -0.6055 0.2760 -2.193 0.0283
K_Costo -2.0509 0.4167 -4.922 0.0000
K_Durata -0.7004 0.1977 -3.543 0.0004
K_Puntualità -1.0574 0.1715 -6.167 0.0000
K_Danni -0.5652 0.3256 -1.736 0.0826
sd(Costo) 11.6964 1.8743 6.240 0.0000
Sd(Danni) 15.3906 3.0397 5.063 0.0000

buto del trasporto così da agire in maniera mirata. Per estendere la valenza
dei risultati ad altre aziende si deve conoscere quali caratteristiche aziendali,
merceologiche e trasportistiche influenzano il livello di sensibilità rispetto ad
uno specifico attributo. Tale indagine può essere condotta impiegando delle
covariate riferite non tanto alle alternative quanto all’azienda che effettua la
scelta e al suo trasporto tipico. Covariate che caratterizzano il settore in cui
opera l’impresa, la sua localizzazione, le sue dimensioni, la localizzazione
dei clienti o dei fornitori, il volume e il valore unitario del trasporto tipi-
co. Queste covariate possono essere inserite nell’espressione della media dei
parametri casuali in modo da valutare l’effetto che hanno su di essa.

4.6 Evoluzioni dei modelli a scelta discreta

La lezione tenuta nel 2000 da McFadden in occasione dell’assegnazione del


Premio Nobel per l’economia (McFadden 2001) costituisce un buon punto
di partenza per descrivere le recenti evoluzioni, metodologiche e tematiche,
dei modelli a scelta discreta. McFadden oltre a ricostruire, in una prospettiva

187
storica, le varie fasi evolutive di tali modelli, propone anche un’agenda di
ricerca, relativa alle principali questioni metodologiche e tematiche.
McFadden nella sua Nobel Lecture indica alcuni aspetti innovativi che
costituiscono avanzamenti importanti nel processo di analisi delle scelte eco-
nomiche. Sotto un profilo metodologico ricorda, ad esempio, le seguenti que-
stioni: il modello generalizzato ad utilità stocastica che propone una visione
congiunta ed integrata del crescente ruolo da ascrivere all’impiego delle va-
riabili latenti e delle classi latenti, l’utilizzo combinato dei dati di preferenze
rivelate congiuntamente con quelli di preferenze dichiarate. Da un punto di
vista tematico suggerisce di intensificare gli sforzi rispetto all’analisi dell’ete-
rogeneità, dello studio dell’interazione tra gli agenti oltre a quello dei diversi
meccanismi di processamento delle informazioni.

4.6.1 Le innovazioni metodologiche


Per quanto riguarda le innovazioni metodologiche che si sono succedute nel
tempo si rileva come gli studiosi delle scelte discrete abbiano, soprattutto con
riferimento alle applicazioni nel mondo dei trasporti, concentrato i propri in-
teressi e sforzi nell’arricchire ed irrobustire i modelli RUM che ne costitui-
scono il principale riferimento teorico. Le motivazioni di tale sforzo vanno
ricercate nel desiderio di migliorare la comprensione dei fenomeni, da un la-
to, e di rendere più accurate le stime e le previsioni, dall’altro. Nel rispetto
del fondamentale e generale principio della parsimonia per giustificare l’op-
portunità dell’impiego di modelli più sofisticati è sempre bene verificarne il
vantaggio relativo in termini di migliore capacità esplicativa e robustezza ri-
spetto a quelli più semplici. Diverse sono state le innovazioni introdotte in
letteratura rispetto al MNL o MNP, tuttavia, tali innovazioni, metodologiche e
modellistiche, sono avvenute singolarmente ed in modo disgiunto le une dal-
le altre senza che vi fosse uno sforzo organico, consapevole e predeterminato
di valutarne potenzialità e criticità.
Le principali innovazioni metodologiche introdotte sono: la specificazio-
ne del ML ad errori flessibili, l’impiego, nella stime, delle variabili latenti e
delle classi latenti, oltre che l’utilizzo congiunto di variabili rivelate e dichia-
rate. Qui di seguito si provvede a delineare un quadro di riferimento entro
cui collocare tali innovazioni. L’applicazione congiunta di più innovazioni
metodologiche spesso da origine a modelli complessi e realistici che però
presentano anche maggiori difficoltà di stima. La convenienza concreta di
procedere alla definizione, caratterizzazione, identificazione e stima di tali
modelli deve essere valutata, di volta in volta, a seconda del contesto deci-

188
sionale di riferimento, della qualità dei dati, ecc., poiché lo sforzo connesso
alla stima non è quasi mai banale e solo rilevanti incrementi nella capacità
esplicativa del modello possono giustificarne l’adozione.

Il modello generalizzato ad utilità stocastica

Il modello RUM può essere schematicamente rappresentato come in figura


(4.1).

!"#$"%$&$'()*&$+",-('./0'

;(#<$5$'6$'(##7#('.=0'

>?@?ABCD'
'
E(&"9$75(')2#FGF#"&('
1,&$23'.10'
'
E(&"9$75('6$'<$)F#"'
'
B$)2F#%$'
'
!"#$"%$&$'7))(#-"%$&$'
'
'
!"#$"%$&$'575'7))(#-"%$&$'
456$+"27#$'6$'*#(8(#(59('#$-(&"2('.:0'

Figura 4.1: Il modello RUM

Tale impostazione, in linea con la teoria microeconomica classica, assu-


me che un individuo scelga un’alternativa, tra quelle presenti nel suo insieme
di scelta, al fine di massimizzare la propria utilità (U) che viene considerata
latente poiché se ne acquisiscono informazioni solo attraverso le scelte y che
costituiscono degli indicatori osservabili di preferenza, ovvero una manifesta-
zione dell’utilità sottostante che si suppone l’individuo stia massimizzando.
Nel nostro caso si ipotizza che l’utilità sia funzione di un insieme di variabili
esplicative x che descrivono, di solito, sia le caratteristiche dell’agente n sia la
specifica alternativa i oggetto della valutazione. L’equazione che descrive la
funzione di utilità U dell’agente n rispetto all’alternativa i può essere, quindi,
espressa come segue:

189
Uin = V (xin ; β) + εin (4.75)
dove con εin si denotano i termini di errore stocastici e con β si rappresenta il
vettore dei parametri da stimare tramite la massimizzazione della funzione di
log-verosimiglianza.
Il Generalised Random Utility Model (GRUM) costituisce una estensione
naturale del RUM originario e il lavoro di Walker e Ben-Akiva (2002) ha,
tra gli altri, il non trascurabile pregio di fornire un quadro di riferimento,
coerente ed ordinato, al cui interno è possibile collocare, in modo chiaro e
logico, le diverse innovazioni progressivamente introdotte in letteratura. Lo
schema logico concettuale di un modello GRUM può essere schematizzato
come in figura (4.2).

!"#$"%$&$'()*&$+",-('

0$)18#%$' 0$)18#%$'

320(&&2'"'
320(&&2'"'
'
4&"))$' !"#$"%$&$' '

./0$+"12#$' 5"1(/,' 5"1(/,' ./0$+"12#$' !"#$"%$&$'


4&"))$'5"1(/,' ' '
5"1(/,'
=(#/(&'('"&1#$'0$)18#%$'
'

./0$+"12#$9'
6,&$17' *#(:(#(/;('
0$+<$"#"1('
'

'

./0$+"12#$9'
*#(:(#(/;('
#$-(&"1('
'

320(&&2'0$')+(&1"'

Figura 4.2: Il modello GRUM

In tale impostazione il modello RUM assume il ruolo di kernel del GRUM.


Le ipotesi semplicistiche del RUM sono messe in discussione e la loro vali-
dità criticata. Le scienze comportamentali sottolineano l’importanza di co-
noscenza, apprendimento ed atteggiamenti mentali nello spiegare il modo di
agire delle persone. Gli scienziati cognitivi hanno scoperto delle anomalie
che violano il paradigma microeconomico classico che è alla base dei mo-
delli a scelta discreta. I ricercatori hanno cercato, per rispondere alle critiche

190
provenienti da questo fronte, di rendere più flessibili e potenti i modelli a
scelta discreta ampliandone e potenziandone le capacità esplicative. In gene-
rale i singoli miglioramenti apportati ai modelli di base (MNL e NL) hanno
implicato il superamento di specifici punti di debolezza caratteristici di tali
modelli così da arricchirne le capacità esplicative ed aumentandone il grado
di realismo nella stilizzazione del fenomeno studiato.
È bene ribadire che seppure il riferimento principale per il GRUM sia il
contributo di Walker e Ben-Akiva (2002) esso ha diversi progenitori illustri
e molti hanno contribuito al suo sviluppo, anche se solo per singole compo-
nenti. In particolare si ricordano i lavori di McFadden (1984) e Ben-Akiva
e Bolduc (1996) per i primi contributi relativi all’introduzione di termini di
errore flessibili all’interno della famiglia dei modelli logit; Ben-Akiva e Boc-
cara (1987) e Morikawa et al. (2002) per l’impiego di dati di natura psico-
metria e variabili latenti nei modelli di scelta; Gopinath (1995) per l’organica
discussione di modelli atti a segmentare in classi latenti gli agenti oltre che
Ben-Akiva e Morikawa (1990) che per primi hanno lavorato sull’utilizzo con-
giunto di dati di preferenze dichiarate e di preferenze rivelate per migliorare
la capacità esplicativa dei modelli a scelta discreta.
Il modello RUM costituisce il kernel del GRUM su cui costruire e innesta-
re le diverse estensioni. Indipendentemente dalla specifica forma funzionale
il kernel è concepito come nell’equazione (4.75). Solitamente si adotta o un
MNL o un NL. La scelta della forma funzionale è dettata dalla natura e qua-
lità dei dati a disposizione.
Le variabili latenti nei modelli GRUM servono per studiare concetti ed
attitudini che, pur se di grande interesse in alcuni contesti decisionali11 , non
possono essere definite con esattezza e, tanto meno, misurate direttamente.
Fenomeni di questo tipo possono essere, ad esempio, la conoscenza, l’am-
bizione, la personalità, l’ideologia, l’appartenenza politica o altro ancora.
Tutti questi elementi vengono detti concetti latenti. Già nei primi anni ’70
alcuni autori si interessano a questi aspetti (Keesling 1972, Wiley 1973) e
sebbene non vi siano modelli che possano direttamente stimare l’influenza
degli aspetti menzionati, comunque, si può inferirne il peso nell’influenzare
le scelte sull’ipotesi anche se il concetto in sé non è direttamente osservabile
(personalità dell’intervistato) i suoi effetti sulle variabili misurabili lo sono
e, quindi, possono fornire informazioni sulle variabili latenti sottostanti. In

11 Si pensi ai valori etici che contraddistinguono il mondo del commercio equo e solidale

oppure l’idea di combattere lo strapotere delle multinazionali quando si scarica illegalmente


la musica da internet.

191
funzione dei diversi contesti di scelta, composizione del campione in esame,
specifico oggetto della scelta, etc. il ruolo delle variabili latenti può assu-
mere un ruolo molto importante. I modelli GRUM trattano esplicitamente
questi problemi incorporando fattori psicologici (percezioni, atteggiamenti,
preconcetti) che possono influenzare la scelta. Tale inclusione avviene in-
troducendo tra le variabili da stimare anche delle variabili latenti sottostanti.
Diversi sono gli approcci proposti, in letteratura, riguardo questo problema.
Per Ben-Akiva et al. (1999) il GRUM si compone di due parti: quella relativa
al modello di scelta in sé e quella relativa alle variabili latenti. Anche se il
modello in sé rassomiglia molto ad un normale RUM, in questo caso, alcune
variabili esplicative inserite nel modello non sono direttamente osservabili e
vengono denotate diversamente (xn∗ ) per sottolineare che non possono essere
misurate direttamente. La funzione di utilità può essere scritta come segue:
Un = V (xn , xn∗ ; β) + εn . (4.76)
e la probabilità di yn , condizionata ad xn∗ , può essere espressa come segue:
P (yn | xn , xn∗ ; β, θn ) (4.77)
Per ottenere la probabilità non condizionata che ci interessa conoscere si
procede all’integrazione per tenere conto della distribuzione delle variabili la-
tenti. Si ipotizza che le variabili latenti, che si immagina influenzino la scelta,
siano legate, in qualche modo, ad un insieme di variabili osservabili (xn ), ad
un insieme di parametri (λ) oltre che ad un termine di errore (ωn ) caratteriz-
zato da una sua distribuzione (ωn ∼ D (θω )). In altre parole si ipotizza che
per la variabile latente xn∗ si possa scrivere che:
xn∗ = x∗ (xn ; λ) + ωn (4.78)
Dalla (4.78) si deriva la funzione di densità f (xn∗ | xn ; λ, θω ) che consente
di calcolare la probabilità non condizionata ovvero:
Z
P (yn | xn ; β, λ, θε , θω ) = P (yn | xn , x∗ ; β, θε ) f (x∗ | xn ; λ, θω ) dx∗ (4.79)

Per stimare il modello si ha bisogno di dati psicometrici che possono es-


sere ottenuti da risposte a domande di natura attitudinale o percettiva per poi
venire utilizzati come indicatori di elementi psicologici latenti. L’incorpora-
zione di tali dati nel modello avviene descrivendo gli indicatori (In ) in funzio-
ne di variabili latenti (xn∗ ), di un insieme di parametri (α) e di un termine di
errore νn ∼ D (θν ), ovvero si immagina che:
In = I (xn∗ ; α) + νn (4.80)

192
L’equazione (4.80) consente di stimare la funzione di densità degli in-
dicatori f (In | X ∗ ; α, θν ) che, incorporata nella funzione di verosimiglianza,
permette di esprimere la probabilità di scelta del modello come segue:

P (y , I | x ; β, α, λ, θε , θν , θω ) =
R n n n ∗ (4.81)
P (yn | xn , x ; β, θε ) f (In | x∗ ; α, θν ) f (x∗ | xn ; λ, θω ) dx∗

In letteratura si ritrovano diversi contributi che hanno seguito l’approccio


qui descritto e tra questi si ricorda Bernardino (1996) con un’applicazione al
telelavoro, Eymann et al. (2001) modellizzano le scelte di portafoglio degli
investitori, Hosoda (1999) studia la scelta modale per fare shopping, Mori-
kawa et al. (2002) applicano questo approccio allo studio della scelta modale
negli spostamenti interurbani.
L’utilizzo di modelli a classi latenti (LC) consente di studiare l’eterogenei-
tà non osservata tra gli agenti quando si suppongono comportamenti di scelta
differenti per ciascuna classe ma omogenei al loro interno. In altre parole il
LC ipotizza, a differenza del ML, funzioni di mistura discrete e una diversa
funzione di utilità per ciascuna classe (s):

Uns = V (xn ; βs ) + εsn (4.82)

così che i parametri possono variare in funzione, ad esempio, delle alternative


disponibili o della struttura del modello, in funzione delle diverse strategie
di processamento delle informazioni disponibili (Hensher et al. 2005b). La
(4.82) consente di definire un modello di scelta specifico per ciascuna classe
(s) come segue:
P (i | Xn , sn ; βs , θsε ) (4.83)
dove, se non è possibile determinare univocamente la classe di appartenenza
di ciascun agente, tuttavia, si può stimare la probabilità di appartenenza alla
classe utilizzando, appunto, un modello così definito:

P (sn | Xn , γ) (4.84)

in cui si definisce la probabilità che il decisore n appartenga alla classe s date


le variabili esplicative xn ed i parametri γ. Per rendere operativo il modello si
deve specificare la forma funzionale del modello di appartenenza alle speci-
fiche classi e di solito si adotta un semplice modello logit. Gopinath (1995)
approfondisce tale aspetto suggerendo forme funzionali più complesse e giu-
stificandone puntualmente l’adozione. Il modello di scelta completo in cui

193
si incorpora anche il modello di appartenenza alla classe può essere espresso
come segue:
S
P (i | xn ; β, γ, θε ) = ∑ P (i | xn , s; βs , θsε ) P (s | xn ; γ) (4.85)
s=1

 0 0
0  0 0
0
dove β = β1
, ... , (βs )
e θε = , ... θ1ε , (θsε )
, e descrive le proba-
bilità di scelta solo attraverso l’impiego di variabili osservabili.
Altra innovazione metodologica recentemente introdotta nei modelli a
scelta discreta riguarda l’impiego congiunto di diverse tipologie di dati e in
particolare di dati RP e SP al fine sfruttarne i rispettivi punti di forza e mi-
nimizzando, al contempo, l’impatto di quelli di debolezza. I dati RP sono
derivati da effettive scelte sul mercato e sono, quindi, congruenti sotto un
profilo cognitivo con l’effettivo comportamento. I dati SP derivano da esperi-
menti di scelta controllati e forniscono informazioni ricche circa le preferenze
degli individui. Per procedere all’utilizzo congiunto di entrambi le tipologie
di dati si assume che entrambi contengono indicazioni attendibili dell’utilità
non osservabile e che sia possibile esprimere due diverse equazioni di utilità
in funzione del tipo di dati impiegati. In maggiore dettaglio si ipotizza che,
per i dati RP sia:
UnRP = V xnRP ; βRP + εRP

n (4.86)
mentre per quelli SP si abbia:

UnSP = V xnSP ; βSP + εSP



n (4.87)

Stimando separatamente i modelli si determinano due funzioni di verosi-


miglianza indipendenti:

P yRP
RP RP RP 
n Xn ; β , θε (4.88)

e
P ySP
SP SP SP 
n Xn ; β , θε (4.89)

Nell’effettuare studi di tipo SP si ipotizza che il trade-off tra i vari attri-


buti è lo stesso sia per i dati RP sia per quelli SP12 e, quindi, vi sono vantaggi
rilevanti nello stimare congiuntamente βRP e βSP . Infatti, così facendo, da un
lato si correggono le distorsioni dei dati SP (tipicamente la correlazione tra
12 In caso contrario sarebbe inutile procedere con l’indagine.

194
più risposte fornite dallo stesso agente) e, dall’altro, si identificano, ad esem-
pio, gli effetti di nuovi prodotti non ancora presenti sul mercato impossibili
da studiare con dati RP. Questa ultima caratteristica dei dati SP costituisce il
motivo principale del loro impiego anche se, in altri casi, il loro utilizzo mira
a porre rimedio alla scarsa variabilità e/o forte correlazione degli attributi nei
dati RP. Per utilizzare correttamente dati SP e RP assieme si devono conside-
rare due diverse questioni connesse al termine di errore. La prima riguarda la
potenziale presenza di correlazione tra le risposte date da uno stesso individuo
nei dati SP. Questo problema richiede una correzione tramite l’esplicita intro-
duzione di un termine di correlazione. La seconda questione riguarda, invece,
l’ipotesi circa la struttura di una stessa covarianza per i due modelli. Non è
corretto supporre a priori, senza un test preventivo, che entrambi i modelli
abbiano la stesa scala. In maggior dettaglio si può sostenere, con riferimen-
to alla prima questione che, utilizzando l’approccio suggerito da Morikawa
(1994), i termini di errore possono essere distinti in due parti diverse, quella
dell’alternativa e quella dell’individuo, più, ovviamente, quella del termine
di errore (white noise):
εRP RP
n = ψ ηn + ε̇n
RP

e
εSP SP SP
n = ψ ηn + ε̇n

dove ηn sono elementi distribuiti IID secondo una normale e rimangono co-
stanti per le varie risposte dello stesso individuo mentre le matrici ignote ψSP
e ψRP servono a dare conto dell’effetto di correlazione. Rispetto, invece, al
secondo problema evidenziato in precedenza si fissa la scala del modello RP
RP

per garantirne l’identificazione µ = 1 e si stima poi il secondo parametro
µSP . La funzione di verosimiglianza del modello che utilizza congiuntamen-
te dati RP e SP ed incorpora, pertanto, le modifiche necessarie, assume la
seguente forma:
RP , ySP | x ; β, ψRP , ψSP , µSP , θRP =

P y n n n ε
P yRP RP RP RP
R 
n | xn , η; β, ψ , θε (4.90)
Qn
P ySP SP SP SP RP f (η) dη

∏q=1 nq | xnq , η; β, ψ , µ , θε

dove si avrà un solo dato RP yRP



n per singoloagente mentre per i dati SP si
potranno avere più dati/risposte ySP SP
n1 , ... , ynQn per ciascun agente n.
L’adozione di questo approccio è comune in letteratura ed è assimilabile
alla logica utilizzata per effettuare confronti tra coefficienti di modelli logit

195
non nidificati e, quindi, non direttamente confrontabili. Interessanti appli-
cazioni di questo approccio sono state usate per stimare indici di qualità di
servizi erogati su diverse realtà territoriali (Hensher et al. 2003, Marcucci e
Gatta 2007).

Procedure bayesiane di stima

Nella letteratura sui modelli a scelta discreta, anche nei casi in cui si de-
ve fare ricorso a tecniche di simulazione, si impiegano stimatori di massima
verosimiglianza simulata. Soprattutto con l’impiego di modelli progressiva-
mente più complessi e realistici la massimizzazione della funzione di log-
verosimiglianza può rapidamente divenire molto complessa quando si impie-
gano particolari distribuzioni (e.g. log-normale) per rappresentare la variabi-
lità dei parametri nel ML. La tradizione bayesiana ha sviluppato procedure di
stima molto potenti. Infatti, a partire dai primi lavori di Albert e Chib (1993)
e di McCulloch e Rossi (1994) con riferimento ai modelli probit e a quelli
di Allenby e Lenk (1994) ed Allenby (1997) per il ML si è avuta una svolta
nell’impiego delle tecniche bayesiane poiché si è mostrato come sia possibile
stimare i parametri del modello senza necessariamente calcolare le proba-
bilità di scelta. Train (2001) ha poi chiarito come la media simulata della
distribuzione bayesiana a posteriori costituisca uno stimatore alternativo ri-
spetto alla massima verosimiglianza simulata e come risulti anche consisten-
te ed efficiente per condizioni meno vincolanti rispetto a quelle adottate per
la massima verosimiglianza simulata. Le tecniche bayesiane consentono di
aggirare i rilevanti problemi di calcolo posti dalla ricerca del massimo. Tale
vantaggio è controbilanciato dalla difficoltà intrinseca di determinare quando
si è raggiunta la convergenza nelle stime. La scelta della tecnica di calcolo
da adottare è legata al caso specifico. I metodi solitamente utilizzati per la
stima sono il Gibbs Sampling e Metropolis Hastings metodi che sono stati
già trattati in precedenza.

4.6.2 Le innovazioni tematiche

Il dominio dei modelli di scelta predittivi e quello dei modelli di analisi com-
portamentale della scelta non sono perfettamente sovrapponibili né, sotto un
profilo teorico, dovrebbero esserlo. Infatti, mentre i primi mirano a predire il
comportamento degli agenti i secondi cercano di scomporre il processo deci-
sionale individuandone le singole componenti. I modelli sviluppati a fini pre-
dittivi, al cui interno un grande ruolo ricoprono i modelli RUM, sottolineano

196
l’importanza delle regolarità del comportamento per quantificare le probabili-
tà di scelta a fini di simulazione e previsione; al contrario, i modelli di analisi
comportamentale della scelta si concentrano e rimarcano l’importanza delle
irregolarità che caratterizzano tale processo. Questa chiarificazione e distin-
zione rispetto alle finalità dei modelli e, soprattutto, alla chiave interpretativa
adottata per la rappresentazione sintetica del mondo risulta funzionale all’in-
quadramento delle innovazioni tematiche e ad una loro sistematica interpreta-
zione. Infatti, se è lecito partire dalla constatazione, universalmente accettata
nella moderna microeconomia, che gli agenti agiscono in funzione del pro-
prio tornaconto, tuttavia, non è più immaginabile concepirli come degli auto-
mi, avulsi da un contesto, che massimizzano semplicemente la propria utilità.
In altre parole (McFadden 2002) è bene riconoscere che le scelte dipendono
da come l’agente si rappresenta il problema che deve risolvere, dal proces-
so cognitivo che segue, oltre che dalle proprie percezioni e convincimenti.
Il processo decisionale è influenzato dalle scelte precedentemente effettuate,
dal contesto oltre che dallo status quo. In tutto questo la teoria comporta-
mentale della scelta apre progressivamente nuovi percorsi di ricerca connessi
a singoli aspetti del processo decisionale che non possono essere sistematiz-
zati armonicamente e che sfuggono a rigide caratterizzazioni e tipizzazioni.
Se, quindi, tali questioni non si incardinano facilmente all’interno di model-
li che presuppongono un semplice comportamento ottimizzante, allo stesso
tempo, bisogna riconoscere con chiarezza che una teoria alternativa e genera-
le alla base della scelta non sembra ancora comparire all’orizzonte. Di fatto
le principali innovazioni tematiche recentemente apparse in letteratura sono
il frutto dei compromessi ed estensioni dovuti alla diversa impostazione pre-
cedentemente descritta. Semplificando drasticamente si potrebbe affermare
che mentre gli psicologi cognitivi, interessati alla scomposizione funzionale
del processo decisionale, ritengono che il RUM possa dare conto solo parzial-
mente e in modo incompleto della effettiva complessità dei meccanismi carat-
terizzanti il processo di scelta, gli economisti, al contrario, sostengono che il
RUM costituisca una buona approssimazione del processo decisionale in cui
prevalgono gli effetti delle regolarità sistematiche rispetto a quelli ascrivibili,
ad esempio, a percezioni, contesto e processo cognitivo che, comunque, ca-
ratterizzano il processo decisionale. I modelli RUM per loro natura e scopo,
mirano a catturare le regolarità del comportamento di scelta degli agenti men-
tre il fulcro della ricerca degli psicologi concerne la scomposizione funziona-
le del processo cognitivo legato alla scelta. La via che gli economisti devono
seguire per incrementare l’accuratezza previsionale dei modelli RUM è, quin-

197
di, segnata dal progressivo e sistematico inserimento degli elementi che gli
psicologi individuano come caratterizzanti il processo cognitivo della scelta.
Per sapere se il processo di perfezionamento dei RUM possa essere conside-
rato finito o infinito bisogna chiedersi quale sia, effettivamente, l’elemento
che caratterizza il processo decisionale umano in generale. Infatti, qualora si
ritenesse che il processo decisionale, nonostante alcune regolarità palesi, sia
caratterizzato intrinsecamente da irregolarità e caos, allora si dovrebbe im-
maginare un processo di miglioramento dei RUM infinito. Nonostante questa
risulti realisticamente l’ipotesi più plausibile ciò non deve ridurre gli sforzi
profusi nella ricerca di elementi invarianti che possano costituire punti fermi
nell’analisi dei diversi processi di scelta dati i grandi vantaggi che tale proces-
so è in grado potenzialmente di produrre. Infatti, per incrementare le capacità
predittive dei modelli utilizzati si deve instancabilmente e continuamente ri-
cercare e individuare tutte le regolarità comportamentali che caratterizzano
tale processo. A tale scopo, riconoscendo che il processo decisionale che
gli economisti hanno sempre inteso ed interpretato sostanzialmente come un
processo solitario ed individuale è, invece, profondamente influenzato e vin-
colato da interazioni sociali, si è provveduto in parte, e si provvederà sempre
più in futuro, ad ampliare il numero dei fattori ed elementi espressamente
considerati all’interno dei modelli RUM rendendo la descrizione più realisti-
ca e l’attendibilità delle stime maggiore. In un recente contributo McFadden
(2002) ha sottolineato la necessità di compiere uno sforzo ulteriore nel con-
siderare esplicitamente nei modelli RUM alcune questioni che tengano conto
della reale complessità che caratterizza il fenomeno della scelta. L’elemento
più marcatamente innovativo ed unificante delle diverse estensioni del mo-
dello RUM sotto un profilo tematico è dato dalla trattazione degli elementi
endogeni caratterizzanti il processo di scelta, ovvero delle questioni relative
alla determinazione endogena dell’insieme di scelta e degli attributi conside-
rati importanti (Cameron e DeShazo 2004), dall’analisi dell’interazione tra
vari decisori (Puckett et al. 2007), dalla determinazione della compatibilità
degli incentivi nel processo di scelta negoziata, e, infine, dallo studio di mo-
delli a scelta continua/discreta che possono dare, tra l’altro, anche conto dei
meccanismi endogeni di formazione degli insiemi di scelta (Bhat 2005). Qui
di seguito si dà conto di alcuni dei temi individuati.

198
Definizione degli insiemi di scelta e meccanismi di valutazione degli
attributi

Nella definizione dei modelli a scelta discreta si assume tipicamente la pre-


senza di un insieme di scelta predefinito dato esogenamente da cui tutti gli
agenti scelgono implicitamente assumendo, quindi, perfetta informazione ed
equivalente disponibilità. Tuttavia, nella realtà gli individui non solo deci-
dono autonomamente come acquisire le informazioni di cui fanno uso nel
processo decisionale ma autonomamente scelgono anche come utilizzare le
informazioni acquisite circa la composizione degli insiemi di scelta da cui
selezionano l’alternativa preferita. In altre parole, se come ci ricorda Manski
(2004), si ritiene che l’ipotesi di aspettative razionali su cui poggiano i model-
li di scelta tradizionali non sia plausibile allora bisogna esplicitamente trattare
come endogeno il processo di definizione dell’insieme di scelta all’interno del
complessivo processo decisionale. Per tenere nella dovuta considerazione la
distorsione derivante da tale questione bisogna, da un lato, definire preven-
tivamente il modello in base al quale gli agenti determinano e valutano gli
insiemi di scelta e, dall’altro, evitare di introdurre distorsioni sia omettendo
opzioni di scelta rilevanti sia includendone di irrilevanti (Williams e Ortúzar
1982, Hicks e Strand 2000). In alcuni casi si è cercato di porre rimedio al-
la questione cercando di elicitare direttamente gli effettivi insiemi di scelta
chiedendo direttamente agli agenti che poi effettueranno la scelta (Peters et
al., 1995) anche se tale tecnica non è universalmente apprezzata (Horowitz
e Louviere 1995) poiché, è stato sostenuto, che tale metodo non fornirebbe
le informazioni effettivamente necessarie. Più convincente e teoricamente
rigoroso appare l’approccio che prevede una formale modellizzazione della
composizione dell’insieme di scelta effettivamente considerato ai fini della
scelta. Tale approccio è stato ampiamente utilizzato con riferimento a model-
li di stima basati su dati di natura RP (Swait e Ben-Akiva 1987, Swait 2001,
Basar e Bhat 2004) e consente di determinare la probabilità che una alter-
nativa ha di essere inclusa nell’insieme di scelta di un agente sulla base di
variabili esogene come, ad esempio, il costo, il tempo, la durata, i vincoli im-
posti all’utilizzo di un modo di trasporto, ecc. Cameron e DeShazo (2004) in
un recente articolo hanno proposto una innovativa microfondazione del pro-
cesso di definizione dell’insieme di scelta e di valutazione delle informazioni
disponibili al fine di provvedere alla scelta. La semplice ed innovativa ipotesi
avanzata concerne l’adozione di una prospettiva di analisi costi/benefici nel
definire il meccanismo ideale di processamento delle informazioni. L’agente
ottimizza l’impiego della propria attenzione sia nel valutare le diverse alter-

199
native di scelta sia i diversi attributi che le caratterizzano dati i vincoli posti
dalla quantità totale di sforzo cognitivo che viene allocata a ciascun eserci-
zio di scelta. Cameron e DeShazo (2004) ipotizzano che il costo associato
al livello di attenzione sia funzione delle capacità cognitive dell’agente, del
costo opportunità del tempo, e della quantità e struttura dell’informazione re-
lativa all’insieme di scelta. I benefici, invece, sono legati all’utilità non persa
che potrebbe derivare da scelte errate. L’inappropriata considerazione della
selettiva allocazione dell’attenzione rispetto alle necessità informative degli
agenti può provocare, nel caso questo effetto sia particolarmente rilevante,
una distorsione nella stima dei parametri.

L’interazione tra gli agenti

Assieme all’analisi dell’endogeneità dell’insieme di scelta, la stima degli ef-


fetti dell’interazione tra gli agenti in una scelta di gruppo costituisce un’in-
teressante innovazione tematica affrontata sistematicamente negli ultimi an-
ni. In letteratura l’argomento è stato impostato e trattato con riferimento a
diversi contesti. Adamowicz et al. (2005) contestualizzano l’analisi in rife-
rimento all’analisi delle interazione tra i membri della famiglia, Hensher e
Puckett (2004) studiano l’interazione degli agenti lungo una catena logistica
e, in particolare, con riferimento alla distribuzione delle merci in ambito ur-
bano modellizzando il processo di negoziazione tra gli attori di una catena
logistica. Si analizza come due o più agenti interagiscono e si influenzano
reciprocamente riconoscendo sia l’esistenza di forme di interazione endoge-
na alla coppia sia di forme esogene. Manski (2000) individua tre diversi
tipi di interazione: 1) interazione endogena quando la probabilità di scelta
di un agente varia in funzione della scelta del gruppo nel suo complesso, 2)
interazione di contesto quando la probabilità di scelta dipende da caratteri-
stiche esogene dei membri del gruppo, 3) effetti di correlazione quando gli
agenti appartenenti allo stesso gruppo tendono a comportarsi in modo simi-
le poiché si contraddistinguono per caratteristiche individuali analoghe o, in
alternativa, si debbono confrontare con un contesto istituzionale simile. La
distinzione sotto un profilo teorico delle diverse forme che l’interazione può
assumere non riduce le difficoltà che empiricamente si incontrano nell’infe-
rire la specifica natura dell’interazione attraverso il solo impiego delle osser-
vazioni sulle scelte, sia RP sia SP. Per l’inferenza è necessario identificare
il meccanismo di processamento delle informazioni che gli agenti adottano
nel processo di negoziazione strategica. L’adozione, infatti, di un Informa-
tion Processing Strategy (IPS) è il frutto di un processo di massimizzazione

200
che ciascun agente compie scegliendo l’IPS che massimizza la propria utilità
dato il complessivo processo decisionale interattivo in cui si trova coinvolto.
Più in dettaglio si può affermare che la strategia adottata dall’agente, in un
qualsivoglia ciclo di negoziazione, deve massimizzare la sua utilità condizio-
natamente alle credenze maturate e all’IPS adottato. La funzione di utilità
viene specificata in modo tale da consentire sia una valutazione differenziata
di perdite e guadagni (Kahnemann e Tversky 1979) sia di permettere, tra le
perdite possibili, la stima del valore associato al rischio che la relazione ven-
ga interrotta unilateralmente, in cicli negoziali futuri, generando, quindi, una
soluzione non-cooperativa.

Il comportamento strategico e la compatibilità degli incentivi

Molto spesso quando si raccolgono dati relativi alle scelte degli agenti si sup-
pone, implicitamente che essi rispondano in modo sincero e non strategico
rivelando così le loro effettive preferenze. Così facendo si assume, di fatto,
che vi sia invarianza procedurale ovvero si ipotizza che il formato adottato
per presentare l’esercizio di scelta sia ininfluente rispetto al risultato fina-
le. Se questa ipotesi può risultare vera in casi particolari non è, comunque,
universalmente generalizzabile poiché vi è evidenza empirica del contrario.
Infatti, il quadro teorico di riferimento fornito dalla teoria degli incentivi e
del comportamento strategico suggerisce che l’informazione ottenuta tramite
la rivelazione delle referenze varia in funzione degli incentivi prospettati dal
contesto fornito dal formato della risposta. Tale contesto o risulta compatibile
con gli incentivi o, molto probabilmente, produrrà dati che daranno origine a
stime distorte poiché gli agenti hanno risposto in maniera strategica non ri-
velando in modo veritiero le loro effettive preferenze. Queste considerazioni
risultano particolarmente rilevanti soprattutto per le indagini SP. Purtroppo
molti degli studi effettuati o non considerano questo aspetto o ne sottovaluta-
no la rilevanza e, in pratica, non si riscontra una compatibilità con gli incenti-
vi. L’analisi del contesto e le modalità di somministrazione dei questionari è
molto importante e bisogna tenere esplicitamente conto delle capacità e degli
interessi degli intervistati nel rispondere in maniera strategica. Una maggiore
attenzione rispetto ai potenziali incentivi per la rivelazione non veritiera delle
preferenze può non solo aiutare gli studiosi a migliorare le tecniche di raccol-
ta dati ma li può anche soccorrere nell’analisi dei risultati tenendo conto dei
diversi meccanismi adatti per la somministrazione dei questionari.

201
Variabili esplicative endogene

Di solito ci si riferisce alla endogeneità delle variabili quando le variabili


esplicative osservate risultano correlate con i termini di errore. In questi casi
le procedure standard di stima non possono essere utilizzate immediatamen-
te. Il caso più comune in cui tale problema si manifesta è quando in un RUM
le variabili che entrano nella componente deterministica dell’utilità sono cor-
relate con quelle della parte aleatoria. Esemplificazioni emblematiche sono
l’omissione di un attributo rilevante di un prodotto nella sua caratterizzazio-
ne e la correlazione degli attributi impiegati con altri non osservati13 . Nel
marketing un metodo usato di frequente per trattare l’endogeneità delle va-
riabili è il cosiddetto metodo BLP (Berry 1994, Berry et al. 1995) che sposta
la questione dell’endogeneità dal modello di scelta non-lineare a quello di
una regressione lineare consentendo, quindi, l’uso del metodo standard del-
le variabili strumentali. Villas-Boas e Russell (1999) e Blundell e Powell
(2001) suggeriscono l’impiego di una funzione di controllo in cui la variabile
endogena viene regredita rispetto agli strumenti esogeni e i residui vengo-
no utilizzati come ulteriore variabile esplicativa nella funzione di utilità. Per
procedere alla stima delle probabilità di scelta si deve o conoscere a priori la
distribuzione o inferire empiricamente la distribuzione della nuova compo-
nente di errore determinata dall’inserimento della nuova variabile.
Matzkin (2004), invece di impiegare le variabili strumentali (l’analista de-
ve trovare delle variabili esogene, non ancora inserite nel modello, che siano
correlate con le variabili esplicative endogene) suggerisce un approccio capa-
ce di trattare l’endogeneità sia nei modelli lineari sia in quelli non lineari. Si
suggerisce di individuare variabili che siano esse stesse delle variabili esplica-
tive endogene ma che siano in relazione con le variabili endogene originarie
soltanto attraverso delle perturbazioni esogene. Sotto certi vincoli è possibile
dimostrare che il termine di errore originario può essere espresso in funzione
delle nuove variabili endogene ed un nuovo termine di errore che sia indipen-
dente da tutte le variabili esplicative. Nei modelli di scelta la nuova variabile
è inclusa nell’utilità con la variabile endogena originaria. La distribuzione del
nuovo termine di errore deve o essere nota o essere stimata empiricamente co-
me per il caso delle funzioni di controllo ma, in questo caso, si può utilizzare
l’approccio assieme al BLP in modo da estrarre l’endogeneità dal modello di
13 Sipensi, ad esempio, alla correlazione potenzialmente presente tra tempo e costo, nei
modelli di scelta modale nel casa-lavoro, con la preferenza non osservata rispetto al trasporto
di massa. Di solito a chi piace il trasporto collettivo sceglie anche di vivere vicino ad un punto
di accesso al trasporto pubblico.

202
scelta e trattarla tramite modelli lineari dove la distribuzione del nuovo termi-
ne di errore non deve più essere specificata (Train e Winston 2007). L’endo-
geneità, nelle sua varie forme, caratterizza più spesso di quanto solitamente
non si riconosca molti contesti di scelta ed è potenzialmente in grado, se non
opportunamente trattata, di distorcere le stime delle preferenze e, conseguen-
temente, anche tutte le simulazioni eventualmente condotte a fini di test e/o
valutazione di politiche di intervento.

Futuri sentieri di ricerca

Diversi sono i suggerimenti indicati da eminenti studiosi circa i sentieri che la


ricerca dovrebbe battere bel prossimo futuro. Affinché l’interesse per questo
settore di ricerca permanga immutato bisogna mantenere fede all’impostazio-
ne che è stata sin qui seguita. Il riferimento che va rimarcato riguarda l’enfasi
sempre posta sulla trattabilità empirica e sulla capacità di studiare un ampio
spettro di politiche di intervento all’interno di un quadro di riferimento che
ha consentito di legare i risultati alla teoria economica del comportamento
del consumatore. Nonostante i rilevanti risultati ottenuti sino ad ora dall’uti-
lizzo dei RUM, si ha l’impressione, sostenuta anche dai maggiori studiosi in
materia (McFadden 2001), che l’impianto su cui poggiano è stato solo mar-
ginalmente sfruttato ai fini della definizione e sviluppo di modelli di scelta
applicata.
Tra i principali campi di indagine da sondare e le maggiori sfide che la
ricerca sulla teoria della scelta dovrà affrontare si ricordano:
1) l’approfondimento degli aspetti connessi alla psicologia sociale della scelta
e 2) la complessità, stima e interpretazione dei modelli.
Con riferimento al primo punto sia gli economisti sia gli scienziati so-
ciali hanno mostrato, sino ad ora, una spiccata tendenza a considerare ed
analizzare lo studio della scelta come un fenomeno personale, individuale ed
isolato. Al contrario, però, il crescente grado di realismo richiesto e cercato
nelle indagini spinge a riconoscere quello che tutti sanno ovvero che l’essere
umano è, essenzialmente, un animale sociale e che, come tale, va analizzato
anche in un suo fondamentale atteggiamento che è la scelta. Se così è, non si
potrà fare a meno di considerare esplicitamente come parte integrante delle
analisi condotte gli effetti derivanti dall’interazione sociale per difficili che
siano i problemi che ne discendono. All’interno di questa vasta categoria,
singoli sottoinsiemi di interesse potrebbero riguardare i processi decisionali
di gruppo, gli effetti di rete, le norme sociali, le scelte nei processi di ricerca
ed apprendimento oltre che nei processi negoziali, sia cooperativi sia non-

203
cooperativi.
Relativamente al secondo punto, invece, si ricorda come sotto il profilo
teorico e di strutturazione dei modelli è auspicabile ed interessante seguire la
strada del realismo attraverso il progressivo inserimento di elementi aggiun-
tivi che integrano ed arricchiscono il contesto di analisi. Allo stesso tempo,
tuttavia, bisogna riconoscere che la complessità rapidamente ci spinge verso
una barriera determinata dalla dimensione dei problemi da risolvere e, quin-
di, dalla capacità di calcolo necessaria per la determinazione delle soluzioni
cercate. Assieme alla complessità e difficoltà della stima (problemi di identi-
ficazione) insorge parallelamente anche il problema legato all’interpretazione
dei modelli. Infatti, non è affatto scontato che si possa sempre interpretare
in modo economicamente sensato i risultati di modelli progressivamente più
complessi o articolati che, in potenza, meglio di altri riescono a spiegare i
dati di cui l’analista dispone. Un caso per tutti è fornito dalle forme funzio-
nali della famiglia GEV che sono state recentemente esplorate da Karlström
(2001) e con le quali è riuscito a fornire una migliore spiegazione dei dati
rispetto a forme funzionali standard anche se non è stato facilmente e diretta-
mente possibile offrire una interpretazione economica e/o comportamentale
dei coefficienti stimati. Il problema descritto si acuisce quando non solo le
diverse forme funzionali possibili e plausibili non risultano facilmente giudi-
cabili in funzione delle loro capacità predittive ma è anche difficile compren-
dere con esattezza il comportamento che il modello è in grado di cogliere.
Sarà molto importante approfondire tutte le questioni legate alla struttura del
problema di scelta, alla complessità massima con cui è possibile descriverlo
e studiarlo in funzione delle capacità di stima e di identificazione del modello
oltre che, ovviamente, della possibilità di trarre pratici insegnamenti dall’in-
terpretazione dei coefficienti stimati.
Per concludere circa le prospettive della ricerca in questo settore si ripor-
tano le parole con cui McFadden (2001) chiude la lezione effettuata in oc-
casione del conferimento del premio Nobel a Stoccolma l’8 dicembre 2000
e che appaiono sintetizzare correttamente le probabili evoluzioni di questo
settore di ricerca.

What lies ahead? I believe that the basic RUM theory of decision-
making, with a much lager role of experience and information in
the formation of perceptions and expression of preferences, and
allowance for the use of rules as agents for preferences, can de-
scribe most economic choice behaviour in markets, surveys, and
the laboratory. If so, then this framework can continue for the

204
forseable future to form a basis for microeconometric analysis
of consumer behaviour and the cosequences of economic policy.

4.7 Conclusioni

Nel quarto capitolo sono stati discussi i modelli a scelta discreta in forma
aperta. In particolare date le caratteristiche di tali modelli sono state trat-
tate tre questioni tecniche propedeutiche e, in particolare, si è discusso di
metodi di campionamento delle distribuzioni dei termini di errore, dei me-
todi di massimizzazione numerica e dei metodi di inferenza statistica basati
su simulazioni. La trattazione dei modelli in forma aperta si concentra sul
ML poiché, come è stato recentemente dimostrato, consente di approssimare
qualsiasi altro modello con un grado predefinito di accuratezza. Si descrivo-
no le formule relativa alle probabilità di scelta, l’identificazione e la speci-
ficazione del ML sia a coefficienti aleatori sia con componenti di errore. Si
chiariscono anche alcune questioni pratiche connesse alla specificazione del
ML quali, ad esempio, la scelta dei parametri aleatori, e della loro funzione di
distribuzione, l’imposizione di vincoli sulle distribuzioni, l’utilizzo di distri-
buzioni discrte ed altro ancora. Anche in questo caso, si provvede, tramite un
caso di studio relativo alla scelta modale nel trasporto merci a dare evidenza
di una applicazione di tale modello analizzando le implicazioni interpretative
sotto un profilo trasportistico. Il capitolo si conclude con la trattazione dei
possibili futuri sviluppi della ricerca in questo settore.

205
206
Bibliografia14

Adamowicz, W. (1994), ‘Habit formation and variety seeking in a discrete choice


model of recreational demand’, Journal of Agricultural and Resource Econo-
mics 19(1), 19–31.
Adamowicz,W., Michel, H., Swait, J., Johnson, R., Layton, D., Regenwetter, M.,
Reimer, T. e Sorkin, R. (2005), ‘Decision strategy and structure in households:
A groups perspective’, Marketing letters 16(3/4), 387–399.
Albert, J. e Chib, S. (1993), ‘Bayesian analysis of binary and polychotomous re-
sponse data’, Journal of the American Statistical Association 88(422), 669 –
679.
Allenby, G. (1997), ‘An introduction to hierarchical bayesian modeling’. Tutorial
notes, Advanced research techniques forum, American marketing association.
Allenby, G. e Lenk, P. (1994), ‘Modeling household purchase behavior with logistic
normal regression’, Journal of the American Statistical Association 89(428),
1218–1231.
Amemiya, T. (1978), ‘On a two-step estimation of a multivariate logit model’,
Journal of Econometrics 8(1), 13–21.
Amemiya, T. (1981), ‘Qualitative response models: A survey’, Journal of Econo-
mic Literature 19(4), 1483–1536.
Anderson, S., Palma, A. D. e Thisse, J. (2001), ‘Discrete Choice Theory of Product
Differentiation’, 4th edn, The MIT Press, Cambridge, Mass.
Bandyopadhyay, T., I. D. e Pattanaik, P. (1999), ‘Stochastic revealed preference and
the theory of demand’, Journal of Economic Theory 84(1), 95–110.
Barbara, S. (1991), Rationalizable stochastic choice on restricted domains, in J.
Chipman, D. McFadden e M. Richter, eds, ‘Preferences, Uncertainty and
Optimality: Essays in Honor of Leonid Hurwicz’, Westview Press, Boulder,
Colorado.

14 La stesura della bibliografia è da attribuirsi ad Amanda Stathopoulos

207
Barbera, S. e Pattanaik, P. (1986), ‘Falmagne and the rationalizability of stochastic
choices in terms of random orderings’, Econometrica 54(3), 707–715.
Basar, G. e Bhat, C. (2004), ‘A parameterized consideration set model for air-
port choice: An application to the san francisco bay area’, Transportation
Research: Part B 38(10), 889–904.
Becker, G., Degroot, M. e Marschak, J. (1963), ‘Probabilities of choices among ve-
ry similar objects: An experiment to decide between two models’, Behavioral
Science 8(4), 306–311.
Ben-Akiva, M. (1973), ‘Structure of passenger travel demand models’, Ph.D. The-
sis, Department of Civil Engineering, Massachusetts Institute of Technology,
Cambridge, Massachusetts.
Ben-Akiva, M. e Boccara, B. (1987), ‘Integrated framework for travel behavior
analysis’, in International Association of Travel Behavior Research (IATBR)
Conference, Aix-en-Provence, France.
Ben-Akiva, M. e Bolduc, D. (1996), ‘Multinomial probit with a logit kernel and a
general parametric specification of the covariance structure’, Working Paper,
Department of Civil Engineering, Massachusetts Institute of Technology.
Ben-Akiva, M., Bolduc, D. e Bradley, M. (1993), ‘Estimation of travel choice
models with randomly distributed values of time’, Transportation Research
Board (1413), 88–97.
Ben-Akiva, M. e Lerman, S. (1985), ‘Discrete Choice Analysis’, MIT Press, Cam-
bridge, Mass.
Ben-Akiva, M., McFadden, D., Gärling, T., Gopinath, D.,Walker, J., Bolduc, D.,
Borsch-Supan, A., Delquié, P., Larichev, O. e Morikawa, T. (1999), ‘Extended
framework for modeling choice behavior’, Marketing letters 10(3), 187–203.
Ben-Akiva, M. e Morikawa, T. (1990), ‘Estimation of switching models from re-
vealed preferences and stated intentions’, Transportation Research: Part A
24(6), 485–495.
Ben-Akiva, M., Morikawa, T. e Shiroishi, F. (1992), ‘Analysis of the reliability of
preference ranking data’, Journal of Business Research 24(2), 149–164.
Bernardino, A. (1996), Telecommuting: Modeling the Employer’s and the Em-
ployee’s Decision- Making Process, Garland Publishing, New York.
Berndt, E., Hall, B., Hall, R. e Hausman, J. (1974), ‘Estimation and inference in
nonlinear structural models’, Annals of Economic and Social Measurement
3(4), 653–665.
Berry, S. (1994), ‘Estimating discrete-choice models of product differentiation’,
Rand Journal of Economics 25(2), 242–262.
Berry, S., Levinsohn, J. e Pakes, A. (1995), ‘Automobile prices in market equili-
brium’, Econometrica 63, 841–889.
Bertsekas, D. (1995), Dynamic Programming and Optimal Control, Vol. 1, Athena
scientific, Belmont, MA.
Bhat, C. (1995), ‘A heteroscedastic extreme value model of intercity travel mode
choice’, Transportation Research: Part B 29(6), 471–483.

208
Bhat, C. (1998), ‘Accommodating variations in responsiveness to levelof- service
measures in travel mode choice modeling’, Transportation Research: Part A
32(7), 455–507.
Bhat, C. (2000), ‘A multi-level cross-classified model for discrete response varia-
bles’, Transportation Research Part B: Methodological 34(7), 567–582.
Bhat, C. (2001), ‘Quasi-random maximum simulated likelihood estimation of the
mixed multinomial logit model’, Transportation Research: Part B 35(7), 677
– 693.
Bhat, C. (2003), ‘Simulation estimation of mixed discrete choice models using
randomized and scrambled halton sequences’, Transportation Research: Part
B 37(9), 837–855.
Bhat, C. (2005), ‘A multiple discrete-continuous extreme value model: Formu-
lation and application to discretionary time-use decisions’, Transportation
Research: Part B 39(8), 679–707.
Bhat, C. e Castelar, S. (2002), ‘A unified mixed logit framework for modeling re-
vealed and stated preferences: Formulation and application to congestion pri-
cing analysis in the san francisco bay area’, Transportation Research: Part B
36(7), 593–616.
Bierlaire, M. (1997), ‘Discrete choice models’, in N. Institute, ed., Operations re-
search and decision aid methodologies in traffic and transportation manage-
ment, Hotel UNI, Balatonfured, Hungary.
Bierlaire, M. (1998), ‘Discrete choice models’, in M. Labbé, G. Laporte e K. T. et
al, eds, Operations Research and Decision Aid Methodologies in Traffic and
Transportation Management, Vol. 166 of Nato Asi Series, Springer Verlag,
Heidelberg, Germany, pp. 203–227.
Bierlaire, M. (2001), ‘A general formulation of the cross-nested logit model’, in
Proceedings of the 1st Swiss Transportation Research Conference, Ascona,
Switzerland.
Bierlaire, M. (2006), ‘A theoretical analysis of the cross-nested logit model’, An-
nals of Operations Research 144(1), 287–300. Springer.
Block, H. e Marschak, J. (1960), ‘Random orderings and stochastic theories of re-
sponses’, in I. Olkin, S. Ghurye e W. H. et al, eds, Contributions to Probability
and Statistics, Stanford University Press, Stanford, pp. 97– 132.
Blundell, R. e Powell, J. (2001), ‘Endogeneity in semiparametric binary respon-
se models’, Working Paper, Department of Economics, University College
London.
Börsch-Supan, A. e Hajivassiliou, V. (1993), ‘Smooth unbiased multivariate pro-
bability simulators for maximum likelihood estimation of limited dependent
variable models’, Journal of Econometrics 58(3), 347–368.
Boyd, H. e Mellman, R. (1980), ‘The effect of fuel economy standards on the u.s.
automotive market: An hedonic demand analysis’, Transportation Research:
Part A 14, 367–378.
Brownstone, D. (2001), ‘Discrete choice modeling for transportation’, in D. Hen-

209
sher, ed., Travel Behavior Research: The Leading Edge, Elsevier, Oxford, pp.
97–124.
Brownstone, D. e Train, K. (1999), ‘Forecasting new product penetration with
flexible substitution patterns’, Journal of Econometrics 89, 109–129.
Cameron, T. (1982), ‘Qualitative Choice Modeling of Energy Conservation Deci-
sions: A Microeconomic Analysis of the Determinants of Residential Space-
Heating Energy Demand’, PhD thesis, Department of Economics, Princeton
University.
Cameron, T. e DeShazo, J. (2004), ‘An empirical model of demand for future health
states when valuing risk- mitigating programs’, Working Paper, Departement
of Economics, University of Oregon.
Cardell, N. e Dunbar, F. (1980), ‘Measuring the societal impacts of automobile
downsizing’, Transportation Research: Part A 14(5-6), 423–434.
Cascetta, E. (2006), Modelli Per I Sistemi Di Trasporto: Teoria E Applicazioni,
UTET, Novara.
Cherchi, E. (2003), Il Valore Del Tempo Nella Valutazione Dei Sistemi Di Traspor-
to. Teoria E Pratica, Franco Angeli, Milano.
Cherchi, E. e Ortúzar, J. (2008), ‘Empirical identification in the mixed logit model:
Analysing the effect of data richness’, Networks and Spatial Economics 8(2),
109–124.
Chintagunta, P. (1992), ‘Heterogeneity in nested logit models: An estimation ap-
proach and empirical results’, International Journal of Research in Marketing
9(2), 161–175.
Chiou, L. e Walker, J. (2006), ‘Identification and estimation of mixed logit models
under simulation methods’, Paper presented at the 85th Annual Meeting of
the Transportation Research Board, Washington D.C.
Chipman, J. (1960), ‘The foundations of utility’, Econometrica 28(2), 193– 224.
Clark, C. (1961), ‘The greatest of a finite set of random variables’, Operations
Research 9(2), 145–162.
Cohen, M. (1980), ‘Random utility systems‚ the infinite case’, Journal of Mathe-
matical Psychology 22, 1–23.
Cohen, M. e Falmagne, J. (1990), ‘Random utility representation of binary choice
probabilities: A new class of necessary conditions’, Journal of Mathematical
Psychology 34(1), 88–94.
Daganzo, C. (1979), Multinomial Probit: The Theory and Its Application to De-
mand Forecasting, Academic Press, New York.
Dagsvik, J. (1994), ‘Discrete and continuous choice, max-stable processes, and
independence from irrelevant attributes’, Econometrica 62(5), 1179–1179.
Daly, A. e Zachary, S. (1978), ‘Improved multiple choice models’, in D. Hensher
e M. Dalvi, eds, Determinants of Travel Choice, Saxon House, Sussex, pp.
335–357.
Danielis, R. e Rotaris, L. (2003), ‘Le preferenze degli utenti del servizio di trasporto
merci: I risultati di un esperimento di conjoint analysis condotto in Friuli

210
Venezia Giulia’, in G. Borruso e E. Polidori, eds, Trasporto Merci, Logistica
E Scelta Modale, Franco Angeli, Milano.
Danielis, R., Marcucci, E. e Paglione, G. (2007), ‘A methodology to evaluate the
prospects for the introduction of a new city logistics service’, in 4th Interna-
tional Kuhmo-Nectar Conference, Urbino, Italy.
Daniels, R. e Hensher, D. (2000), ‘Valuation of environmental impacts of transport
projects’, Journal of Transport Economics and Policy 34(2), 189–214.
Debreu, G. (1960), ‘Review of d. r. luce. individual choice behavior: A theoretical
analysis’, American Economic Review 50(1), 186–188.
Dennis, J. e Schnabel, R. (1983), Numerical Methods for Unconstrained Optimiza-
tion and Nonlinear Equations, Prentice-Hall, Englewood Cliffs.
Edgell, S. e Geisler, W. (1980), ‘A set-theoretical random utility model of choice
behavior’, Journal of Mathematical Psychology 21, 265–278.
Eymann, A., Börsch-Supan, A. e Euwals, R. (2001), ‘Risk attitude, impatience, and
portfolio choice’, Working Paper, University of Mannheim, Germany.
Falmagne, J. (1978), ‘A representation theorem for finite random scale systems’,
Journal of Mathematical Psychology 18(1978), 52–72.
Fechner, G. (1860), Elements of Psychophysics, Vol 1, Rinehart & Winston, New
York.
Finney, D. (1971), Probit Analysis, 3rd edn, Cambridge University Press, Cambrid-
ge, UK.
Finney, D. (1978), Statistical Method in Biological Assay, 3rd edn, C. Griffin,
London.
Fishburn, P. (1978), ‘Choice probabilities and choice functions’, Journal of Mathe-
matical Psychology 10, 327–352.
Fishburn, P. (1992), ‘Induced binary probabilities and the linear ordering polytope:
A status report’, Mathematical Social Sciences 23(1), 67–80.
Fishburn, P. e Falmagne, J. (1989), ‘Binary choice probabilities and rankings’,
Economic Letters 31(2), 113–117.
Fletcher, R. (1980), Practical Methods of Optimization, Vol. 1, Unconstrained
Optimization, Wiley-Interscience, NewYork.
Forinash, C. e Koppelman, F. (1993), ‘Application and interpretation of nested lo-
git models of intercity mode choice’, Transportation Research Record 1413,
98–106.
Gelfand, A. e Smith, A. (1990), ‘Sampling-based approaches to calculating margi-
nal densities’, Journal of the American Statistical Association 85(410), 398 –
409.
Geman, D. e Geman, S. (1984), ‘Stochastic relaxation, gibbs distributions, and the
bayesian restoration of images’, IEEE Trans. Pattern Analysis and Machine
Intelligence 6, 721–741.
Georgescu-Roegen, N. (1936), ‘The pure theory of consumer’s behavior’, Quarter-
ly Journal of Economics 50(4), 545–593.
Geweke, J., Keane, M. e Runkle, D. (1994), ‘Alternative computational approaches

211
to inference in the multinomial probit model’, The review of economics and
statistics 76(4), 609–632.
Goldfeld, S., Quandt, R. e Trotter, H. (1966), ‘Maximization by quadratic hill-
climbing’, Econometrica 34(3), 541–551.
Gopinath, D. (1995), ‘Modeling Heterogeneity in Discrete Choice Processes: Ap-
plication to Travel Demand’, PhD thesis, Ph.D. Dissertation, Department of
Civil and Environmental Engineering, Massachusetts Institute of Technology.
Greene,W. (2000), Econometric Analysis, 4th edn, Prentice Hall, New Jersey.
Greene, W. (2003), ‘Maximum likelihood estimation of econometric frontier func-
tions’, Journal of Econometrics 13(1), 27–56.
Greene, W. e Hensher, D. (2003), ‘A latent class model for discrete choice analysis:
Contrasts with mixed logit’, Transportation Research: Part B 37(8), 681–698.
Griliches, Z. (1957), ‘Specification bias in estimates of production functions’, Jour-
nal of Farm Economics 39(1), 8–20.
Griliches, Z. (1961), ‘Hedonic price indexes for automobiles: An econometric
anaysis of quality change’, in The Price Statistics of the Federal Government,
General Series No. 73, Columbia University Press, New York, pp. 173–196.
Griliches, Z. e Ringstad, V. (1971), Economies of Scale and the Form of the Pro-
duction Function, North-Holland Publishing Company, Amsterdam.
Hajivassiliou, V. (1993), ‘Simulation estimation methods for limited dependent va-
riable models’, in G. Maddala, C. Rao e D. Vinod, eds, Handbook of Statistics
11: Econometrics, Elsevier, Amsterdam.
Hajivassiliou, V. e McFadden, D. (1990), ‘The method of simulated scores for the
estimation of ldv models with an application to external debt crises’, Cow-
les Foundation Discussion Papers 967, Cowles Foundation for Research in
Economics, Yale University..
Hajivassiliou, V. e McFadden, D. (1998), ‘The methods of simulated scores for the
estimation of ldv models’, Econometrica 66(4), 863–896.
Hajivassiliou, V. e Ruud, R. (1994), ‘Classical estimation methods for ldv models
using simulation’, in R. Engle e D. McFadden, eds, Handbook of Econome-
trics Iv, Elsevier, New York, pp. 2384–2441.
Hastings, W. (1970), ‘Monte carlo sampling methods using markov chains and their
applications’, Biometrika 57(1), 97–109.
Hausman, J. e McFadden, D. (1984), ‘Specification tests for the multinominal logit
model’, Econometrica 57(5), 1219–1240.
Hausman, J. e Wise, D. (1978), ‘A conditional probit model for qualitative choice:
Discrete decisions recognizing interdependence and heterogeneous preferen-
ces’, Econometrica 46(2), 403–426.
Hensher, D. (1986), ‘Sequential and full information maximum likelihood esti-
mation of a nested logit model’, Review of Economics and Statistics 68(4),
657–667.
Hensher, D. e Greene, W. (1999), ‘Nested logit model estimation: Clarifying the
rules for model specification’, Working paper, Institute of Transport studies,

212
University of sydney.
Hensher, D. e Greene, W. (2003), ‘The mixed logit model: The state of practice’,
Transportation 30(2), 133–176.
Hensher, D. e Puckett, S. (2004), ‘Freight distribution in urban areas: The role of
supply chain alliances in addressing the challenge of traffic congestion for
city logistics’, Working Paper 04-15, Institute of Transport Studies.
Hensher, D., Rose, J. e Greene, W. (2005a), Applied Choice Analysis: A Primer,
Cambridge University Press, Cambridge; New York.
Hensher, D., Rose, J. e Greene, W. (2005b), ‘The implications on willingness to pay
of respondents ignoring specific attributes’, Transportation 32(3), 203–222.
Hensher, D., Stopher, P. e Bullock, P. (2003), ‘Service quality - developing a service
quality index in the provision of commercial bus contracts’, Transportation
Research: Part A 37(6), 499–517.
Hicks, R. e Strand, I. (2000), ‘The extent of information: Its relevance for random
utility models’, Land Economics 76(3), 374–385.
Horowitz, J. e Louviere, J. (1995), ‘What is the role of consideration sets in choice
modeling?’, International Journal of Research in Marketing 12(1), 39–54.
Horowitz, J., Sparmann, J. e Daganzo, C. (1982), ‘An investigation of the accuracy
of the clark approximation for the multinomial probit model’, Transportation
Science 16(3), 382–401.
Hosoda, T. (1999), ‘Incorporating Unobservable Heterogeneity in Discrete Choice
Model: Mode Choice Model for Shopping Trips’, PhD thesis, Masters The-
sis, Massachusetts Institute of Technology, Dept. of Civil and Environmental
Engineering.
Houthakker, H. (1950), ‘Revealed preference and the utility function’, Economica
17(66), 159–174.
Kahnemann, D. e Tversky, A. (1979), ‘Prospect theory: An analysis of decisions
under risk’, Econometrica 47(2), 263–91.
Kamakura, W. e Russell, G. (1989), ‘A probabilistic choice model for market
segmentation and elasticity structure’, Journal of Marketing Research 26(4),
379–390.
Karlström, A. (2000), ‘Non-linear value functions in random utility econometrics’,
in 9th IATBR Travel Behaviour Conference, Australia.
Karlström, A. (2001), ‘Developing generalized extreme value models using the pie-
kands representation theorem’, Working Paper, Infrastructure and Planning,
Royal Institute of Technology, Stockholm, Sweden.
Keane, M. (1992), ‘A note on identification in the multinomial probit model’,
Journal of Business and Economic Statistics 10(2), 193–200.
Keesling, J. (1972), ‘Maximum Likelihood Approaches to Causal Analysis’, PhD
thesis, Ph.D. Dissertation, University of Chicago.
Koopmans, T. (1949), ‘Identification problems in econometric model construction’,
Econometrica 17(2), 125–144.
Koppelman, F. e Wen, C.-H. (1998), ‘Nested logit models: Which are you using?’,

213
Transportation Research Record 1645, 1–7.
Krantz, D. (1964), ‘The Scaling of Small and Large Color Differences’, PhD thesis,
Ph.D dissertation, University of Pennsylvania, Ann Arbor.
Lancaster, K. (1966), ‘A new approach to consumer theory’, The Journal of Politi-
cal Economy 74(2), 132–157.
Langdon, M. (1984), ‘Methods of determining choice probability in utility maxi-
mizing multiple alternative models’, Transportation Research: Part B 18(3),
209–234.
Lee, L.-F. (1992), ‘On the efficiency of methods of simulated moments and simula-
ted likelihood estimation of discrete choice models’, Economic Theory 8(4),
518–552.
Lerman, S. e Manski, C. (1981), ‘On the use of simulated frequencies to approxi-
mate choice probabilities’, in C. Manski e D. McFadden, eds, Structural Ana-
lysis of Discrete Data with Econometric Applications, MIT Press, Cambridge,
MA.
Louviere, J., Hensher, D. e Swait, J. (2000), Stated Choice Methods: Analysis and
Applications, Cambridge University Press, Cambridge, UK.
Louviere, J., Street, D., Carson, R., Ainslie, A., Deshazo, J., Cameron, T., Hen-
sher, D., Kohn, R. e Marley, T. (2002), ‘Dissecting the random component of
utility’, Marketing letters 13(3), 163–176.
Luce, R. (1959), Individual Choice Behavior: A Theoretical Analysis, Wiley, New
York.
Luce, R. (1994), ‘Thurstone and sensory scaling: Then and now’, Psychological
Review 101(2), 271–277.
Luce, R. e Suppes, P. (1965), ‘Preference utility and subjective probability’, in R.
Luce, R. Bush e E. Galanter, eds, Handbook of Mathematical Psychology,
Vol. 3rd, Wiley and Sons, New York, pp. 249–409.
Maddala, G. (1983), Limited Dependent and Qualitative Variables in Econome-
trics, Cambridge University Press, Cambridge, UK.
Manski, C. (1977), ‘The structure of random utility models’, Theory and Decision
8(3), 229–254.
Manski, C. (1995), Identification Problems in the Social Sciences, Harvard Univer-
sity Press, Cambridge, Mass.
Manski, C. (2000), ‘Economic analysis of social interactions’, Journal of Economic
Perspectives 14(3), 115–136.
Manski, C. (2004), ‘Measuring expectations’, Econometrica 72(5), 1329– 1376.
Marcucci, E. (2005), I Modelli a Scelta Discreta Per L’analisi Dei Trasporti, Ca-
rocci Editore, Roma.
Marcucci, E. e Gatta, V. (2007), ‘Quality and public transport service contracts’,
European Transport 36, 92–106.
Marcucci, E., Scaccia, L. e Rotaris, L. (2004), ‘Trasporto pubblico locale, carta
dei servizi, qualità del servizio pubblico e ruolo della regione’, in Convegno
per l’organizzazione dei servizi pubblici locali in una prospettiva regionale,

214
Dipartimento di economia, Università Politecnica delle Marche.
Marschak, J. (1960), ‘Binary choice constraints and random utility indicators’, in
K. Arrow, S. Karlin e P. Suppes, eds, Mathematical Methods in the Social
Sciences, 1959, Stanford University Press, Stanford, California, pp. 312–329.
Matzkin, R. (2004), ‘Unobservable instruments’, Working paper, Department of
Economics, Northwestern University.
McCulloch, R. e Rossi, P. (1994), ‘An exact likelihood analysis of the multinomial
probit model’, Journal of Econometrics 64(1-2), 207–40.
McFadden, D. (1973), ‘Conditional logit analysis of qualitative choice behavior’,
in P. Zarembka, ed., Frontiers in Econometrics, Academic Press, New York.
McFadden, D. (1974:a), ‘Conditional logit analysis of qualitative choice analysis’,
in P. Zarembka, ed., Frontiers in Econometrics, Academic Press, New York,
pp. 105–142.
McFadden, D. (1974:b), ‘The measurement of urban travel demand’, Journal of
Public Economics 3(4), 303–328.
McFadden, D. (1975), ‘Tchebyscheff bounds for the space of agent characteristics’,
Journal of Mathematical Economics 2, 225–242.
McFadden, D. (1976), ‘Quantal choice analysis: A survey’, Annals of Economic
and Social Measurement 5(4), 363–390.
McFadden, D. (1978), ‘Modelling the choice of residential location’, in A. Karlq-
vist, L. Lundqvist e F. S. et al, eds, Spatial Interaction Theory and Planning
Models, North-Holland, Amsterdam, pp. 75–96.
McFadden, D. (1979), ‘Quantitative methods for analyzing travel behaviour of
individuals: Some recent developments’, in D. Hensher e P. Stopher, eds,
Behavioural Travel Modelling, Croom Helm, London.
McFadden, D. (1981), ‘Econometric models of probabilistic choice’, in C. Manski
e D. McFadden, eds, Structural Analysis of Discrete Data with Econometric
Applications, MIT Press, Cambridge, MA.
McFadden, D. (1984), ‘Econometric analysis of qualitative response models’, Hand-
book of Econometrics 2, 1395–1457.
McFadden, D. (1987), ‘Regression-based specification tests for the multinomial
logit model’, Journal of Econometrics 34(1-2), 63–82.
McFadden, D. (1989), ‘A method of simulated moments for estimation of discrete
response models without numerical integration’, Econometrica 57(5), 995 –
1026.
McFadden, D. (1999), ‘Computing willingness-to-pay in random utility models’,
in J. Moore, R. Riezman e J. Melvin, eds, Trade, Theory and Econometrics:
Essays in Honour of John S. Chipman, Routledge, London.
McFadden, D. (2001), ‘Economic choices’, American Economic Review 91(3),
351–78.
McFadden, D. (2002), ‘Epilogue’, Marketing letters 13(3), 307–310.
McFadden, D. (2005), ‘Revealed stochastic preference: A synthesis’, Economic
Theory 26(2), 245–264.

215
McFadden, D. e Richter, M. (1971), ‘On the extension of a set function on a set
of events to a probability on the generated boolean - algebra’, Working Paper
14, Department of Economics, University of California, Berkeley.
McFadden, D. e Richter, M. (1990), ‘Stochastic rationality and revealed stocha-
stic preference’, in J. Chipman, D. McFadden e M. Richter, eds, Preferences,
Uncertainty and Optimality: Essays in Honor of Leonid Hurwicz, Westview
Press, Boulder, Colorado, pp. 161–186.
McFadden, D. e Ruud, P. (1994), ‘Estimation by simulation’, The review of econo-
mics and statistics 76(4), 591–608.
McFadden, D. e Train, K. (2000), ‘Mixed mnl models for discrete response’, Jour-
nal of Applied Econometrics 15(5), 447–470.
McFadden, D., Train, K. e Tye, W. (1977), ‘An application of diagnostic tests for the
independence from irrelevant alternatives property of the multinomial logit
model’, Transportation Research Record 637, 39–45.
McLennan, A. (1991), ‘Binary stochastic choice’, in J. Chipman, D. McFadden e
M. Richter, eds, Preferences, Uncertainty and Optimality: Essays in Honor
of Leonid Hurwicz, Westview Press, Boulder, Colorado.
Mehndiratta, S. (1996), ‘Time-of-day effects in inter-city business travel’, Ph.D.
Dissertation, University of California, Berkeley.
Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, A. e Teller, E. (1953),
‘Equation of state calculations by fast computing machines’, Journal of Che-
mical Physics 21(6), 1087–1092.
Morikawa, T. (1994), ‘Correcting state dependence and serial correlation in the
rp/sp combined estimation method’, Transportation 21(2), 153–165.
Morikawa, T., Ben-Akiva, M. e McFadden, D. (2002), ‘Discrete choice models in-
corporating revealed preferences and psychometric data’, in P. Franses e A.
Montgomery, eds, Econometric Models in Marketing, Advances in Econome-
trics, Vol. 16, Elsevier, Oxford, pp. 29–55.
Moulin, H. (1985), ‘Choice functions over a finite set: A summary’, Social Choice
and Welfare 2(2), 147–160.
Mühleisen, M. (1991), ‘On the use of simulated estimators for panel models with
limited dependent variables’, Working paper, Mimeo, University of Munich.
Mundlak, Y. (1963), ‘Estimation of production and behavioral functions from a
combination of cross-section and time series data’, in C. Christ, ed., Measu-
rement in Economics: Studies in Mathematical Economics and Econometrics,
Stanford University Press, Stanford, CA, pp. 138–166.
Munizaga, M. e Alvarez-Daziano, R. (2001), ‘Mixed logit versus nested logit and
probit’, Working Paper, Departmento de Ingeniera Civil, Universidad de Chi-
le.
Munizaga, M. e Alvarez-Daziano, R. (2005), ‘Testing mixed logit and probit by
simulation’, Transportation Research Record (1921), 53–62.
Ortúzar, J. (1983), ‘Nested-logit models for mixed-mode travelin urban corridors’,
Transportation Research: Part A 17(4), 283–299.

216
Paglione, G., Danieli, R., Marcucci, E. e Gatta, V. (2007), ‘Interazioni tra gli agenti
e modelli a scelta discreta: Una analisi della letteratura con una applicazione
preliminare’, in VII Congresso Nazionale CIRIAF, Perugia, Italy.
Pakes, A. e Pollard, D. (1989), ‘Simulation and the asymptotics of optimization
edtimators’, Econometrica 57(5), 1027–1057.
Papola, A. (2004), ‘Some developments on the cross-nested logit model’, Trans-
portation Research Part B: Methodological 38, 833–851.
Polidori, G. e Marcucci, E. (2003), ‘Domanda di trasporto merci e preferenze
dichiarate: il caso delle Marche’, in Trasporto Merci, Logistica, e Scelta
Modale, Franco Angeli, Milano.
Puckett, S., Hensher, D., Rose, J. e Collins, A. (2007), ‘Design and development
of a stated choice experiment for interdependent agents: Accounting for inte-
ractions between buyers and sellers of urban freight services’, Transportation
34(4), 429–451. Springer.
Quandt, R. (1956), ‘A probabilistic theory of consumer behavior’, Quarterly Jour-
nal of Economics 70(4), 507–536.
Rao, C. (1973), Linear Statistical Inference and Its Applications, 2nd edn, John
Wiley and Sons, New York.
Recker, W. (1995), ‘Discrete choice with an oddball alternative’, Transportation
Research: Part B 29(3), 207–211.
Revelt, D. e Train, K. (1998), ‘Mixed logit with repeated choices: Households’
choices of appliance efficiency level’, Review of Economics and Statistics
(80), 647–657.
Richter, M. (1966), ‘Revealed preference theory’, Econometrica 34(3), 635– 645.
Richter, M. (1971), ‘Rational choice’, in J. Chipman, L. Hurwicz e M. R. et al, eds,
Preferences, Utility, and Demand: A Minnesota Symposium, Harcourt Brace
Jovanovich, New York, pp. 29–58.
Samuelson, P. (1938), ‘A note on the pure theory of consumer’s behaviour’, Eco-
nomica 5(17), 61–71.
Sándor, Z. e Train, K. (2004), ‘Quasi-random simulation of discrete choice mo-
dels’, Transportation Research Part B: Methodological 38(4), 313–327.
Simon, H. (1978), ‘Rationality as process and as product of thought’, American
Economic Review 68(2), 1–16.
Small, K. (1987), ‘A discrete choice model for ordered alternatives’, Econometrica
55(2), 409–424.
Small, K. e Brownstone, D. (1982), ‘Efficient estimation of nested logit models:
An application to trip timing’, Research Memorandum No. 296, Econometric
Research Program, Princeton University.
Small, K. e Hsiao, C. (1985), ‘Multinominal logit specification tests’, International
Economic Review 26(3), 619–628.
Small, K. e Rosen, H. (1981), ‘Applied welfare economics with discrete choice
models’, Econometrica 49(1), 105–130.
Steckel, J. e Vanhonacker, W. (1988), ‘A heterogeneous conditional logit model of

217
choice’, Journal of Business and Economic Statistics 6, 391–398.
Stigler, G. e Becker, G. (1977), ‘De gustibus non est disputandum’, American
Economic Review 67(2), 76–90.
Swait, J. (1994), ‘A structural equation model of latent segmentation and pro-
duct choice for cross-sectional evealed preference choice data’, Journal of
Retailing and Consumer Services 1, 77–89.
Swait, J. (2001), ‘Choice set generation within the generalized extreme value family
of discrete choice models’, Transportation Research: Part A 35(7), 643–666.
Swait, J. e Ben-Akiva, M. (1987), ‘Incorporating random constraints in discrete
models of choice set generation’, Transportation Research: Part B 21(2),
91–102.
Swait, J. e Louviere, J. (1993), ‘The role of the scale parameter in the estimation
and comparison of multinomial logit models’, Journal of marketing research
30(3), 305–305.
Tanner, M., A. (1991), Tools for statistical inference, Springer-Verlag, New York.
Thurstone, L. (1927:a), ‘A law of comparative judgment’, Psychological Review
34, 273–286.
Thurstone, L. (1927:b), ‘Psychological analysis’, American Journal of Psychology
38, 368–389.
Train, K. (1986), ‘Qualitative Choice Analysis : Theory, Econometrics, and an Ap-
plication to Automobile Demand’, Mit Press Series in Transportation Studies,
MIT Press, Cambridge, Mass.
Train, K. (1995), ‘Simulation methods for probit and related models based on con-
venient error partitioning’, Working paper 95-237, Department of economics,
University of Berkeley, California.
Train, K. (1998), ‘Recreation demand models with taste differences over people’,
Land Economics 74(2), 230–239.
Train, K. (1999), ‘Halton sequences for mixed logit’, Working paper, Department
of economics, University of California, Berkeley.
Train, K. (2001), ‘A comparison of hierarchical bayes and maximum simulated
likelihood for mixed logit’, Working paper, Department of economics, Uni-
versity of California, Berkeley.
Train, K. (2003), Discrete Choice Methods with Simulation, Cambridge University
Press, Cambridge.
Train, K., McFadden, D. e Ben-Akiva, M. (1987), ‘The demand for local telepho-
ne service: A fully discrete model of residential calling patterns and service
choices’, Rand Journal of Economics 18(1), 109–123.
Train, K. e Winston, C. (2007), ‘Vehicle choice behavior and the declining market
share of u.s. automakers’, International Economic Review 48(4), 1469–1496.
Tversky, A. (1969), ‘Intransitivity of preferences’, Psychological Review 76(1),
31–48.
Tversky, A. (1972:a), ‘Elimination by aspects: A theory of choice’, Psychological
Review 79(4), 281–299.

218
Tversky, A. (1972:b), ‘Choice by elimination’, Journal of Mathematical Psycholo-
gy 9(4), 341–67.
Villas-Boas, J. e Russell, S. (1999), ‘Endogeneity in brand choice models’, Mana-
gement Science 45(10), 1324–1338.
Von Neumann, J. (1951), ‘Various techniques used in connection with random
digits’, Nat. Bureau Stand. Appl. Math. Ser. 12, 36–38..
Vovsha, P. (1997), ‘Cross-nested logit model: An application to mode choice in the
tel-aviv metropolitan area’, in Transportation Research Board, 76th Annual
Meeting, Paper 970387, Washington DC.
Vovsha, P. e Bekhor, S. (1998), ‘The link-nested logit model of route choice:
Overcoming the route overlapping problem’, Transportation Research Record
2645, 133–142.
Walker, J. (2001), ‘Extended Discrete Choice Models: Integrated Framework, Fe-
xible Error Structures, and Latent Variables’, PhD thesis, Ph.D. Dissertation,
Department of Civil and Environmental Engineering, Massachusetts Institute
of Technology.
Walker, J. e Ben-Akiva, M. (2002), ‘Generalized random utility model’, Mathema-
tical Social Sciences 43(3), 303–343.
Walker, L., Ben-Akiva, M. e Bolduc, D. (2007), ‘Identification of parameters in
normal error component logit-mixture (neclm) models’, Journal of Applied
Econometrics 22(6), 1095–1125.
Wen, C.-H. e Koppelman, F. (2001), ‘The generalized nested logit model’, Trans-
portation Research: Part B 35(7), 627–641.
Wiley, D. (1973), ‘The identification problem for structural equation models with
unmeasured variables’, in A. Goldberger e O. Duncan, eds, Structural Models
in the Social Sciences, Academic Press, New York.
Wilks, S. (1962), Mathematical Statistics, Wiley, New York.
Williams, H. (1977), ‘On the formation of travel demand models and economic eva-
luation measures of user benefit’, Environment and Planning A 9(3), 285–344.
Williams, H. (1981), ‘Random theory and probabilistic choice models’, in A. Wil-
son, J. Coelho e S. M. et al, eds, Optimization in Locational and Transport
Analysis, Wiley, Chichester, pp. 46–84.
Williams, H. e Ortúzar, J. (1982), ‘Behavioural theories of dispersion and the
mis-specification of travel demand models’, Transportation Research: Part
B 16(3), 167–219.

219

View publication stats

Potrebbero piacerti anche