Sei sulla pagina 1di 32

Statistica & Società 1

05.2004 2,50
anno II n.3

&
rivista quadrimestrale per la diffusione della cultura statistica

edizioni
&
rivista quadrimestrale per la diffusione della cultura statistica

Statistica & Società anno II n. 3, 2004


Reg. Trib. di Roma nº 504/2002 2/9/02

Rassegna quadrimestrale
gratuita per i soci SIS SOMMARIO
Struttura Organizzativa:
pag.
Direttore Responsabile
B. Vittorio Frosini
Direttore Scientifico
Luigi D’Ambra Serve un’Autorità garante per l’informazione statistica? 3
Condirettori A. Cortese
Giovanni Maria Giorgi (Didattica, Intervista, Informa-
tica, Risposte ai Soci, Dottorati di Ricerca) Su un recente contributo di alfredo rizzi a proposito di Abduzione e
Giuliana Coccia (Mercato del lavoro, Territorio, inferenza 5
Osservatorio Internazionale, Bestiario Statistico)
A. Forcina
Comitato Editoriale
B. Vittorio Frosini
Competenze, criticità e prospettive per un ruolo chiave nella ricerca
Luigi D’Ambra
Giovanni Maria Giorgi farmaceutica: il biostatistico 7
Giuliana Coccia F. Patarnello
Responsabili di Sezione
Luigi Fabbris Mercato del lavoro Il ruolo della statistica nell’ingegneria dei sistemi di trasporto 12
Intervista F. Pagliara
M. Gabriella Ottaviani Didattica
Enrico Del Colle Territorio
Gianfranco Galmacci Informatica Modelli statistici per l’asset management 18
Daniela Cocchi Dottorati di Ricerca R. Bramante, G. Gabbi
Achille Lemmi Management
Alberto Lombardo Bestiario Statistico Dal dato all’informazione, dall’informazione alla conoscenza:
Gustavo De Santis Risposte ai Soci
tecniche statistiche per la creazione del valore 26
Osservatorio Internazionale
F. Rubinacci, E. Ciavolino
Segreteria di Redazione
Michele Gallo
Dipartimento di Scienze Sociali I Censimenti nella Bibbia: adempimento del volere di Dio
Università degli Studi di Napoli – L’Orientale o peccato? 30
Piazza S. Giovanni Maggiore, 30 – 80124 – Napoli M.P. Perelli D’Argenzio
Tel. 081 6909411 fax 081 675187
e-mail: mgallo@unior.it

Finito di stampare nel mese di maggio 2004


rce edizioni Piazza Bagnoli, 19 – Napoli
Tel 081 2303416 – fax 081 2428946
e-mail: rceedizioni@libero.it
una copia 2,50
Statistica & Società 3

Serve un’Autorità garante per l’informazione statistica?


Antonio Cortese
Facoltà di Economia, Università “Roma Tre” – e-mail: cortese@uniroma3.it

Auspico che su un articolo pubblicato sul n. il pericolo che con l’istituzione di una “Autorità
1/2003 della Rivista (G. MARBACH, La certificazione garante per la informazione statistica” vengano
dei dati statistici: un processo in itinere), si apra un scardinate le norme di cui al decreto legislativo n.
confronto fra i soci della SIS. Giudico infatti il tema 322 del 1989 anche perché di fatto viene, nella pro-
affrontato di rilevante importanza. Provo a fornire posta, implicitamente messa in dubbio la capacità
un primo contributo. dell’Istat di saper indirizzare e coordinare le attività
Nel lavoro vengono richiamate le norme deon- statistiche degli enti ed uffici facenti parte del Siste-
tologiche elaborate dalla SIS nel 1994 ed al riguardo ma statistico nazionale (art. 15, comma 1, lettera c).
mi pare opportuno precisare, essendo stato in quel Se si giudica insoddisfacente il lavoro sino ad
periodo componente del Consiglio Direttivo, che si oggi svolto dalla “Commissione per la garanzia” lo
era ritenuto di dover prendere una posizione in ordi- si dica chiaramente ed eventualmente si avanzino
ne alle cosiddette “indagini di opinione”. proposte per garantirne un migliore funzionamento.
Con riferimento poi alle statistiche ufficiali, Avanzo riserve anche sulla possibilità di mette-
reputo invece utile ricordare i risultati cui è pervenu- re sotto controllo la diffusione dei dati statistici “pri-
ta la Commissione scientifica della SIS sulla qualità vati” ove si escluda quella dei “sondaggi sui mezzi
dei dati statistici. Sul Bollettino n. 22 del 1991 sono di comunicazione di massa” per la quale l’Autorità
fra l’altro presentate alcune “linee direttive per l’il- per le garanzie nelle comunicazioni ha già approva-
lustrazione di contenuti e qualità dei dati statistici”. to un regolamento.
Venendo allo schema di proposta di legge ela- Con la legge che viene proposta vengono intro-
borato da Antonio Baldassarre e Giorgio Marbach dotti vincoli pesanti a carico del soggetto che si pro-
(per disciplinare la diffusione dei dati statistici pub- pone di condurre una rilevazione statistica: obbligo
blici e privati, viene proposta l’istituzione di un’Au- di fornire numerose comunicazioni preventive (se
torità garante per la informazione statistica), osser- non ci si vuole precludere la possibilità di procedere
vo in primo luogo che resto alquanto perplesso circa ad una diffusione dei risultati inizialmente non pre-
il proposito di disciplinare la diffusione dei dati sta- vista) ed obbligo di conservare la documentazione
tistici “pubblici”. Come è noto, il decreto legislativo riguardante tutti gli aspetti e fasi dell’indagine effet-
6 settembre 1989, n. 322 che detta norme sul Siste- tuata. Lo statistico dovrà essere affiancato da un
ma statistico nazionale (Sistan), ha affidato ad un’ap- esperto legale?
posita Commissione istituita presso la Presidenza del La dirigenza di una struttura ricettiva o quella
Consiglio dei Ministri (Commissione per la garan- di una compagnia aerea che progettano di realizzare
zia dell’informazione statistica) il compito di vigila- una customer satisfaction survey, la direzione di un
re “sulla qualità delle metodologie statistiche e delle supermercato che desidera accertare le caratteristi-
tecniche informatiche impiegate nella raccolta, nel- che strutturali della propria clientela, dovranno pen-
la conservazione e nella diffusione dei dati” (art. 12, sarci due volte prima di prendere una decisione defi-
comma 1). Ove si consideri che nel Programma Sta- nitiva. Nel corso di una recente audizione in Parla-
tistico Nazionale (art. 13), approvato con decreto del mento il Presidente dell’Associazione Bancaria Ita-
Presidente della Repubblica su proposta del Presi- liana ha fornito dati statistici raccolti presso le ban-
dente del Consiglio dei Ministri, sono analiticamente che associate. Poiché il testo della relazione che ha
indicati gli obiettivi delle rilevazioni statistiche di presentato formerà oggetto di pubblicazione sugli atti
interesse pubblico e che la suddetta Commissione parlamentari, mi chiedo se, qualora la legge che sto
redige un rapporto annuale che si allega alla relazio- esaminando fosse già stata in vigore, ciò lo avrebbe
ne al Parlamento sull’attività dell’Istat, mi pare reale esposto al rischio di sanzioni nel caso naturalmente
4 Statistica & Società

non avesse preventivamente depositato la comuni- e che si prevedesse poi come necessaria la firma di
cazione di cui all’art. 4 dello schema di proposta di un iscritto in calce al piano della rilevazione.
legge. Dati raccolti all’interno di una azienda per la Vedo difficoltà anche da parte dell’Autorità
determinazione di standard per attività amministra- garante per l’informazione statistica nel gestire l’am-
tive, non potrebbero, per gli stessi motivi, comparire pio volume di informazioni che inevitabilmente af-
all’interno della relazione dell’amministratore dele- fluirebbero. Sarebbe necessaria l’assistenza di un
gato posto che questa deve essere talvolta depositata adeguato ufficio di supporto composto da numerosi
in tribunale il che, se non erro, ne consente la con- esperti. Da questo punto di vista, ci si potrebbe ralle-
sultazione da parte di chiunque fosse interessato. In- grare per le opportunità di lavoro che si offrirebbero
tendo dire che la funzione statistica è importantissi- forse agli statistici.
ma per il controllo di gestione e sarebbe complicato Senza entrare ulteriormente nel merito della
doversi adoperare per impedire una diffusione, an- proposta, formulo, sul piano generale, un’ultima os-
che parziale, dei flussi informativi che si formano servazione. All’inizio dell’art. 4 si fa generico riferi-
all’interno dell’azienda. Anche sul versante della ri- mento a “soggetti ed organismi che effettuano inda-
cerca le cose si complicherebbero dovendosi ipotiz- gini statistiche”. Come ci si deve regolare nel caso
zare che pure gli studiosi sarebbero tenuti al rispetto di organismi stranieri che effettuano indagini nel
della normativa che si suggerisce di introdurre, ove nostro paese diffondendone i risultati all’estero? Sul-
progettino di pubblicare i risultati delle analisi nelle l’Annuario Pontificio compaiono dati statistici (spes-
quali si sono impegnati qualora queste abbiano ri- so criticati) relativi all’Italia: la Città del Vaticano
chiesto l’effettuazione di un’indagine statistica. Mi avrà degli obblighi nei confronti dell’Autorità? Pen-
rendo pienamente conto che vi è pure il problema di so anche ad indagini dirette condotte da Eurostat sul
Istituti di ricerca come il Censis e l’Euripes ma per nostro territorio: vale la stessa regola? Non vorrei che
dirla fino in fondo, non vorrei che si arrivasse alla ci fosse un incremento delle richieste di indagini com-
costituzione di un albo professionale degli statistici missionate ad istituti di ricerca di altri paesi.
Statistica & Società 5

Su un recente contributo di alfredo rizzi a proposito di Abduzione e


inferenza
Antonio Forcina
Dipartimento di Scienze Statistiche, Università di Perugia – e-mail: forcina@stat.unipg.it

Sommario
Metto in relazione due storici contributi di C. Gini con i temi trattati da Rizzi (2004) e sottopongo qualche
passo di quest’ultimo lavoro ad una analisi critica.

1. Abduzione e inferenza: il punto di vista di nuta a Ginevra, Gini affronta prima il problema di
Gini come valutare l’accordo fra modelli e dati doman-
dandosi poi quali conclusioni possano trarsi da mo-
Come specificato in Rizzi (2004, p. 19), “l’ab- delli che sembrano in accordo con i dati. La critica
duzione consiste nel formulare una ipotesi partendo di procedimenti logici in cui si dà credito ad una ipo-
da un dato effetto”. Se ho ben capito, il procedimen- tesi solo perché rappresenta uno dei possibili mo-
to logico sarebbe il seguente: se una ipotesi è in gra- delli che si adattano ai dati è molto netta (Gini, 1940,
do di spiegare almeno in parte i fatti osservati, allora p. 24): “construire des schémas est très facile et il
abbiamo ragione di ritenere che essa sia vera. Non peut donner l’illusion d’avoir fait des découvertes;
viene però spiegato con precisione né in che misura examiner et vérifier les hypothèses qu’ils comportent
l’ipotesi deve spiegare i fatti né quanta forza derivi est long et pénible”. Per capire questo passo convie-
ad una ipotesi da tali circostanze. Non è chiaro se ne tener presente che Gini qui fa riferimento ai suoi
l’Autore sottoscriva in modo acritico le affermazio- studi sulla distribuzione dei sessi nelle popolazioni
ni discutibili (o forse riassunte in modo semplicisti- umane (Gini, 1911). In tali studi egli aveva mostrato
co) di alcune sue fonti (ad esempio Charles Peirce), che una distribuzione osservata apparentemente
secondo cui “sia l’induzione sia la deduzione non binomiale poteva derivare, sia dal fatto che le ipote-
possono mai dare origine ad alcuna idea nuova” e si del modello binomiale erano soddisfatte, sia dalla
anche: “L’abduzione coincide con il metodo ipoteti- presenza di due o più violazioni opposte i cui effetti
co sperimentale che caratterizza la scienza sperimen- si potevano compensare. Ma, soprattutto, attraverso
tale da Galilei in poi.” oppure se si limiti a sintetiz- un uso geniale dei dati a sua disposizione, egli era
zarle con puntigliosa diligenza. Ecco un esempio ri- riuscito a mostrare che una sola delle possibili spie-
portato a p. 20: “Fatto: I fagioli osservati sono bian- gazioni (non quella binomiale) era valida. Per ulte-
chi; Ipotesi: Tutti i fagioli che provengono da questo riori commenti vedere Forcina (2003).
sacco sono bianchi; Conclusione: Questi fagioli pro-
vengono da questo sacco” Commento: “Ciò è vero
2. La cosiddetta inversione dell’intervallo di
probabilmente”. Se l’esempio non fosse così vago e
confidenza
poco rilevante, verrebbe da chiedere di quale proba-
bilità stiamo parlando e come quantificarla. Il tema è trattato (Rizzi, 2004, p. 22) dopo una
Se ho ben capito, l’abduzione è quel procedi- digressione sull’inferenza bayesiana su cui tornerò
mento logico alla cui critica C. Gini (1940) aveva nel seguito. La riflessione comincia in tono rassicu-
dedicato una attenzione particolare nell’ambito di rante: “nel caso di popolazioni finite l’interpreta-
quella che lui chiamava Teoria della dispersione. È zione del significato dell’intervallo di fiducia … si
opportuno precisare che, nella terminologia dell’epo- presenta agevole”. Viene quindi riproposta la ben
ca, questa teoria “consiste a comparer la distribution nota argomentazione (reperibile su vari libri di te-
effective de certaines grandeurs avec une distribution sto): il livello di confidenza rappresenta la probabi-
théorique établie sur la base de certaines hypothèses” lità che gli estremi dell’intervallo (che sono variabi-
(p. 4). Nel lavoro, che deriva da una conferenza te- li campionarie) contengano il parametro incognito
6 Statistica & Società

(che è fisso). Siccome questa spiegazione non è in de impliciti dogmatismi.” A mio avviso, queste sono
alcun modo ristretta alle popolazioni finite, desumo affermazioni generiche e confuse che richiedereb-
che l’Autore ha dimostrato un risultato più generale bero di essere opportunamente precisate.
della sua stessa tesi. Egli invece tiene a precisare che Nel capoverso successivo l’Autore sembra fi-
“L’inversione dell’intervallo di confidenza al di fuori nalmente sul punto di abbandonare posizioni gene-
dell’inferenza per popolazioni finite, rimane una riche e manifestare chiaramente le sue preferenze:
questione che spesso in maniera eufemistica, viene “Il teorema di Bayes può essere assunto come la re-
definita estremamente delicata”. Il massimo che egli gola fondamentale per imparare dall’esperienza”.
sembra disposto a concedere è che si possa interpre- Ma ecco subito la contromossa: “Ma non tutti i fe-
tare tale inversione come “una regola di approssi- nomeni di apprendimento sono riportabili al teore-
mazione non avente significato universale”. L’Au- ma di Bayes, che, a mia opinione costituisce, quindi,
tore attribuisce la sua tesi, genericamente, alla “Scuo- non la regola di apprendimento, ma una regola di
la statistica italiana” e rimprovera bonariamente apprendimento”. Cioè circa l’esatto contrario di
Casella e Berger di non farne cenno nel loro “impor- quanto detto sopra.
tante libro” (Rizzi, 2004, p. 22). A mio avviso si tratta Il paragrafo su induzione e deduzione si basa
di tesi talmente vaghe e confuse da non poter neppu- su un metodo analogo: fare delle affermazioni piut-
re essere sottoposte ad un esame scientifico. tosto ovvie e apparentemente contraddittorie. Ad
A proposito di interpretazione del grado di con- esempio, arrivato, attraverso una sintesi del pensie-
fidenza di un intervallo, può essere interessante ri- ro di Hume, ad enunciare il principio di continuità
cordare l’interpretazione che Gini (1947, pp. 31-32) della natura, egli ci avverte che “Da esso discendo-
aveva suggerito a proposito degli intervalli di confi- no però gravi conseguenze: assenza di imprevedibi-
denza (vedasi Forcina, 1982, p. 66 per una presenta- lità, cancellazione del libero arbitrio”. Invece di
zione più articolata). In breve, sia θ un parametro e chiarire che questa affermazione sarebbe vera solo
T una statistica (per semplicità le supponiamo entram- se il principio di continuità della natura venisse este-
be continue); se la probabilità che, per un fissato θ, so in modo acritico ai comportamenti umani, egli vi
contrappone un enunciato ovvio e, in un certo senso,
P[t1 (θ ) ≤ T ≤ t2 (θ )| θ ] = 1 − α ,
rassicurante: “gli eventi non ancora accaduti con-
allora,
tengono una porzione determinante di novità ed im-
E{P[θ1 (T ) ≤ θ ≤ θ 2 (T )| T ]} = 1 − α ,
prevedibilità, per altro almeno in parte valutabile ex
dove θ1(T) = [t1(θ)]-1 e θ2(T) = [t1(θ)]-1 sono le fun- ante”.
zioni che delimitano la regione di confidenza per un
Bibliografia
fissato T. In parole povere questo vuol dire che il
livello di confidenza rappresenta il valore atteso del- FORCINA A. (1982), Gini’s contributions to the Theory of
la probabilità a posteriori. Questo fatto però, dal punto Inference, Int. Statist. Review, 50, 65-70.
di vista di Gini, costituiva un difetto piuttosto che un FORCINA A. (2003), Probabilistic Modelling: an historical
pregio, non potendo stabilire di quanto vari la pro- and philosophical digression. In Foundations of
babilità a posteriori da un campione all’altro. Statistical Inference, eds. Y. HAITOVSKY, R. LERCHE, Y.
RITOV, 69-76, Springer-Verlag.
3. Altri commenti GINI C. (1911), Considerazioni sulla probabilità a poste-
riori e applicazioni al rapporto dei sessi nelle nascite
Il lavoro di Rizzi (2004) inizia evocando l’im-
umane. Studi Economico-Giuridici 3, Cagliari; ristam-
magine di schiere contrapposte di statistici in con-
pato in Metron, 15, 1-37.
flitto per “mostrare che una specifica teoria dell’in-
GINI C. (1940), Sur la théorie de la dispersion et sur la
ferenza statistica è vera in confronto di tutte le altre
vérification et l’utilisation des schémas théoriques.
che sono false”. Anzitutto egli prende le distanze da
Metron, 1-29.
queste diatribe: “Non vi è una teoria vera … Nessu-
na teoria può risolvere il problema generale dell’in- GINI C. (1947), Statistical relations and their inversion.
duzione.” Ma subito dopo si preoccupa di sottoline- Review of the Int. Statist. Inst., 15, 24-42.
are che il suo punto di vista: “non implica neutralità RIZZI A. (2004), Abduzione ed inferenza statistica. Stati-
rispetto alle osservazioni empiriche; essa (immagi- stica & Società, 2, 15-24.
no, la neutralità) è una illusione che spesso nascon-
Statistica & Società 7

Competenze, criticità e prospettive per un ruolo chiave nella ricerca


farmaceutica: il biostatistico
F. Patarnello
GlaxoSmithKline, Verona

Introduzione stessi che si affacciano a questa professione.


È auspicabile che migliorare il nostro ruolo e le
nostre competenze sia alla fine utile a migliorare l’ef-
Il processo di progressiva specializzazione che ficacia e la qualità della ricerca e ad indurne un pro-
caratterizza il mondo del lavoro, ed in particolare gressivo miglioramento.
quello scientifico, crea decine di professioni e di pro- Ciò si dovrebbe tradurre poi attraverso un “ef-
fessionisti il cui titolo e qualifica risultano alle volte fetto volano” alla crescita del numero di biostatistici
ignoti, spesso vaghi, quasi sempre ambigui. fino a coprirne le reali necessità, arrivando ad una
Questo problema comporta una serie di conse- massa critica sufficiente a influire positivamente sui
guenze negative sia per i singoli professionisti – o processi decisionali.
aspiranti tali – sia per la disciplina stessa la quale
non riesce ad ottenere sufficiente credito per svilup-
parsi, per creare dei buoni percorsi formativi, per Il mondo dell’industria, la ricerca e la
ottenere il potere sufficiente nei processi decisio- flessibilità
nali. In Italia i biostatistici che operano nell’indu-
Ecco perché le professioni più deboli, come da stria farmaceutica, nelle agenzie di supporto come le
un certo punto di vista la nostra, dedicano tanto spa- CRO (Clinical Research Organization), comprenden-
zio a ragionare sul proprio ruolo, sulla propria for- do anche coloro che si occupano di gestione dei dati
mazione, sulla gestione della professione, come mai clinici, sono circa un centinaio.
farebbero farmacisti, notai, o avvocati, qualificati Negli ultimi anni il processo di riduzione dei
dalle istituzioni stesse allo svolgimento di determi- costi e di ricerca di maggiore efficienza operativa di
nate attività e spesso protagonisti quasi esclusivi delle molte aziende ha portato all’esternalizzazione di
loro decisioni. molti servizi di biostatistica, spostando molte delle
Il ruolo del biostatistico, anche ma non soltan- risorse dalle aziende stesse alle CRO.
to nell’industria farmaceutica, ha invece confini meno Pur trattandosi molto spesso delle stesse perso-
netti, caratteristiche più variegate, molto spesso le- ne, lo spostamento di questi professionisti all’ester-
gate alla tradizione ed al contesto aziendale ed an- no delle aziende ha avuto un impatto strategico che
che alle caratteristiche della persona stessa. Tra que- non va trascurato.
ste diverse sfumature è possibile vedere ruoli talmen- La progressiva perdita di competenza interna
te diversi da rendere difficile immaginare un percor- all’azienda, la maggiore difficoltà per il biostatistico
so formativo ed un profilo del ruolo valido per tutti. esterno nell’affermare il proprio ruolo in uno scam-
Guardare agli estremi in questo caso fa perdere bio dialettico con altri (chi di noi non si è trovato a
di vista il problema, e rinforza quella visione fatali- sostenere punti di vista estremamente diversi con un
stica e personalistica della biostatistica che ha reso responsabile di ricerca clinica nella determinazione
in questi anni difficile sviluppare e diffondere una della dimensione campionaria o del disegno speri-
professione dai contenuti importanti e rilevanti per mentale di uno studio clinico!), la scarsa conoscenza
la qualità della ricerca. dell’area terapeutica o delle problematiche del pro-
L’importanza dell’obiettivo del nostro lavoro, dotto che si ha vivendo al di fuori dei confini
cioè la ricerca, indipendentemente dall’istituzione aziendali, ed infine la necessità di far fronte alla com-
pubblica o dall’azienda privata per la quale operia- petizione con altre CRO sia dal punto di vista dei
mo, rende tuttavia il ragionare su questo argomento tempi di risposta, che, purtroppo, anche alla qualità
sempre estremamente utile ad indirizzare gli sforzi della risposta stessa, rendono sicuramente delicata e
di tutti noi e a fornire delle indicazioni ai giovani significativa questa tendenza e molto difficile anche
8 Statistica & Società

per le CRO più qualificate e per i migliori professio- consolidarne la solidità e credibilità professionale.
nisti mantenere un livello qualitativo ed una Questo manager si affiderà, per i problemi più com-
leadership adeguata nei processi decisionali. plessi, all’accademia, in modo tale da essere garan-
Sparisce quindi nell’ultimo decennio in moltis- tito rispetto alla qualità formale delle sue scelte, pro-
sime delle aziende farmaceutiche il reparto di ducendo ancora una volta quella distanza tra il pro-
biostatistica, con la sua autonomia funzionale e de- blema e la sua trattazione metodologica che fu pro-
cisionale, con i suoi professionisti, con l’insieme di prio tipica degli inizi di questa professione.
regole e procedure che li caratterizzano o presidiano
la qualità del lavoro svolto, e con esso sparisce, dove Come si qualifica un biostatistico?
si era venuta a creare, “la scuola”, il centro di cono-
scenza e di esperienza, utile ed anzi necessario rife- È necessario prima di tutto chiedersi: quale è,
rimento per i neo laureati, gli stagisti, i neoassunti. in generale, il modo migliore, e più efficace, per qua-
Se la crescente richiesta di flessibilità del mer- lificare una professione?
cato del lavoro e la forte competizione in termini di Esistono a questo proposito diverse possibilità,
efficienza presente sia nelle aziende private – ed in non sempre alternative:
misura sempre crescente anche pubbliche – si rivela a) influire sulla formazione prima dell’inizio dell’at-
effettivamente utile ed auspicabile in moltissime at- tività lavorativa, aumentando la specializzazione
tività ed in particolare in quelle a più basso valore della formazione universitaria (laurea, master);
aggiunto, o nelle quali è sufficiente il possesso di
b) aumentare le barriere all’entrata della professio-
alcune competenze tecniche (ad esempio la conoscen-
ne, ad esempio attraverso l’istituzione di albi pro-
za della lingua straniera, l’utilizzo di alcune applica-
fessionali e ordini (es. commercialisti, notai,…)
zioni informatiche), ciò rappresenta invece un vero
creando una maggiore protezione della categoria
e proprio punto critico in quelle professioni nelle quali
ma di fatto non andando ad influire sulle compe-
il percorso formativo è più lungo e non può che svi-
tenze dei professionisti stessi;
lupparsi per la maggior parte all’interno del mondo
del lavoro. c) lavorare sui processi decisionali generali cui par-
In particolare è il mondo della ricerca e svilup- tecipano questi potenziali professionisti, ad esem-
po a risultare particolarmente svantaggiato dalla scar- pio quello della ricerca, creando quindi delle bar-
sa attenzione all’investimento in risorse umane, ed a riere legate alla conoscenza ed alle decisioni.
pagare invece gli effetti negativi che la flessibilità Per capire quindi cosa è meglio fare, e poter
ed il turn over creano se applicati a processi lunghi e quindi dare dei suggerimenti utili anche a chi si ap-
delicati come quelli che caratterizzano il nostro presta a iniziare questa professione, è utile dare ri-
settore. sposta alle seguenti domande: cosa fa un biostatisti-
In questo caso la flessibilità tende a creare dei co, in Italia, in Europa, nel mondo? A quali processi
lavoratori che anche dopo un’attività lavorativa di partecipa? Che decisioni prende? Quali specializza-
parecchi anni, rimangono sempre inesperti e junior. zioni ha, o può avere? Dove opera principalmente?
Infatti su di essi, proprio per il carattere di tempora- Quale tipo di formazione ha avuto e quali competen-
neità, non solo non verrà effettuata formazione qua- ze ha dovuto sviluppare per svolgere in modo effica-
lificante, ma non verranno nemmeno prodotti quegli ce il suo ruolo?
investimenti “personali” che generalmente il respon- Inoltre sarà estremamente utile chiedersi, e chie-
sabile della funzione svolge per i suoi collaboratori dere ai professionisti ormai pienamente nel ruolo, che
più junior costituendo quell’importantissimo passag- esperienze e che background hanno avuto, e quali
gio di conoscenze implicite ed esplicite che possono sono stati i fattori critici di successo per la loro cre-
essere trasferite in modo proficuo nei primissimi mesi scita professionale. Infine, come loro stessi selezio-
di vita lavorativa e che resteranno poi un riferimento nano i propri collaboratori, da quali percorsi forma-
professionale valido in tutta la carriera professiona- tivi provengono, che caratteristiche hanno, quali com-
le di quella risorsa. petenze devono assumere nel loro percorso
Questa categoria passerà incredibilmente da formativo.
junior a manager, magari gestendo risorse allocate Negli anni ’80 la maggior parte delle persone
all’esterno e a loro volta temporanee, senza tuttavia impiegate nelle Unità di Biostatistica delle aziende
aver maturato, sul campo, le esperienze sufficienti a farmaceutiche italiane provenivano dai laboratori di
Statistica & Società 9

ricerca. Pochissimi erano laureati in statistica o ave- per un altra, ciò nonostante la sua formazione
vano una qualche specializzazione in statistica. metodologica di base sia la stessa.
Si trattava di risorse nella maggior parte dei casi Per ciò che attiene alla ricerca, egli conoscerà
giunte a quell’unità o per una loro particolare dime- di quell’area medica la letteratura, l’epidemiologia,
stichezza all’utilizzo del computer, o per una svilup- il linguaggio, le caratteristiche metodologiche, le
pata allergia in laboratorio. applicazioni, il network di esperti, le trappole, gli
È evidente che nessuna delle due caratteristi- strumenti di misura, perfino le caratteristiche dei
che aveva alcuna relazione con la professione del pazienti, la frequenza delle risposte, la distribuzione
biostatistico! di frequenza delle variabili.
Molti di loro tuttavia svilupparono con gli anni, Come si può insegnare tutto questo all’Univer-
sia autonomamente sia attraverso la frequentazione sità? E dall’altra parte, come si collocherebbero que-
di corsi di formazione specifica, una esperienza ed ste conoscenze senza la solida base metodologica
una conoscenza della materia e delle sue applicazio- fornita dalla formazione universitaria?
ni che difficilmente è riscontrabile in molti colleghi Nella Tavola Rotonda su “Il Biostatistico in In-
con un percorso formativo ineccepibile dal punto di dustria, Sanità e Ricerca: il punto di vista dei giova-
vista accademico e con cospicua attività di forma- ni biostatistici”, organizzata a Brescia nell’ottobre
zione post laurea. 2003 all’interno del secondo Congresso Nazionale
In una ricerca condotta dalla federazione delle della Società di Statistica Medica ed Epidemiologia
società europee di biostatistica nella industria far- Clinica, alla quale hanno partecipato biostatistici rap-
maceutica (EFSPI) alla fine degli anni ’90 sul ruolo presentativi delle diverse realtà professionali ed
del “Qualified statistician in the european pharma- organizzative, quasi tutti i partecipanti hanno consi-
ceutical company…”1, è emerso come le caratteri- derato complessivamente utile tutta la formazione
stiche di questi professionisti siano estremamente universitaria effettuata. Ciò è rilevante in quanto i
disomogenee in ciascuno dei paesi partecipanti al- partecipanti erano assimilabili in termini di profes-
l’indagine. In ogni caso i partecipanti convennero su sione ma non in termini di formazione universitaria!
quali fossero i due aspetti principali che potevano Per molti l’esistenza di una “scuola” cui fare riferi-
portare ad una definizione di statistico qualificato a mento per il trasferimento delle conoscenze teoriche
svolgere la professione all’interno dell’industria far- e del saper fare è stato considerato un elemento chiave
maceutica: una qualifica universitaria con un conte- nella crescita professionale.
nuto statistico “appropriato”, ed una esperienza in
statistica medica “appropriata”. Lo sviluppo del ruolo: un processo top-down
Appare quindi evidente che esistono diversi
percorsi formativi che possono portare allo stesso In una area così difficile come quella della ri-
risultato, o comunque a risultati sovrapponibili. Anzi, cerca medico-scientifica ed in particolare nel caso
da un certo punto di vista la varietà degli itinerari dello sviluppo dei farmaci, in cui le decisioni si svi-
formativi percorsi da ciascuno di noi rappresenta la luppano all’interno di una crescente complessità di
vera ricchezza della nostra disciplina. Inoltre ciò ci informazioni, regole, ruoli e processi, la professione
aiuta a prendere atto di come la formazione di un medica possiede tradizionalmente la maggior parte
biostatistico non sia mai terminata, in quanto si com- delle competenze esclusive, ed in genere, tende ad
pleta di volta in volta in base a problemi, esperienze, utilizzarle all’interno dei processi decisionali in modo
conoscenze e sapere che derivano alternativamente quasi autoritario.
o dalla metodologia o dalla natura del problema me- Per molto tempo, ed in particolare nei paesi nei
dico cui si riferiscono. quali la ricerca non ha avuto una sufficiente tradi-
Ecco che un biostatistico che abbia lavorato in zione alle spalle, la statistica è stata vista come utile
un area terapeutica particolare sarà di fatto qualifi- solo nella fase operativa di generazione di risultati,
cato per quell’area come non lo è allo stesso modo responsabile dei calcoli, delle approssimazioni, del-

1
Qualified statistician in the European Pharmaceutical industry: report of statisticians in the pharmaceutical industry (EFSPI) working
group, EFSPI Working Group, Drug Information Journal, Vol. 33, pp. 407-415, 1999.
10 Statistica & Società

le trasformazioni, ed al massimo, nei casi più gene- Questi passaggi non sono sempre stati imme-
rosi, utile per rappresentare i risultati sotto forma di diati. Se si pensa al nostro paese la normativa Good
tabelle, e in qualche raro caso di grafici. Clinical Practices, relativa alla sperimentazione cli-
Gli statistici “puri” rifiutavano qualsiasi respon- nica è in vigore dal 1992 2. In questa è fatto esplicita-
sabilità circa il problema, nella cui natura, non es- mente riferimento al ruolo del biostatistico cui viene
sendo medici, non intendevano in alcun modo entra- attribuita una precisa responsabilità sul disegno del-
re, realizzando spesso delle elaborazioni ineccepibi- lo studio oltre che sull’analisi dei dati. Egli è respon-
li dal punto di vista metodologico ma incomprensi- sabile di garantire la qualità metodologica dello stu-
bili e quindi inutilizzabili ai fini della corretta ge- dio clinico e dei suoi risultati. Successivamente nel
stione della conoscenza scientifica in quanto tali ela- decreto sulla composizione dei Comitati Etici3 si fa
borazioni non si qualificavano mai in risultati. riferimento al fatto che tra i membri di un Comitato
Dall’altra parte si evidenziava una vasta classe Etico vi è un “esperto di biostatistica”, definizione
di medici che, sviluppando rapidamente una serie di un po’ vaga ma probabilmente non facilmente mi-
competenze di base come la ripetizione di procedure gliorabile. Tuttavia se osserviamo la realtà in Italia
di calcolo con alcuni software, o grazie ad un più la biostatistica non vede suoi illustri rappresentanti
serio processo di studio ed analisi, erano finalmente presso la Commissione Unica del Farmaco, né pres-
in grado di sviluppare autonomamente l’elaborazio- so il Ministero della Salute. Ancora più grave è il
ne di una serie di dati ottenendo la risposta al pro- fatto che fino a pochi anni fa soltanto una minima
prio quesito clinico. parte dei Comitati Etici operanti nel territorio nazio-
È chiaro che nessuno dei due processi risultava nale dichiaravano la presenza di un biostatistico nel
soddisfacente per una serie di ragioni. Se una di que- Comitato. Se nel 2001 erano soltanto 32 i biostatistici
ste è facilmente intuibile, e riguarda la scarsa qualità nei Comitati Etici4 ancora oggi su 212 Comitati Eti-
metodologica raggiungibile senza la conoscenza del ci che hanno dichiarato la propria composizione, sol-
problema, o, viceversa, senza la conoscenza del me- tanto 159 (il 75%) ha tra i suoi componenti un
todo, ciò che più pericolosamente viene a mancare biostatistico5. Probabilmente tra essi vi sono ancora
in quella situazione è che nei due casi estremi non vi professionisti presi a prestito da altre aree che per
è la consapevolezza che la ricerca necessariamente loro stessa ammissione non operano in alcun modo
richiede un approccio cui partecipano diverse re- con questa qualifica nella loro realtà professionale.
sponsabilità con pari dignità in termini decisiona- Da dove iniziare quindi per sviluppare il ruolo
li e scientifici. del biostatistico?
Oggi questi meccanismi sono stati quasi com- È necessario agire su tutti e tre i punti, e cioè:
pletamente modificati. Ma in che modo è stato intro-
a) lavorare per una formazione universitaria in gra-
dotto questo cambiamento nella ricerca scientifica,
do di formare una base di conoscenze teoriche
ed in particolare quella medica? Sicuramente l’in-
sufficiente e sistematica, e soprattutto distintiva
ternazionalizzazione ha in qualche misura avvicina-
del ruolo;
to gli estremi. Ma anche il sistema di regole e con-
trolli imposte dalle istituzioni e dalle autorità, ad b) proseguire la formazione all’interno del mondo
esempio nel campo dell’autorizzazione all’approva- del lavoro, selezionando le esperienze del primo
zione dei nuovi farmaci, ha indotto un processo di anno di vita del neo laureato, mettendo a punto
cambiamento che si è tradotto anche a livello cultu- un legame tra industria ed università che renda
rale nel mondo scientifico. efficace l’investimento e che garantisca il giova-

2
Decreto Ministeriale 27 aprile 1992, Disposizioni sulle documentazioni tecniche da presentare a corredo delle domande di autoriz-
zazione all’immissione in commercio di specialità medicinali per uso umano, anche in attuazione della Direttiva n. 91/507/CEE.
3
Decreto Ministeriale 23 novembre 1999, Composizione e determinazione delle funzioni del Comitato Etico per le sperimentazioni
cliniche dei medicinali.
4
Dati tratti dall’Osservatorio sulla Sperimentazione Clinica, presentati da F. Grigoletto al Convegno SSFA, aprile 2001.
5
in Atti del Convegno CIRB, 3 novembre 2003 Roma, relazione di Nello Martini.
Statistica & Società 11

ne sia in termini di selezione dell’industria che di di conoscenza, in altre parole come ricercare nuove
valutazione del progetto di ricerca; informazioni scientifiche e come utilizzarle sarebbe
assai utile.
c) lavorare a livello istituzionale affinché il biosta-
Infine, per le competenze non tecniche, dovreb-
tistico sia presente all’interno dei processi deci-
bero essere sviluppate conoscenze di project mana-
sionali appropriati, abbia sufficiente peso e risor-
gement, di pianificazione e di lavoro di team che
se economiche ed umane, e sia rappresentato e
permetteranno più facilmente ai nuovi biostatistici
adeguato rispetto alla responsabilità assegnata.
di affrontare la complessa realtà industriale, inciden-
do in modo più efficace nel processo decisionale..
Quali competenze?
Quali sono le competenze che preferibilmente Conclusioni
dovranno essere presenti, o che andranno successi-
vamente create, per questo tipo di professionista? È La professione del biostatistico è, come tutte
senz’altro importante considerare che sia il tipo di quelle che partecipano alla ricerca scientifica, molto
lavoro che il contesto nel quale si trovi ad operare lo interessante e stimolante.
statistico (ad es. ricerca pre clinica o ricerca post Il ruolo che può svolgere ciascuno di noi all’in-
registrativa) potranno modificare parzialmente le terno di un progetto di ricerca può essere straordina-
competenze richieste. rio e modificare in modo definitivo il corso della ri-
Oltre quelle tipiche del curriculum dello stati- cerca stessa.
stico, ed oltre alla conoscenza della lingua inglese, Lo sviluppo di questa professione, e di conse-
dovrebbero essere presenti lo studio della guenza dei suoi professionisti non deve essere in al-
metodologia della ricerca, conoscenze informatiche cun modo visto con spirito corporativo, e nemmeno
specifiche sulla gestione delle banche dati, e sulle con fatalismo e tolleranza. Deve essere invece mas-
principali tecniche di gestione dei dati stessi. sima la consapevolezza di potere, e in alcuni casi,
Sarebbe inoltre estremamente auspicabile la dovere incidere su un processo, quello della ricerca,
conoscenza della normativa riguardante la ricerca nel quale integrità, qualità e correttezza sono dei prin-
sperimentale, la ricerca sui farmaci nel caso specifi- cipi che non possono essere violati.
co, i principali meccanismi regolatori, i processi di Le nostre diversità rappresentano un valore da
ricerca e sviluppo. difendere, ma il punto d’arrivo deve essere invece
La studio delle aree terapeutiche, impossibile unico e qualificante, e garantire alla società ed alla
da ipotizzare in modo completo e per tutte le comunità scientifica il rispetto delle regole.
patologie, dovrebbe invece essere proposto come Ciascuno di noi, responsabile nel mondo acca-
mezzo per acquisire nuove conoscenze, o per effet- demico, industriale o nelle istituzioni di questa ri-
tuare aggiornamento. Una buona formazione su come sorsa, dovrà quindi tenere conto di questo contratto
acquisire informazioni dalle banche dati, come sociale nel momento in cui sia chiamato a seleziona-
reperire la letteratura, come studiare un area nuova re, formare, coordinare un biostatistico.
12 Statistica & Società

Il RUOLO DELLA STATISTICA NELL’INGEGNERIA DEI SISTEMI


DI TRASPORTO
Francesca Pagliara
Dipartimento di Ingegneria dei Trasporti, Università degli Studi di Napoli “Federico II” – e-mail: fpagliar@unina.it

1. Introduzione della statistica e della ricerca operativa oltre a quel-


le, tradizionalmente più vicine, dell’ingegneria del
Il punto di partenza è il riconoscimento che l’in- traffico, delle infrastrutture di trasporto e della mec-
gegneria dei sistemi di trasporto costituisce un’area canica del moto.
disciplinare ed applicativa autonoma, finalizzata alla
“progettazione funzionale” di interventi infrastrut-
2. Il ruolo della statistica nelle scienze sociali
turali e/o organizzativi su un sistema di offerta di
trasporto. La relazione esistente tra teoria e sperimenta-
La difficoltà, e il fascino, di questa pratica pro- zione costituisce il fulcro di qualsiasi indagine so-
fessionale deriva dalla intrinseca complessità dei si- ciale di tipo scientifico. Partendo da un insieme dato
stemi di trasporto. Questi infatti sono sistemi “inter- di ipotesi si arriva alla costruzione di uno schema
namente” complessi, ovvero composti da numerosi teorico che è a sua volta messo alla prova sui dati
elementi che si influenzano in modo diretto ed indi- sperimentali disponibili.
retto, spesso non lineare, con numerosi cicli di Questo tipo generale di impostazione è mostra-
retroazione ed effetti di segno diverso. Inoltre gli ele- to in Fig. 1. Se la teoria non è completamente prova-
menti che compongono il sistema sono solo in parte ta dall’esperimento le cause possono essere diverse
“tecnici”, e quindi governati dalle leggi della fisica e (Holl, 1990).
in quanto tali tradizionalmente studiati dall’ingegne- La prima, illustrata nella parte a) del diagram-
re. Il “funzionamento” e le prestazioni di un sistema ma, chiama in causa la possibilità di errori nei dati.
di trasporto dipendono infatti in modo imprenscin- In questo caso il problema può risolversi raccoglien-
dibile dalla domanda di mobilità e dai comportamenti do nuovi dati, maggiormente accurati, sui quali met-
degli utenti; l’analisi della domanda di mobilità è tere nuovamente alla prova la teoria.
quindi essenziale per la progettazione e richiede un La seconda possibile causa di conflitto, eviden-
approccio diverso che faccia riferimento ad altre “re- ziata nella parte b) delle figura, è che la teoria spiega
gole”, tradizionalmente studiate dalle discipline eco- solo una parte dei dati disponibili, ma non tutti. Sarà
nomiche. in tale caso necessario rivedere lo schema teorico
Oltre alla complessità “interna”, i sistemi di tra- che si è formulato, cercando di ridefinirlo e sottopo-
sporto sono strettamente interrelati ad altri sistemi nendolo quindi ad una nuova prova per vedere se la
che, nell’ottica adottata, si possono definire esterni; capacità esplicativa dei dati è stata migliorata.
interventi e scelte sui trasporti possono avere impli- Può verificarsi il caso che la teoria e l’evidenza
cazioni sull’economia, l’assetto del territorio, l’am- empirica siano completamente slegate come mostrato
biente, la qualità della vita delle persone. nella parte c) del diagramma. Se si è sicuri dell’ac-
L’approccio dell’ingegneria dei sistemi di tra- curatezza dei dati, la soluzione è quella di tornare al
sporto è sistemico, ovvero studia le relazioni che in- punto di partenza e riformulare, sulla base di un nuo-
tercorrono fra i diversi elementi e le relative presta- vo insieme di ipotesi, una diversa teoria.
zioni basandosi su un nucleo teorico autonomo e su L’interdipendenza tra teoria ed esperimento ri-
metodologie di analisi e di calcolo derivate dalla sin- chiede l’uso di varie tecniche statistiche di analisi
tesi dei contributi di numerose aree disciplinari ed in che possono essere nel loro insieme raggruppate sotto
particolare quelle dell’economia, dell’econometria, la denominazione di metodi statistici.
Statistica & Società 13

Ipotesi Teoria Dati


La determinazione del grado di validità stati-
stica dei risultati dell’analisi è già di per sé parte del
processo interpretativo, ma riguardo al contenuto
(a)
puramente meccanico della procedura di verifica è
Dati NO Nuovi
OK? dati necessario aggiungere altre considerazioni di natura
richiesti
meno formale. La qualità di ogni progetto di ricerca
può non necessariamente derivare dalla sola qualità
dei dati utilizzati. Anche se questi sono i migliori
disponibili potrebbero contenere errori in misura più
Ipotesi Teoria Dati
o meno variabile e potrebbe quindi rendersi neces-
sario rivedere il grado di confidenza da noi attribuito
(b) alle conclusioni del lavoro.
SI Nuovi
Dati dati È necessario, inoltre, considerare l’effetto del-
OK? richiesti le variabili mancanti, poiché i dati in uso nelle scien-
ze sociali non sono generati sotto condizioni di labo-
ratorio, non si può facilmente rimuovere l’effetto di
Ipotesi Teoria Dati
altre variabili.
Una ulteriore considerazione nell’interpretazio-
ne dei risultati riguarda le ipotesi di base della tecni-
(c) SI ca utilizzata. Ogni tecnica o misura è solitamente
Nuovi
Dati dati basata su ipotesi che guidano la natura dei dati uti-
OK? richiesti
lizzati o il modo in cui essi sono stati generati. Se in
una certa situazione pratica tali ipotesi non sono ve-
Fig. 1. rificate l’utilizzo di una tecnica particolare può pro-
durre risultati affetti da errori che possono portare a
conclusioni inesatte.
Mentre il termine metodi statistici si riferisce La statistica quale disciplina può essere consi-
alle tecniche disponibili per l’analisi empirica, la sta- derata come un’area di ricerca scientifica il cui obiet-
tistica in quanto disciplina deve essere intesa in un tivo centrale è l’analisi delle caratteristiche delle
contesto più ampio che comprende la raccolta e l’ana- popolazioni; per comprendere questo tipo di impo-
lisi dei dati e l’interpretazione dei risultati. stazione è necessario definire e discutere le differen-
Una volta terminata la raccolta dei dati, questi ze tra un campione e la popolazione. Un insieme di
devono essere analizzati mediante l’uso di tecniche osservazioni tratte da una data fonte viene detto cam-
statistiche. Se la quantità di informazione è notevo- pione, mentre la fonte dalla quale esso deriva è chia-
le, lo stadio preliminare dell’analisi comporta il mata popolazione.
superamento del disordine del collettivo per arrivare La distinzione tra popolazione e campione co-
ad una visione prospettica generale raggiungibile sin- stituisce il nucleo dell’analisi statistica, così come
tetizzando l’informazione in classi e presentandola quella tra descrizione e inferenza.
sotto forma tabulare e grafica. La statistica descrittiva ha come oggetto la de-
Lo stadio successivo dell’analisi è quello inter- scrizione quantitativa delle varie caratteristiche del
medio, in cui si arriva ad una descrizione matemati- campione. Se però si volesse usare questa informa-
ca dei dati introducendo alcune formule algebriche zione campionaria per trarre conclusioni relative alla
di sintesi. Ad esempio si calcolano i valori medi di popolazione, ci si colloca nell’ambito della statistica
una variabile, o indici che esprimono il grado di as- inferenziale.
sociazione tra due variabili. La descrizione delle caratteristiche di un cam-
Nello stadio finale si cerca di valutare l’atten- pione e il compiere inferenza circa una popolazione
dibilità statistica dei risultati ottenuti. Poiché i dati sono due processi separati e distinti che possono es-
sono non-sperimentali per loro natura, vi sono alcu- sere in qualche modo collegati facendo riferimento
ne difficoltà nel sottoporli a prova e sarà quindi ne- alla teoria della probabilità.
cessario determinare il grado di confidenza che noi Negli studi economici si ha spesso a che fare
poniamo nei nostri risultati. con problemi relativi alla scelta tra teorie concorren-
14 Statistica & Società

ti che viene solitamente effettuata osservando quan- la probabilità che tale alternativa abbia una utilità
to i dati osservati si avvicinano alle ipotesi delle dif- percepita maggiore di tutte le altre alternative dispo-
ferenti teorie. Esistono, infatti, numerosi test para- nibili:
metrici che consentano di compiere queste scelte.
[ ] [
pi j I i = Pr U ij > Uki ∀k ≠ j, k ∈ I i ] (1)
i
L’utilità percepita U j può essere espressa dalla
3. I modelli di utilità aleatoria
somma dell’utilità sistematica Vji , che rappresenta
I modelli matematici utilizzati per simulare la la media o il valore atteso dell’utilità percepita tra
domanda di trasporto tentano di riprodurre i com- tutti gli utenti con lo stesso contesto di scelta del
portamenti di scelta degli utenti (modelli comporta- decisore i (alternative e relativi attributi), e di un re-
mentali) (Cascetta, 2001).
I modelli di utilità aleatoria vengono utilizzati siduo aleatorio ε ij , che rappresenta lo scostamento
per simulare le scelte di mobilità delle persone; gli dell’utilità percepita dall’utente i da tale valore:
stessi modelli possono essere applicati per simulare
le scelte relative al trasporto delle merci e alla scelta U ij = Vji + ε ij ∀j ∈ I i (2)
della localizzazione delle attività, come si vedrà nel
paragrafo 4. Dalla (1) si evince che la probabilità di scelta
I modelli di utilità aleatoria (o casuale) si basa- di una alternativa dipende dai valori delle utilità si-
no sulla ipotesi che ogni utente, eventualmente ap- stematiche di tutte le alternative concorrenti, e dalla
partenente ad una classe di utenti omogenei da un legge di distribuzione congiunta dei residui aleatori
punto di vista comportamentale, sia un decisore ra- εj.
zionale ovvero un massimizzatore dell’utilità relati- L’utilità sistematica rappresenta la media del-
va alle proprie scelte (Cascetta, 2001). Più in parti- l’utilità percepita fra tutti gli individui che hanno gli
colare i modelli di utilità aleatoria si basano sulle stessi valori degli attributi; essa è espressa come una
( )
seguenti ipotesi. i i
• Il generico utente i nell’effettuare la scelta consi- funzione Vj X kj di attributi Xkji relativi alle alter-
dera mi alternative disponibili che costituiscono
il suo insieme di scelta Ii.
native e al decisore. Sebbene la funzione Vji X ij ( )
possa essere di qualunque tipo, per ragioni di conve-
• Il decisore i associa a ciascuna alternativa j del
nienza analitica di solito si assume che la utilità si-
suo insieme di scelta una utilità o “attrattività”
percepita Uij e sceglie l’alternativa che massimizza stematica Vji sia una funzione lineare nei coefficienti
tale utilità. βk degli attributi o di loro trasformazioni funzionali:
• L’utilità associata a ciascuna alternativa di scelta
dipende da una serie di caratteristiche misurabili, ( ) ∑
Vji X ij =
k
β k Xkji = β T X ij (3)
o attributi, propri dell’alternativa stessa e del
dove β k sono coefficienti numerici da stimare.
decisore, Uij = Ui(Xij), dove Xij è il vettore degli
Il modello Logit Multinomiale é il modello di
attributi relativi all’alternativa j e al decisore i. In
utilità aleatoria più semplice, esso si basa sull’ipote-
altri termini il decisore sceglie una alternativa in
base agli attributi propri di quella alternativa con- si che i residui aleatori ε j relativi alle diverse alter-
frontandoli con quelli delle altre alternative di- native siano indipendentemente ed identicamente di-
sponibili. stribuiti (i.i.d) secondo una variabile aleatoria (v.a.)
• L’utilità associata dal generico decisore i all’al- di Gumbel a media nulla e di parametro θ.
ternativa j non è nota con certezza all’osservato- La probabilità di scegliere l’alternativa j fra
re esterno, e pertanto deve essere rappresentata quelle disponibili (1,2....m) ∈ I fornita dalla (1) può
con una variabile aleatoria. essere espressa in forma chiusa come:

( )
Sulla base delle ipotesi precedenti non è possi-
exp Vj / θ
bile in generale prevedere con certezza quale alter- p[ j ] = m
(4)
∑ exp(V / θ )
nativa sceglierà il generico decisore; è invece possi-
k
bile esprimere la probabilità che egli scelga l’alter- k =1
nativa j condizionata al suo insieme di scelta Ii, come
Statistica & Società 15

4. Specificazione, calibrazione e validazione Calibrare il modello significa ottenere delle sti-


dei modelli me dei coefficienti βz, componenti del vettore β, e
dei coefficienti θr, componenti del vettore θ sulla base
L’analisi e la progettazione di interventi sui si- delle scelte effettuate da un campione di utenti.
stemi di trasporto richiede la stima della domanda Il metodo di stima dei parametri comunemente
attuale e/o la previsione di quella futura. Tali stime usato è quello della Massima Verosimiglianza (o ML
possono essere ottenute utilizzando fonti di informa- dall’inglese Maximum Likelihood) che fornisce i
zione e strumenti statistici diversi. valori dei parametri incogniti che massimizzano la
Per stimare la domanda attuale è possibile ef- probabilità di osservare le scelte effettuate dagli uten-
fettuare delle indagini, tipicamente delle interviste, ti. La probabilità di osservare le scelte di un campio-
su di un campione di utenti e da queste, utilizzando ne di utenti, o Verosimiglianza del campione, dipen-
le tecniche della statistica inferenziale, ottenere de oltre che dal modello di scelta adottato, dalla
dellestime dirette della domanda. modalità con la quale si è ottenuto il campione stes-
In alternativa, si può stimare la domanda (at- so ovvero dalla strategia di campionamento adottata.
tuale o futura) con dei modelli. La stima da modello Il caso più semplice si ha per un campionamen-
richiede che i modelli siano specificati (cioè sia scelta to casuale semplice di n utenti. Sotto questa ipotesi
la forma funzionale e le variabili che vi compaiono), le osservazioni sono statisticamente indipendenti e
calibrati (cioè siano stimati i valori dei coefficienti la probabilità, o “likelihood”, di osservare l’insieme
in essi contenuti) e validati (cioè ne sia valutata la delle scelte degli utenti del campione è fornita dal
capacità di riprodurre i dati disponibili). prodotto delle probabilità che ciascun utente appar-
Un buon modello di domanda è di solito il ri- tenente al campione effettui la scelta j(i), avendo in-
sultato di un processo di “trial and error” in cui il dicato con j(i) l’alternativa effettivamente scelta dal-
ciclo specificazione-calibrazione-verifica viene ripe- l’utente i-esimo. Poiché le probabilità pi[j(i)](Xi, β,
tuto più volte fino al raggiungimento di un modello θ) sono calcolate con il modello in esame e quindi
“soddisfacente”. Di seguito si descrivono le fasi di dipendono dal vettore di coefficienti (β1, β2,..., βK,
calibrazione e validazione che vengono eseguite ri- θ1, θ2,..., θR), anche la probabilità L di osservare l’in-
correndo a metodi statistici. tero campione risulta funzione dei parametri inco-
4.1 Calibrazione gniti:

I modelli di utilità aleatoria descritti nel para- L(β,θ) = Πi=1...n pi[j(i)](Xi,β, θ) (6)
grafo 3 possono essere visti come delle relazioni ma- La stima di massima verosimiglianza [β,θ]ML dei
tematiche che forniscono la probabilità pi[j](Xi, β, θ) vettori di parametri β e θ è ottenuta massimizzando
che l’individuo i scelga l’alternativa j in funzione la (6) o, più convenientemente, il suo logaritmo na-
del vettore (Xi) degli attributi di tutte le alternative turale, (funzione log-likelihood):
disponibili e dei vettori di parametri relativi alla uti-
lità sistematica (β) e alla funzione di probabilità con- [β, θ]ML = argmaxlnL(β, θ) =
giunta dei residui aleatori. La dipendenza delle pro-
babilità di scelta da X e β avviene attraverso le fun-
argmax ∑ i=1...n
( )
ln pi [ j (i )] X i , β, θ
(7)

zioni di utilità sistematica che di solito si assumono


come combinazioni lineari degli attributi Xz (o loro 4.2 Validazione
trasformazioni funzionali) con coefficienti dati dai Una volta specificato e calibrato un modello di
parametri βz: domanda va validato. In questa fase si verifica la ra-
gionevolezza e la significatività dei parametri stima-
Vj ( X ij ) = ∑βX
z z
i
zj = β T X ij (5) ti, la capacità del modello di riprodurre le scelte ef-
fettuate da un campione di utenti e vanno, infine,
La dipendenza dai parametri strutturali θ, ad
verificate le ipotesi alla base della forma funzionale
esempio i parametri corrispondenti alle variabili di
assunta per il modello. Tutte queste verifiche posso-
Gumbel nei modelli Logit avviene invece attraverso
no essere condotte attraverso una serie di indicatori,
la forma funzionale dello specifico modello utiliz-
o più propriamente statistiche, utilizzando degli ap-
zato che a sua volta dipende dalla funzione di distribu-
propriati test di ipotesi effettuati a partire da infor-
zione di probabilità congiunta dei residui aleatori ε.
mazioni relative ad un campione di utenti.
16 Statistica & Società

Questi test verificano diverse ipotesi sulle sti- 5. Applicazioni alla scelta della localizzazione
me βML dei coefficienti ottenute con il metodo della della residenza
Massima Verosimiglianza.
Di seguito si riporta solo la descrizione dei test I modelli descritti nel paragrafo 3 possono es-
t-Student sui singoli coefficienti. Questi verificano sere utilizzati anche per simulare la scelta del luogo
l’ipotesi nulla (H0) che un coefficiente βk sia pari a di residenza.
zero e la stima βkML sia diversa da zero per gli errori In diversi lavori rivisitati da Pagliara e Simmon-
campionari (H0 : βk = 0) tramite la statistica: ds (2001), il modello di localizzazione dei residenti
fornisce il numero di residenti per ogni zona dell’area
β kML di studio in funzione delle convenienze localizzative
t=
[ ] (8) di ciascuna zona e delle caratteristiche del sistema di
1/ 2
Var β kML
offerta di trasporto. Il numero di residenti in una zona
si assume sia il risultato del processo decisionale degli
occupati presenti all’interno dell’area di studio. In
ovvero che due coefficienti βk e βj siano uguali
altri termini, ciascun occupato sceglie la propria zona
(H0 : βk = βj), tramite la statistica:
di residenza in funzione delle caratteristiche della
stessa, ma soprattutto in funzione della zona in cui
β kML − β jML
t= egli lavora. In generale, i decisori sono i lavoratori
(Var[β ] + Var[β ] − 2 cov[β ])
1/ 2
ML ML ML
β kML (9)
k j j disaggregati in categorie di reddito; mentre l’insie-
me di scelta è rappresentato da tutte le zone dell’area
In entrambi i casi nell’ipotesi nulla la statistica di studio. La scelta della zona di residenza si suppo-
t è distribuita secondo una variabile t-Student con un ne indipendente dalle altre, dando luogo ad una spe-
numero di gradi di libertà pari alla dimensione del cificazione di tipo Logit.
campione meno il numero di coefficienti stimati, tut- In particolare, si assume che la probabilità di
tavia di solito si assume che la statistica t sia distri- risiedere in una certa zona i sia uguale a:
buita come una variabile normale standard, N(0,1),
che rappresenta la distribuzione limite della variabi- p c (ris = i, lav = j ) = p c ( ris = i / lav = j ) ⋅ p c (lav = j )
le t di Student al crescere del numero dei gradi di
libertà.
p c ( ris = i ) = ∑ p (ris = i, lav = j )
j
c
(11)
Come è noto l’ipotesi nulla viene rifiutata con dove pc(ris = i) è la probabilità che il generico occupa-
una probabilità di a di commettere l’errore di rifiuta- to della categoria c risieda nella zona i; pc(ris = i, lav = j);
re una ipotesi vera (errore di I specie) se il valore è la probabilità congiunta di risiedere nella zona i e
della statistica t è esterno all’intervallo di estremi lavorare nella zona j per il generico occupato della
( )
zα 2 , z1− α 2 che, per α = 0.95 valgono ±1.96. categoria c; pc(ris = i / lav = j); è la probabilità che il
La capacità del modello di riprodurre le scelte generico occupato della categoria c risieda nella zona i
effettuate da un campione di utenti può essere misu- condizionata al fatto di lavorare nella zona j; pc(lav = j); è
rata utilizzando la statistica rho-quadro: la probabilità che l’occupato della categoria c lavori
nella zona j.
lnL(β ML )
ρ2 = 1 − (10) La probabilità condizionata ha una espressione
lnL(0)
del tipo Logit:
Tale statistica è una misura normalizzata nel-
l’intervallo [0,1] della capacità del modello di ripro-
p c ( ris = i / lav = j ) =
(
exp V c (ris = i / lav = j ) θ )
durre le scelte osservate. La statistica rho-quadro vale ∑ ( exp V c (ris = h / lav = j ) θ (12) )
zero se L(βML) è eguale a L(0) ovvero il modello non h

ha alcuna capacità esplicativa, vale 1 se il modello La probabilità di lavorare in una data zona j per
fornisce una probabilità pari a uno di osservare le i residenti della categoria c è:
scelte effettivamente fatte da ogni utente del cam-
pione ovvero il modello ha una perfetta capacità ri- ADDc (lav = j )
p c ( j = lav) =
produttiva.
∑h
ADDc (lav = h) (13)

dove ADDc = sono gli occupati di tipo c nella zona j.


Statistica & Società 17

La calibrazione di tali modelli può essere con- dio per metro quadro. Analogamente, la soddisfazio-
dotta in diversi modi. ne connessa con le opportunità di trasporto per il
Nel caso della contea di Oxford (Pagliara et al., motivo lavoro risulta molto significativa, mentre la
2002, Kim at al., 2003) si è condotta un’ indagine variabile di prestigio è positiva per gli occupati di
relativa alle preferenze dichiarate dai residenti in reddito alto e negativa per gli utenti di reddito basso
contesti ipotetici (indagini Stated Preference o SP). che chiaramente preferiscono residenze a costi in-
Dall’indagine si volevano verificare quali fossero gli feriori.
attributi che più hanno influenzato la scelta del luo-
go di residenza nella contea di Oxford. 6. Conclusioni
Tra le variabili considerate si sono introdotti:
• il prezzo immobiliare; Da quanto descritto nei paragrafi precedenti la
• il tempo di viaggio relativo allo spostamento statistica gioca un ruolo fondamentale nell’ingegne-
casa-lavoro; ria dei sistemi di trasporto. Le fasi di calibrazione e
• il costo relativo allo spostamento casa-lavoro; validazione sopra riportate evidenziano quanto i
• variabili relative alla densità abitativa; metodi statistici siano di supporto alla specificazio-
• variabili relative alla localizzazione in città; ne di un buon modello sia esso di simulazione delle
scelte di mobilità delle persone sia esso di localizza-
• variabili relative al livello di inquinamento acu-
stico. zione delle attività, come evidenziato nel paragrafo
precedente per la localizzazione delle residenze.
Dall’analisi dei risultati risulta che il prezzo
immobiliare, il tempo e il costo di viaggio per rag-
giungere il luogo di lavoro sono fattori importanti Bibliografia
che influenzano la scelta della residenza. Risulta inol-
tre che i residenti di Oxford preferiscono vivere in CASCETTA E. (2001), Transportation Systems Engineering:
aree dove le case tipicamente hanno grandi giardini Theory and Methods, Kluwer MA.
e vi sia ampia disponibilità di verde pubblico. In ac- CASCETTA E., BIGGIERO L. e PAGLIARA F.(2001a), Modelling
cordo con quanto detto, risulta che essi non amano activity location choice. Trasporti Europei, 17, 42-48.
vivere al centro della città, ma prediligono luoghi
CASCETTA E., BIGGIERO L. e PAGLIARA F. (2001b), Modelli
distanti, dove il livello di inquinamento da rumore è
basso. di utilità aleatoria per lo studio dell’interazione tra-
Nel caso del modello di localizzazione dei resi- sporti/territorio nella localizzazione delle attività in
denti, specificato per la città di Napoli (Cascetta et Metodi e Tecnologie dell’Ingegneria dei Trasporti, se-
al., 2001a; Cascetta et al., 2001b), gli attributi consi- minario 2000, a cura di G. E. CANTARELLA E F. RUSSO,
derati tengono conto delle prestazioni del sistema dei ed. Franco Angeli, 439-454.
trasporti, ovvero del costo generalizzato dello spo- HOLL P. (1990) Elementi di statistica, Il Mulino.
stamento tra le zone due zone, di attributi di KIM J.H., PAGLIARA F. e PRESTON J. (2003), An analysis of
attrattività di una zona, quali il numero di abitazioni residential location choice behaviour in Oxfordshire,
disponibili e/o i prezzi degli immobili, e di variabili UK: a combined stated preference approach. Interna-
ombra tipiche della zona (prestigio). tional Review of Public Administration, 8, 103-114.
Nel caso specifico, la stima dei parametri b è
stata effettuata sulla base di dati raccolti da un’inda- PAGLIARA F., SIMMONDS D.C. (2001), Calibration and
gine sulla mobilità relativa alle preferenze rivelate Implementation of Residential Location Choice. Atti
dai residenti in contesti reali (indagini Revealed del convegno European Transport Conference,
Preference o RP), integrati con dati ISTAT 1991. Cambridge, UK.
Dai risultati delle calibrazioni risulta che la di- PAGLIARA F., PRESTON J. e KIM J.H. (2002), Residential
sponibilità immobiliare incentiva la scelta della re- location choice behaviour in Oxfordshire. Atti del con-
sidenza e che, invece, viene frenata dal prezzo me- vegno European Transport Conference, Cambridge.
18 Statistica & Società

Modelli statistici per l’asset management


Riccardo Bramante
Università Cattolica del Sacro Cuore di Milano – e-mail: rbramant@interfree.it

Giampaolo Gabbi
Università degli Studi di Siena – e-mail: gabbi@unisi.it

Introduzione L’asset management si caratterizza per alcune


fasi principali per le quali la finanza computazionale
Il grado di attenzione riservata al sistema delle risulta essenziale:
scelte di investimento dei portafogli finanziari ha a) l’individuazione del profilo rischio-rendimento
sperimentato un sensibile aumento, per numerosi dell’investitore;
motivi: a) l’elevata volatilità dei mercati finanziari; b) la previsione dei vettori (rendimenti, volatilità e
b) il contributo alla redditività degli intermediari correlazione) che permettono di definire il miglio-
bancari; c) il maggiore saggio di concorrenza nel- re mix di attività finanziarie;
l’ambito sia della gestione sia del collocamento dei
c) l’ottimizzazione dei portafogli;
servizi; d) la conseguente introduzione di strumenti
quantitativi a supporto delle differenti decisioni che d) la valutazione ex post della performance, utiliz-
caratterizzano la catena del valore dell’asset mana- zando indicatori di rendimento corretti per il ri-
gement. schio.
In questo contributo si approfondirà quest’ulti- Per ciascuna di queste fasi, le metodologie
mo aspetto, con la finalità di mostrare il fondamento quantitative forniscono soluzioni fondamentali che
statistico che qualifica l’industria dell’attività verranno sinteticamente descritte nelle pagine che
gestionale in ambito finanziario. seguono.

L’asset management e l’importanza delle Il riconoscimento del profilo rischio-


metodologie quantitative rendimento dell’investitore

L’attività dell’asset management caratterizza In questa fase, si devono indagare le esigenze


una significativa componente delle scelte bancarie, finanziarie del cliente, allo scopo di identificare un
ma l’introduzione di modelli quantitativi è ben più portafoglio di indici di mercato che meglio risponda
recente, almeno nel sistema creditizio italiano. Ciò è alle esigenze del cliente stesso. Una prima soluzione
dipeso dall’introduzione di alcuni fattori che ne am- è quella che opera per mezzo di un questionario: l’in-
plificano la rilevanza, tra cui: la centralità della ge- sieme delle informazioni raccolte mediante la com-
stione del portafoglio di proprietà (trading book) ri- pilazione del questionario stesso, vengono elaborate
spetto alla domanda di prestiti; la liberalizzazione in modo tale da permettere di identificare quale sia il
dei movimenti dei capitali; lo sviluppo di supporti grado di rischio (espresso, ad esempio, in termini di
tecnologici che incrementano la potenzialità di cal- standard deviation o value-at-risk del portafoglio per
colo coerentemente con le esigenze decisionali nei un dato holding period) coerente con le caratteristi-
mercati. che dell’investitore. In pratica, attraverso l’analisi
Contestualmente si è sviluppata la disciplina delle informazioni raccolte mediante l’elaborazione
della finanza computazionale (computational quantitativa delle risposte, si stima il grado di pro-
finance) che include fra i suoi temi principali i pro- pensione al rischio che permette di associare al ri-
blemi inversi (tecniche di calibrazione, superfici di sparmiatore il portafoglio caratterizzato da un livel-
volatilità implicita), i metodi di simulazione (per pro- lo di rischio considerato ideale.
blemi path-dependent, tecniche di riduzione della Uno dei fattori più delicati dell’intero processo
varianza, quasi-Monte Carlo), i metodi statistici (sti- di identificazione automatica delle esigenze finan-
me di rendimenti attesi, volatilità, correlazione). ziarie dell’investitore, è rappresentata dalla traduzio-
Statistica & Società 19

ne delle risposte alle domande del questionario in di input e, conseguentemente, dalle tecniche statisti-
una misura di rischio. che di stima e previsione delle stesse.
Generalmente, si segue il processo di attribu- I rendimenti rappresentano la variabile maggior-
zione di un punteggio per ogni risposta data a cia- mente interessante nell’analisi delle serie storiche
scuna domanda (maggiore è l’affinità della risposta finanziarie in quanto misurano la redditività degli
alla figura dell’investitore con alta propensione al asset. Vari sono i modelli disponibili per la previsio-
rischio, più elevato sarà il punteggio attribuito) e di ne del rendimento futuro delle attività finanziarie,
associazione del punteggio complessivo ad una mi- anche se il loro utilizzo operativo spesso si scontra
sura specifica di rischio (maggiore è il punteggio, con una generale ridotta capacità previsionale. Al ri-
più elevata è la deviazione standard del portafoglio guardo, il processo stocastico più semplice per de-
“consigliato” all’investitore). scrivere le serie storiche finanziarie è il random walk
Determinato il rischio sopportabile, la scelta del o passeggiata aleatoria
cliente viene associata al migliore mix di attività che
rt = rt–1 + et
si trova sulla frontiera efficiente, definita come la
superficie generata dal processo di ottimizzazione dei modello che implica l’ipotesi di efficienza del mer-
vettori di rendimenti e volatilità e dalla matrice delle cato, ovvero l’imprevedibilità dell’andamento futu-
correlazioni. ro del fenomeno sulla base di modelli “puramente”
Oltre alla logica del questionario sono stati svi- autoproiettivi dal momento che tutte le informazioni
luppati altri modelli, detti di financial planning, ba- disponibili sono già state incorporate nei prezzi cor-
sati sull’utilizzo di metodologie statistiche (quali ad renti di mercato. Più accurati sono i metodi econo-
esempio il modello Value at Risk) in grado di stima- metrici che descrivono la dinamica dei rendimenti
re gli eventi estremi probabilistici riconducibili agli di una variabile finanziaria in funzione di un set di
investimenti finanziari. Generalmente, con questi leading indicators, ovvero indicatori fondamentali
modelli il cliente seleziona l’orizzonte temporale di macroeconomici e finanziari, nonché dei valori ri-
investimento desiderato, il rendimento finale cumu- tardati della medesima variabile endogena
lato che intende perseguire (o il montante desidera-
m n
to) e, infine, la probabilità con la quale intende otte- rt = ∑ α i ⋅ rt − i + ∑ β j ⋅ Xt − j + et .
nere un risultato pari o migliore al rendimento pre- i =1 j =0
cedentemente comunicato; sulla base di queste in-
formazioni, il modello di financial planning restitu- Tali modelli, noti come ADL (Autoregressive
isce il portafoglio che più si avvicina alle esigenze Distributed lag), sono spesso scritti in forma state
del cliente stesso. Le ipotesi statistiche sottostanti space con struttura parametrica variabile ed eviden-
sono quelle di una distribuzione data dei rendimenti ziano una discreta capacità nel descrivere i trend di
(spesso normale, ma anche log-normale), di volatilità medio – lungo periodo, cogliendo solo parzialmente
e correlazioni costanti nel tempo. gli andamenti di breve periodo ed i punti di svolta.
La fase precedentemente analizzata ha lo sco- I metodi di analisi comunemente utilizzati da-
po di identificare quale tra i portafogli di indici di gli analisti finanziari fanno riferimento all’analisi
mercato risponde meglio alle esigenze del cliente. Si fondamentale ed all’analisi tecnica. La prima esami-
tratta di un processo generalmente attribuito ai re- na le informazioni interne all’impresa considerate nel
sponsabili della clientela (private banker, promotori, contesto economico settoriale e generale al fine di
consulenti finanziari). Ma metodologie statistiche determinare il valore “intrinseco” di una attività fi-
vengono applicate anche in ambito gestionale, per la nanziaria e si dimostra particolarmente adatta per
stima delle variabili che consentono di individuare individuare movimenti di lungo periodo. La secon-
le migliori soluzioni di investimento. da ha un obiettivo più pratico e di breve periodo in
quanto studia, spesso anche attraverso l’utilizzo di
La previsione di rendimenti, volatilità e trading system, gli andamenti storici dei fenomeni
correlazioni attraverso grafici ed indicatori ad hoc utilizzati per
anticipare i movimenti futuri del mercato ovvero
Il risultato finale, in termini di mix di attività identificare le tendenze in atto.
finanziarie, del processo di asset management risul- Per quanto concerne la stima della volatilità,
ta fortemente condizionato dai valori delle variabili intesa come ampiezza delle fluttuazioni dei rendi-
20 Statistica & Società

menti degli strumenti finanziari, è necessario utilizza- e di una componente specifica o residuale σ ε2i .
re strumenti adeguati in grado di riprodurre i com-
Ammettendo una pluralità di fattori sistemati-
portamenti evidenziati da tale grandezza statistica
ci, anziché un unico termine di riferimento, si ottie-
nelle analisi empiriche.
ne una generalizzazione del CAPM, spesso indicata
Una prima categoria è rappresentata dai modelli
come Arbitrage Pricing Theory (APT), intesa ad eli-
storici che elaborano la storia passata dei rendimenti
minare, o quanto meno a ridurre, la componente di
supponendo che la distribuzione degli stessi sia
variabilità non sistematica attraverso l’esplicita in-
temporalmente invariante. La misura di volatilità che
troduzione di variabili macroeconomiche quali fonti
ne risulta è spesso ottenuta attraverso il computo di
di rischio extra-mercato.
una classica standard deviation su un periodo rolling
Alcune evidenze empiriche riguardo la dipen-
1/ 2 denza dal tempo della volatilità ed il cosiddetto ef-
1 T 2
σ =  m ∑ ri ,t 
fetto cluster sono catturate dai modelli ad
T +1 | T i
 T −m  eteroschedasticità condizionata (ARCH e GARCH).
I modelli, nella loro generica formulazione, sono
ove T è l’istante temporale di calcolo ed m è l’am- caratterizzati da una varianza non condizionata co-
piezza del periodo. In alternativa, è pratica comune stante e da una varianza condizionata variabile nel
la stima secondo una media mobile ponderata tempo che dipende dal set di informazioni disponi-
esponenzialmente (EWMA – Exponentially Weighted bili. In termini formali, lo schema GARCH, a carat-
Moving Average) dove i rendimenti più recenti han- tere più generale, utilizza la seguente relazione per
no un peso maggiore rispetto a quelli più lontani nel la varianza condizionata
tempo
T ht = α 0 + α ( L)ε t2 + β ( L)ht =
T +1 | T σ i2 = (1 − λ ) ⋅ ∑ λm ⋅ ri2,t p q
m=0 = α 0 + ∑ α i ⋅ ε t2− i + ∑ β j ⋅ ht − j
i =1 j =1
ovvero in forma ricorsiva
dove il comportamento di ht dipende dagli errori pas-
T +1 | T σ i2 = λ ⋅T | T −1 σ i2 + (1 − λ ) ⋅ rT2 sati, polinomio α(L) di grado p che rappresenta la
Il parametro λ detto decay factor, indica il gra- componente ARCH, e dai valori antecedenti della
do di persistenza nella stima della volatilità dei ren- varianza stessa, polinomio β(L) di grado q relativo
dimenti passati che risulta maggiore quanto più gran- allo schema GARCH.
de è il valore ad esso associato. Ulteriori generalizzazioni sono state proposte
Un secondo modo di operare fa riferimento ai per modellare specifici comportamenti della
metodi cosiddetti “finanziari”. Il più noto è il Capital volatilità. In particolare, si segnalano modelli che
Asset Pricing Model (CAPM), un modello monofat- includono variabili esogene nella struttura dell’equa-
toriale che si basa su un meccanismo di generazione zione della varianza condizionata
dei rendimenti dei singoli strumenti finanziari riferi- p q s
to appunto ad un indice comune ht = α 0 + ∑ α i ⋅ ε t2− i + ∑ β j ⋅ ht − j + ∑ γ k ⋅ Xt , k
i =1 j =1 k =1
rit = α i + βi ⋅ rI t + ε it
modelli in grado di incorporare l’asimmetria nei com-
I valori dei coefficienti βi possono essere sti-
portamenti degli operatori in mercati al rialzo o al
mati impiegando il metodo dei minimi quadrati or-
ribasso (E-GARCH)
dinari sul campione di dati osservati o su un periodo
rolling. Ne discende che il quadrato della volatilità p q
di uno strumento finanziario σ 2I è esprimibile sotto ln(ht ) = α 0 + ∑ α i ⋅ g(ε t −1 ) + ∑ β j ⋅ ln ht − j ( )
forma di una componente sistematica, legata alla i =1 j =1

volatilità di un indice di mercato σI attraverso il


coefficiente beta βi
[
g(ε t − i ) = θ ⋅ ε t − i + γ ⋅ ε t − i − E ε t − i ]
ovvero modelli che permettono di introdurre l’ipo-
βi2 ⋅ σ I2 tesi di persistenza di shock passati sui valori futuri
Statistica & Società 21

della volatilità (I-GARCH), per i quali si riporta per


comodità di lettura la sola rappresentazione di pri-
mo ordine

ht = α ⋅ ε t2−1 + (1 − α ) ⋅ ht −1
Da ultimo si segnalano i modelli mean reverting
utili per descrivere il fenomeno di “ritorno verso la
media” caratteristico del comportamento nel tempo
della volatilità: si tratta di un meccanismo intrinseco
di riequilibrio della volatilità verso il suo valore me-
dio nei periodi in cui non si hanno trend specifici,
siano essi crescenti o decrescenti, di volatilità.
Un terzo insieme di valori oggetto di stima sono
i coefficienti di correlazione tra i rendimenti delle Fig. 1: Frontiera efficiente à la Markowitz.
asset class candidate a comporre il portafoglio. An-
che in questo caso, l’analisi delle serie storiche dei
rendimenti evidenzia un comportamento delle
correlazioni variabile nel tempo ed influenzato dalle La frontiera efficiente può essere costruita ba-
variabili macroeconomiche relative ai mercati ogget- sandosi su algoritmi di programmazione lineare o
to di analisi. La stima delle correlazioni, o più preci- quadratica. Quest’ultimo, in particolare, permette di
samente delle covarianze tra coppie di variabili fi- individuare i pesi wi da assegnare agli n asset in modo
nanziarie, può quindi svilupparsi secondo un approc- da minimizzare la varianza del portafoglio nel rispet-
cio simile a quello delle volatilità, utilizzando un to, senza perdere di generalità, di vincoli di rendi-
periodo rolling
mento atteso e di “bilancio” min σ 2p
1 T
T +1 | T σ i , j = ∑ ri,t ⋅ rj ,t
m T −m
= ∑ w σ +∑ ∑ w ⋅w
2
i
2
i i j ⋅ σ i ⋅ σ j ⋅ ρij
i i j ≠i

un meccanismo di ponderazione esponenziale sotto i vincoli

∑ w ⋅ E(r ) = E(r )
T +1 | T σ i , j = λ ⋅T | T −1 σ i , j + (1 − λ ) ⋅ ri , T ⋅ rj , T
i i p
i

ovvero modelli GARCH multivariati a eteroscheda- ∑w i


i =1
sticità e matrice di correlazione condizionata.
dove con σi e σp si sono indicate rispettivamente le
volatilità dei singoli asset e del portafoglio, con E(ri)
L’ottimizzazione dei portafogli finanziari
ed E(rp) i corrispondenti rendimenti attesi e con ρij
Il modello di ottimizzazione alla Markowitz, le correlazioni tra coppie di asset.
definito mean variance, può essere inteso come ap- Nel caso in cui il processo di ottimizzazione
proccio standard nell’attività di asset management. preveda la possibilità di investire anche in un titolo
Il concetto di efficienza alla base del modello defini- free-risk si ottiene una frontiera efficiente di tipo li-
sce come efficienti i portafogli che massimizzano il neare solitamente indicata come capital market line
rendimento per un dato livello di rischio ovvero (Figura 2)
minimizzano il rischio per un dato livello di rendi-
 E(rP ) − rfr 
mento.
( )
E rP, fr = rfr +   ⋅ σ P, fr
Dati i valori di rendimenti attesi, volatilità,  σP 
correlazioni e definiti gli opportuni vincoli gestionali,
le combinazioni ottimali si dispongono sulla fron- con inclinazione data dal cosiddetto indice di Sharpe.
tiera (Figura 1) che delimita nel piano l’insieme del- Il portafoglio ottimale è individuato
le opportunità di investimento disponibili. massimizzando l’inclinazione della capital market
22 Statistica & Società

Fig. 2: Frontiera efficiente e Capital Market Line. Fig. 3: Frontiera efficiente à la Michaud.

line, ovvero l’indice di Sharpe In particolare, la procedura permette di genera-


re, sulla base della funzione di verosimiglianza cam-
 E rp − rfr 
max S =  
( ) pionaria associata all’insieme parametrico, un set di
 σ P  momenti – medie e matrice di varianze covarianze –
e corrispondenti portafogli statisticamente equivalenti
sotto i vincoli per ogni punto della frontiera efficiente. Il valor me-
dio di tali portafogli rappresenta una nuova frontiera
∑ w ⋅ E(r ) = E(r )
i i p che, pur giacendo al di sotto della frontiera efficien-
i te alla Markowitz, tiene conto, come detto, dell’er-
∑w i
i =1 rore di stima.

I risultati cui perviene il modello su esposto La valutazione della performance e gli


possono essere riformulati in ottica downside risk indicatori di rendimento corretti per il rischio
utilizzando nel calcolo della volatilità la semivarianza
Il processo di investimento realizzato secondo
T le fasi precedentemente analizzate si basa su ipotesi
T +1 | T σ i2, sv =
1

m T −m
[
min 2 0, ri , t − rˆ ] di rendimento, volatilità e correlazioni attese. La
qualità delle soluzioni proposte dipende naturalmente
ove con r^ si è indicato il rendimento target. dalla reale evoluzione dei mercati. L’ultima fase
Un recente approccio all’asset allocation è quel- dell’asset allocation consiste nella valutazione ex-
lo alla Michaud che permette di superare il proble- post degli errori commessi e nella determinazione
ma dell’instabilità della frontiera efficiente alla della qualità dell’intera asset allocation.
Marko-witz nel corso del tempo: piccole variazioni Naturalmente, i primi indicatori che è possibile
nei parametri di input, trattandosi di stime statistiche proporre sono quelli orientati alla misura del rendi-
soggette ad errore, spesso generano variazioni signi- mento del portafoglio. Un possibile problema che
ficative nella struttura dei portafogli ottimali. Risul- sorge è quello collegato ai flussi intermedi – confe-
ta evidente che l’applicazione meccanica del model- rimenti e riscatti – che alterando la giacenza media
lo mean variance porterebbe a ricomposizioni del non permettono di applicare le formule di calcolo
portafoglio troppo frequenti con eccessivi costi di dei titoli zero coupon. A tal fine si misura il rendi-
aggiustamento. Michaud riformula la frontiera effi- mento sulla base della logica detta money weighted
ciente alla Markowitz, essenzialmente di tipo “ma- rate of return, cioè ponderando il rendimento sulla
tematico”, in una regione statisticamente equivalen- base del saldo presente di periodo in periodo, men-
te da definirsi sulla base di metodologie Monte Car- tre la performance del gestore viene sempre valutata
lo (Figura 3). ipotizzando una sola unità di capitale investita al-
Statistica & Società 23

l’inizio del periodo (time weighted rate of return). In questo caso, l’indice di Sharpe calcolato per
A questi indicatori si sono più recentemente i dati dell’esempio, porterebbero a preferire il secon-
aggiunti quelli detti risk adjusted performance do fondo.
indicator (RAP) cioè indici orientati alla determina-
Tab. 2: Indicatori di rendimento corretti per il rischio. Indi-
zione del rendimento di periodo commisurato al gra-
ce di Sharpe.
do di assorbimento di rischio. Si consideri l’esempio
Rendimento Rischio Indice di Sharpe
della tabella 1.
Titolo privo
Tab. 1 – Indicatori di rendimento corretti per il rischio. di rischio 3 0 n.c.
Rendimento Rischio Rendimento/Rischio Fondo A 5 10 0,20
Titolo privo Fondo B 8 20 0,25
di rischio 3 0 n.c.
Fondo A 5 10 0,5 Un ulteriore soluzione è quella proposta da
Fondo B 8 20 0,4 Sortino (So) che, adottando la medesima logica di
Sharpe, sostituisce alla standard deviation la misura
di volatilità del downside risk, inteso come la media
Sulla base del risultato del rapporto rendimen-
degli scarti quadratici delle sole osservazioni infe-
to-rischio emerge una preferenza per il portafoglio
riori al valor medio della serie storica dei rendi-
A, che pur essendo meno redditizio, assorbe un li-
menti.
vello proporzionalmente inferiore di rischio.
Un limite che pone questa soluzione è facilmen- rF − rfr
te individuabile dalla presenza di un titolo privo di So =
DSRF
rischio; se si costruisce un portafoglio equidistribuito
fra fondo B e titolo free-risk si ottiene una soluzione Infine, è possibile definire la performance di
che domina il fondo A, con un rendimento medio del un portafoglio in relazione al benchmark di riferi-
5,5 per cento, un rischio del 10 per cento e un rap- mento, calcolandone il tracking error e la relativa
porto rendimento-rischio pari a 0,55. tracking error volatilità (TEV). Quest’ultima è la
A tal fine vengono proposti alcuni indicatori di standard deviation della serie storica dei differen-
rendimento corretti per il rischio che eliminano il ziali fra rendimento del portafoglio e rendimento del
problema descritto. Sharpe (1994) ha proposto un benchmark.
indice (S) che rapporta al rischio (σ F) il valore ag- L’analisi dello stile nell’industria del risparmio
giunto ottenuto dal portafoglio (rF) rispetto al titolo gestito e l’ottimizzazione dei fondi comuni
privo di rischio (rfr): L’ottimizzazione ottenuta mediante le metodo-
rF − rfr logie presentate nelle pagine precedenti è basata sul-
S=
σF le previsioni dei rendimenti, delle volatilità e delle

Fig. 4: Distribuzione del


rendimento rispetto
alla TEV.
24 Statistica & Società

correlazioni degli indici di mercato. Le soluzioni fi- fici predisposti da alcuni information provider. La
nanziarie offerte nell’industria del risparmio gestito, scelta dei benchmark deve essere effettuata attenta-
però, si costruiscono in funzione dei prodotti a di- mente in modo da evitare duplicazioni e contempo-
sposizione degli intermediari finanziari, prodotti che raneamente coprire tutte le classi di attività in cui il
in genere sono fondi comuni di investimento. fondo (considerati i vincoli normativi) potenzialmen-
Poiché i fondi, anche quando risultano passivi, te può investire.
non replicano perfettamente la composizione dei Il modello di regressione lineare multivariata,
benchmark, per ottenere la composizione “ideale” proposto originariamente da Sharpe nel 1992, può
di mercati per rapporto rendimento-rischio è neces- essere riscritto in forma compatta nel modo se-
sario in primo luogo individuare le scelte di inve- guente:
stimento adottate dai singoli gestori. n
Lo strumento fondamentale per l’implementa- Rf = ∑w
i =1
it ⋅ RBi + ε
zione dell’analisi degli stili di gestione è costituito
da un modello di regressione lineare multivariata in con
cui il rendimento del fondo è la variabile dipendente n
mentre i rendimenti realizzati dalle singole asset class ∑w
i =1
it =1
costituiscono le variabili esplicative.
Il modello spiega perciò il rendimento del fon- La differenza fra questo metodo e la regressione
do in funzione della sua esposizione alle fluttuazioni multivariata classica è che Sharpe utilizza una pro-
dei rendimenti delle diverse asset class. grammazione quadratica vincolata per minimizzare
Nell’applicazione del modello, le incognite (e la varianza dei rendimenti in eccesso del gestore ri-
dunque i valori non noti che si vogliono determina- spetto ad una combinazione lineare delle asset class.
re) sono rappresentate dai pesi percentuali delle sin- Inoltre la metodologia di Sharpe non introduce
gole asset class (wi1…win). l’alpha costante che in genere si introduce nelle
È opportuno far notare che i dati di input del regressioni statistiche.
modello sono facilmente reperibili: per quanto riguar- Il risultato che si può ottenere è quello rappre-
da i rendimenti del fondo, la pubblicizzazione del sentato nella figura 5: l’evoluzione della composi-
valore delle quote ne rende agevole la determinazio- zione nel tempo delle asset class di riferimento.
ne; per quanto invece attiene ai rendimenti delle sin- Questa informazione permette di realizzare l’ul-
gole asset class sono utilizzabili i benchmark speci- tima fase del processo descritto: l’ottimizzazione del

Fig. 5: Analisi dello stile di un fondo


azionario italiano rispetto a
indici settoriali (gennaio 2002-
dicembre 2003)
Statistica & Società 25

portafoglio in fondi. Diversi possono essere le varia- BRAMANTE R., CAZZANIGA B., 2001, Portfolio Optimisation
bili utilizzate per proporre un portafoglio orientato a in a Downside Risk Framework, in D UNIS C. –
mantenere la composizione dei benchmark sulla base TIMMERMANN A. – MOODY J. (eds), Developments in
dell’ottimizzazione originaria (sia essa basata su Forecast Combination and Portfolio Choice, John
metodologie à la Markowitz oppure con ricampio- Wiley & Sons, New York.
namento à la Michaud), ma quella che si può ritene- BRAMANTE R., COLOMBO R., GABBI G., 1998, Are Neural
re preferibile è quella che è fondata sulla tracking Network and Econometric Forecasts Good for
error volatility, per evitare che i fondi selezionati Trading? Stochastic Variance Model as a Filter Rule,
possano raggiungere la performance in termini ec- in A.-P. N. REFENES – A. N. BURGESS – J. E. MOODY
cessivamente erratici, senza un controllo ex-ante. (eds), Decision Technologies for Computational Ma-
nagement Science, Kluwer Academic Publishers,
Conclusioni Boston.

Le fasi dell’asset allocation descritte in queste E NGLE R.F. - B OLLERSLEV T., 1986, Modelling the
pagine mostrano il forte legame con le tecniche Persistence of Conditional Variances, in Econometrics
quantitative, dalla stima del profilo rischio-rendimen- Reviews, 5, 1-50.
to dell’investitore alla previsione della volatilità e Engle R.F. - Lilien D.M. - Robins R. B., 1987, Estimating
della correlazione, dalle metodologie di ottimizza- Time Varying Risk Premia in the Term Structure: the
zione dei portafogli al calcolo degli indicatori di per- ARCH-M Model, in Econometrica, 55, 391-407.
formance corretta per il rischio. Engle R.F., 1982, Autoregressive Conditional
Le tecnologie che caratterizzano il vantaggio Heteroskedasticity with Estimates of the Variance of
competitivo degli attori nel mercato sono fortemen- United Kingdom Inflation, in Econometrica, 50, 987-
te dipendenti dalle metodologie di analisi delle serie 1008.
storiche, dalle regressioni vincolate per l’analisi del-
Harvey A.C., 1981, The Econometric analysis of time
lo stile dei gestori, dalle ottimizzazioni di portafoglio.
series, Oxford, Deddington: Philip Allan.
Gli sviluppi in tal senso costituiranno un inevi-
tabile impulso all’industria del risparmio gestito e al HARVEY A.C., 1984, Mathematics for Econometrics,
potenziamento della domanda di conoscenze stati- Springer Verlag, New York .
stiche in finanza. HARVEY A.C., 1989, Forecasting Structural Time Series
Models and the Kalman Filter, Cambridge University
Bibliografia Press, Cambridge.
LEIBOWITZ M.L., KOGELMAN S., 1991, Asset Allocation
BECKERS S., 1996, A Survey of Risk Measurement Theory under Shortfall Constraint, Journal of Portfolio Ma-
and Practice, in C. Alexander (eds.), The Handbook of nagement, Winter, 18-23.
Risk Management and Analysis, John Wiley and Sons,
Markowitz H.M., 1959, Portfolio Selection: Efficient
New York.
Diversification of Investments, John Wiley and Sons,
BEST M.J., GRAUER R.R., 1991, On the Sensitivity of Mean- New York.
Variance Efficient Portfolios to changes in Asset
NELSON D., 1991, Conditional Heteroskedasticity in Assets
Means: Some Analytical and Computational Results,
Returns: A New Approach, in Econometrica, 59, 347-
Review of Financial Studies, 4.
370.
BLACK F., 1993, Beta and return, The Journal of Portfolio
SHARPE W., 1992, Asset Allocation: Management style and
Management.
performance measurement, Journal of Portfolio Ma-
B OLLERSLEV T., 1986, Generalized Autoregressive nagement, 18, 7-19.
Conditional Heteroskedasticity, in Journal of
SHARPE W., 1994, The Sharpe Ratio, Journal of Portfolio
Econometrics, 31, 307-327.
Management, 21, 49-58.
BOND S., 1998, An Econometric Model of Downside Risk,
SORTINO F.A., FORSEY H.J., 1996, On the Use and Misure
in Knight J. – Satchell S. (eds.), Forecasting Volatility
of Downside Risk, Journal of Portfolio Management,
in the Financial Markets, Butterworth Heinemann,
22, No.2, 35-42.
Oxford.
26 Statistica & Società

Dal dato all’informazione, dall’informazione alla conoscenza:


tecniche statistiche per la creazione del valore

Francesco Rubinacci
Senior Consultant, Accenture, Roma – e-mail: francesco.rubinacci@accenture.com

Enrico Ciavolino
Facoltà di Ingegneria – Università di Napoli “Federico II” – e-mail: ciavolin@unina.it

1. Trasformare i dati in conoscenza • impossibilità di trasformazione del dato in cono-


scenza: nonostante gli sforzi e gli investimenti
La presenza ormai capillare dei sistemi infor- sostenuti, l’azienda non riesce a sfruttare il pro-
mativi E.R.P. nel tessuto aziendale moderno impone prio patrimonio informativo per migliorare le pro-
di affrontare problemi impensabili fino a pochi anni prie performance su indicatori specifici, sia in
fa, con l’emergenza di quelli che, parafrasando S. senso positivo in termini ad esempio di time to
Whang, potremmo chiamare data-rich environments.
market, sia in senso negativo in termini di
I sistemi informativi sono in grado di raccogliere
bullwhip effect; oppure, da un punto di vista più
dati relativi ad ogni singolo step dei diversi processi
generale, non ottenere i benefici sperati in termi-
aziendali nel momento stesso in cui il dato sorge,
ni di EVA® o ROI;
con un livello di dettaglio che, in linea di principio,
può essere complesso quanto si vuole. • errata interpretazione dei dati e conseguente de-
L’unica limitazione alla quantità di dati che cisione sbagliata: interpretare i dati di analisi
possono essere raccolti è data dall’hardware di cui carenti dal punto di vista del confronto multidi-
l’azienda decide di dotarsi e dalle capacità di gestio- mensionale con tutte le variabili in gioco, può
ne dello stesso a disposizione dell’azienda. In ultima comportare grossolani errori di interpretazione dei
analisi, il limite è dato dal capitale (in mezzi e uomi- fenomeni in atto.
ni) che l’azienda decide di investire nei tre compo-
nenti dell’IT: hardware, software e brainware. 2. La Catena del Valore dell’Informazione
Ma il dato, in sé, non possiede valore, o meglio
lo possiede solo in forma potenziale; i dati che in Il passaggio dal dato all’informazione avviene
quantità sempre crescenti sono presenti in azienda, attraverso il confronto di più dati insieme, con un
acquistano valore durante il processo di analisi, di- processo di contestualizzazione e di presentazione
stribuzione e presentazione dei dati stessi a coloro dei dati stessi. Questa trasformazione dei dati è si-
che sono incaricati di prendere le decisioni. Dal con- mile al processo che avviene in una normale linea
fronto, dalla contestualizzazione di diversi dati si produttiva e si sviluppa attraverso una serie di fasi
passa dal dato all’informazione, e dal confronto poi ben definite, in una cosiddetta “Catena del Valore
di diverse informazioni, provenienti anche da fonti dell’Informazione”, assimilabile al concetto di cate-
diverse, si passa poi dall’informazione alla conoscen- na del valore elaborato da M. Porter.
za, attraverso la quale si possono rispondere a do- La Business Intelligence (BI) si occupa appun-
mande del tipo “come” e “perché”. to della estrazione della conoscenza di supporto ai
In una situazione come quella descritta sopra, è decision maker a partire da speciali data base, deno-
molto probabile che si produca un cosiddetto “in- minati Data Warehouse o Data Mart, in cui tutti i
formation overload”.
dati provenienti dalle diverse applicazioni aziendali
Non dedicare sufficienti sforzi a preparare i
vengono memorizzati ed organizzati in modo tale da
decisori alla lettura di un nuovo indicatore, magari
permetterne un’agevole trasformazione.
particolarmente raffinato, implica inevitabilmente
che la potenza del coltello analitico sviluppato sarà I diversi passi della costruzione della CVI pos-
nel migliore dei casi non completamente sfruttata! sono essere così distinti:
In particolare, vi sono almeno due pericoli in ag- • Estrazione, Trasformazione e Caricamento dei dati
guato in tale situazione, con i relativi costi associati: (E.T.L.): questa fase è critica e può essere partico-
Statistica & Società 27

larmente complessa, considerando l’eterogeneità • Valutazione: il passo successivo, consiste nel-


delle fonti e del formato dei dati. Può assorbire an- la valutazione della qualità dell’informazione/
che l’80% di un progetto di Business Intelligence, e conoscenza prodotta dalle tecniche di BI im-
necessita di una delicata attività di validazione e con- plementate, con riferimento alle dimensioni di
trollo della qualità del dato caricato. tempestività, quantità, integrazione, disegno,
• Analisi: è la fase della creazione della informa- tipo, ricchezza.
zione e della conoscenza. Attraverso diversi stru-
menti e tecniche, dalle più semplici a quelle alta- 3. Business Intelligence
mente sofisticate, si ricercano similitudini e
correlazioni all’interno di strutture di dati multi- I sistemi di Business Intelligence rappresenta-
dimensionali (iper-cubi) anche molto comples- no il ‘core’ delle infrastrutture informative di busi-
se. È possibile inoltre sviluppare simulazioni ness, in quanto aiutano a tradurre i dati in informa-
molto avanzate, sia di tipo statico che di tipo di- zioni e queste in decisioni in grado di creare un van-
namico. I risultati di queste analisi vengono poi taggio competitivo.
presentati in modo da renderne agevole la lettura Un sistema di Business Intelligence per il sup-
e l’interpretazione, utilizzando grafici, indici sin- porto alle decisioni, come mostrato in figura 1, si
tetici e forme di analisi visuale (es. Visual Data avvale principalmente di quattro componenti: un data
Mining); la forma, la sofisticazione ed il livello base, un data warehouse, strumenti di On Line
di dettaglio della presentazione dei risultati del- Analitical Processing (OLAP) e tools per le Analisi
l’analisi, cambia in funzione del destinatario dei Statistiche.
risultati stessi. Nel paragrafo 3 vengono presen- Le recenti tecnologie utilizzano data base inte-
tate alcune delle tecniche statistiche più utili, al- grati1, che mediante l’uso di algoritmi informatici
cune disponibili nella maggior parte dei pacchet- riescono a creare collezioni di dati in grado di soddi-
ti in commercio, ed altre invece più “rare”, a vol- sfare i vincoli di consistenza, in modo che chiunque
te introvabili. abbia interesse (e che sia autorizzato) possa accede-
Nella maggior parte dei casi, si tratta di tecniche re in tempo reale a dati costantemente aggiornati e
di tipo push, in cui i dati vengono contestualizzati integrati con tutte le funzioni aziendali. Un Data
e formattati in una reportistica precostituita, spes- Warehouse (DWH) viene definito appunto come “una
so generata a scadenze prefissate. raccolta di dati integrata, subject oriented, time
• Decisioni: una volta ottenute le informazioni/co- variant e non-volatile di supporto ai processi deci-
noscenza, queste vengono utilizzate per prendere sionali” (Intion, 1996); l’integrazione dei dati in un
le decisioni operative/tattiche/strategiche DWH costituisce quindi una delle premesse neces-

Fig. 1: Business Intelligence.

1
Il concetto di integrazione fa riferimento alla caratteristiche dei data base relazionali, i quali vengono costruiti rispettando dei
vincoli che hanno un interesse meramente informatico; il nostro interesse riguarda l’aggiornamento continuo e la comunicazione tra
i settori aziendali.
28 Statistica & Società

sarie per una progettazione adeguata di un sistema si combinano data base che provengono da diverse fonti,
di supporto alle decisioni. mediante l’uso di tecniche di data warehousing.
Dopo la riorganizzazione, si procede al “Data
4. Data Mining e tecniche di Analisi Cleaning” in cui le principali operazioni sono quelle
di trattamento dei missing values e dei noisy data.
Il termine data mining riguarda l’estrazione di
Per i primi le tecniche utilizzate vanno dalla sempli-
conoscenza da una grossa quantità di dati e deriva
dall’associazione della parola dati al verbo inglese ce media aritmetica a quelle più raffinate quali ad
“to mine”2. esempio l’algoritmo NIPALS, mentre per i secondi
Una definizione completa può essere la seguente: possiamo ricordare l’Analisi in Componenti Princi-
“Per data mining si intende il processo di sele- pali (ACP) o le tecniche di smoothing.
zione, esplorazione e modellizzazione di grandi masse Spesso la necessità di trasformare i dati, appunto
di dati, al fine di scoprire regolarità o relazioni non “Data Trasformation”, è una conseguenza delle tec-
note a priori, allo scopo di ottenere un risultato chiaro niche di analisi adottate, come ad esempio la
e utile al proprietario del data base”(Giudici, 2001). centratura e la standardizzazione nella regressione,
Il processo di data mining, come descritto in oppure la normalizzazione nei metodi basati sul cal-
figura 2, parte da una fase di preanalisi, che risolve i colo delle distanze, come la cluster o le reti neurali.
problemi di inconsistenza, incompletezza e distor- Il “Data Reduction” è usato in quei data sets
sione dei dati, per poi arrivare ad una fase di analisi che contengono centinaia di variabili, spesso insi-
con l’utilizzo di tecniche in grado di estrarre infor- gnificanti o ridondanti. Risultano particolarmente
mazioni. importanti le tecniche di Dimensionality Reduction
Le tecniche di analisi usate nell’ambito del data (ACP, Cluster Analysis), o le Trasformazioni Wavelet,
mining verranno di seguito presentate distinguendo- in modo da ottenere un numero di dati inferiore come
le in quelle che si riferiscono ad una fase di prepro- approssimazione/combinazione di quelli originali. La
cessing (generalmente tecniche non supervisionate) riduzione delle dimensioni può anche riguardare il
e in quelle di analisi dei dati (generalmente tecniche numero di unità, mediante l’utilizzo delle tecniche
supervisionate) per la creazione di informazione. di campionamento.
I) Fase di Preprocessing II) Fase di Analisi
Il preprocessing parte con un una fase di “Data In questa fase possiamo distinguere modelli
Integration” per eliminare eventuali inconsistenze o basati su regole di associazione, di classificazione
ridondanze dei dati che si possono presentare quando automatica, oppure modelli di tipo predittivo.

Fig. 2: Data Mining Process.

2
Il verbo ‘to mine’ significa “scavare per estrarre”, usato principalmente nel settore delle estrazioni minerarie; ci riporta nel periodo
della corsa all’oro nel Klondike, in cui si cercava di estrarre oro dalle rocce o dalla sabbia, ricercando piccole e preziose pepite da
una grande quantità di materiale grezzo.
Statistica & Società 29

Le “regole di associazione” ricercano all’inter- l’apprendimento del cervello umano e risolvono pro-
no di una grossa quantità di dati relazioni latenti tra blemi di classificazione in gruppi non precedente-
le transazioni del data base. Un tipico esempio è la mente definiti.
Market Basket Analysis, la quale permette di indivi- I “modelli di previsione” più conosciuti in let-
duare prodotti che vengono frequentemente acqui- teratura sono quelli basati sulla regressione lineare
stati assieme, e quindi consente di sviluppare una semplice e multipla, la non lineare, la logistica, non-
strategia di marketing, oppure il disegno di cataloghi. ché la regressione multilevel. Fanno parte di questi
Tra i “modelli di classificazione” supervisiona- modelli, anche se con diversi scopi, l’Anova, oppure
ta (cioè i modelli in cui facciamo ipotesi di classifi- l’Anova. Vanno inoltre citate le Reti Neurali Super-
cazione a priori, usando come variabile di risposta visionate.
proprio l’appartenenza ad un gruppo), troviamo tec- Il modello di regressione Partial Least Square,
oppure la Principal Component Regression, risulta-
niche come l’Analisi Fattoriale Discriminante, i
no particolarmente indicate nei casi in cui le variabi-
Decision Tree, basati sul calcolo dell’entropia come
li esplicative sono fortemente correlate e quindi la
la segmentazione binaria, oppure basati sul calcolo
matrice dei predittori può risultare non invertibile.
delle probabilità, come la Classificazione Bayesiana
A queste tecniche vanno aggiunte anche quelle
Naive; altri metodi di classificazione sono il k-Nearest di reportistica multidimensionale, mediante gli Iper-
Neighbor Classifier, basati sull’apprendimento me- cubi o i Tridimensional Data Plots, nonché le tecni-
diante analogia, gli Algoritmi Genetici, che tentano che specifiche di Visual Data Mining. Un’ulteriore
di incorporare i principi dell’evoluzione naturale nelle menzione va anche all’uso dell’Analisi delle Corri-
strategie di ricerca di una soluzione ottima, la classi- spondenze Multiple per l’analisi dei questionari, e
ficazione basata sulla Logica Fuzzy, le cui regole anche alle tecniche di analisi testuale conosciute come
prevedono una logica di classificazione in cui i con- di Textual Mining.
fini per l’appartenenza ad una classe non sono ben Come ultimo bisogna considerare il confronto
delineati. Tra i modelli di classificazione non super- dei risultati applicati ai dati sia mediante tecniche
visionata ricordiamo la Cluster Analysis, che raggrup- per il controllo delle performance delle analisi, sia
pa casi o variabili in base a misure di similarità, non- effettuando un’analisi dei costi per l’utilizzo delle
ché le Reti Neurali che si basano sul principio del- varie metodologie.

Tab. 1: Tecniche di analisi.


Data Data Data Data Regole di Modelli di Metodi di
Integration Cleaning Trasformation Reduction Associazione Classificazione Previsione
Data NIPALS Normalizzazione Trasformazioni Market Basket Reti Neurali Regressione
Warehousing ACP Centratura Wavelet analisi Nearest semplice e
Standardizzazione ACP Neighbour logistica
Cluster Classifier MultiLevel
Fuzzy Set Plsr
Approaches PcR
Algoritmi Anova
Genetici Reti Neurali
Cluster analysis

Bibliografia
GIUDICI P., Data Mining: metodi statistici per le applicazioni aziendali, McGraw-Hill, Milano 2001.
HAN J., KAMBER M., Data Mining, Concepts and Techniques, MK Publishers, USA, 2001.
Inton W.H., Building the data warehouse, John Wiley & Sons, 1996.
PIRSIG R.M., Lo zen e l’arte della manutenzione della motocicletta, Adelphi, Milano, 1992.
TOLSTOY I., The knowledge and the power, Canongate, 1990.
WOLD S., SJOSTROM M., ERIKSSON L., “PLS-Regression: a basic tool of chemometrics”, Chemometrics and intelligent
laboratory systems, 58 (2001), 109-130.
Z ELENY M., “La gestione a tecnologia superiore e la gestione della tecnologia superiore”, in G. B OCCH i,
M. CERUTI, La Sfida della Complessità, Feltrinelli, 1985.
30 Statistica & Società

I Censimenti nella Bibbia


Adempimento del volere di Dio o peccato?
Maria Pia Perelli D’Argenzio
CIRDIS, Padova

1. Che cosa si intende per “censimento” moderni, possiedono comunque il carattere di


enumerazione diretta ed in qualche caso periodi-
Come ben noto, le prime applicazioni della sta- ca della popolazione.
tistica (o protostatistica) sono i cosiddetti “censimen- È noto che anticamente gli Egiziani, i Cinesi
ti”1: difatti quando le società si organizzarono in stati ed i Babilonesi avevano delle regole tramite le quali
sentirono la necessità di dotarsi di opportune attrez-
“contare” la popolazione. Inoltre sono ancora più noti
zature statistico amministrative.
i censimenti attuati da Roma nel corso dei diversi
Certo è che il concetto attuale di censimento è
secoli della sua potenza. È curioso osservare come,
alquanto diverso da quello relativo ai bisogni delle
in Roma, si utilizzassero le diverse divinità per otte-
prime organizzazioni civili dei tempi antichi. Oggi,
nere informazioni sulla popolazione già suddivise per
per censimento si intende una enumerazione diretta,
sesso e per età. Difatti2 le offerte dovute per ogni
nominativa, universale, simultanea, periodica di una
nascita, morte e maggiore età venivano versate nei
popolazione esistente su un dato territorio.
tesori di divinità diverse permettendo così di ottene-
In questa accezione i primi veri e propri censi-
re, con una semplice valutazione delle offerte, una
menti sono quelli risalenti alla seconda metà del se-
colo XVIII, anche se alcuni aspetti caratteristici dei classificazione della popolazione secondo questi
censimenti modernamente intesi possono essere ri- criteri.
trovati nei secoli precedenti. Ad esempio, la
rilevazione ordinata dalla Repubblica di Venezia nel 2. I censimenti nel libro dei Numeri della
1311 per le città di Modone e Corone -suoi possedi- Bibbia: segno del progetto di Dio sull’uomo
menti - costituì il primo modello nel quale i dati ve-
nivano rilevati in modo diretto, nominativo ed uni- Questa attività di conteggio, presente nelle mag-
versale, anche se non ancora in modo simultaneo e giori civiltà del mondo antico, assume nella storia di
con periodicità predeterminata. Nel giugno del 1440 Israele un carattere “religioso” tanto importante da
il Consiglio dei Dieci di Venezia promulga un “pia- essere descritta nel quarto libro del Pentateuco (in-
no di rilevazione” che distingue la popolazione per sieme dei primi cinque libri sacri tradizionalmente
età, sesso, professione, condizione sociale e nazio- attribuiti a Mosè, ma in realtà frutto di una lunghis-
nalità. Nel 1624 viene anche prescritta la periodicità sima tradizione orale e poi scritta). Su tali libri (an-
quinquennale delle rilevazioni e, a questo punto, ci che se denominati in modo diverso) Ebrei e Cristiani
si avvicina molto alle indagini censuarie del XVIII concordano: è Scrittura cioè parola ispirata da Dio
secolo. Anche altri stati in questi secoli iniziano ed espressa per mezzo di uomini, preziosi collabora-
rilevazioni sempre più caratterizzate dagli elemen- tori del Signore.
ti costituenti l’indagine censuaria modernamente Tornando al quarto libro del Pentateuco, questo
intesa. viene designato dagli Ebrei in due modi: “wajjedabber”
Con il termine “censimento” vengono, però, che significa “e parlò” – dalla prima parola del libro
tuttora indicate le rilevazioni attuate nell’antichi- stesso o “bamidbar” che significa “nel deserto” luo-
tà. Difatti anch’esse, pur non avendo la totalità go ove si svolge la prima parte dell’episodio della
delle caratteristiche che identificano i censimenti storia di Israele ivi narrato. Il titolo greco, passato

1
Vedasi, al proposito: M. P. Perelli D’Argenzio “Storia della Statistica: i momenti decisivi” in ”L’ insegnamento della Matematica e
delle scienze integrate”, vol. 25 A-B, Nov.- Dic. 2002.
2
Op. cit., pag. 528.
Statistica & Società 31

poi alla versione latina (Vulgata) in modo impreciso con gli altri, è così spiegato:
e successivamente così utilizzato in tutte le versioni “Ecco io ho scelto i Leviti tra gli Israeliti al
cristiane della Bibbia, è “Numeri” in quanto si riferi- posto di ogni primogenito che nasce per primo dal
sce ai molti elenchi numerici che caratterizzano il seno materno; i Leviti saranno miei perché ogni pri-
testo. Il termine greco di riferimento non equivale mogenito è mio. Quando io colpii tutti i primogeniti
però propriamente a Numeri ma a Censimenti: que- nel paese d’Egitto, Io mi riservai in Israele tutti i
sto libro sacro è quindi più propriamente il “Libro primogeniti degli uomini e degli animali; essi sa-
dei Censimenti”. ranno miei. Io sono il Signore.” (Num. 3, 12-13)
L’interpretazione religiosa di tale libro fa corri-
Si passa così al censimento di tutti i Leviti “di
spondere ai censimenti propriamente intesi, alla di- tutti i maschi dall’età di un mese in su” (Num. 3,15)
sposizione delle tribù intorno alla Dimora (l’Arca secondo le loro famiglie (totale 22.000). Nel libro
dell’Alleanza), e alla loro marcia organizzata in schie- dei Numeri segue il censimento di tutti i primogeniti
re e squadre il cammino della comunità santa ver- maschi di tutte le famiglie d’Israele da un mese in su
so Dio. che risultarono 22.273. Per i 273 primogeniti degli
Nei primi quattro capitoli del libro dei Numeri Israeliti che oltrepassano il numero dei Leviti, la co-
leggiamo come il Signore ordina il censimento de- munità paga ad Aronne 5 sicli a testa per un totale di
gli Israeliti che sono usciti dal paese d’Egitto; in re- 1365 sicli (Num. 3, 44-51).
altà, come vedremo, i censimenti ordinati da Dio sono Vengono poi enumerati gli adulti fra i Leviti
almeno quattro. (dall’età dei 30 anni fino all’età di 50) per stabilire i
Possiamo verosimilmente supporre che la mo- turni del servizio liturgico (Num. 4).
tivazione principale di questo censimento sia quella Il conteggio dei maggiorenni viene poi ripetuto
di risalire alla sorgente stessa dell’elezione divina dopo il flagello seguito al culto di Baal da parte di
secondo la discendenza da Abramo ad Isacco, a alcuni Israeliti. Tale secondo censimento aveva come
Giacobbe, ai figli di Giacobbe e quindi alle tribù di finalità principale quella di determinare quanti fos-
Israele… Perciò il censimento viene fatto “secondo sero in grado di andare in guerra. Il numero totale
i casati paterni” (Num. 1,45) e, siccome l’alleanza risultò 601.730.
di Dio con Abramo riguarda lui e la sua discenden- Esso servì anche di base per l’assegnazione del
za, la rilevazione si riferisce a “tutta la comunità degli territorio nella Terra promessa:
Israeliti, secondo le loro famiglie, testa per testa,
“il paese sarà diviso tra di essi, per essere loro
dall’età di venti anni in su, quanti in Israele possono
proprietà, secondo il numero delle persone. A quelli
andare in guerra” (Num. 1,2).
che sono in maggior numero, darai in possesso una
La narrazione è molto dettagliata, stabilisce e
porzione maggiore; a quelli che sono in minor nu-
riporta pure i nomi dei sovrintendenti al censimento
mero, darai una porzione minore; si darà a ciascu-
- uno per tribù - Elisir, Salamiel, Naasson, Natanael,
no la sua porzione secondo il censimento” (Num.
Eliab ecc. scelti tra le “persone più autorevoli” delle
26,54).
rispettive tribù. Costoro si unirono a Mosè e ad
Aronne e, nel primo giorno del secondo mese, con- Interessante notare come i diversi censimenti
vocarono tutta la comunità e ne fecero il censimento riguardassero soltanto i maschi, per cui le figlie di
(Num. 1,5-15) . Zelofcad (Num. 27,1), in quanto femmine, non ven-
nero contate e quindi, non avendo avuta assegnata la
“Tutti gli Israeliti dei quali fu fatto il censimen-
terra, si presentarono a Mosè facendo presente l’in-
to, secondo i loro casati paterni, dall’età di vent’an-
giustizia patita. Mosè allora decise che, in mancanza
ni in su, cioè tutti gli uomini che in Israele potevano
di eredi maschi, l’eredità potesse andare anche alle
andare in guerra, quanti furono registrati risultaro-
figlie femmine che così ebbero il loro terreno (alla
no 603.550. Ma quanti erano Leviti, secondo la loro
fine del libro dei Numeri si stabilisce però un limite:
tribù paterna, non furono registrati insieme con gli
le figlie eredi devono maritarsi nella loro tribù, af-
altri.” (Num. 1, 45-47)
finché la proprietà non passi ad altra tribù). (Num.
I risultati del censimento servirono fra l’altro a 36, 7 e seg.).
determinare il posto nell’accampamento e l’ordine In questi passi della Bibbia vediamo così che è
di marcia nel deserto durante i trasferimenti (Num. 2). Dio stesso che chiede al popolo che si è scelto di
Il motivo per il quale i Leviti non furono censiti procedere al conteggio della Sua popolazione e, quin-
32 Statistica & Società

di, tale attività non solo risulta lecita, ma è un “adem- Cancellerò dal mio libro colui che ha peccato
pimento del comando del Signore”. contro di me” (Es. 32,33), come pure ”Ancora infor-
Nel rispondere a questa richiesta di Dio, il po- me mi hanno visto i tuoi occhi e tutto era scritto nel
polo può così misurare l’estensione della misericor- tuo libro; i miei giorni erano fissati, quando ancora
dia di Dio verso la discendenza di Abramo e arriva non ne esisteva uno” (Sal .139,16).
così a riconoscersi come il popolo dell’Alleanza. Il Inoltre, sempre secondo la narrazione biblica,
senso dell’appartenenza di ogni famiglia d’Israele a la gloria e la potenza di Davide provengono ed ap-
Dio è significato dal riscatto dei primogeniti; l’ordi- partengono al Signore e non sono sue personali. Per
ne di marcia nel deserto rappresenta la vicinanza di ottenere il pentimento e l’assoluzione da questo pec-
ciascuna tribù e famiglia all’Arca dell’Alleanza, luo- cato di orgoglio, Dio concesse a Davide, tramite il
go della dimora di Dio fra gli uomini; il possesso profeta Gad, la possibilità di scegliere tra tre cala-
della terra in Palestina diventa il segno tangibile del- mità: tre anni di carestia, tre mesi di fuga di fronte al
la partecipazione alla Promessa di Dio ad Abramo… nemico o una pestilenza di tre giorni (2 Sam.24,13).
è, quindi, interessante notare come uno strumento Davide scelse la pestilenza:
operativo e tecnico come il censimento, diventi presso
“Ebbene cadiamo nelle mani del Signore, per-
gli antichi Ebrei, significato e segno del progetto di
ché la sua misericordia è grande, ma che io non cada
Dio sull’uomo.
nelle mani degli uomini!” e “ Allora il Signore man-
dò in Israele la peste e perirono d’Israele settanta-
3. Il censimento di Davide: peccato di orgoglio mila uomini” (2 Sam.24,14-15).
In due altri libri della Bibbia, conosciuti rispet- A conclusione di questa analisi sui censimenti
tivamente come “Secondo libro di Samuele” e “Pri- nella Bibbia possiamo affermare che l’esperienza di
mo libro delle Cronache” o “Paralipomeni”, che Davide condizionò l’atteggiamento del mondo ebrai-
narrano la storia del re Davide, si trova il racconto di co e cristiano nei confronti della rilevazione statisti-
un nuovo censimento voluto, in questo caso, dal re ca: quest’ultima, se non esplicitamente richiesta da
stesso. La presentazione che ne viene fatta è nel se- Dio e magari anche attuata per desiderio di gloria
gno della tentazione e del peccato: nel libro di personale e di affermazione del proprio potere, pote-
Samuele è “la collera del Signore” (2 Sam. 24,1 e va essere considerata come una curiosità colpevole
seg.) che incita Davide a fare il censimento, nel libro in quanto volta ad indagare gli imperscrutabili dise-
delle Cronache è Satana che insorge contro Israele e gni divini mediante l’osservazione di questi fenomeni
spinge Davide a censire gli Israeliti (1Cro.21,1 e seg.). naturali voluti da Dio quali nascite e morti. Ciò è
Dal libro sacro si comprende come questa rilevazione esplicitamente ricordato nel libro dell’Esodo:
sia voluta dal re per “misurare” la sua gloria e la sua “Quando per il censimento farai la rassegna
potenza. Per questa ragione questo censimento è con- degli Israeliti, ciascuno di essi pagherà al Signore il
siderato dal Signore una colpa del re Davide; difatti, riscatto della sua vita all’atto del censimento, per-
secondo la Bibbia, è Dio che tiene i registri di coloro ché non li colpisca il flagello in occasione del loro
che devono vivere o morire: censimento.“(Es 30,11e seg.).

Potrebbero piacerti anche