Sei sulla pagina 1di 12

Aspetti innovativi della Statistica

come scienza delle decisioni in condizioni di incertezza 1


Domenico Piccolo
Dipartimento di Scienze Statistiche, Universit degli Studi di Napoli Federico II

dopiccol@unina.it
Abstract: We discuss the methodological aspect of Statistics stressing the innovative role of this science
for taking decisions in a stochastic environment. This viewpoint means that Statistics is a logical tool for
reaching a knowledge based on the empirical evidence and for testing the significance of the hypotheses
by means of data. In this sense, the central assessment of the probabilistic structure of the world for
making correct inferences is the core of the paper. Finally, some modelling issues are discussed in order
to derive useful supports for human decisions. These issues are compared by means of some new
proposals recently introduced in the statistical research.
Keywords : Factual Knowledge, Statistical Inference, Empirical Modelling

1. Introduzione: leredit delletimologia


La Statistica una disciplina che nellimmaginario collettivo come nelle
presentazioni dei mass-media viene associata quasi esclusivamente alla sua origine
etimologica, con la conseguenza che la percezione scientifica e la valenza operativa
sono poco o per niente correlate al suo effettivo impatto nella ricerca.
Statistica deriva dallitaliano Stato secondo la definizione del Ghislini che nel
1589 la indic come descrizione delle qualit che caratterizzano e degli elementi che
compongono uno Stato. Ed sicuramente un compito ineludibile della statistica
ufficiale raccogliere, organizzare e diffondere informazioni su questioni di interesse
nazionale. Dalle indagini sui prezzi a quelle sulloccupazione, dalla contabilit
nazionale al censimento della popolazione e delle sue abitazioni, queste operazioni
(complesse e costose ma necessarie) confermano nei pi la convinzione che la Statistica
si occupa di tabelle e grafici, percentuali e medie. Peraltro, quando a collettivi parziali (i
campioni) si richiedono valutazioni sulle pi disparate e variopinte questioni si rischia
di confermare nellopinione pubblica questa sensazione; infatti, per molti, inchieste e
sondaggi di opinione si risolvono in percentuali e tabelle riassuntive delle qualit che
caratterizzano e degli elementi che compongono una collettivit predeterminata.
Tale circostanza induce a sospettare che la Statistica sia una specie di passaporto
per dimostrare ogni cosa, e spesso anche quello che si era stabilito prima di svolgere
lindagine. In effetti, lostinato e perdurante riferimento al sonetto di Trilussa sui polli
dimostra, al contrario, quanti danni si possono produrre mediante un uso ridicolo ed
errato di semplici strumenti statistici. Similmente, quando si commentano indagini
rispettabili e significative con sensazioni emotive raccolte davanti alla macchina da
presa si esalta la rilevanza dellelemento spettacolare rispetto a quello della
rappresentativit.
1

Il presente lavoro stato realizzato nellambito dei progetti di ricerca afferenti al Dipartimento di
Scienze Statistiche, Universit degli Studi di Napoli Federico II, avvalendosi in misura decisiva anche
delle strutture di studio e di ricerca presenti presso il Centro per la Formazione in Economia e Politica
dello Sviluppo Rurale di Portici.

Eppure, non si trovano molti scienziati che possano procedere nel loro lavoro
senza analisi statistiche accurate ed arduo individuare qualche scoperta su cui si basa
la nostra vita e la nostra speranza di migliorarla che non derivi da esperienze e ricerche
dominate e pervase da metodi e risultati statistici. Ci trova riscontro in tutti i settori
disciplinari e si colloca anzi sullo spartiacque tra ci che documentabile e scientifico e
ci che deriva da fantasie ed illazioni, valutazioni arbitrarie e preconcetti ideologici.
Questo lavoro intende mostrare come laspetto genuinamente innovativo della
ricerca attuale richieda una scienza statistica che trasformi levidenza empirica in
modelli capaci di riassumere e finalizzare le informazioni verso un obiettivo predefinito.
Il senso finale della discussione sar quello di individuare nella Statistica una teoria
della conoscenza sostenuta dai fatti e orientata dagli obiettivi, nella quale la variabilit
sperimentale e lincertezza delle decisioni sono elementi costitutivi e concorrono ad
accrescere le potenzialit nuove della conoscenza umana.
2. Il connotato storico della conoscenza
Qualsiasi obiettivo richiede informazioni che si ottengono dallambiente in cui
lUomo vive, da altre collettivit che perseguono obiettivi simili e -pi recentementedallo studio di scenari ipotetici. Linsieme di tali informazioni costituisce la base ed il
contenuto della conoscenza. Essa storica perch datata nel tempo e nello spazio delle
comunit che la trasmettano ma, qui di seguito, ci interessa sottolineare gli aspetti che
hanno implicazioni sullevoluzione e sulle innovazioni metodologiche della Statistica.
Per alcuni millenni, la ricerca delle fonti della propria conoscenza stata
individuata e poi ottenuta entro i limiti delluniverso, visibile e tangibile, che rientrava
nellambito del gruppo di riferimento (famiglia, clan, trib, nazione, continente). Per
lungo tempo, sopravvivere, crescere, dominare, spostarsi, interagire con gli altri, etc. ha
richiesto informazioni che si sono risolte nella elencazione e nella catalogazione. Per
qualsiasi decisione, la conoscenza utile ed utilizzabile prima orale, poi scritta- si
ritrovata entro un orizzonte che consentiva di trasmettere da una generazione alla
successiva lammontare di dati e saggezza in modo esaustivo, a parte le ovvie
aggiunte storicamente datate. Con la nascita degli Stati moderni, sono cresciute le
esigenze di informazioni per il controllo, lamministrazione e il coordinamento ma esse
sono ancora largamente predeterminate e vengono risolte entro le coordinate usuali2 .
Non dovrebbe meravigliare che, in questa lunga storia, la Statistica nasca e si
consolidi a fianco del potere centrale e ne scandisca le vicende intellettuali e politiche,
apportando informazioni utili per pianificare e decidere con la tranquillit che deriva da
e si esaurisce entro una visione circoscritta della realt.
Tra la fine del 1800 e il primo ventennio del 1900, trasferendo nel mondo reale il
capitale di studi probabilistici accumulato per alcuni secoli da eccellenti matematici che
si divertivano a studiare i giochi dazzardo, lindeterminismo entra a pieno titolo nella
ricerca scientifica e progressivamente corrode le certezze conoscitive di tutte le
discipline positive: dalla Fisica alla Psicologia, dalla Biologia alla Medicina. Come nel
2

Dai censimenti di Mos a quelli dei Romani sino a giungere a quelli moderni non si modifica n la
filosofia della raccolta dei dati n la loro utilizzazione: al pi si raffinano gli strumenti, ampliando
contemporaneamente lo spettro delle informazioni da raccogliere sulla spinta di nuove esigenze
logistiche, amministrative, fiscali, ecologiche, etc.

passato, nuove teorie seppelliscono le precedenti (talvolta, con fragore) ma a


differenza che nel passato- si insinua pesante il dubbio che il mutamento di prospettiva
costituisca una rivoluzione scientifica che impone un nuovo modo di pensare e di fare
ricerca. Lincertezza diviene interna alla scienza non solo per addizione (perch
ignoranti nel sapere o perch inefficaci sul piano strumentale) ma per necessit
ontologica: la conoscenza del mondo avviene sempre mediante approssimazioni ma,
ora, si consapevoli che la natura di ogni acquisizione essa stessa aleatoria.
Allinizio del XX secolo, nella concretezza della ricerca sperimentale, si fondono
le due anime della Statistica (quella conoscitiva di origine istituzionale con quella
probabilistica di origine matematica). La tradizionale domanda dello scienziato: quanta
parte di quello che ho ottenuto in laboratorio deriva da fattori noti e quanta parte
casuale? si traduce ora, con maggiore correttezza, nella domanda: quanto probabile il
risultato osservato se vera lipotesi che desidero rifiutare? Se questa probabilit
bassa ho motivo di rigettare la precedente ipotesi e quindi di ritenere verosimile
lalternativa che costituisce spesso linnovazione e il progresso. Questo paradigma (che
oggi costituisce il test delle ipotesi statistiche) si respira nella filosofia di Popper
come negli esperimenti cruciali della fisica teorica, negli studi sulle parcelle agrarie da
concimare e nelle analisi condotte nelle corsie degli ospedali e si diffonde,
progressivamente, nelle assicurazioni e nei modelli econometrici, nella balistica e nello
sport, nel controllo di qualit e nelle indagini campionarie, e cos via.
Tuttavia, anche se la Statistica entra a pieno titolo nella ricerca scientifica
apportando la sua capacit di gestire informazioni ed assumere decisioni ad esito
incerto, lopinione pubblica viene colpita -prevalentemente e quasi esclusivamente- dai
prodigiosi sviluppi tecnologici che invitano a nuove sensazioni di potere. Per contro, le
problematiche di base della conoscenza scientifica (che fondano il progresso
tecnologico) e la struttura sperimentale della ricerca (tutta intrisa di metodologia
statistica) vengono percepiti quasi sempre dai soli addetti ai lavori3 .
In effetti, la tecnologia svincola luomo dal bisogno di conoscere i meccanismi
dettagliati che determinano il funzionamento degli oggetti che utilizza (sempre meno
banali) per cui il progresso attuale accentuato da una esasperata finalit consumisticavanifica la cultura sperimentale che ha prodotto beni e servizi, minimizza i vincoli entro
i quali sono definiti e nasconde lintrinseca aleatoriet presente nel loro funzionamento.
Assieme a questo allontanamento dalla scienza, la tecnologia modifica la vita di
relazione (singola, familiare, collettiva) caratterizzandola con una accelerazione
prodigiosa che, negli ultimi decenni, rischia di confondere scenari futuribili ed ipotesi
fantascientifiche. Fattori importanti e convergenti sono lavvento dellelettronica, la
diffusione dei PC e dei mezzi di telecomunicazione, la rete di informazioni che avvolge
il pianeta e che connette uomini e donne producendo azioni e reazioni difficili da
isolare, sia per i condizionamenti da cui derivano che per le conseguenze che implicano.

Siamo spesso testimoni di come i mass-media travisino affermazioni scientifiche di tipo statistico,
trasformandole in risultati pressocch matematici ove il rapporto causa-effetto deterministico. Un solo
esempio, ai limiti della mistificazione, riguarda la vicenda delle conseguenze sui militari italiani
delluranio imp overito scaricato nel Kosovo. Ebbene, i test statistici condotti dagli esperti sui dati ora
disponibili hanno evidenziato solo che non si pu rifiutare lipotesi nulla che esso sia stato ininfluente.
Eppure, stampa e Tv hanno concluso che luranio impoverito non era causa dei morti per leucemia.

Tali eventi scientifici e tecnologici manifestano una realt il cui contenuto in


termini di complessit era prima inimmaginabile. Anche se migliora lapprofondimento
della realt, cresce la debolezza intrinseca dellUomo sul mondo: dalla Fisica alla
Medicina, dallEcologia alla Politica, dallEconomia allIngegneria, dallElettronica alla
Meteorologia, non vi settore che nonostante il progresso indiscusso della
conoscenza- non manifesti una complessit crescente e difficile da controllare.
La complessit immanent e e contribuisce ad accrescere e diffondere il senso
dellincertezza dellesistenza, trasferendo lindeterminismo dei laboratori e degli
scienziati nella insicurezza della vita quotidiana. Queste evidenze sono molto accentuate
e in tutti gli strati sociali si cerca sempre pi una difesa contro le insicurezze di ogni
tipo, al punto che ci si concretizza spesso proprio in quelle direzioni che si credevano
definitivamente sconfitte dalla scienza e dalla tecnologia4 .
Se la conoscenza avviene sotto la dimensione della complessit e il segno della
velocit, le informazioni, che la caratterizzano, reclamano una gestione tuttaltro che
banale ed univoca. La comprensione del mondo e dei suoi fenomeni (fisici, naturali,
economici, psicologici, sociali, politici) richiede schemi e strumenti di pensiero che
inseriscano la probabilit nel loro momento costitutivo ed interpretino i dati come
realizzazioni di processi aleatori la cui unica ed efficace formalizzazione avviene e non
pu che avvenire- tramite modelli statistici. Probabilit ed Inferenza costituiscono cos
le coordinate del sapere moderno ma sono anche gli strumenti unici ed efficienti per le
osservazioni reali in strutture mentali utili allumanit e questo precisamente il
contenuto metodologico della scienza statistica.
Una societ statica e votata alla ricerca della stabilit si rivolge alla Statistica per
sostenere e rafforzare quella stabilit e ritrovare nei fatti i fondamenti e le regole della
propria oggettivit. Per contro, un mondo segnato da percorsi inimmaginabili (fatti di
interrelazioni, mutevolezza ed imprevedibilit), reclama oggi una scienza che analizzi i
fatti in modo idoneo per la gestione della complessit. Ebbene, nella Statistica, la
conoscenza promana dallincertezza, le fornisce una formalizzazione rigorosa ed abilita
alla costruzione di modelli che conferiscono nuove forme di oggettivit per fondare su
basi probabilistiche le decisioni umane. Tale approccio recupera la struttura
fondamentale della ricerca di Galileo, Cartesio e Newton, ma assume lindeterminismo
alla base della conoscenza odierna 5 .
3. Il paradigma della conoscenza statistica
Il precedente excursus storico invita a ripensare il modo tradizionale (e
sicuramente superato) di proporre la disciplina statistica a favore di una visione unitaria
nella quale siano determinanti gli elementi prima delineati. A parere nostro, ci pu
4

Magia ed astrologia, fondamentalismi e massificazioni sono fenomeni che tentano di ricostruire certezze
al di fuori e spesso contro la logica deduttiva, la razionalit umana e la ricerca scientifica. La loro
incredibile e consistente diffusione indica quanto linconscio personale e collettivo tentino ad ogni costo
di rimuovere lincertezza quale fattore intrinseco ed ineliminabile della vita e della conoscenza.
5
A parere nostro questo approccio che costituisce la frontiera obbligata ed innovativa della conoscenza.
In esso si inserisce sicuramente la tecnologia che produce strumenti di elaborazione veloci, accurati e
poco costosi; tuttavia, senza un quadro epistemologico di riferimento, innovativo sul piano dei contenuti e
dei metodi, si produrranno schiavi moderni, colti e potenti in modo illusorio perch possessori di alta
tecnologia ben confezionata ma dagli esiti garantiti e gi segnati.

avvenire razionalizzando le fasi sequenziali mediante le quali si struttura la conoscenza


umana finalizzata ad obiettivi predefiniti e che consistono nella percezione, nella
comprensione e nellazione conseguente6 .
Naturalmente, sono gli obiettivi concreti a determinare le conoscenze richieste ed
i metodi per realizzarli: essi, quindi, vanno esplicitati preliminarmente per esaminare
poi la compiutezza delle informazioni, la bont dei metodi e la correttezza delle analisi.
+

In primo luogo, limpatto con il mondo esterno avviene mediante i sensi cui
pervengono informazioni che il cervello raccoglie e coordina, seleziona ed organizza.
Questo momento di percezione della realt sensibile fortemente collegato alla vista per
cui lo chiameremo vedere, per semplicit. Trattasi di una abilit, gi segnata
dallobiettivo decisionale e ben stratificata nella evoluzione naturale e sociale
dellUomo, che trova numerosi riscontri: nella vita quotidiana come nellesame dei
tabulati di una banca, nella guida di unauto come nellanalisi dei prezzi, nellacquisto
di un prodotto di largo consumo come nella cura di una malattia.
Questa fase della Statistica viene chiamata Analisi esplorativa dei dati e pu
riempire da sola un corso universitario. Essa costituisce il momento iniziale e quindi
primario della conoscenza e pu determinare tutti gli altri, dai quali riceve utili
indicazioni: si pensi alle importanti questioni connesse ai dati errati, mancanti, anomali.
Infine, lesplorazione dei dati si trasforma in un vedere intelligente quando gli
obiettivi da perseguire finalizzano lanalisi statistica alla costruzione di indicatori
efficienti che consentono spesso semplici importanti derivazioni7 .
+

Fotografia e sintesi della realt sono momenti essenziali ma senza


interpretazione esse si risolvono, alla fine, in un fatto estetico. Infatti nel capire il
mondo che si esalta la capacit umana di distinguersi dagli altri viventi, che pure
riescono ad ottimizzare il loro rapporto con la realt esterna. La comprensione dei
meccanismi che giustificano ci che avviene e levidenza delle ragioni che generano i
fenomeni e li collegano tra loro sono momenti forti della relazione tra lUomo e il suo
ambiente ed anticipano la successiva fase del controllo e della previsione.
Tuttavia, se la conoscenza statistica, lintelligenza del mondo non pu esistere al
di fuori di una razionalit costruita attorno allindeterminismo. Tale comprens ione
avviene in due direzioni: quella diretta (cosa pu succedere se io conosco il
meccanismo generatore delle osservazioni?) e quella indiretta (qual il meccanismo
che ha generato questi dati che io ho osservato?). Anche se lo stato permanente della
conoscenza evoca la seconda domanda (perch la conoscenza sempre parziale, limitata
6

Naturalmente, la conoscenza umana il risultato di fattori complessi e tutti interagenti (di natura fisica,
biologica, psicologica, sociologica, ambientale). Quindi, il paradigma evidenziato in questo paragrafo va
inteso come razionalizzazione a posteriori di processi mentali, quasi sempre inconsci. E difatti raro che
lessere umano a differenza del ricercatore che pianifica un esperimento- prenda coscienza delle tappe (a
volte, degli istanti) durante le quali si struttura la sua conoscenza. Tale impostazione si ritrova con
evidenti finalit didattiche - nel recente volume di Piccolo, D. (2000): Statistica, Edizioni il Mulino,
Bologna (Sito: http://www.mulino.it/piccolo).
7
Si pensi alla valenza interpretativa degli indicatori sulla disuguaglianza dei redditi, sulla linea di povert,
sulla ricchezza del vocabolario di un Autore, sulla diversit delle specie biologiche, sulla connessione e
sulla correlazione tra fenomeni reali, e si confronti questo patrimonio metodologico con le ricorrenti
sciocchezze di chi applica sempre e solo la media aritmetica dei dati (spesso per dedurre ci che vorrebbe
dimostrare o il contrario di ci che evidente), anche in situazioni palesemente atipiche e/o distorte.

e provvisoria), evidente che solo mediante una accurata comprensione dei meccanismi
probabilistici di un sistema strutturato (=analisi diretta) sar possibile arguire sugli
aspetti inferenziali di ogni indagine (=analisi indiretta)8 .
La connessione tra analisi probabilistica e conoscenza inferenziale ha
ripercussioni ben evidenti: solo perch sono molto improbabili i risultati sperimentali
ottenuti da ricerche corrette sul piano statistico che ha senso convalidare lefficacia di
farmaci alternativi, insistere sulluso delle cinture di sicurezza, non discutere pi
sulleffetto cancerogeno del fumo, svolgere azioni di repressione e vigilanza che
accentuino vivibilit e sicurezza, e cos via. Naturalmente, non va confuso il contenuto
probabilistico delle nostre affermazioni con il linguaggio usato: la conoscenza umana
resta incerta perch lo sul piano ontologico, ma luso dello strumento statistico
coerente e razionale con la forza delle deduzioni matematiche.
+

Una visione efficiente del mondo ed una successiva interpretazione statistica


diventano momenti utili per la conoscenza solo se si traducono, poi, in obiettivi
determinati dalle esigenze operative che donne ed uomini individuano per la propria
vita: sono le scadenze concrete e le soluzioni tangibili che trasformano il pensiero in
azione visibile e comunicabile. Quindi, la terza fase della conoscenza statistica
orientata allagire, cio a derivare dallesperimento ogni utile deduzione (probabilistica
ed inferenziale) che sostenga e potenzi le decisioni da assumere per raggiungere
lobiettivo che ha determinato la ricerca.
Qui si incontra il concetto di modello statistico che uno schema mentale ben
strutturato, utile ed essenziale per rappresentare la realt per analogia ed in modo
semplificato9 . Ovviamente, tutti i modelli sono intrinsecamente sbagliati e lo scopo
finale della ricerca scientifica consiste nel proporre e ri-proporre nuovi modelli nella
speranza che i successivi migliorino il rapporto teoria-osservazioni, allinterno degli
obiettivi finali prefissati: classificare, prevedere, discriminare, correlare, confrontare,
controllare, simulare, prefissare target, pianificare scelte, graduare opzioni, etc.
Nella costruzione di un modello statistico si ritrova quel principio filosofico noto
come rasoio di Ochkam che orienta lo statistico nel difficile equilibrio tra le esigenze
contrapposte di parsimonia della struttura e fedelt alle osservazioni 10 . Ivi, il rapporto
dialettico tra il contenuto informativo dei dati e la capacit previsiva del modello 11
costituisce la cornice essenziale per la costruzione e la scelta tra modelli alternativi.

Solo conoscendo dallanalisi diretta che la probabilit di ottenere 10 facce Testa nel lancio di 10
monete piuttosto bassa (; 0.000976), si pu legittimamente porre in dubbio nellanalisi indiretta la
correttezza dei lanci e/o della moneta. Eppure, tale decisione ha un valore scientifico coerente solo
allinterno del quadro epistemologico dellinferenza statistica e non della deduzione matematica. Infatti,
in ogni caso, in un milione di lanci consecutivi di una moneta perfettamente equilibrata vi saranno con
ogni pratica certezza- tantissime sequenza di 10 facce Testa.
9
Il modello una struttura onnipresente ed essenziale della conoscenza finalizzata, ed impossibile
proporre sintesi, misure, strutture probabilistiche, legami funzionali senza riferirsi ad un modello statistico
che, quindi, delimita valore e limiti delle nostre elaborazioni. Esso andrebbe sempre esplicitato con
chiarezza, anche quando si calcola la media aritmetica!
10
Senza tale principio, la costruzione di modelli perfetti per osservazioni reali un banale esercizio sui
polinomi di Lagrange (a voler essere complicati), invariabilmente inutile per ogni uso operativo.
11
Disponendo dei primi estratti al Lotto sulla ruota di Firenze per gli ultimi cento anni, il miglior modello
che dovremo costruire per questi dati ha capacit previsiva nulla; eppure, tale modello interpreta meglio
di qualsiasi altro lo schema probabilistico che ha generato quelle osservazioni, ed quindi ottimale. Tale

A noi pare che questa interpretazione unitaria giustifica il percorso storico della
Statistica e la caratterizza rispetto alle altre procedure innovative come Scienza delle
decisioni da assumere in condizioni di incertezza, legittimando la sua recente ubiquit
nelle discipline scientifiche. In effetti, essa induce ad una seria riflessione circa i
meccanismi epistemologici presenti in tutte quelle discipline che alla Statistica fanno
riferimento costante e che ne utilizzano lapporto nella fase conoscitiva.
4. Il contenuto innovativo della conoscenza statistica
Se la Statistica la conoscenza umana sostenuta dallevidenza empirica, se
lincertezza domina la conoscenza e la Statistica ne offre una quantificazione oggettiva
costruendo modelli per decidere, qual il contenuto proprio e lapporto specifico che la
Statistica offre alla epistemologia? La risposta concerne la possibilit concreta di
sostituire ad affermazioni certe delle valutazioni probabili e a misure indiscutibili degli
intervalli numerici cui attribuire verosimiglianza e fiducia secondo metri probabilistici.
Tale processo logico naturale e necessario nei contesti ove crollano le sicurezze ma il
contributo che la Statistica apporta come scienza la sua deducibilit teorica, la
formalizzazione rigorosa ed il conforto di risultati matematici dimostrabili.
In primo luogo, si tratta di attribuire al presentarsi degli eventi (intesi come
risultati sperimentali di prove soggette ad incertezza) una valutazione numerica che la
probabilit, concetto primitivo per lessere umano ma numero, e quindi entit
graduabile, raffrontabile ed oggettiva. La diatriba sul come questo numero si formi nel
nostro cervello continua ad attraversare il dibattito sulla filosofia della probabilit e
contrappone per lo pi frequentisti e soggettivisti12 . Comunque, la teoria della
probabilit proposta da entrambi gli approcci possiede un esteso nucleo di risultati
simili ed inoppugnabili, sicch tale dibattito ha rafforzato la constatazione che -a
prescindere dalle interpretazioni che ne diamo- la probabilit costituisce un momento
importante e maturo della valutazione umana sul mondo esterno.
A questa prima acquisizione (conoscere mediante una valutazione probabilistica)
se ne affianca unaltra che riguarda esplicitamente la quantificazione dei risultati degli
esperimenti. Se una prova genera una pluralit di eventi, cui si possono far
corrispondere quantit differenti13 , su quali di esse bisogna riporre affidamento? Il
ragionamento probabilistico per giungere ad una sintesi oggettiva di una struttura

paradosso conferma la coerenza del paradigma statistico che nella fattispecie- consentirebbe di pervenire
correttamente ed agevolmente dai dati alla struttura equiprobabile che li ha generati.
12
Poich la percezione del mondo avviene tramite deduzioni empiriche e deduzioni logiche, si possono
presentare situazioni sperimentali nelle quali le prime sono preponderanti sulle seconde, e ve ne sono altre
nelle quali giocoforza riferirsi al solo ragionamento per qualsiasi valutazione probabilistica. Tuttavia, il
paradigma che abbiamo delineato per la conoscenza statistica esalta la capacit umana di pervenire a
valutazioni probabilistiche sulla base di esperienze reali, magari per analogia o per contrasto, anche
quando non vi possibilit di riferirsi ad effettive sperimentazioni.
13
La trasformazione di una prova soggetta ad incertezza in una sintesi numerica ripropone, in ambito
probabilistico, problematiche apparentemente simili a quelle della statistica esplorativa. Tuttavia, esiste
una differenza sostanziale tra le due sintesi: nei dati osservati il mondo esterno si gi manifestato e si
tratta solo di riassumerlo adeguatamente; invece, nelle prove aleatorie, la determinazione di una sintesi
viene costruita prima e senza risultati sperimentali, che costituiscono solo dei possibili ipotetici scenari.

sperimentale deriva dal principio dellequivalente certo che consente di pervenire cos
al valore medio14 di una variabile casuale, definito anche aspettativa.
Il valore medio una misura di sintesi e comparabilit tra i risultati, ma
lincertezza delle prove aleatorie offre gradi differenti di affidabilit, come ciascuno pu
sperimentare nella propria vita. Per questo, un terzo elemento costitutivo della
conoscenza statistica la misura della variabilit connessa alle prove aleatorie. Tale
concetto pu presentarsi in molteplici forme, a seconda che esso riguardi il rischio di
esiti futuri oppure laffidabilit di una misura inferenziale (stima e test, per esempio).
Molto spesso, lindicatore in questione si concretizza nel calcolo di varianza, scarto
quadratico medio, errore quadratico medio, e cos via. Tutti misurano il grado di
variabilit di una variabile casuale e sono importanti per giudicare laccuratezza, la
precisione e laffidabilit delle decisioni statistiche.
Questi elementi (probabilit, valore medio, accuratezza) si innestano in una serie
di risultati asintotici, cos definiti perch riguardano un numero di prove indefinitamente
crescenti. Tra essi, ricordiamo anzitutto le leggi dei grandi numeri che costituiscono una
serie di teoremi che permettono di inquadrare in strutture teoriche levidenza empirica
derivata dagli esperimenti. Similmente, i numerosi teoremi limite centrale non
giustificano solo lo spazio che gli statistici conferiscono alla variabile casuale Gaussiana
ma garantiscono perch, nella gran parte dei casi, il riferimento a tale schema coerente
e persino auspicabile. In effetti, tali teoremi confermano che il mondo in cui viviamo e
le sue manifestazioni visibili, ove si accumulano cause e concause, interrelazioni e
dipendenze, miscugli ed errori, possiedono leggi ed esiti controllabili, quantificabili e
convergenti verso la distribuzione Gaussiana15 . Ed ancora, il teorema fondamentale
della Statistica (di Glivenko e Cantelli) non solo un risultato analitico ineccepibile ma
rende possibile utilizzare le distribuzioni campionarie come proxy delle distribuzioni
teoriche ed , quindi, la giustificazione formale dellintera Inferenza statistica.
Queste acquisizioni conferiscono alla Statistica valore scientifico e capacit
operativa per orientare le decisioni umane, tutte segnate dallincertezza. Pi
specificamente, il complesso delle precedenti affermazioni fonda linferenza statistica
come momento privilegiato della ricerca teorica e delle applicazioni concrete della
Statistica. Infatti, la teoria della stima, la logica e la teoria del test delle ipotesi, la
costruzione di intervalli di confidenza, i piani sperimentali campionari, le tecniche di
ricampionamento, la modellistica nelle sue innumerevoli varianti, etc. sono nullaltro
che la specificazione in ambiti differenti- di un principio fondamentale che pervade la
Statistica e ne costituisce laspetto pi innovativo per la conoscenza umana: da
informazioni parziali, limitate e provvisorie (come sempre sono quelle derivate dalle
nostre esperienze) possiamo legittimamente risalire ad affermazioni molto stringenti
circa la validit di quelle informazioni, quantificando in senso probabilistico
laffidabilit delle misure da esse derivate e ladeguatezza di modelli esplicativi e
previsionali. Questa acquisizione non tuttora adeguatamente diffusa n nel linguaggio

14

A differenza della letteratura statistica prevalente, crediamo importante sottolineare la differenza


concettuale tra media e valore medio (in analogia a quanto avviene nella lingua inglese che utilizza
average ed expectation, rispettivamente). In effetti, il definire medie entrambe le misure contribuisce
alla confusione tra la sintesi di un collettivo esistente e quella di una prova aleatoria.
15
Ci dimostra anche che pi il sistema di riferimento determinato dalla complessit maggiori motivi vi
sono per riferirsi alla distribuzione Gaussiana per lanalisi, la previsione e il controllo.

n nella prassi della comunicazione (privata o collettiva) ma costituisce, a parere nostro,


il contenuto pi genuino ed innovativo che si pu dedurre dallanalisi statistica16 .
Naturalmente, laccoglimento di una mentalit statistica nel programmare e
nellagire non elimina errori e rischi ma li controlla, fornendo delle misure comparabili
anche per la valutazione dellimprevisto. Soprattutto, la Statistica abitua ed abilita alla
gestione del rischio collettivo e quindi insegna ed invita alla solidariet17 . Infatti, il
raggiungimento di un obiettivo per un gruppo strutturato si modella secondo principi
statistici e, in particolare, la prevenzione degli incidenti e lassicurazione contro le
avversit derivano da modelli statistici ben consolidati.
In sintesi, il contenuto proprio che la Statistica apporta alla conoscenza deriva da
un lato dallimmissione nel circuito delle informazioni di concetti sostitutivi delle
certezze matematiche (probabilit, valore medio, accuratezza) e dallaltro dal
fondamento che alcuni teoremi asintotici apportano alle derivazioni inferenziali.
5. Gestire lincertezza per accrescere le informazioni
Gli sviluppi formali e le numerose implicazioni della Statistica si sviluppano oggi
in stretto raccordo con le specifiche discipline che reclamano esigenze decisionali: per
questo, esse tendono a differenziarsi sempre pi e a creare nuove specializzazioni che
grazie alle innovazioni informatiche e telematiche- erano impensabili sino a pochi anni
fa. In questo ambito, stato decisivo limpatto dei PC che hanno consentito di svolgere
il notevole impegno computazionale sotteso dai metodi statistici moderni sia nella
gestione di ingenti masse di informazioni che nel trattamento di analisi
metodologicamente complesse.
A tal fine, vorremmo qui esemplificare alcune situazioni probabilmente poco
note- nelle quali la Statistica apporta alla teoria della conoscenza un contributo
sostanziale, e spesso insospettato. In questi sviluppi, si evidenzia come da un lato la
Statistica gestisca lincertezza dei dati, e dallaltro sfrutti lelemento stocastico sino al
punto da inserirlo artificialmente nei dati in modo controllato, per aumentare aspetti
della conoscenza che non potevano apparire mediante lanalisi originaria.
Rappresentazioni grafiche jittered. In alcune situazioni sperimentali, anzich

rappresentare la coppia ordinata ( xi , yi ), i = 1,2,..., n , si preferisce rappresentare la


corrispondente coppia ordinata ( xi + i , yi +i ), i = 1,2,..., n nella quale le variabili
16

Occorre convincersi e convincere che linformazione abituale: domani, forse, piove va sostituita con
quella -pi autentica- che afferma: la probabilit che domani piova superiore all80% . Similmente,
dire che linflazione per la fine del prossimo anno sar contenuta entro l1.7% costituisce uno slogan
privo di valore scientifico; bisogna invece abituarsi a produrre affermazioni che prevedano
nellintervallo (1.5-1.9) i possibili valori dellinflazione per il prossimo anno con una fiducia del 95%.
Il passaggio da unaffermazione di puro azzardo (la prima) ad unaffermazione statistica accompagnata da
fiducia e plausibilit calcolabili (la seconda), conferisce alle nostre asserzioni una validit scientifica
autentica. Infatti, la seconda deriva da un modello, che pu essere verificato e smascherato, controllato e
migliorato.
17
Laffidabilit di unaffermazione statistica su 1000 prove sperimentali generalmente molto pi elevata
dellanaloga affermazione ottenuta su 10 prove: questo derivabile dai teoremi citati nel testo in modo
rigoroso. Anzi, si pu anche individuare il numero di prove adeguato per gestire un certo rischio in misura
controllabile, come regolarmente avviene nelle assicurazioni, nel controllo di qualit e nel Risk
management, che sono ambiti operativi tutti fondati su metodologie statistiche.

casuali ( i ,i ), i = 1,2,..., n sono Gaussiane, indipendenti, di valore medio 0 e varianza


sufficientemente piccola, in modo da non alterare la rappresentazione complessiva dei
dati. In tal modo, paradossalmente, alterando le informazioni originarie con laggiunta
di una variabilit artificiale (ma controllabile) si possono ottenere informazioni pi
pregnanti, tra le quali elenchiamo le seguenti: i) elementi originariamente coincidenti
non si sovrappongono nella rappresentazione jittered; ii) effetti di accumulo di
osservazioni sono ora pi evidenti; iii) emerge la presenza di eventuali arrotondamenti;
iv) una rappresentazione bidimensionale visualizza, di fatto, aspetti che richiederebbero
una ulteriore dimensione; e cos via.
Campionamento a risposta casualizzata. Quando lindagine coinvolge le

cosiddette domande sensibili (attenenti alla sfera privata, finanziaria, confidenziale,


legale, etc.), sono stati proposti metodi nei quali allintervistatore viene fornita la
risposta corretta ma alterata dallesito di un meccanismo probabilistico. Ci rende
impossibile la conoscenza della specifica risposta del soggetto ma consente di
analizzare e confrontare con rigore i risultati dei collettivi di riferimento per questioni
per le quali la diffidenza e il rispetto della privacy non provocherebbero generalmente
delle risposte fedeli (problemi di droga, reati, possesso di capitali, caratteristiche
estreme, frodi fiscali, etc.).
Modelli statistici per lanalisi del linguaggio. Esaminando la sequenza delle

parole e el caratteristiche del discorso (scritto, orale, codificato) possibile pervenire a


modelli probabilistici di composizione del testo, e quindi alla individuazione
dellimpronta testuale dellAutore. In particolare, possibile ipotizzare che la codifica
del contenuto di un messaggio allinterno di in un linguaggio sia assimilabile
allestrazione con ripetizione di palline (=parole) da unurna che costituisce il
vocabolario dellAutore. Ci avviene secondo vincoli dettati dalle regole grammaticali e
bilanciando opportunamente il criterio economico della stringatezza del messaggio
con lesigenza della comprensibilit univoca dei suoi contenuti. In tal modo, possibile
pervenire a modelli accurati di una lingua come lItaliano, individuando limportanza
relativa dei concetti-base, dei connettivi tra le parole, etc.
Metodi di ricampionamento. Poich la variabilit di una misura consente di

valutarne laffidabilit e laccuratezza, necessario calcolare la variabilit campionaria


connessa a stima, test e modelli. Quando ci non derivabile in modo analitico (esatto)
oppure asintotico (approssimato), ovvero quando le situazioni reali non consentono il
riferimento alle ipotesi standard sotto le quali stata derivata la teoria statistica, si rende
necessario il ricorso a tecniche innovative che richiedono un notevole impatto
computazionale. In tali circostanze che sono molto diffuse nelle scienze umane e in
quelle sperimentali di frontiera- si ricorre ai metodi di ri-campionamento nei quali, in
sostanza, si ri-utilizza lo stesso campione per generare un numero elevato di ulteriori
campioni con ripetizione, in modo da derivare la distribuzione della misura di interesse
e, quindi, valutarne variabilit ed incertezza 18 .
18

In questo ambito, rientrano una classe di metodologie statistiche denominate jackknike, bootstrap,
cross-validation il cui impegno computazionale cos intenso che solo negli anni pi recenti sono state
rese implementabili in modo agevole e generalizzato, s da costituire il bagaglio conoscitivo dello
statistico. Esse utilizzano, al loro interno, lo strumento della simulazione ma se ne differenziano sul piano
concettuale perch derivano ogni decisione inferenziale direttamente dai dati originari, resi disponibili
mediante la procedura campionaria.

10

Controllo campionario dei censimenti. Le incombenze amministrative ed i


tempi connessi ai censimenti suggeriscono spesso di procedere ad un campionamento
sui dati globali, raccolti sulluniverso dei rispondenti, allo scopo di ottenere le prime
informazioni in modo rapido ed efficiente. A questa modalit usuale, si aggiunta
recentemente unaltra che introduce invece lindagine campionaria come garanzia e
controllo dei dati censuari. In effetti, linferenza derivata da un numero circoscritto di
informazioni ben selezionate ed accuratamente raccolte pu essere decisamente pi
affidabile delle risultanze derivate dallintera popolazione, per la quale il grado di
accuratezza resta per definizione pi modesto. Per il futuro, a prescindere dalle
questioni amministrative che gli Enti locali cureranno nei propri ambiti (principalmente
sulla base di archivi informatizzati ed aggiornati in tempo reale), legittimo pensare alla
sostituzione progressiva della logica censuaria con le tecniche campionarie, con enormi
vantaggi sui tempi, sui costi e soprattutto sulla affidabilit dei risultati19 .

Le situazioni appena elencate sono accomunate dal fatto che, allincertezza


intrinseca delle rilevazioni, si aggiunge una variabilit aleatoria controllabile con metodi
statistici. Tale aggiunta -che apparentemente modifica e complica lanalisi dei dati
originari- si risolve, alla fine, nel raggiungimento veloce ed accurato, completo ed
affidabile degli obiettivi da perseguire. Le esemplificazioni precedenti, e le numerose
altre che costituiscono buona parte dellanalisi e della ricerca statistica moderna,
confermano che non lincertezza il problema reale della conoscenza ma la sua corretta
gestione, perch anche lincertezza pu apportare utili elementi conoscitivi.
6. Considerazioni finali: quantificare le aspettative
Gli sviluppi della Statistica modificano i metodi con i quali le scienze positive
sviluppano la ricerca e diffondono la conoscenza. I risultati pi recenti aiutano a
relativizzare certezze e dogmatismi, stimolando studiosi e docenti ad affrontare con
maggiore umilt e concretezza operativa le vicende dei laboratori e il loro trasferimento
nella prassi operativa. Questa modifica di mentalit rende insicura e fallibile la ricerca
odierna ma le conferisce una dimensione pi oggettiva perch sicuramente controllabile:
ogni acquisizione della conoscenza deve essere verificabile e criticabile, ed tanto pi
valida quanto pi manifesta in s stessa la possibilit reale di essere superata e quindi
migliorata.
In tale ottica, la ricerca della verit, come obiettivo e come principio, non pu
consistere nel mero accumulo di informazioni ma nellindividuazione di quelle
procedure dialettiche mediante le quali lUomo affina la conoscenza rigettando e
superando affermazioni spesso consolidate nel tempo per giungere a nuove acquisizioni.
A questi mutamenti collettivi, la Statistica apporta modifiche di mentalit anche
individuali. Progressivamente, si acquista la convinzione che il mondo non n dato n
definitivo, ma che la sua percezione e la sua fruibilit derivano da progetti ad esiti
19

La problematica censuaria molto attuale negli USA ove la dinamica della popolazione e le regole
anagrafiche sono cos diverse dalle tradizioni europee da rendere piuttosto grossolani i risultati dei
Censimenti decennali della popolazione. Eppure, gli statistici americani non riescono tuttora a convincere,
per evidenti ragioni politiche, il Congresso americano ad apportare le modifiche legislative necessarie per
utilizzare i dati campionari (molto affidabili) a fini correttivi ed integrativi dei dati censuari (sicuramente
inaffidabili).

11

incerti che ci costringono a sostituire alle acquisizioni definitive un insieme di


aspettative.
Ebbene, se tale prospettiva innovativa genera preoccupazioni (per i singoli e per i
gruppi), laspetto rassicurante di questo approccio deriva dal fatto che le aspettative
generate dalla Statistica non sono illusioni ma risultati dimostrabili e ripetibili, fondati
su una scienza che nella Logica e nella Matematica trova il suo rigore formale.
Sicuramente, convivere con lincertezza impone nuove regole per la tutela personale dei
valori e dei beni, per la difesa collettiva e dellambiente, e tutto ci richiede
programmazioni di tipo stocastico mediante le quali si perviene a distribuzioni di
probabilit piuttosto che a risultati definitivi.
Peraltro, se le aspettative costituiscono obiettivi collettivi allora le leggi diventano
pi stringenti perch crescono le probabilit di ottenere le realizzazioni attese. La
sostituzione dellincertezza individuale con le tranquillit collettive trasforma le ragioni
per cui la solidariet del mondo e delle sue manifestazioni costituiscono valori reali ed
apportano valore aggiunto allesistenza umana. La comunanza degli obiettivi diventa
una necessit imposta dalla nuova percezione statistica del mondo.
La Statistica come scienza e metodo della ricerca strumento di conoscenza e di
progresso e, al pari di tutti gli strumenti prodotti dallUomo, pu essere utilizzato in
modo incorretto o improprio, precostituendo i risultati di una indagine o orientandone le
interpretazioni. Cos possiamo incontrare faciloneria e malafede assieme ad autentiche
falsificazioni coperte da numeri, per forzare una proposta di vendita o un
comportamento politico. Eppure, tale scienza e il suo approccio epistemologico hanno
in s gli strumenti per smascherare questi abusi, perch dati ed informazioni non
costituiscono verit assolute ma solo realizzazioni di una legge o di una ipotesi che quei
dati devono mettere in discussione. Senza modelli falsificabili dallesperienza, i dati
statistici sono numeri privi di senso e, al di fuori di uno schema concettuale, non esiste
interesse scientifico n utilit pratica per qualunque analisi statistica.
Daltra parte, se lobiettivo finale di ogni pensiero ed azione dei singoli e delle
collettivit lessere umano, allora umanizzare lincertezza il compito scientifico e la
dimensione etica della Statistica.
Ci piace concludere ricordando che la probabilit una delle pi grandi
conquiste del XX secolo20 , che ha accompagnato lavventura umana nella vita
quotidiana come nella ricerca di laboratorio. Dopo la perdita di quelle numerose
certezze che pure hanno contribuito allo sviluppo intellettuale e tecnologico della nostra
specie, la Scienza si evolve oggi grazie ad una conoscenza critica, nel pensiero e nella
ricerca, che assume necessariamente ed utilizza regolarmente il paradigma statistico.
E come nella vita personale nel passaggio dalla dipendenza familiare alla scoperta
del mondo esterno si ritrovano sia la perdita della sicurezza che il fascino dellavventura
cos, nella storia collettiva dellUmanit, nel passaggio dalle certezze deterministiche
alla gestione del rischio si generano paure ed insicurezze ma si costruiscono anche
quelle serie aspettative fondate su una libert squisitamente umana.

20

Baclawski, Cerasoli e Rota (1990), Introduzione alla probabilit , UMI, Bologna, pag.1. Le
considerazioni finali di questultimo paragrafo richiamano quelle analoghe contenute nei capp.1 e 8 nel
gi citato volume di Piccolo (2000).

12