Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
it
02
Assediati
dai dati
04
Una nuova sfida
per lepidemiologia
Eliana Ferroni
06
Un approccio semantico
Alessandro Rosa
08
Le impronte
Big data
digitali al servizio
dellepidemiologia
Daniela Paolotti
Caterina Rizzo
10
Cercare i piccoli numeri
nei grandi numeri
Francesca Dominici
11
Collegare i big data
biomedici
alla persona malata
Intervista a
Grin M. Weber
I big data trasformeranno la medicina.
12
Predire il futuro Affinch possano essere utili bisogna
Intervista a
Ziad Obermeyer analizzarli e interpretarli correttamente.
13 Ziad Obermeyer, Ezekiel J. Emanuel
La grandezza risiede
nella partecipazione
Giulia Annovi
16
Larte e i big data
20
Big data e innovazione
farmaceutica
Luca Pani
21
Come cambia
la sorveglianza
post-marketing
Gianluca Trir
Valentina Ientile
22
Interrogare i flussi
amministrativi
Nello Martini
24
Verso una nuova
cooperazione
pubblico-privato
Maurizio Belglio
Cristina Mencarelli
Lara Pippo
25
La ricerca in un mare
di dati
Eugenio Santoro
26
Quando i big data
possono diventare
scomodi
Intervista a
Carlo Alberto Perucci
29
Il labile confine
tra riservatezza
ed esposizione
Cristina Da Rold
31
Internet
non un mondo a parte
Rebecca De Fiore
33
Big data e psicopolitica:
ancora e sempre fatti
vs interpretazione?
Luciano De Fiore
Il Pensiero
Scientifico
Editore
1944 1971
1961
E
ra il 1662 quando John Graunt pub-
blic a Londra il Natural and po-
litical observations mentioned in a
following index, and made upon the
bills of mortality. Secondo Stephen Mooney,
Kimberly Westreich e Abdulrahman El-Sayed
era la sintesi di un lavoro da demografo e
statistico che anticipava alcuni tratti dellepi-
demiologia moderna. Leditoriale Epidemio-
logy in the era of big data1, uscito sulla rivista
Epidemiology, celebra dunque Graunt, mentre
altre note recenti2 indicano in John Snow lan-
tesignano del lavoro sui big data orientato alla
salute.
Se vero che nella locuzione big data il
termine chiave il secondo, c da dare ragione
a chi vede i precursori in quanti hanno sapu-
to lavorare con intelligenza sulle associazioni,
muovendo dalle correlazioni alle ipotesi e alla un rapido usso costante crediamo comunque e renderla universalmente accessibile e utile.
determinazione delle cause. Ci premesso, di essere alle prese con i big data. Limpressione di disorientamento: la pre-
quella dei big data storia recente, con una Al contrario, lelemento dirompente visione di Chris Anderson sullobsolescenza
straordinaria progressiva accelerazione che ri- nellessere i dati generati in modo sponta- del metodo scientico conseguente alla resa
schia di rendere superata nel volgere di pochis- neo: come il diluvio descritto nelle pagine allo tsunami di dati si traduce nello smarri-
simo tempo qualsiasi timeline. Volume, varia- del dossier dellEconomist del 2009, la pioggia mento di chi teme lincapacit di governare
bilit e velocit sono le caratteristiche fondanti torrenziale di fatti e cifre non richiede una un usso di informazioni in crescita espo-
dei big data, ma laffermarsi di questa novit rilevazione attiva e si modica losservazio- nenziale. Ci si consola nella fantascienza
stato talmente dirompente che spesso si - ne tradizionale, afdandone lanalisi ad al- della internet of things, con la speranza di un
nisce con laccettare per big data qualsiasi ag- goritmi costantemente afnati. il caso, per ecosistema addestrato a risolverci i problemi
gregazione di dati che sia caratterizzata anche esempio, dei dati ambientali, sul clima o sul- invece che a complicarci la vita: il frigorifero
solo da uno degli elementi che teoricamente la qualit dellaria o delle informazioni che che ci avverte che il latte nito, la caldaia
dovrebbero concorrere insieme a denirli. In costantemente aggiornano Google Trends che si avvia sollecitata dal meteo, lautomo-
altre parole, di fronte a tanti dati o che giun- che non manca di ricordare che il suo obiet- bile che ci porta a destinazione nel pi breve
gono da fonti diverse o che ci raggiungono in tivo organizzare linformazione planetaria tempo possibile informata dagli spostamenti
ORIGINI
INFLUWEB In una conferenza, il chairman Special issue della
QUANTA INFORMAZIONE? In Belgio e Olanda di Google, Erick Schmidt, afferma Harvard Business Review
Peter Lyman viene lanciata che ogni due giorni prodotta dedicato a: Big data:
e Hal R. Varian la prima piattaforma una eguale quantit di dati di the management revolution.
della UC di Berkeley web per il monitoraggio quella prodotta dalle origini
pubblicano dellinfluenza. della civilt al 2003. La NPR dichiara big data
How much espressione dellanno.
information?:
il primo studio RIVOLUZIONE
BIG DATA che quantifica Esce su Wired larticolo
Un documento della Nasa, in termini di storage Tim OReilly nel libro di Chris Anderson:
lagenzia spaziale statunitense, informatico il totale What is Web 2.0? The end of theory:
cita per la prima volta dei dati disponibili scrive: The data is the data deluge makes
lespressione big data. su carta, cd, dvd e the next Intel inside. the scientific method Il governo Usa lancia
supporti magnetici. obsolete. la Partnership
Viene creato for Resilience
GENOMA Hadoop, NATURE and Preparedness
Completamento un framework Numero speciale sui big data. che intende favorire
del primo draft open source laccesso a una
del genoma per la raccolta di 100 MILIONI UTENTI SU FB BIG DATA piattaforma
umano. big data di Apache. Il social network EUROPE open source
di Mark Zuckerberger Apre il sito per il controllo
Fondazione del primo
raggiunge una prima dellUnione del cambiamento
grande portale
significativa milestone. europea. climatico.
di e-commerce.
1994 1997 2000 2003 2005 2008 2010 2012 2015 2016
1983 1996 1998 2001 2004 2006 2009 2011 2013 2014
TITOLI
Nella libreria
di Amazon,
EXPEDIA THE
il catalogo di libri
Nasce il primo sito ECONOMIST
sui big data
di turismo online. Pubblica il dossier
supera le 250
sulla presenza
unit.
ubiquitaria
TWITTER dei dati:
Apre il primo canale Data, data
LE TRE V di microblogging online. everywhere. BIG DATA.
Esce il paper Lideatore Jack Dorsey. SEIZING
di Doug Laney DATA.GOV OPPORTUNITIES,
del Meta Group Decolla la digital Apre il portale PRESERVING
che introduce epidemiology degli open data VALUES
i criteri chiave con Healthmap. del governo Usa. Esce il report
di volume, della Casa Bianca.
variabilit
e velocit. Chiude
Google
MC KINSEY
flu trends.
Esce il report
GOOGLE Big data:
Alluniversit di Stanford, Sergey Brin e Larry Page the next frontier
costruiscono il motore di ricerca che cambier il web. for innovation,
competition,
and productivity.
FACEBOOK
Nasce la rete sociale diMark Zuckerberg.
di chi ha lasciato traccia sullo stesso nostro
percorso. In questo modo riportiamo i big
data a un livello pi rassicurante: quello della
nostra spesa o dello scaldabagno. Spaventati
dallevidenza che i big data si riferiscono a
quello che si pu fare su larga e non su picco- 1. Mooney SJ, Westreich DJ, El-Sayed AM.
la scala, che d nuove suggestioni o crea nuo- Epidemiology in the era of big data.
Epidemiology 2015;26:390-4.
ve forme di valore, con modi che cambiano
2. Khoury MJ, Ioannidis JP. Big data meets
i mercati, le organizzazioni, le relazioni tra
public health. Science 2014;346:1054-5.
cittadini e governi3.
3. Mayer-Schonhuber V, Cukier K. Big data:
Mettendo da parte la preoccupazione prin- A revolution that will transform how we
cipale: levidenza che internet lo spazio non live, work, and think. Boston: Houghton
governato pi grande del mondo, il pi gran- Mifflin Harcourt, 2013.
de esperimento di anarchia mai tentato nella 4. Schmidt E, Cohen J. The new digital age.
storia4. F New York: Knopf, 2013.
P
er decenni, lepidemiologia ha for-
nito un fondamento scientico per
la salute pubblica e la prevenzio- Variet
ne delle malattie1, contribuendo
a importanti scoperte scientiche. La nuova
Dati strutturati,
sda per lepidemiologia del nostro secolo non strutturati,
affrontare lo tsunami di dati, i cosiddetti big semi-strutturati,
data, che coprono lo spettro di informazioni
genomiche, molecolari, cliniche, epidemiolo- di diversa natura
giche, ambientali e digitali. La fusione di dati e provenienti
provenienti da tutte queste fonti ha in s tutto
il potenziale necessario per inuenzare i pro- da pi fonti.
cessi decisionali del singolo medico e, pi in
generale, in sanit pubblica2.
Il termine big data ha cominciato a esse-
re utilizzato nelle pubblicazioni accademiche
e non solo per descrivere la rapida inte-
grazione e analisi di una grande mole di dati.
Da quando stato coniato nel 1997, per fare
Le
dei big data
3V
riferimento a dati troppo grandi per essere
memorizzati nei sistemi di storage dellepo-
ca, la denizione di big data si evoluta e ad
oggi quella pi accettata ruota intorno alle 3
V: alta variet, alto volume e alta velocit. In
Veridicit
base a questa denizione, alta variet si ri- Credibilit,
ferisce alle varie tipologie di dati, provenienti
da fonti diverse (strutturate e non); alto vo- autenticit,
lume allordine di grandezza in termini di origine,
osservazioni e di variabili contenuti nei da-
taset; alta velocit al processo di generazio- accessibilit,
ne e analisi del dato in tempo reale o quasi,
spesso grazie ad algoritmi che operano senza
accountability.
lintervento umano3.
In ambito epidemiologico, il linkage di
dati provenienti da varie fonti e con caratte-
Volume
ristiche diverse non rappresenta una novit, Terabyte di dataset,
e se laumento delle fonti informative dispo- record,
nibili da un lato pu alimentare nuove op-
portunit di ricerca, dallaltro alimenta anche transazioni,
il rischio di dover gestire dati di qualit va- tabelle e file.
riabile. In questo contesto diviene senzaltro
fondamentale indirizzare correttamente il
processo di raccolta dati, al ne di assicurarne
qualit e validit. Oltre a suggerire limpor-
tanza di una valutazione rigorosa del dato,
laumento della variet sopra descritto ha an-
che portato a un aumento del volume. Gra-
zie alle innovazioni in ambito tecnologico si pretare al meglio i risultati. Lacquisizione di del colera a Haiti dopo il terremoto del 2010
potr quindi includere, ad esempio, un mag- dati in tempo reale potr senzaltro favorire ha richiesto unimportante risposta in condi-
gior numero di soggetti negli studi clinici, a un miglioramento in termini di salute pub- zioni avverse6. La pronta identicazione dei
benecio della potenza dello studio stesso e blica: ad esempio, esistono gi diverse appli- soggetti con linfezione e la rapida distribu-
in pi con un notevole risparmio in termini cazioni che raccolgono dati in modo istanta- zione del vaccino sarebbero senzaltro state
economici: le tecnologie web-based e della neo provenienti da ricerche web geolocaliz- facilitate dalluso di tecnologie ad alta veloci-
telefonia mobile consentono gi oggi, infat- zate per la sorveglianza epidemiologica5. Ve- t quali le reti cellulari. In realt, purtroppo, il
ti, di reclutare soggetti e seguirli nel tempo a locizzare la raccolta dati pu aiutare, inoltre, vaccino non venne distribuito nelle prime fasi
costi molto inferiori rispetto ai sondaggi tele- a implementare interventi di sanit pubblica, dellepidemia a causa della difcolt di indi-
Eliana Ferroni fonici4. Aumentare il volume dei dati richie- in particolare quelli che devono rispondere viduare la popolazione target che ne avrebbe
Servizio de anche un maggiore impegno in termini immediatamente a una minaccia per la salute beneciato7.
epidemiologico di tecniche statistiche e analitiche, che deve della popolazione e dove trasferire informa- La gestione dei big data richieder lacqui-
regionale andare di pari passo con lampliamento delle zioni ad alta velocit fondamentale per ga- sizione di nuove competenze, in particolare
del Veneto conoscenze per poter essere in grado di inter- rantirne il successo. Ad esempio, la diffusione nellambito della programmazione informa-
www.forward.recentiprogressi.it forward | 5
tica, grazie alle quali sar possibile, con le etiche emerse con lavvento dei big data, ac-
autorizzazioni necessarie, costruire dataset compagnate da alcune proposte per poterle
utilizzando dati pubblicamente disponibili affrontare9.
tramite programmi web scraping che leggo- Uno dei problemi principali conciliare
no e registrano i dati delle pagine web8. Allo lutilizzo dei big data per il bene comune con
stesso modo si potranno monitorizzare e im- i diritti, tra cui quello alla privacy, e le liber-
plementare interventi di promozione della t individuali. Una cosa infatti utilizzare i
salute sfruttando le applicazioni mobili. Di- dati digitali, come quelli dei social network,
verse applicazioni sono state gi sviluppate per promuovere la salute e il benessere dei
allo scopo di incoraggiare la popolazione a cittadini, ben altra cosa farlo per mere nalit
seguire stili di vita sani (ad esempio, Noom, aziendali come quelle pubblicitarie. Emerge,
RunKeeper, MyFitnessPal). Esse permettono quindi, la necessit di realizzare norme ad hoc
Velocit di accumulare un gran volume di dati sulla e modalit speciche per la gestione di dati
salute e sul comportamento dei cittadini, di provenienti da una vasta gamma di fonti.
Trattamento notevole interesse per la ricerca epidemiolo- Un altro aspetto rilevante legato al rispet-
dei dati gica; per tale motivo auspicabile che il mon- to dei diritti e degli interessi delle persone
in real time, do scientico colga presto lopportunit di proprietarie del dato rispetto alla sua raccol-
collaborare con le aziende produttrici di tali ta e analisi, in particolare nei progetti di ricer-
near real time, applicazioni. ca che permettono laccesso e la condivisione
batch o streaming. Tutte queste attivit di ricerca rientrano di dati globali, includendo quindi diversi pa-
nellambito dellepidemiologia digitale, disci- esi e culture con standard diversi per la tutela
plina che sfrutta la nuova generazione di siste- della privacy.
mi di sorveglianza, insieme allaccesso diffuso Una riessione etica va fatta anche sul-
a internet e la crescita esplosiva dei dispositi- la provenienza dei dati: per gli studi epide-
vi mobili e delle piattaforme di condivisione miologici dovrebbero essere utilizzati dati di
online, in grado di generare continuamente pubblico dominio o per i quali i titolari delle
una grande mole di dati contenenti informa- informazioni abbiano espresso il loro esplici-
zioni sulla salute. Quindi nellera dei big data to consenso alluso in ambito medico-scien-
la nuova sda integrare le conoscenze delle- tico. Tuttavia, sebbene in linea di principio
pidemiologia tradizionale con nuove capacit i dati di dominio pubblico sono accessibili e
tecniche quali la programmazione3. Attraver- possono essere utilizzati a ni di salute pub-
so luso di dati digitali globali, lepidemiolo- blica, cosa costituisca dominio pubblico su
Valore gia digitale promette di rilevare tempestiva-
mente il focolaio di una malattia, di valutare
internet tuttora oggetto di accesi dibattiti10.
Non chiaro, ad esempio, se gli utenti siano a
Validit, il comportamento e gli atteggiamenti di salute conoscenza delle modalit con cui i dati del-
della popolazione, nonch di dare un gros- le loro interazioni sui social network possano
statistica, so contributo nellambito della farmacovigi- essere utilizzati e chi possa accedervi. Qualun-
eventi, lanza. Tutti questi buoni propositi non sono que progetto di ricerca dovr necessariamente
esenti da rischi, in particolare quelli legati alla considerare questi aspetti, allo scopo di garan-
correlazioni, sensibilit dei dati raccolti. In un recente arti- tire la massima trasparenza e il rispetto dei di-
colo vengono elencate alcune problematiche ritti e della dignit individuali. F
ipotesi.
Alle tradizionali 3V 1. Koplan JP, Thacker SB, Lezin NA. Epidemiology in the 21st
century: calculation, communication, and intervention. Am J
6. Frerichs R, Keim P, Barrais R, et al. Nepalese origin of cholera
epidemic in Haiti. Clinical Microbiology and Infection
Public Health 1999;89:1153-5. 2012;18:E158-E163.
dei big data se ne 2. Khoury MJ, Lam TK, Ioannidis JP, et al. Transforming 7. Date KA, Vicari A, Hyde TB, et al. Considerations for Oral
epidemiology for 21st century medicine and public health. Cholera Vaccine Use during Outbreak after Earthquake
stanno aggiungendo Cancer Epidemiol Biomarkers Prev 2013;22:508-16. in Haiti, 20102011. Emerging infectious diseases
3. Mooney SJ, Westreich DJ, El-Sayed AM. Epidemiology in the 2011;17:2105.
altre, man mano era of big data. Epidemiology 2015;26:390-4. 8. Lee BK. Epidemiologic research and Web 2.0 the user-
4. Cook C, Heath F, Thompson RL. A meta-analysis of response driven Web. Epidemiology 2010;21:760-3.
che la riflessione rates in web-or internet-based surveys. Educational and 9. Vayena E, Salath M, Madoff LC, et al. Ethical challenges of
psychological measurement 2000;60:821-36. big data in public health. PLoS Comput Biol 2015;11:1-7.
procede. 5. Lampos V, Cristianini N. Tracking the flu pandemic by 10.Nissenbaum H. Privacy in Context: Technology, Policy, and
monitoring the social web. 2nd International Workshop on the Integrity of Social Life. Stanford (California): Stanford
Cognitive Information Processing (CIP). New York: IEEE Press University Press, 2010.
2010:411-6.
Social media,
Mainframe Client/server Internet big data,
cloud
Un approccio semantico
Sfide e opportunit per lepidemiologia 2.0
B
ig data. Un rivoluzionario approc- rapida integrazione e analisi su larga scala; che relativa al tasso di produzione dei dati.
cio per lepidemiologia, la chiave di tuttavia, una chiara denizione di big data importante aggiungere che i big data
volta del futuro sistema sanitario, rimane sfuggente. Le modalit con le quali vengono generati automaticamente da ope-
un nuovo strumento per monitora- i big data potrebbero inuenzare il futuro razioni di interazione persona-macchina
re e contrastare, in modo tempestivo, il ma- della ricerca epidemiologica e di intervento (un esempio, in ambito nanziario, sono i
nifestarsi di epidemie? Un capovolgimento sanitario sulla popolazione rimangono, al dati transazionali), persona-persona (social
di metodologia, labbandono dellinferenza momento, poco chiare. network) e macchina-macchina (si pensi ai
in sostituzione del machine learning? La dati inviati dai sensori direttamente ai tele-
possibilit, no a pochi decenni fa inimma- Il peso della terminologia foni cellulari). Nella convenzione universal-
ginabile, di poter seguire le fasi di cura del Il corretto approccio alla tematica forse Alessandro Rosa mente accettata si associano ad enormi moli
paziente in tempo reale, mediante sensori ha senso a partire dallaspetto semantico, e Dipartimento di volume: si passa dai terabyte (1 tb = 1012
direttamente collegati con il proprio medico conseguentemente concettuale, della deni- di Epidemiologia b) e petabyte (1 pb = 1015 b), no ad arri-
curante? Big data per mappare la sequenza zione ormai celebre di big data riassunta nel Servizio sanitario vare agli exabyte e addirittura agli zettabyte.
del genoma umano? O per prevedere il dif- primo modello teorizzato delle 3 V: volume, regionale del Lazio Devono presentare un tasso di produzione
fondersi persino di pandemie sfruttando le variet e velocit. Un primo passo propedeu- alto e, inoltre, possono essere di provenienza
ricerche testuali su Google, effettuate dalla tico alla formulazione di ipotesi idonee alla varia e talvolta non convenzionale: parliamo
popolazione, per ottenere la geo-localizza- ricerca e alla formazione di un background anche di documenti testuali, immagini, au-
zione di una determinata patologia? Oppu- realmente critico risiede nella terminologia: dio, video, dati da sensori o Gps.
re, i big data sono solo un grande bluff? cercare di fare chiarezza su cosa differenzi i I big data, in sintesi, presentano congiun-
Secondo alcuni solo unoperazione di big data, nella loro natura, dai dati ottenuti tamente le tre caratteristiche sopra elencate e
marketing. O poco pi. Una moda, uno dei dalle fonti tradizionali. In sostanza si torna sono la materializzazione (per usare un os-
tanti prodotti transeunti della modernit: alla domanda iniziale: cosa sono i big data? simoro) dellinternet of things, cio la visione
tutti parlano di grandi insiemi dati e di nuo- Big, ad esempio, di per s un attributo secondo cui gli oggetti nel mondo informa-
vi ussi (data deluge), nonostante nessuno generico e poco calzante che fa esclusiva- tizzato creano un sistema pervasivo e inter-
li abbia mai visti davvero. Anche in ambito mente riferimento al volume, alla mole di connesso avvalendosi di molteplici tecnolo-
epidemiologico e scientico, non mancano dati, che ha unaccezione soggettiva e non gie di comunicazione. In pratica, parliamo
le critiche sul possibile contributo informa- indica nulla di quantitativo. Ad esempio, di dati e ussi continui.
tivo dei big data, rafforzate dalla consapevo- anche le schede di dimissione ospedaliera Le caratteristiche sopra elencate differen-
lezza che ai grandi numeri non necessaria- della Regione Lazio dovrebbero appartenere ziano pertanto i big data veri e propri dai
mente corrispondano grandi informazioni ai big data in quanto composte da milioni di dati desunti dalle fonti tradizionali. Tuttavia,
o, comunque, informazioni di validit scien- record. La percezione del concetto di gran- a causa di un problema denitorio, lincom-
tica o di qualit. dezza ovviamente soggettiva. pleta espressione big data porta a fare con-
Il ricercatore appartenente a questo pe- La variet: i dati possono presentare ete- fusione con le fonti attualmente disponibili,
riodo storico, che possiamo far idealmente rogeneit nel tipo, nella rappresentazione proprio per il fatto che, anche queste ultime
partire dal 2010, anno in cui il termine big e nellinterpretazione semantica. Possono vertono su considerevoli moli di volume.
data ha ottenuto una diffusione planetaria, essere di qualsiasi natura (strutturati, semi- In ambito sanitario, ad esempio, lespres-
si trover probabilmente nel limbo dellin- strutturati o non strutturati). Pertanto, ad sione la tale struttura sta avviando unini-
decisione, tra scetticismo e curiosit, come esempio, considerando un ipotetico linkage ziativa di big data dovrebbe essere sostitui-
se dovesse scegliere tra il nuovo approccio tra sistemi informativi riguardanti farmaceu- ta dalla pi aderente formulazione secondo
di indagine che fa uso dei big data oppure tica, ricoveri e assistenza specialistica, pos- cui la tale struttura intende combinare i dati
quello tradizionale, come se i due ambiti siamo parlare di big data? sanitari in formato elettronico e i dati geno-
fossero mutuamente esclusivi. La velocit: alle nuove informazioni estrai- mici per applicare ai pazienti trattamenti
La stampa popolare e accademica ha bili dai dati viene spesso associata una fun- personalizzati, posto che la tale struttura
con notevole entusiasmo iniziato a utiliz- zione di utilit che degrada velocemente con stia davvero portando avanti un progetto sui
zare il termine big data per descrivere la il passare del tempo. La velocit inoltre an- big data.
VEDI ANCHE
l lavoro dellepidemiologo un po utilizzati dati censuali italiani che hanno per- Lepidemiologia digitale ha un record di
tare la loro condizione di salute sia che stiano solito viene effettuata attraverso le segnala-
bene sia che abbiano dei sintomi respiratori. zioni dei medici o della popolazione. uno
Con questo approccio non si raggiungono le
dimensioni dei big data, poich il numero
degli individui raggiunti con questa modali-
strumento potenzialmente molto importante
perch consente di catturare tutto ci che vie-
ne avvertito dai cittadini come evento avverso
Il flop di Google flu trends
t non paragonabile ai milioni di utenti di che per la sanit pubblica molto difcile da
Facebook o Twitter, ma il numero tale per identicare. Lattivit dei motori di ricerca quali Google che conta centinaia
cui il segnale epidemiologico che si ottiene di milioni di utenti attivi potenzialmente un segnale affidabile
sufcientemente accurato. Inoltre, con la mo- Questioni aperte ma non sempre preciso. Un esempio di ci Google flu trends,
dalit della sorveglianza partecipativa si pos- Chiaramente i tipi di dati su cui si basa le- considerato un vero e proprio flop. Google flu trends si basava
sono ottenere informazioni da persone che pidemiologia digitale non sono raccolti per sullanalisi delle ricerche fatte tramite il motore di ricerca di Go-
non si recano dal medico in caso di febbre, scopi epidemiologici, e quindi non si tratta
ogle di parole collegate ai sintomi influenzali quali febbre, mal
ma che non hanno problemi a compilare un di una coorte di pazienti selezionati in modo
questionario sul web quando sono a casa da rappresentativo, ben controllata. I limiti di di gola, raffreddore. Il numero di volte che gli utenti chiedevano
malati. InuenzaNet stato sperimentato per questo approccio sono legati, in parte, al co- al motore di ricerca queste informazioni veniva utilizzato come
la prima volta in Olanda e Belgio nella stagio- siddetto selection bias, cio il problema di se- specchio del numero di casi di influenza fra la popolazione.
ne inuenzale 2003/2004. Ora viene utilizza- lezionare adeguatamente il campione da ana- Dopo diversi inverni di mappature perfette delle epidemie
to in 10 paesi europei, tra cui lItalia con la lizzare. Si pone una duplice problematica: da influenzali, nel 2013 il sistema aveva fallito clamorosamente so-
Fondazione Isi e lIss, la Francia con lInserm un lato il segnale rilevabile da questi dati non vrastimando i casi di influenza. Il problema che Google usava
e lInghilterra con la Public health England, e pulito, dallaltro nei paesi in via di sviluppo un modello statistico impiegato per produrre previsioni da una
ha inoltre ispirato delle piattaforme analoghe laccesso al web limitato. per tale ragione
settimana allaltra e che veniva allenato soltanto sui dati della
negli Stati Uniti e in Australia. Si quindi cre- che i dati di Twitter funzionano bene per la
ato un sensore digitale globale di volontari, sorveglianza dellinuenza in quei paesi in stagione corrente, quando invece la dinamica dellinfluenza
sia dellemisfero nord che di quello sud, che cui questo tipo di social network molto dif- tale per cui si osserva sempre lo stesso andamento stagionale,
ogni anno durante la stagione inuenzale ri- fuso, ma non altrettanto bene in paesi come ma se si analizza nel dettaglio si osserva che ogni stagione di-
portano il proprio stato di salute. Questo un lItalia dove ancora sottoutilizzato. versa. Inoltre, il fatto che una persona cerchi la parola influenza
enorme passo avanti nella sorveglianza glo- Tuttavia i vantaggi della digital epidemiology con Google non indicativo del motivo per cui lo fa: potrebbe
bale dellinuenza. sono tali che questo tipo di limite superabi- eseguire la ricerca perch ha linfluenza o perch ne ha sentito
le. Diversi articoli scientici hanno vericato parlare molto dai media.
Le applicazioni dei big e small data per esempio che il dato sullincidenza dellin-
Il flop di Google flu trends potrebbe per essere imputabile
Lepidemiologia digitale viene spesso asso- uenza misurato contando il numero di volte
ciata ai big data che, secondo la denizione che gli utenti menzionano su Twitter parole non tanto alla qualit dei dati digitali quanto piuttosto al modello
contenuta in un rapporto del Congresso Usa legate alle sindromi inuenzali strettamen- di calcolo impiegato che non mai stato reso noto alla comunit
del 2012, rappresentano grandi volumi di te correlato al tipo di segnale rilevato con la scientifica. Prima del 2013 e quindi della sua chiusura, Google flu
dati ad alta velocit, complessit e variabilit sorveglianza nazionale, ovvero dai medici trends veniva usato estensivamente in tanti paesi dove era assen-
che richiedono tecniche e tecnologie avan- sentinella che riportano settimanalmente il te un sistema esteso di medici sentinella e, al di l dei suoi limiti,
zate per la raccolta, limmagazzinamento, la numero di casi di inuenza diagnosticati tra rappresentava comunque uno strumento importante di sorve-
distribuzione, la gestione e lanalisi dellin- i loro pazienti. Quindi vero che il segnale di
glianza per sanit pubblica. Migliorandolo nella modellistica per
formazione. Ma in realt si pu parlare di Twitter rumoroso e non rappresentativo, ma
questi paesi potrebbe rappresentare comunque uno strumento
epidemiologia anche per gli small data. Non labbondanza dei dati tale per cui aggregan-
necessariamente tutti i dati che si raccolgono dolo a livello di paese la curva che si ottiene valido per lepidemiologia e integrare i dati ottenuti attraverso i
dal web, dai social media o dai cellulari devo- strettamente simile a quella ottenuta attraver- sistemi di sorveglianza.
no essere big. Possono essere small nel senso so la sorveglianza basata sui medici sentinella.
che sono sempre digitali ma le dimensioni E questo ci conforta perch nonostante tutti
del dataset non sono talmente grandi da ri- i problemi legati al tipo di dati il segnale che I picchi di influenza
chiedere software e tecnologie particolari per si ottiene comunque robusto e afdabile. La Previsioni della percentuale della popolazione statunitense
poter processare in modo efciente lenorme stessa cosa stata fatta anche per altri sistemi. con sindrome simil influenzale fatte utilizzando lalgoritmo
di Google flu trends, i dati dei Centers of disease control
ammontare di dati in tempi ragionevoli. E Ad esempio, lo stesso Brownstein aveva pub- della rete sentinella di medici e Flu Near You, la piattaforma
viceversa dati della genomica raccolti per vie blicato un articolo dove dimostrava che negli sviluppata da HealthMap insieme all'American Public Health
tradizionali possono rientrare nella categoria Usa il numero di click degli utenti di Wiki- Association in cui gli utenti inseriscono settimanalmente
i propri sintomi. Nel 2013 Google flu trends aveva
dei big data. Sarebbe quindi pi corretto rife- pedia su articoli il cui titolo conteneva parole sovrastimato il picco influenzale.
rirsi non alla dimensione del volume dei dati collegate ai sintomi inuenzali generava una
bens alla sorgente parlando quindi di dati incidenza fortemente correlata a quella rile- 12
digitali. vata con i dataset tradizionali dai Centers for
Questi dati vengono usati non solo per disease control.
contare quanti casi di una certa malattia ven- Google flu trends
% stimata della popolazione con sindrome simil influenzale
da p.9 mazioni epidemiologiche mol- Brownstein JS, Freifeld CC, Reis BY, Mandl KD. based participatory surveillance of infectious
to accurate. Con la disponibilit di dataset Surveillance sans frontieres: internet-based diseases: the Influenzanet participatory
amministrativi e di dati provenienti dal web emerging infectious disease intelligence and surveillance experience. Clinical Microbiology
e con lo sviluppo di sistemi innovati per il the HealthMap project. PLoS Med 2008;5:e151. and Infection 2014;20:17-21.
caricamento, lo storage e lanalisi di grandi Ginsberg J, Mohebbi MH, Patel RS, et al. Zhang Q, Gioannini C, Paolotti D, et al. Social
quantit di dati, buona parte dei quali Detecting influenza epidemics using search Data Mining and Seasonal Influenza Forecasts:
non strutturati, lepidemiologia si trova ad engine query data. Nature 2009;457:1012-4. The FluOutlook Platform. Computer Science
affrontare un cambiamento critico: riuscire Hay SI, George DB, Moyes CL, Brownstein 2015; 9286:237-40.
a integrare dati da sorgenti tradizionali JS. Big Data Opportunities for Global Cantarelli P, Debin M, Turbelin C, et al., The
e nuove, e garantire una comprensione Infectious Disease Surveillance. PLoS Med representativeness of a European multicenter
pi chiara e accurata del mondo. Come 2013;10:e1001413. network for influenza-like-illness participatory
hanno sottolineato Alessandro Vespignani Salath M, Bengtsson L, Bodnar TJ, et al. surveillance. BMC Public Health 2014;14:984.
e colleghi non dovremmo tanto parlare di Digital epidemiology. PLoS Comput Biol Lazer D, Kennedy R, King G, Vespignani A. Big
rivoluzione dei big data ma di rivoluzione 2012;8:e1002616. data. The parable of Google Flu: traps in big
di tutti i dati. F Paolotti D, Carnahan A, Colizza V, et al. Web- data analysis. Science 2014;343:1203-5.
Incidenza
7,0
0,0
-1,0
-2,0
47 48 49 50 51 52 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Settimana dellanno
dalla 47esima (novembre 2012) alla 17esima (maggio 2013)
I
n ambito epidemiologico generalmen- Disporre di una grande quantit di dati rent beneciary survey di 34.427 iscritti a
te per big data si intendono i dati sulla in poco tempo, anche se non accurati, un Medicare con 5355 diversi codici postale e li
salute della popolazione estrapolati dai valore aggiunto in diversi ambiti epidemio- abbiamo incrociati con i livelli medi annui
cosiddetti dati amministrativi, come ad logici, ad esempio per gli studi sugli effetti di pm 2,5 rilevati in ogni codice postale. Alla
esempio le ricevute rilasciate al paziente al negativi dellinquinamento atmosferico sulla Johns Hopkins Bloomberg school of public
momento di una visita medica, di un esame salute umana che, essendo effetti di piccole health, della University di Baltimora, stato
clinico o di un ricovero. Diversamente dalle dimensioni, richiedono ampi campioni per condotto uno studio sullassociazione cau-
informazioni registrate nella cartella clinica essere rilevati attraverso metodi statistici che sale tra malattie cardiache e respiratorie ed
del paziente, i dati amministrativi peccano tengano conto delle interazione dei vari fat- esposizione alle polveri sottili estrapolando
di scarsa accuratezza perch non danno delle tori. Sia negli Usa sia in Europa, si sta quindi dalla banca dati National claims history di
Francesca indicazioni diagnostiche precise, ragione per sperimentando la strada di incrociare i data- Medicare i dati di 11,5 milioni di iscritti a
Dominici cui spesso vengono criticati. Di contro per base amministrativi dellintera popolazione Medicare, con pi di 65 anni, che vivevano
PhD, Harvard hanno il vantaggio di coprire popolazioni di con le rilevazioni dei principali inquinanti in 204 contee urbane statunitensi.
T.H. Chan School grandi dimensioni difcilmente raggiungibi- presenti nellaria ottenute dalle stazioni di importante precisare che questi studi
of public health li con uno studio epidemiologico tradiziona- monitoraggio e dai satelliti. vengono effettuati sempre combinando i
le, disegnato in modo mirato per misurare Ad esempio alla Harvard T.H. Chan Scho- dati amministrativi con i dati epidemiologi-
una serie di fattori di rischio e di malattie su ol of public health abbiamo potuto vericare ci. Lanalisi dei dati non pu, infatti, ignora-
campioni di popolazione numericamente sui grandi numeri che la riduzione del par- re quanto gi conosciamo delle relazioni tra
molto inferiori. ticolato sottile al di sotto degli standard an- inquinanti e condizioni di salute e sui fattori
nuali per la qualit dellaria riduce i decessi di rischio. Essenzialmente il valore aggiunto
Il valore aggiunto dei big data di aumentare e le ospedalizzazioni per tutte le cause e per dei big data di aumentare linformazione
linformazione gi presente negli studi malattie respiratorie o circolatorie. Abbiamo gi presente negli studi epidemiologici tradi-
epidemiologici tradizionali. raccolto i dati registrati dalla Medicare cur- zionali. F
N
ellarticolo Finding the missing S, e la prima sda che ci si trova ad af- responsabilit sul paziente, dandogli il con-
link for biomedical data,1 da lei frontare usando bene i big data biomedici trollo sui propri dati. Ad ogni modo, come
preparato insieme a Kenneth D. quella di identicare le potenziali fonti di abbiamo osservato in passato a proposito di
Mandl e Isaac S. Kohane, scriveva informazioni riguardanti la salute e come dati molto meno privati, le persone sono por-
che i big data diventano un elemento determinare il valore che pu essere ottenu- tate a condividere in pubblico i propri dati
di cambiamento quando diversi dataset to collegando le une con le altre. Per esem- salvo lamentarsi successivamente quando
possono essere collegati a livello della pio, le cartelle cliniche elettroniche possono questi stessi dati sono utilizzati in un modo
singola persona. Qual la situazione scendere pi in profondit comprendendo inizialmente non previsto. Perci potrebbe
negli Stati Uniti, a questo riguardo? appunti, note cliniche e immagini diagnosti- essere lora di convocare un forum pubblico
Negli Stati Uniti la sanit molto fram- che raccolte nel corso del percorso di cura del Intervista a nel quale tutti i portatori dinteresse, compre-
mentata e vede i pazienti trattati in molti singolo paziente, mentre i dati amministra- Griffin M. Weber si i cittadini, la comunit che governa lassi-
ospedali e ambulatori diversi, con un passag- tivi possono svilupparsi longitudinalmente Department stenza sanitaria e chi commercializza il dato
gio frequente da unassicurazione a unaltra. con la sintesi delle codiche di fatturazione of Biomedical possano incontrarsi e denire le policy da cui
A causa delle preoccupazioni per la riserva- lungo un ampio periodo della storia sanitaria informatics la legislazione e le procedure tecniche per la
tezza, i dati sono deliberatamente mantenuti di un malato. Social media, documentazio- Harvard Medical protezione dei dati sanitari individuali possa-
isolati in ciascuno di questi grandi contenito- ne di acquisto con le carte di credito, record School, Boston, MA no svilupparsi.
ri e c una forte resistenza a creare un codice anagraci e molti altri tipi di dati, nonostante Department
di identicazione personale che possa avere siano caratterizzati da una qualit variabile, of Medicine, Quali sono i suoi principali progetti
valore nazionale. Tutto ci rende molto dif- possono contribuire a determinare una vi- Beth Israel Deaconess nellambito della social network
cile integrare tutte le informazioni che riguar- sione olistica del paziente e, in particolare, Medical Center, analysis?
dano una singola persona. a chiarire i fattori sociali e ambientali in gra- Boston, MA Uno degli altri ambiti di ricerca di mio in-
do di inuenzare la salute. Comunque, non teresse riguarda la modalit con cui gli scien-
Quali opportunit offrono i big data alla necessario collegare tutti questi tipi diversi ziati trovano collaboratori e formano gruppi
ricerca sanitaria? di dati. La chiave nel selezionare quelli che collaborativi. un problema importante per-
Lespressione big data pu avere diversi possono rivelarsi pi utili per rispondere al ch sappiamo che le grandi sde del XXI se-
signicati nellambito della ricerca sanitaria. quesito di ricerca. colo potranno essere vinte soltanto se esperti
Nuove tecnologie informatiche, come gli con diversi background uniranno le forze per
strumenti di interrogazione e ricerca allin- lavorare come gruppo. Uno dei prodotti della
terno di diversi centri ospedalieri, stanno La prima sda che ci si trova ad affrontare mia ricerca un sito di social networking per
garantendo ai ricercatori laccesso alle tradi- ricercatori chiamato Proles Research Net-
zionali informazioni sanitarie come quelle
usando bene i big data biomedici identicare working Software che utilizzato da dozzine
contenute nelle cartelle cliniche elettroniche le potenziali fonti di informazioni riguardanti di universit in tutto il mondo per aiutare a
o nelle richieste amministrative di risarci- la salute e come determinare il valore che pu trovare esperti in aree differenti. Questo sof-
mento di decine di milioni di pazienti. In essere ottenuto collegando le une con le altre. tware crea automaticamente dei proli di ri-
questo caso, laddove i big data si riferiscono cercatori collegando diverse fonti di dati, tipo
alla numerosit dei malati, i ricercatori pos- quelli che provengono dai sistemi di gestione
sono disporre di campioni sufcientemen- Come affrontare i problemi legati alla delle risorse umane interne alle universit,
te vasti per notare piccole variazioni nella riservatezza? letteratura tratta da PubMed e dati che deriva-
morbilit tra sottopopolazioni diverse per La preoccupazione per la privacy e la sicu- no da database di grant pubblici e di brevetti.
caratteristiche demograche o geograche, rezza una sda che si pone a livello sociale I ricercatori possono loggarsi per inserire con-
identicando effetti di geni o monitorando nel perseguire lobiettivo di collegare i diversi tenuti aggiuntivi o per controllare le imposta-
gli effetti indesiderati anche rari di alcuni dati biomedici: tanto pi si procede col col- zioni della privacy. F
medicinali. legare dati, tanto maggiori diventano le dif-
Ragionare sui big data biomedici pu an- colt di rendere anonimi i dati su cui si la-
che signicare guardare oltre il sistema sa- vora. Una risposta costruttiva potrebbe essere
nitario, individuando altre fonti di dati che nello stabilire delle norme che regolino ci Potrebbe essere lora di convocare un forum
possano essere collegate alla salute dei citta- che eticamente accettabile e ci che non lo pubblico nel quale tutti i portatori dinteresse
dini. Per esempio, i modelli di acquisto nei , per garantire che i beneci prevalgano sui
negozi di alimentari possono implementare rischi e coinvolgere il paziente nel processo
possano incontrarsi e denire le policy da cui
e migliorare dei pattern predittivi sulla preva- di decision making. In alternativa, lapproc- legislazione e procedure tecniche per la protezione
lenza di obesit e diabete di tipo 2; i dispo- cio potrebbe essere quello di spostare tutta la dei dati sanitari individuali possano svilupparsi.
sitivi wearable che tracciano lesercizio sico
possono fornire indicazioni sullazione dei
farmaci per la riduzione dei livelli di coleste-
rolo; la distanza tra labitazione del paziente
dallospedale o dalla farmacia pu inuenza-
re lutilizzo dei presidi di assistenza sanitaria
e anche il costo; e gli amici su Facebook dei
pazienti possono inuenzare le scelte sugli
stili di vita e laderenza alle terapie.
Predire il futuro
Gli algoritmi aiuteranno il medico. Cambieranno il suo modo
di lavorare. Soprattutto, i big data potranno rivelarsi
una buona notizia per i malati
Stiamo iniziando a intravedere questo problema viene gestito rilasciando qualcosa per cui questi algoritmi sono estre-
La grandezza risiede
nella partecipazione
La condivisione dei dati individuali sanitari pu
migliorare la salute della societ e anche della ricerca
N
avigando sul web assistiamo sempre usso. Luso e lelaborazione dei dati raccolti nit di una sanit guidata da nuove evidenze
pi spesso alla generazione di con- dal web spesso non avvengono alla luce del scientiche che possono scaturire dallanalisi
tenuti che sono perfettamente cuciti sole e linformazione generata non fruibile di una grande quantit di dati. Se da un lato
sulle nostre preferenze. La ricerca di dallutente iniziale, colui che di fatto ha gene- nessuno sembra porsi il problema di cedere
Google traccia i nostri percorsi per compren- rato questa immensa ricchezza. informazioni personali a piattaforme o di-
dere quali tipologie di pagine e documenti Ecco perch cos urgente una riessione spositivi elettronici, la scarsa comunicazione
apriamo pi di frequente. Ogni sito o piatta- sui big data in ambito sanitario. Se rispetto da parte delle istituzioni, le agende poco chia-
forma ci propone la pubblicit degli oggetti ad altri ambiti della scienza la medicina re e linsufciente trasparenza sul controllo e
che preferiamo. I social network che frequen- ancora un passo indietro nella condivisio- la propriet dei dati relativi alla salute, creano
tiamo tracciano intorno a noi una rete tridi- ne dei dati (si pensi ad esempio al progetto imbarazzo nel momento in cui viene richie-
mensionale, che evidenzia le nostre relazioni genoma o ai dati ottenuti dal telescopio spa- sta la loro condivisione a soggetti terzi.
e ci inserisce allinterno di categorie rilevabili ziale Hubble), occorre cogliere questo ritardo La discrepanza cui assistiamo non que-
allinterno di una popolazione1. La capacit come loccasione per superare le barriere che stione di ingenuit dei cittadini ma di impo-
predittiva o analitica di internet scaturisce uninformazione cos personale, come quella stazione della richiesta. Occorre pensare at-
dallenorme ammontare di dati che seminia- sulla salute, introduce e come lopportunit tentamente alla formulazione del consenso,
mo nel web, quando visitiamo i siti o espri- per costruire strutture e infrastrutture capaci perch il cittadino non abbia limpressione
miamo le nostre preferenze con un click del di garantire accesso e coinvolgimento tanto ai di perdere il controllo dei dati personali, una
mouse o lasciamo volontariamente i nostri pazienti quanto al personale sanitario. volta che si rivolto a un ente per un proble-
dati ai gestori di piattaforme. Ormai il web
permea ogni ambito della nostra esistenza e
quindi sono molteplici le occasioni di produ- Occorre sviluppare una cultura per cui la condivisione
zione ma soprattutto di raccolta di dati.
Anche la medicina non immune alla rac-
di un dato personale rappresenti un benecio per lintera comunit.
colta di informazioni sui pazienti. Anzi la cli- Harlan Krumholz
nica sembra avere gi a disposizione possibili
sistemi per la collezione di dati provenienti Laccesso ai dati implica partecipazione ma di salute. La mancanza di trasparenza in
dai pazienti, tra laltro senza dover spendere Viviamo in unepoca in cui sono attivi fase di condivisione o elaborazione del dato
cifre esose per ottenerli. Infatti sono i pazien- movimenti quali il crowdsourcing o la sorve- potrebbe destare sducia e sospetti nei con-
ti stessi a generare dati nella loro quotidia- glianza partecipativa, e dove il fatto di donare fronti delle istituzioni. Diverso il discorso
nit, ad esempio nel momento in cui usu- dati viene percepito come un impegno indi- per le piattaforme e i dispositivi elettronici,
fruiscono delle strutture sanitarie o quando viduale, addirittura attraverso la quantica- dove il cittadino acconsente a donare i pro-
sfruttano strumenti elettronici per monito- zione di parametri siologici tramite dispo- pri dati, nel momento in cui crea un proprio
rare i propri parametri o comportamenti, al sitivi elettronici. Questo fermento andrebbe account e sottoscrive termini e condizioni di
ne di migliorare la propria condizione di sfruttato per contribuire a una maggiore utilizzo4.
salute. Lintroduzione della cultura del dato conoscenza delle malattie, a una diagnosi Per superare la difdenza, occorre inco-
nella ricerca biomedica o nella pratica clini- sempre pi puntuale e a cure e trattamenti raggiare il coinvolgimento dei cittadini nel
ca produrr conoscenza sia per i medici sia pi personalizzati. La ricerca, lanalisi e la si- processo di produzione, di gestione e di frui-
per i pazienti, mentre a livello della ricerca stematizzazione delle informazioni generate zione dei dati. Dialogo e trasparenza sono gli
potrebbe dare impulso a commistioni di idee dalla popolazione sono una ricchezza per la elementi fondanti per recuperare la ducia,
e tecniche. societ tutta, ma sono anche facile preda di perch lassenza di dibattito elimina la possi-
Tuttavia lutilizzo di questi dati, nora mire commerciali. E le persone se ne stanno bilit di costruire una consapevolezza. Occor-
La ricerca dei trends
ancora poco sfruttati, non deve sfuggire a accorgendo. Lo dimostra liniziativa Care. re chiarire e rafforzare il concetto dei diritti
di Google, focalizzata
unattenta riessione. Secondo la Shared na- data3 condotta nel Regno Unito, che ha ri- legati alle proprie informazioni personali,
sugli ultimi cinque
tionwide interoperability roadmap, la condi- scosso scarso successo a causa del fatto che perch sia piena la comprensione dei rischi e anni, evidenzia che
visione dei dati dovrebbe aiutare a mettere il le persone non hanno condiviso lidea che dei beneci legati alla condivisione dei dati. cresce linteresse nei
paziente al centro di tutto il processo di cura2. le proprie informazioni sanitarie venissero Sono inoltre incoraggianti le storie di succes- confronti dei big data
Il confronto con levoluzione che il fenome- cedute alla ricerca e, soprattutto, ad aziende so, che aiutano a mettere in evidenza lutilit relativi alla salute,
no sta avendo sul web ci mette in guardia: il concentrate sul protto. della condivisione dei dati. Oltre al coinvol- mentre quello per gli
rischio di creare una grande mole di infor- Per non perdere laccesso ai dati relativi gimento, occorre assicurare sistemi capaci di open data mantiene
mazioni in continuo movimento, senza che alla salute, c un conitto che va risolto tra rafforzare la trasparenza nel processo di am- un andamento
le persone siano poste al centro di questo il diritto di preservare la privacy e lopportu- ministrazione del dato e di garan- a p.14 costante. Il tema
dellaccessibilit ai
dati dovrebbe essere
maggiormente
La passione per i big data dibattuto.
100
50
25
0
16 ott 2011 30 giu 2013 15 mar 2015 Media
da p.13 tire la gestione dei dati in modo di diffondere una cultura basata sul concetto dati provenienti da diverse fonti consente di
anonimo. Lintroduzione di consensi infor- di open science, chiedendo ai suoi autori di creare corrispondenze tra sintomi, malattie,
mati che mettano lutente nelle condizioni di condividere i dati generati dai trial clinici e diagnosi, trattamenti e prescrizioni, amplian-
scegliere i destinatari dei propri dati sarebbe di considerarlo come un dovere morale7. do la conoscenza e permettendo di produrre
di grande vantaggio. Cos come lintroduzio- Secondo Krumholz, tale richiesta potrebbe nuove evidenze10.
ne di meccanismi di notica in grado di in- inaugurare una tendenza culturale, capace Il fatto di rendere disponibili i dati la
formare lutente di possibili violazioni. perno di spingere i pazienti a una maggiore chiave per trovare relazioni tra fenomeni che
Altro elemento rassicurante potrebbe esse- partecipazione agli studi clinici. altrimenti difcilmente sarebbero identica-
re un sistema legislativo5 pi omogeneo, dato Tuttavia, afnch i big data possano ap- bili. Occorre dunque permettere lo scambio e
che le diverse scelte adottate da Stati Uniti e portare beneci reali alla clinica e alla so- in seguito larmonizzazione di tutti i dati le-
Europa sono disorientanti. ciet intera indispensabile modicare le gati alla salute, che risiedono in luoghi diversi
Occorre sviluppare una cultura per cui la impostazioni di ricerca. Il metodo scientico e che sono archiviati in differenti formati11.
condivisione di un dato personale rappresen- nora applicato in medicina prevede il pi Combinare set di dati che non sono basati su
ti un benecio per lintera comunit, ha af- delle volte di formulare unipotesi che deve modelli comuni, a volte generano duplicati o
fermato Harlan Krumholz in unintervista al essere in seguito vericata. Qui invece si trat- informazioni conittuali e in generale posso-
New England Journal of Medicine6. Nel proces- terebbe di partire dai dati raccolti dallosser- no introdurre problemi nella pratica.
so di condivisione ogni persona deve essere vazione dei pazienti, per poi formulare una La possibilit di accedere ai dati non
messa in grado di vedere il dato, comprender- spiegazione del fenomeno. Il ragionamento dunque sufciente per creare beneci. Biso-
lo ed eventualmente usarlo. deduttivo verrebbe quindi sostituito da quel- gna avanzare nella tecnica e nelle capacit
lo induttivo, unimpostazione che spaventa, analitiche e sviluppare nuove applicazioni.
La partecipazione declinata perch potrebbe introdurre risultati falsi po- Per maneggiare la variet e il volume di infor-
nel contesto della ricerca clinica sitivi. Per scongiurare tale possibilit occorre mazioni che caratterizzano i big data non si
sulla base di tale prospettiva che nel 2011 un robusto sistema di validazione dei dati, pu prescindere dalla collaborazione tra di-
Krumholz ha avviato il progetto Yale open soprattutto quando si vogliono ricreare delle verse gure professionali, provenienti sia dal
data access (Yoda) perch nel caso della ri- relazioni causali. Appellarsi ai principi della mondo del machine learning e del data mi-
cerca biomedica non mancano solo gli stan- open science e alla condivisione dei risultati ning sia dallambito tipicamente biomedico,
dard ma spesso anche le piattaforme capaci diventa quindi cruciale per validare i risultati che ha gli strumenti per interpretare e valutare
di garantire al contempo privacy, accessibili- tramite la replicazione, che non pu avvenire i risultati.
t, condivisione e riconoscimento degli au- Accanto alle competenze servono piatta-
tori della ricerca. Lo Yoda nasce proprio per forme che rendano questi dati facilmente
rispondere a questi bisogni, presentandosi condivisibili e maneggiabili. Le applicazioni
come un partner indipendente che fornisce per gestire i dati devono essere semplicate
supporto e assicura imparzialit e trasparen- afnch diventino accessibili a tutti8. LHit
za a chiunque voglia condividere i dati di strategic plan per il 20152020 rafforza il
trial clinici. I principi guida della piattaforma concetto dellaccessibilit ponendo lobietti-
sono il rispetto della privacy dei partecipan- vo di migliorare la salute del singolo indi-
ti coinvolti, mediante la sottoscrizione di un viduo e delle comunit attraverso luso delle
consenso informato. Chiara la dichiarazio- informazioni derivate dalla tecnologia, che
ne dei ni per cui i dati vengono raccolti: i devono essere accessibili se rilevanti per pi
progetti ammessi alla piattaforma Yoda per la persone12.
condivisione dei dati hanno solo ni scien- Qual dunque la possibilit del singolo
tici, volti a migliorare la salute pubblica e o delle comunit, anche non scientica, di
rifuggono qualsiasi utilizzo commerciale. Il interfacciarsi con i big data? In denitiva, os-
principio cardine la trasparenza che impone servati dalla prospettiva dei cittadini, essi po-
la tracciabilit delle decisioni e la condivisio- trebbero migliorare la comprensione di una
ne dei risultati. La trasparenza, infatti, ga- Bisogna superare la cultura per cui malattia, perfezionare le terapie per le patolo-
rantita proprio dallaccesso allelaborazione gie croniche oppure offrire tutti gli elementi
delle informazioni e dalla possibilit di con-
solo il produttore del dato in grado di capire per curarsi da casa. Allargando lo sguardo al
divisione. Bisogna superare la cultura per come usarlo e interpretarlo. sociale, sarebbero loccasione per sottolineare
cui solo il produttore del dato in grado di Harlan Krumholz le disuguaglianze o le necessit proprie di al-
capire come usarlo e interpretarlo, ha conti- cune aree. I cittadini e le comunit locali, se
nuato Krumholz. Per questo motivo neces- se i dati non sono aperti e se non c la possi- opportunamente istruiti, potrebbero trovare
sario accompagnare il dato con metadati che bilit di vericare la riproducibilit di quanto risposte per problemi locali e disegnare pos-
spieghino come un risultato stato ottenuto affermato dai risultati ottenuti in differenti sibili soluzioni4.
e come pu essere interpretato. condizioni e coinvolgendo diversi gruppi di Occorre creare delle metriche riportate
Yoda dunque il tentativo di proporre uno pazienti8. Oggi la maggior parte dei dati pro- pubblicamente per assicurare un facile accesso
standard accessibile a vari livelli, capace di as- dotti dai trial clinici non passa attraverso la re- ai dati per i pazienti che si rivolgono agli ospe-
sicurare linteroperabilit nella gestione delle visione della peer review. Per fare un esempio dali o ai sistemi sanitari. Oggi, a volte, non
banche dati. Ci si traduce nella realizzazio- che descrive il fenomeno, l88% degli autori sono nemmeno accessibili le note inserite
ne allinterno del progetto di una piattafor- di articoli comparsi su giornali nanziati dai nella cartella clinica, secondo quanto sostiene
ma utile allelaborazione dei dati e predispo- National institutes of health statunitensi non il movimento OpenNotes. C ancora molto
sta per una sicura condivisione dei risultati. deposita i propri dati allinterno degli apposi- da fare nella realizzazione di piattaforme che
Dobbiamo offrire una piattaforma afda- ti registri. Come conseguenza questa cultura promuovano la ricerca, laccesso, la possibilit
bile ed essere responsabili nella gestione dei scientica inefciente e irriproducibile. Se- di operare e inne il riuso dei dati13.
dati, per dimostrare a tutti che questa azione condo Eric L. Uhlmann e Raphael Silberzahn unopportunit unica per le persone sen-
volta a migliorare la societ, ha spiegato questo meccanismo oltre a rallentare il pro- za una preparazione medica il fatto di avere
Krumholz. Dunque la partecipazione signi- gresso scientico sta sprecando gli investi- dati di confronto con altre centinaia di malati
cativa anche a un altro livello, quello della menti pubblici e disonora chi contribuisce che hanno caratteristiche cliniche simili e che
gestione del dato e del coinvolgimento del alla ricerca9. hanno provato determinati trattamenti. Con
personale sanitario e dei medici. Senza contare che rilasciare i dati in for- queste informazioni possibile porre basi so-
Per procedere a pi larghi passi la ricerca ha mato aperto un benecio tanto per lambito lide per una discussione basata su evidenze
bisogno dei dati. Lo dimostrano le richieste clinico quanto per la ricerca, perch permette scientiche con i clinici14. Se le persone potes-
di dati avanzate nei confronti dellindustria di correlare tra loro informazioni differenti in sero esprimere la propria opinione su come
farmaceutica, che ha risposto in alcuni casi un sistema denito linked data, che pu inclu- i loro dati vengono utilizzati, per garantire
predisponendo programmi di condivisione dere anche elementi provenienti dal mondo migliore qualit, informazioni pi aggiornate
delle informazioni cliniche e sperimentali della biologia, delleconomia o dalle caratte- e pi complete, probabilmente si arriverebbe
raccolte. Questo tipo di impostazione raf- ristiche demograche o ambientali: un tale veramente ad aiutare tutti quegli individui
forzata dallInternational committee of medi- grado di complessit ci che contraddistin- che si trovano ad affrontare problemi simili.
cal journal editors (Icmje) che sta tentando gue i big data. La correlazione semantica di [Pagine a cura di Giulia Annovi]
semplicemente loggetto che ogni giorno era of knowledge. Dopo lesperienza nello uso a scopo di protto. Il tema della privacy
creiamo, portatore di una propria specica sta di Google, Koblin tra i maggiori esperti e dellannullamento della riservatezza
estetica: Per dare un senso al nuovo mondo in di data visualization. Con il progetto With.in memorabilmente toccato dal progetto
cui viviamo in tutta la sua velocit, diversit ha prodotto una sintesi tra realt virtuale e I know where your cat lives3. Un milione di
ed eccentricit per capire veramente lalta storytelling2: la mostra di Singapore mette di gatti stato geolocalizzato attraverso i tag
velocit di un medium nuovo e rapace, che ha fronte alla evidenza di unarte costantemente delle fotograe e dei video postati su web:
sia ricreato sia distrutto le forme tradizionali in divenire, alla transitoriet di qualsiasi opera insomma, i big data siamo noi e ci che
di espressione, abbiamo bisogno di rischiare che, informata da dati, si trasforma sotto abbiamo di pi caro F
il dolore e rottamare la vecchia estetica e gli occhi di chi guarda. Siamo dati sembra
prenderne in considerazione una nuova e la essere il messaggio in mostra, col signicato 1. Heffernan V. Magic and loss. 2. with.in/
moralit a lei propria1. ambiguo dellessere un dato e dellessersi The Internet as art. New York: 3. iknowwhereyourcatlives.com/
Aaron Koblin leroe del capitolo A new consegnati a chi, dei nostri dati, gi oggi fa un Simon and Shuster, 2016. about/
ROMA
2 6 G E N N A I O 2 0 17
C e n t r o c o n g r e s s i F o n t a n a d i Tr e v i
e confronto.
www.forward.recentiprogressi.it
Con il patrocinio del
(in richiesta)
Il Pensiero
Scientifico
Editore
PROGRAMMA
Saluti delle Autorit
Precision medicine
Giovanni Leonardi chairman | Francesco Perrone discussant
Roberto F. Labianca Vinay Prasad
Direttore del Cancer center Assistant professor of Medicine
ASST San Giovanni XXIII division of Hematology oncology
Bergamo in the Knight Cancer Institute
Department of Public health
and Preventive medicine
Senior Scholar in the Center
for Health care ethics
Oregon Health & Science University
Valore / Valori
Walter Ricciardi chairman | Francesco Forastiere discussant
Iona C. Heath Elena Granaglia
Past President, Royal College Professore ordinario di Economia,
of General practitioners etica e mercati
Chair, Scientic Committee Facolt di Giurisprudenza
The BMJ Universit degli studi Roma Tre
Empowerment / Engagement
Angelo Tanese chairman | Sandro Spinsanti discussant
Sally Crowe Mario Melazzini
Crowe associates Presidente
London Agenzia italiana del farmaco
Patient panel member,
The BMJ
Big data
Carlo Perucci chairman | Giuseppe Ippolito discussant
Ciro Cattuto Rodolfo Saracci
Scientic director Senior visiting scientist
Institute for scientic International agency
interchange Isi for research on cancer
p.7
Big data e innovazione farmaceutica
Il punto di vista regolatorio
Come cambia
la sorveglianza post-marketing
Grandi quantit di dati sanitari offrono nuove opportunit ma richiedono anche nuovi sforzi
da p. 21
Altri network internazionali sono stati cre- osservazionali, indipendentemente da quanti- I big data trasformeranno la medicina. I dati
ati negli ultimi anni per favorire studi post- t e qualit dei dati. in quanto tali per sono inutili. Afnch pos-
marketing su farmaci e vaccini tra cui Aritmo, Per concludere, citando un editoriale re- sano essere utili, bisogna analizzarli e inter-
Safeguards, Advance, Sos, Protect ed EURO- cente del New England Journal Medicine a r- pretarli correttamente e devono portare a del-
mediCat in Europa, Cnodes in Canada, Aspen ma di Ezekiel J. Emanuel e Ziad Obermeyer: le azioni12. F
in Asia e Australia, a dimostrazione di quanto
frequente sia la tendenza a livello globale a
creare infrastrutture di big data per il monito- 1. Martin-Sanchez F, Verspoor K. Big data in medicine is driving 8. Coloma PM, Schuemie MJ, Trifir G, et al. Combining
raggio post-marketing dei farmaci10. big changes. Yearb Med Inform 2014;9:14-20. electronic healthcare databases in Europe to allow for
Un ultimo cenno va fatto sullimpiego dei so- 2. Ross MK, Wei W, Ohno-Machado L. Big data and the large-scale drug safety monitoring: the EU-ADR Project.
cial media come possibile fonte dati per farma- Electronic Health Record. Yearb Med Inform 2014;9:97-104. Pharmacoepidemiol Drug Saf 2011;20:1-11.
co- e vaccino-vigilanza11. Sulla base di numerosi 3. Index for Excerpts from the American Recovery and 9. Avillach P, Coloma PM, Gini R, et al.; EU-ADR consortium.
studi pubblicati negli ultimi anni, analizzare Reinvestment Act of 2009. Health Information Technology Harmonization process for the identification of medical events
enormi quantit di dati sia di carattere generale (HITECH) Act 2009, pp. 112-64. in eight European healthcare databases: the experience from
sia di ambito sanitario estrapolabili dai social 4. Hripcsak G, Albers DJ. Next-generation phenotyping of the EU-ADR project. J Am Med Inform Assoc 2013; 20:184-92.
media sembra essere un approccio promettente electronic health records. J Am Med Inform Assoc 2013; 10.Trifir G, Coloma PM, Rijnbeek PR, et al. Combining multiple
per la valutazione post-marketing di farmaco- 20:117-21. healthcare databases for postmarketing drug and vaccine
vigilanza, sebbene accessibilit e accuratezza di 5. Wagholikar KB, Sundararajan V, Deshpande AW. Modeling safety surveillance: why and how? J Intern Med 2014;275:551-
tali dati richiedano ulteriori veriche. paradigms for medical diagnostic decision support: a survey 61.
In generale, la disponibilit di enormi and future directions. J Med Syst 2012;36:3029-49. 11.Sarker A, Ginn R, Nikfarjam A, et al. Utilizing social media
quantit di dati sanitari da fonti differenti 6. Sullivan P, Goldmann D. The promise of comparative data for pharmacovigilance: A review. J Biomed Inform
rappresenta unimportante opportunit nel effectiveness research. Jama 2011;305:400-1. 2015;54:202-12.
campo della farmacovigilanza, ma bisogna 7. Platt R, Wilson M, Chan KA, et al. The new Sentinel network: 12.Obermeyer Z, Emanuel EJ. Predicting the Future Big data,
valutare rigorosamente la qualit dei dati da improving the evidence of medical-product safety. N Engl J Machine Learning, and Clinical Medicine. N Engl J Med
analizzare, cos come i limiti inerenti agli studi Med 2009; 361:645-7. 2016;375:1216-9.
Tabella 1. Esempi di big data in Italia con relati ambiti di applicazione e indicatori di attivit.
Ambiti
di Indicatori
Progetti di
applicazione
attivit
Progetti Ambito Regioni Appropriatezza Aderenza Peformance Costi assistenziali Impatto dei Popolazioni Budget alle Integrazione
- ASL prescrittiva al trattamento Regioni Regioni nuovi farmaci target cure primarie reti cliniche
OsMed Aifa Nazionale
Matrice Agenas Multiregionale
Mes SantAnna di Pisa Multiregionale 14 Regioni
Core Cineca Multiregionale 9 Regioni
49 Asl
Acg Regione Veneto Veneto 21 Ulss
CReG Regione Lombardia Lombardia 10 Asl/Pot
19 Centri
Chronic care model
Toscana e Asl Arezzo
Area Vasta
pazienti in trattamento con statine ad alto evidenzia che il costo prevalente costituito sment (Hta). Nei paesi in cui le procedure di
dosaggio (solo il 42% dei pazienti risulta in dai ricoveri ospedalieri, seguiti dalla spesa Hta sono da tempo consolidate e vengono
trattamento con statine ad alto dosaggio), farmaceutica e dalla spesa per la specialistica assunte come base per decidere la eventua-
pazienti con pregresso evento cardiova- (gura 1). Senza i dati del burden of disea- le rimborsabilit, le valutazioni economiche
scolare, in trattamento con statine ad alto se e dei costi assistenziali integrati si nisce (incremental cost-effectiveness ratio e costo
dosaggio e non a target colesterolo Lld per valutare limpatto dei nuovi farmaci su nale per anni di vita pesati per la qualit)
> a 100 mg/dl 30% (far from goal): tale una singola variabile (spesa farmaceutica) e vengono effettuate da strutture terze rispet-
coorte rappresenta solo il 40% dellintera non sullintero processo assistenziale. Solo to allagenzia regolatoria. Ad esempio, nel
popolazione con un rischio di malattia car- in questo modo possibile valutare e docu- Regno Unito tali valutazioni non sono di
diovascolare molto alto. mentare nel tempo i cosiddetti costi evitabili competenza della Medicine and healthcare
Secondo questa metodologia possibile attraverso il monitoraggio che verichi negli regulatory agency ma piuttosto del National
individuare dallarchivio di BigData Ar-Co, il anni gli effetti compensativi reali derivanti institute for health and care excellence o di
numero di pazienti in Italia che presentano dai nuovi farmaci, per evitare di mettere a istituzioni accreditate e altamente qualicate
le condizioni di candidabilit al trattamen- bilancio risparmi presunti e virtuali. del National health service.
to con pcsk9: si tratta di una popolazione di In Italia tutte le funzioni (prezzo, rimbor-
47.424 pazienti con prevalenza epidemiolo- Conclusioni sabilit, Hta e farmacovigilanza) sono invece
gica pari a 0,047 x 1000 abitanti. La conclusione di questo articolo riporta concentrate in unico organismo, lAifa, per
ad una valutazione di carattere strutturale e cui si viene a creare un potenziale conitto
Costi assistenziali integrati di sistema che riguarda lesigenza di terzie- di interesse. auspicabile che questo aspetto
delle patologie t nella elaborazione e nellimpiego dei dati rilevante e strutturale venga risolto nellambi-
Unaltra criticit nellambito del processo di big data e pi in generale delle procedure to del riordino dellAifa pi volte annunciato
di rimborsabilit costituita dalla valutazio- di valutazione dellHealth technology asses- ma non ancora implementato. F
ne del burden of disease e dei costi assisten-
ziali integrati delle patologie, in modo da Figura 1. Costi assistenziali integrati (ricoveri, farmaceutica e specialistica).
stimare limpatto dei nuovi farmaci (budget
impact) nellambito delle patologie per le Spesa pro capite
quali sono indicati. Oggi il budget impact si ()
calcola sulla base di modelli teorici di popo-
lazione (Markov) e inferenziali la cui matri- 12.000
ce viene denita prevalentemente dalle in- Specialistica
dustrie farmaceutiche nellambito del global 10.000
Ricoveri
value dossier e dei paesi di riferimento, in
Farmaceutica
particolare negli Stati Uniti. In questo modo 8000
si producono stime che, anche se aggiusta-
te su parametri italiani (per esempio, i dia-
gnosis-related group), non sono facilmente 6000
trasferibili alla pratica clinica reale. Mentre
il budget impact dei nuovi farmaci, stimato 4000
sui dati reali dellintero processo assistenzia-
le e non solo della farmaceutica, pu e deve 2000
costituire un reale budget impact 2.0 nel real
world.
Lanalisi dei costi assistenziali integrati di
0
nove patologie (due acute e sette croniche), Scompenso SCA BPCO/asma Artrite Diabete Osteoporosi Ipertensione Dislipidemia
esaminate nellambito del BigData Ar-Co, cardiaco reumatoide
gni giorno creiamo 2,5 quintilioni di presentano, in altre parole, il database del pi organizzative basate su evidenze nate dalla
Sviluppo Simulazione del trial clinico Competitive insight La scienza, dunque, deve imparare un nuo-
Reclutamento dei pazienti Individuazione di bisogni insoddisfatti vo modo per stare al passo con se stessa e le
Disegno del trial Sviluppo dossier per la rimborsabilit aziende farmaceutiche non possono esimersi
Denizione delle priorit dal contribuire a creare un processo virtuoso.
Una delle pi grandi sde, infatti, proprio la
Market Negoziazione protocolli / formulari
capacit di gestire e integrare i dati in tutta la
access Pricing sulla base del valore
catena del valore del farmaco, dalla scoperta
Collaborazione con il payor
(ad esempio, selezione dei pazienti, aderenza) di nuove molecole al loro uso nel mondo rea-
le, dalla possibilit di comprendere meglio il 1. Milluzzi A. Big data,
Commerciale Informazioni sul consumatore (consumer data, social media) paziente al ritagliare le terapie sulla base delle Luciano Floridi: Ecco
Ottimizzazione multichannel sue esigenze e caratteristiche. perch laffare del
Strategie di eccellenza nel lancio terzo millennio.
Posizionamento del marchio Un momento di confronto e crescita Economy up 2016,
per pubblico e privato 28 aprile.
Medica Monitoraggio della sicurezza I big data e i real world data sono fonda- 2. Patto per la sanit
Educazione mirata al paziente mentali per passare dalla fase previsionale digitale. Documento
e al medico programmatico.
a quella di verica nella pratica clinica e per
implementare un processo di valutazione dei 3. Patarnello F, Recchia G,
Attivit Analisi delle qualit Ricciardi W, Favaretti
farmaci cos detto Hta 2.0. Vi unevidente
Programmazione/previsioni catena di approvvigionamento end-to-end C. Hta traslazionale
Esternalizzazione potenzialit nel realizzare un continuum del- cercasi. Il Sole 24 Ore
Strategie dei canali di distribuzione le evidenze necessarie per la registrazione, il Sanit 2011;
rimborso e la ricerca post-autorizzativa. In Anno XIV(13).
I
big data hanno assunto un ruolo sem-
pre pi centrale nella raccolta, ela-
borazione e interpretazione di dati. Eugenio Santoro
questultimo ambito, il cambiamento potrebbe consistere nellin- Partiamo da alcuni numeri: l80% dei Laboratorio di
tegrare differenti soggetti con un approccio pi ampio, nel quale dati generati quotidianamente non strut- Informatica medica
tutte le risorse (competenze, dati, nanziamenti) concorrono nel turato, cio non proviene da archivi e da- Irccs - Istituto
completare il prolo di evidenze delle nuove tecnologie e ridurne i tabase predeniti e codicati ma piuttosto di ricerche
rischi3. Il paradigma delle produzioni di informazioni sui farmaci dal web, dai blog, dai social network e dai farmacologiche
molto cambiato negli ultimi 10 anni: se prima lintero pacchetto forum. C addirittura chi sostiene che nel Mario Negri
informativo veniva prodotto dallazienda e valutato dal decisore, 2020 tale tipologia di dati rappresenter il
oggi ogni stakeholder promotore e produttore di dati ed evidenze. 100%. A ci occorre aggiungere il fatto che naturale e di proporre risposte basate sulle
I decisori e pagatori italiani trattano questi temi a livello interna- la diffusione di smartphone, wearable e, in evidenze scientiche), al ne di individuare
zionale anche se nella realt la loro applicazione ai ni decisionali generale, dellinternet of things sta producen- nuovi approcci sulle cause, sui trattamenti
(prezzo e rimborso, gestione del ciclo di vita del prodotto) com- do una quantit enorme di dati, anche in e sulla prevenzione delle malattie cardio-
plessa e poco regolamentata. Tuttavia la produzione di big data ambito sanitario. Si stima che ogni giorno, vascolari. E c gi chi, come il Memorial
potenzialmente positiva sotto molteplici aspetti e per diversi attori: sommando a questi dati quelli provenienti Sloan Kettering cancer center di New York,
stimola lappropriatezza duso dei farmaci e il governo della spe- dalle conversazioni su internet, si sori la ha integrato queste soluzioni allinterno del
sa; tutela tutti i portatori di interesse (agenzie regolatorie, pagatori, cifra di 2,5 miliardi di miliardi di byte. La percorso assistenziale dove Ibm Watson col-
pazienti, industria, clinici, accademia); alimenta la collaborazione crescita stata impetuosa soprattutto nel labora con i gli oncologi di questa struttura
tra istituzioni, industria, accademia, esperti e decisori; incoraggia la corso degli ultimi due anni, durante i quali per diagnosticare un tumore e identicare la
cooperazione pubblico-privato sulla generazione di evidenze e la stato generato il 90% dei dati disponibi- cura migliore.
diffusione di quanto gi stato raccolto; sostiene un processo dina- li oggi nel mondo. Addirittura si stima che Dal punto di vista della ricerca clinica,
mico di valutazione che include diversi portatori di conoscenze. Le ogni persona, attraverso le proprie appendi- limpiego dei big data potrebbe aggiunge-
aziende, dal canto loro, prevedono gi investimenti per i big data, ci elettroniche e le operazioni che compie re molto agli strumenti oggi impiegati. Per
nanziando studi pre- e post-registrativi, sostenendo il fondo per nella quotidianit, contribuisca a produrre esempio, potrebbero essere utilizzati per
la ricerca indipendente e i registri di monitoraggio Aifa, erogando al minuto 1,7 megabyte di dati. analizzare in modo integrato i dati genomi-
contributi per creazione e sostegno di grandi registri di patologia e Non c dubbio che siano necessarie tec- ci, medico-sanitari, nutrizionali ed econo-
alimentando in modo diretto e indiretto attivit di ricerca su data- niche di analisi in grado di interpretare que- mico-sociale, con lobiettivo di individuare
base amministrativi. sta grossa mole di dati, cos da poter attivare possibili cure per diverse patologie (questo
I
l termine big data diventato e temporale delluso di questi dati determi- gressivo decremento delle stime nel sud, per
di gran moda. Sulla base na una grande, ma non sempre attentamente giungere a straordinari valori inferiori al 4%
dellesperienza di chi ha visto considerata, eterogeneit della riproducibilit in Sicilia. Ricordo, oggi con un sorriso, le fan-
gi molto tempo fa nei dati e della validit dei dati che riguardano i ri- tasiose interpretazioni di questi risultati da
amministrativi la potenzialit di trarre coveri ospedalieri, non solo in Italia peraltro. parte di alcuni, anche illustri, non solo clinici
da questi nuova conoscenza, la nuova Quando il Programma nazionale esiti (Pne) ma anche epidemiologi: la dimostrazione del
attenzione al tema frutto di qualche ha iniziato la propria attivit, lestrema va- potente ruolo protettivo della dieta mediter-
novit particolare o siamo di fronte alla riabilit della qualit dei dati delle sdo ha ranea (ipotesi etiologica: fattore protettivo
riproposizione di qualcosa che ben si proposto una sda metodologica e operativa per letalit dopo ima). Oppure la clamoro-
conosce? molto impegnativa. Intervista a sa sconfessione dellopinione molto diffusa
Dati amministrativi? Non so cosa siano i Carlo Alberto della bassa qualit dellassistenza ospedaliera
dati amministrativi. Sistemi informativi con Alcuni esempi? Perucci nel meridione. I dati empirici mostravano
vari contenuti possono essere utilizzati per Negli anni Novanta in Italia non solo non chiaramente il ruolo protettivo della dieta
scopi diversi, anche di carattere amministra- era possibile ma non era nemmeno proget- gi direttore mediterranea e/o lottima efcacia del tratta-
del Programma
tivo, ma queste sono caratteristiche dellu- tata la interconnesione sistematica a livello mento degli episodi di ima negli ospedali del
nazionale esiti
tilizzazione, non dei dati per s. Tuttavia le nazionale tra le sdo e le schede di morte; sud. Ma il controllo dei dati sdo consent di
nalit per le quali viene disegnato e gestito solo alcune regioni avevano anticipato i tem- tener conto di unaltra ipotesi valutativa: per
un sistema informativo, e il contesto socia- pi con propri sistemi informativi ospedalie- fattori culturali e sociali in molte aree del me-
le, culturale e istituzionale determinano in ri e con i cosiddetti registri nominativi delle ridione le famiglie ritenevano, e in molti casi
modo rilevante la riproducibilit e la validit cause di morte, interconnetendoli. Quindi a oggi ancora ritengono, disonorevole la morte
dei dati. Ancor di pi: la variabilit tempo- livello nazionale era possibile stimare esclu- di un congiunto in ospedale. Quindi, anche
rale e geograca degli utilizzi di un sistema sivamente la mortalit intraospedaliera. Alli- per cinici fenomeni speculativi altres connes-
informativo si associano sempre a variabilit nizio del nuovo secolo le stime di mortalit si a organizzazioni maose, le persone dece-
della riproducibilit e della validit dei dati. intraospedaliera dopo un episodio di infarto dute in ospedale venivano dimesse come vive
Le cosiddette schede di dimissione ospeda- miocardico acuto (ima) davano valori relati- e contro il parere dei sanitari, e trasportate a
liera (sdo), oggi molto utilizzate per la re- vamente omogenei nel nord e centro Italia, casa dove veniva certicato il decesso. Linter-
munerazione prospettica delle prestazioni di attorno a circa il 10%, con un rapido pro- connessione tra sdo e registri di morte permi-
assistenza ospedaliera, erano certamente gi
presenti in Italia negli anni Settanta, prima
in modalit campionaria e poi sistematica,
ben prima che negli anni Novanta iniziasse
il loro uso a ni amministrativi. Ma la re-
munerazione dei soggetti erogatori di assi-
stenza ospedaliera stata introdotta in modo
eterogeneo nel tempo, tra diverse regioni, per
diverse tipologie di aziende, pubbliche e pri-
vate; ancor oggi molti ospedali, soprattutto
pubblici e nel meridione, non sono nanziati
sulla base del valore della loro produzione
che viene calcolato attenendosi alle sdo. Que-
sta forte eterogeneit geograca, istituzionale
se quindi di svelare il fenomeno e migliorare un contesto di misurazione per intensit as- stime di esito aggiustate che tenessero con-
la validit delle stime della mortalit intrao- sistenziale, vengono registrate e codicate su to dei fattori confondenti di ciascun indica-
spedaliera dopo infarto che nel sud risultava sdo solo nei casi di minore gravit. tore. Sulle prime parve straordinario come i
in media simile a quella del centro e del nord. consulenti avessero (nalmente) colto lidea
Ma questo problema di validit dei dati, non Nulla di nuovo, dunque del confondimento nei confronti concetto
uno dei soliti difetti italiani: credo che anco- Certamente oggi si presentano maggiori spesso assai ostico da capire negli ambienti
ra oggi lOrganizzazione per la cooperazione opportunit per disponibilit di tecnologie professionali sanitari, per non dire in quel-
e lo sviluppo economico (Ocse) stimi la mor- informatiche, sia hard sia soft, che consen- li politici. Ma fu difcile spiegare come non
talit intraospedaliera post-infarto per tutti i tono in tempi brevi il trattamento di grandi fosse possibile produrre procedure di risk
paesi europei, poich in alcuni non sarebbe volumi di dati e lo sviluppo di metodi stati- adjustment standard, ma fosse necessario
possibile linterconnessione sistematica tra stici avanzati che ne possono permettere ana- sviluppare modelli di risk adjustment speci-
sistemi informativi ospedalieri e i registri di lisi molto potenti. Tuttavia, questa grande ci di ciascun confronto, di ciascun periodo
morte. Gli stili di cura inpatient e outpatient disponibilit di dati e tecniche di analisi au- temporale, valutandone la validit e le poten-
sono eterogenei nel tempo e da un paese a un menta i problemi di riproducibilit e di vali- ziali distorsioni legate, soprattutto, alla etero-
altro, e il confronto della mortalit intraospe- dit non solo dei dati ma, soprattutto, delle geneit temporale e geograca della validit
daliera affetto da forti distorsioni; tuttavia stime e delle loro interpretazioni. dei dati (big) utilizzati, e agli effetti sulla pre-
molti esperti e molti politici usano talora in Probabilmente torna il grande dilemma cisione delle stime aggiustate.
modo acritico le stime dellOcse senza tener metodologico tra approcci induttivi e meto- A proposito di dati aggiustati, mi si per-
conto di questi rilevanti limiti di validit. di ipotetico-deduttivi. Personalmente ritengo metta un episodio. A una Commissione del
Ancor oggi unanalisi esplorativa, cos importante formulare ipotesi, etiologiche e Senato, tra pochi senatori, alcuni annoiati,
cara a certi maneggioni di big data, consenti- valutative, basate sulle conoscenze disponi- altri interessati, vi una rapida presentazio-
rebbe di osservare alcuni singolari fenomeni. bili, da sottoporre a processi di falsicazione ne di Pne; con diapositive sintetiche che ri-
Ad esempio, negli ospedali italiani, iperten- utilizzando metodologie rigorose e traspa- portano stime comparative tra ospedali, si
sione, diabete, broncopneumopatia cronica renti. Attenzione, basarsi sulle conoscenze sottolinea che i risultati sono aggiustati. Una
ostruttiva e altre patologie croniche sembra- disponibili non signica assolutamente con- senatrice, furibonda, chiede la parola: Come
no essere fattori protettivi nella mortalit a 30 siderare solo ipotesi plausibili, semmai avere vi permettete di presentare al Senato delle
giorni dopo ima, ancor pi protettivo sembre- il coraggio di sottoporre a valutazione anche Repubblica dati aggiustati!. Molti altri aned-
rebbe il fumo di tabacco. Artefatti In realt o soprattutto ipotesi altamente improbabi- doti potrebbero essere raccontati sulla grande
questi risultati dipendono esclusivamente da li, contrarie al senso comune dominante e difcolt, da parte dei politici e soprattutto
un noto fenomeno di codica competitiva, sgradite alla politica e cultura del momento. dei giornalisti, a interpretare correttamente
quando patologie croniche, meno rilevanti in Tanto pi sar big la quantit dei dati dispo- gli errori casuali, le magiche p e gli effetti
del caso.
Emergono atteggiamenti culturali e politi-
ci talora contrastanti: sottovalutazione degli
Laumento delle conoscenze disponibili, anche attraverso aspetti di metodo; riuto di considerare errori
casuali e sistematici o, viceversa, enfatizzazio-
i big data, non destinato a ridurre lincertezza, semmai a renderci ne opportunistica di errori; sopravalutazione
maggiormente consapevoli di tutto quello che non conosciamo. degli aspetti informatici e gestionali dei dati.
In generale si riproduce il noto paradosso nei
sistemi sanitari: quando mancano informa-
nibili, tanto maggiori saranno i problemi zioni per decidere, i decisori sostengono di
metodologici nella loro produzione, analisi e essere costretti a decidere in assenza di infor-
utilizzazione, e tanto maggiori dovranno es- mazioni utili; quando invece le informazioni
sere il rigore nella formulazione a priori delle sono disponibili, e talora abbastanza forti,
ipotesi e la trasparenza nella discussione e i decisori preferiscono non considerarle nem-
interpretazione delle informazioni derivate, meno, per potere decidere come vogliono.
dei loro limiti, dei potenziali errori casuali e Quindi istituzioni, politici e decisori sono
sistematici. pronti, a parole, a creare e nanziare grandi
Nessun disegno di studio, su nessuna sistemi informativi, basi di dati sempre pi
ipotesi etiologica o valutativa, privo di er- grandi, infrastrutture informatiche costosissi-
rori sistematici e casuali. I risultati di gran- me e faraoniche, salvo poi non sapere o vole-
di trial clinici randomizzati (rct) sono affet- re utilizzare le evidenze prodotte dalla loro
ti da distorsioni (soprattutto, ma non solo, utilizzazione e analisi, soprattutto quando
per selezione e modicazione delle misure limitano i gradi di libert delle decisioni. Di
di effetto), come lo sono quelli dei grandi questo processo sono spesso complici esper-
studi osservazionali (soprattutto per confon- ti, anche epidemiologi, pronti a produrre
dimento). Forse, tuttavia, qualcuno pensa, risultati, analisi, informazioni funzionali, a
per esempio nel campo della valutazione di giusticare decisioni (politiche) gi prese. E
efcacia dei trattamenti sanitari, di superare guai a quelli che formulano ipotesi e produ-
il rigore (apparente) metodologico dei trial, cono conoscenze considerate contrarie, non
per affermare una pratica corrente di studi compatibili, comunque fastidiose, critiche
osservazionali usando soprattutto big data, con gli orientamenti decisionali dei potenti
molto quick and dirty, perch ritenuti pi di turno.
manipolabili e adattabili a speciche nalit Laumento delle conoscenze disponibi-
commerciali. La risposta tuttavia non la di- li, anche attraverso luso di big data, non
fesa a oltranza degli studi sperimentali e del destinato a ridurre lincertezza, semmai a
loro (apparente) rigore ma laffermazione, renderci maggiormente consapevoli di tutto
negli studi osservazionali che usano big data, quello che non conosciamo. In altre parole
di metodi scientici rigorosi, altrettanto o pi la produzione di enormi volumi di dati e di
complessi e costosi di quelli degli rct. informazioni non semplica gli scenari deci-
Anni fa, nella fase sperimentale di Pne, gli sionali, anzi costringe i decisori ad aver a che
esperti di una grande societ di consulenza, fare con livelli pi complessi di incertezza e a
che fornisce al Ministero della salute servizi essere esposti a maggiori e pi documentate
di sistemi informativi, chiesero di produrre e critiche.
fornire per ciascun indicatore di esito model- Mi permetto di dire che il problema non
li di risk adjustment e di controllo del con- quanto big siano i dati, ma quanto sono gran-
fondimento da inserire nella base di dati del di, forti e oneste lautonomia, lindipendenza
Nuovo sistema informativo sanitario (Nsis), e lintegrit di coloro che li progettano, gesti-
in modo da produrre automaticamente scono, analizzano e interpretano. a p.28
da p.27
Con i big data si fa spesso riferimento tivi interconnessi del Servizio sanitario nazionale poter continuare a decidere arbitrariamente
(anche) a flussi di dati non strutturati di cui al presente comma in modalit anonima. senza spiegare le ragioni delle decisioni e sen-
generati dai social. I limiti legati alla Pi chiaro di cos il legislatore non po- za dover rispondere dei loro effetti?
qualit del dato, alla definizione teva essere. Ma lattuazione di questa legge, Ovvero, anche nel Ssn la burocrazia il
di protocolli affidabili rispetto a avanzatissima per quei tempi e certamente male oscuro di questo paese, oppure una
quesiti clinici precisi, alla difficolt nel senso della creazione di big data per la certa politica che usa la burocrazia per non
di gestire la privacy sono simili a valutazione e il governo del Ssn, avrebbe poi dover rispondere delle proprie scelte?
quanto gi presente negli attuali flussi comportato: la acquisizione dei pareri della
amministrativi? cabina di regia del Nisis, della Conferenza La velocit di produzione e messa a
Personalmente riuto la denizione di permanente per i rapporti tra lo Stato, le re- disposizione dei nuovi big data sembra
ussi amministrativi: non ho nessun pre- gioni e le province autonome, e dellAutorit un vantaggio rispetto ai dati generati
giudizio nelluso di questi dati, a condizione garante della privacy, del Consiglio di stato; dalle rilevazioni fatte fino ad oggi con
che siano utilizzati, analizzati e interpretati te- poi il nulla osta della Presidenza del Consi- i sistemi correnti. Si tratta di un vero
nendo conto, con metodi rigorosi, delle loro glio dei ministri, il visto del Ministro guarda- avanzamento? E riguardo alla variet e
caratteristiche di riproducibilit e validit. sigilli, la registrazione della Corte dei conti, al volume?
In quanto alla questione della cosiddetta inne la pubblicazione sulla Gazzetta ufciale Credo di aver risposto a questa domanda.
privacy, mi si consenta una premessa. Non e lattuazione da parte delle regioni, prevista Grandi ed efcienti basi di dati di buona qua-
solo in Italia certo, ma soprattutto nella de- allora per linizio del 2015. Il 2015 passato, lit sarebbero molto utili alla ricerca etiolo-
gradata e arretrata condizione delle nostre il 2016 sta nendo e i decreti sulla intercon- gica e valutativa e consentirebbero di fornire
burocrazie, nella sua attuale modalit di fun- nessione e quello sulle sdo non sono ancora importanti e tempestive informazioni per le
zionamento, la cosiddetta Autorit garante pubblicati sulla Gazzetta ufciale decisioni di gestione e di governo dei siste-
della privacy potrebbe essere da alcuni con- Anni e anni per realizzare una riorganiz- mi sanitari. Ben vengano quindi big, anche
siderata, alla stregua del fumo di tabacco, zazione dei sistemi informativi che, in altri very, extremely big data, a condizione tuttavia
dellinquinamento ambientale e di alcune paesi e in altre culture, avrebbe richiesto solo che siano utilizzati con trasparenza e rigore
epidemie di malattie trasmissibili, uno dei pochi atti amministrativi. In questo ritardo metodologico, con la consapevolezza che la
principali fattori di rischio per la salute del- spaventoso ha giocato un inammissibile ruo- moltiplicazione delle fonti, della quantit e
la popolazione con un potente fenomeno di lo ostativo, dilatorio lAutorit garante della tipologia dei dati e dei loro trattamenti mol-
modicazione/moltiplicazione di effetto con privacy con continui rinvii e obiezioni, sem- tiplica le fonti di errore. Ancora una volta,
le altre burocrazie. Ce ne sarebbero molti di pre alla scadenza dei termini, in un tiramolla guardando una fotograa bene ricordare
buoni motivi. Un esempio: attorno al 2010, paralizzante e defatigante. che le caratteristiche della macchina fotogra-
anche sulla base delle proposte di Agenas, ca sono altrettanto importanti della (teori-
allora diretta da un innovatore intelligente Quali potrebbero essere le ragioni ca) realt che il fotografo intende riprendere.
come Fulvio Moirano, il Ministero della salu- di questo ritardo? Ogni misura un esercizio di errore, ma nulla
te, un po controvoglia in alcune sue burocra- A taluni venuto il sospetto che in que- possiamo conoscere di quello che non misu-
zie, diede nuova spinta a un processo di revi- sto incredibile ritardo abbiano giocato fatto- riamo.
sione dei contenuti informativi delle sdo e a ri non dichiarati, come i contrasti tra gestori In quanto alla velocit mi pongo una do-
un progetto di integrazione delle basi di dati commerciali dei sistemi informativi in diversi manda: come possibile pensare a velocissi-
del Sistema sanitario nazionale (Ssn), peral- ministeri o lostilit di qualche settore profes- mi big data quando per ottenere una sempli-
tro gi avviato allinizio degli anni Duemila sionale. Ad esempio la nuova sdo dovrebbe ce modica dei contenuti informativi della
con il cosiddetto progetto Mattoni, con una contenere lidenticazione dei chirurghi per sdo ci sono voluti cinque anni? Avremmo gi
esplicita interconnessione tra i diversi cosid- ciascuna procedura chirurgica, informazione disponibili grandi e relativamente veloci si-
detti ussi informativi correnti. Era un obiet- che consentirebbe di stimare il volume di at- stemi informativi che, se interconnessi, costi-
tivo ambizioso linterconnessione a livello tivit dei professionisti e di valutarne gli effet- tuirebbero una base di dati grande e potente,
nazionale delle informazioni individuali tra ti sugli esiti, ma anche di controllare possibili ma le burocrazie che paralizzano il paese ne
sdo, farmaceutica, specialistica, emergenza, distorsioni nello svolgimento delle attivit impediscono la realizzazione e luso.
pronto soccorso, riabilitazione e tutti gli al- professionali. Magari, ad esempio, si potreb- Siamo veramente convinti che la politica,
tri sistemi informativi su base individuale del be anche scoprire che alcuni illustri cattedra- nelle sue diverse articolazioni, voglia vera-
Ssn con lanagrafe tributaria, allora, e ancor tici o alcune scuole di specializzazione non mente i big data che, se utilizzati con meto-
oggi, unica anagrafe di popolazione attiva a hanno sufcienti volumi di attivit. di scientici rigorosi e in modo trasparente,
livello nazionale. Questa importante azione Di fatto le burocrazie hanno no ad oggi potrebbero produrre informazioni capaci di
di riorganizzazione del sistema informativo bloccato questi importanti cambiamenti nel- condizionare e criticare le scelte politiche, li-
del Ssn viene esplicitamente sancita per ini- le informazioni disponibili per il Ssn, impe- mitandone comunque i gradi di libert, lar-
ziativa di Renato Balduzzi, divenuto Ministro dendo tante possibili analisi etiologiche e bitrio e, soprattutto, costringendo tutti a ren-
della salute e grande sostenitore dei sistemi valutative importanti per la tutela della salute dere esplicita lincertezza e a rendere ragione
di valutazione, e con il contributo decisivo della popolazione. Quanti studi su fattori di delle proprie scelte?
di alcuni senatori, tra i quali mi piace ricor- rischio ambientale e occupazionale sarebbe-
dare Lionello Cosentino, dalla Legge nume- ro stati possibili se i dati interconnessi del Ssn
ro 135, del 7 agosto 2012. Stiamo parlando fossero stati tempestivamente resi disponibi-
delle cosidetta spending review del governo li alla agenzie competenti e alle strutture di
Ogni misura un esercizio di errore,
Monti che allarticolo 15 comma 25 bis, cos ricerca qualicate? Quanti farmaci avrebbe- ma nulla possiamo conoscere di quello
recita: Ai ni della attivazione dei programmi ro avuto una pi rapida e valida valutazione che non misuriamo.
nazionali di valutazione sullapplicazione del- comparativa di efcacia (o di inefcacia)?
le norme di cui al presente articolo, il Ministero Quanta inappropriatezza in strutture e servizi
della salute provvede alla modica e integrazione sanitari avrebbe potuto essere meglio identi-
di tutti i sistemi informativi del Servizio sanitario cata? Quante tecnologie sanitarie avrebbero
nazionale, anche quando gestiti da diverse am- potuto essere meglio valutate? Quanta della
ministrazioni dello Stato, e alla interconnessione tanto osannata eccellenza avrebbe potuto
a livello nazionale di tutti i ussi informativi su essere validamente certicata, consentendo
base individuale. Il complesso delle informazioni ai cittadini scelte pi informate nei luoghi di
e dei dati individuali cos ottenuti reso disponi- cura?
bile per le attivit di valutazione esclusivamente Viene spontanea una domanda: sono corpi
in forma anonima ai sensi dellarticolo 35 del e settori burocratici arretrati e conservatori a
decreto legislativo 23 giugno 2011, n.118. Il Mi- ostacolare lo sviluppo di una pi valida base
nistero della salute si avvale dellAgenas per lo informativa sulla quale fondare valide ana-
svolgimento delle funzioni di valutazione degli lisi etiologiche o valutative nel Ssn? Oppure
esiti delle prestazioni assistenziali e delle proce- esiste una diffusa, nemmeno tanto nascosta,
dure medico-chirurgiche nellambito del Servizio volont politica che non vuole informazioni
sanitario nazionale. A tal ne, Agenas accede, in valide e tempestive sulla salute della popo-
tutte le fasi della loro gestione, ai sistemi informa- lazione e sullefcacia dei servizi sanitari per
innegabile che luso dei big data offra tavano Topol e colleghi, quasi un utente su dei big data in sanit e, ancora meno, il 9%
Intrusioni pericolose
Gli interessi che ruotano intorno alle in-
formazioni medico-sanitarie sono enormi.
Lo studio Privacy and security in the era of 7. Il partecipante
Reclama che sono state rilasciate
digital health: what should translational re- delle informazioni sensibili in modo
searchers know and do about it? pubblica- non aderente al consenso informato.
to nel marzo del 2016 a rma fra gli altri
di Eric Topol (autore nel 2012 del best seller
The creative destruction of Medicine) esa- 3. Lallegato infetto aperto
mina molto bene i due principali problemi
2. Il ricercatore Fa s che il maleware infetti
lapplicazione e il sistema che
Apre lemail e lallegato
dellattacker e risponde gestiscono i dati dello studio.
posti dallutilizzo dei big data in sanit dal al mittente.
punto di vista della privacy: lhacking da un
lato e le frodi dallaltro. Nel 2015 lhacking
stata la prima causa di violazioni negli Stati
Uniti e nel 2014 lhealthcare stato il settore 1. Lattacker 5. Cloud provider dello studio
che ha visto il maggior aumento di attacchi, Cerca su Google il sito
Tiene traccia delle operazioni
per il reclutamento dei pazienti
e solo dal 2013 al 2014 lambito sanitario ha dello studio. Manda via email eseguite sui dati del sistema
al team di ricercatori di gestione dei dati dello studio.
visto un incremento del 21,7% dei furti di delle domande sul consenso
identit. Le conseguenze economiche di tut- informato con un allegato
infetto.
to questo non sono affatto secondarie, dal 4. Lattacker
momento che nel 2015 il danno economico Con un accesso
segreto installato
stato maggiore del 125% rispetto a cinque dal malware (backdoor)
ruba informazioni
anni prima. Sempre pi frequenti anche le sensibili allinsaputa
frodi, come i furti di identit per ottenere del team di ricerca.
da p.29
Flussi di dati fuori controllo sono conservati sicamente i miei dati? Chi prodotto; e, inne, denire luso corretto e
necessario, tuttavia, fare delle distinzioni pu accedervi? E in caso di controversia, quello scorretto dellinformazione dal punto
fra quelli che sono i problemi di privacy dei dovuta per esempio a un furto, sotto quale di vista della riservatezza.
sistemi di e-health realizzati dalle strutture giurisdizione ci troviamo? Viviamo inoltre in Il mondo del mercato privato, senza rego-
sanitarie, come il gi citato fascicolo sanita- un profondo paradosso, quello secondo cui lamentazioni ferree in merito alla privacy, ci
rio elettronico, la cartella clinica elettronica, punibile il produttore di una app che di- espone dunque potenzialmente a molte pi
la ricetta elettronica, la tessera sanitaria e via chiara di utilizzare i dati sanitari dei cittadini vulnerabilit rispetto a quello dei sistemi sa-
dicendo, e i ussi di dati personali che co- in un certo modo e poi non lo fa, ma non nitari, ma i due ambiti sono destinati a in-
stantemente i privati cittadini regalano alle colui che non dichiara anticipatamente nulla tersecarsi. Cosa accade per esempio quando
diverse compagnie (per la maggior parte pri- a proposito del possibile utilizzo dei dati che sono i medici stessi a utilizzare una app qual-
vate) tramite le app presenti su smartphone e raccoglie. siasi per gestire i nostri dati sanitari?
tablet, o durante lutilizzo di software online
e social media. Questo ultimo canale oggi Un cambio di paradigma
estremamente vulnerabile, eterogeneo, privo Le politiche sulla privacy dei venditori In questo scenario cos estremamente ca-
di regole e quindi di unadeguata vigilanza. non possono essere considerate accessibili otico, necessario quindi chiosa lEnisa
In soldoni, sebbene i servizi come il fasci- e trasparenti se le persone non sono in grado un cambiamento di paradigma, non pi
colo sanitario elettronico non possano dirsi di valutarle e interpretarle correttamente. basato sulla dicotomia big data versus pri-
immuni da pericoli, come hackeraggi e frodi, vacy, bens sul binomio big data with pri-
essi sono comunque imbrigliati allinterno di Health insurance portability vacy. Slogan a parte, il concetto quello di
una tta rete di regole a maglie pi o meno and accountability act integrare le politiche per garantire la sicurez-
strette a seconda del paese che codicano in za del trattamento dei dati sanitari a qual-
maniera chiara diritti e doveri dei titolari del La logica attuale la seguente: deve essere siasi livello nelle modalit in cui pensiamo
trattamento dei nostri dati sanitari. Vengono cura del cittadino, del paziente, dellutente alluso dei big data, per uscire nalmente da
ssate, per esempio, delle misure minime per informarsi: una volta che accetta di utilizzare questo scenario in cui a fare la differenza
la protezione del titolare dei dati, dei criteri una app se ne assume tutta la responsabili- per un cittadino informato sui destinatari
di cifratura, la tracciabilit delle operazioni t. Alla ne a fare la differenza il grado di dei dati sanitari che sta per condividere sia
effettuate e dei criteri per garantire che chi interesse del singolo a informarsi, e non si solamente il suo grado di interesse su queste
sottoscrive un contratto per la condivisione tratta di uneccezione ma, a quanto pare, del- questioni e la voglia di leggere le informati-
dei propri dati online lo possa fare in manie- la regola. Unottima sintesi su questo stata ve punto per punto chiedendo spiegazioni
ra libera, specica e informata. recentemente pubblicata dal Department of dove qualcosa non chiaro.
Tutto questo non deve essere per legge in health and human services americano dal Il punto che non facile decidere come
alcun modo garantito invece dai produttori titolo Examining oversight of the privacy & legiferare. Su questo aspetto si espresso nel
privati di app e software, con il risultato che security of health data collected by entities maggio 2014 anche lUfcio del Presidente
molto spesso lutente non sa esattamente not regulated by Hipaa. Secondo gli esperti degli Stati Uniti per la scienza e la tecnolo-
che cosa sta scaricando sul suo smartpho- oggi la maggior parte delle entit che colle- gia, proponendo in un documento dal ti-
ne, e dove e in che modo sono trattati i suoi zionano dati negli Stati Uniti (qui non si fa tolo Big data and privacy: a technological
dati sanitari. Claire Porter sulle pagine de riferimento solamente alle app) non rego- perspective alcune raccomandazioni per
The Guardian, in un articolo intitolato Little lata dallHipaa (Health insurance potability la creazione di nuovi regolamenti. Lidea
privacy in the age of big data, pone la que- and accountability act), che dal 1996 rego- quella di non concepire la lotta per la tutela
stione in questi termini: Is volunteering our lamenta la privacy dei dati e le disposizioni della privacy come se quella fra Achille e la
personal data simply the price we pay for free di sicurezza per la tutela delle informazioni tartaruga fosse una mera sda tecnologica:
services? (questa condivisione volontaria dei sanitarie. E non solo: i cittadini americani sa- la cartina di tornasole rimangono le effettive
nostri dati personali forse semplicemente il rebbero oggi troppo poco e male informati applicazioni pratiche di queste tecnologie, il
prezzo che paghiamo per avere servizi gratu- sulle sorti dei propri dati sensibili che raccol- loro uso. Privacy chiosano gli esperti non
iti?). La questione estremamente delicata gono tramite le entit che utilizzano, come le signica solo anonimizzare, n mantenere
perch ci coinvolge molto pi da vicino di app, e non sempre essi hanno facile accesso un segreto. La via indicata dalla Casa Bian-
quanto pensiamo. La maggior parte delle app ai propri stessi dati. ca quindi quella di concentrare la ricerca
che noi tutti scarichiamo quotidianamente Sono cinque in particolare le differenze e i relativi nanziamenti su tecnologie che
non ha dovuto soddisfare alcun criterio di che intercorrono fra unentit coperta da Hi- diano segnali tangibili di aiutare a protegge-
valutazione n sostenere alcun esame che ne paa e una che non lo (in termini tecnici, re la privacy allinterno dei meccanismi so-
provasse leffettiva validit e, soprattutto, non non covered entity): garantire laccesso ai pro- ciali che inuenzano i comportamenti e la
soggetta ad alcuna regola che la obblighi a pri dati come un diritto; regolamentare il riu- vita privata delle persone. Per questo serve
garantire la nostra privacy o a fornire infor- so dei dati da parte di terze parti; garantire puntare su unadeguata formazione dei citta-
mazioni precise sul prodotto che stiamo ac- misure standard di sicurezza; utilizzare una dini e assumere la prospettiva di una ricerca
quistando. terminologia chiara sulle questioni di priva- sociale. I big data sono anzitutto una scienza
Vi poi il problema geograco, non se- cy allinterno delle informative che gli uten- sociale.
condario in termini legislativi: dove e come ti devono sottoscrivere prima di scaricare il [Pagine a cura di Cristina Da Rold]
1. 2. 3. 4. 5.
Lattenzione Le politiche e le Con il coordinamento e il sostegno LOspt della Casa Gli Stati Uniti
della politica regolamentazioni dellOce of science and technology Bianca insieme dovrebbero fare
dovrebbe ad ogni livello policy (Ospt) della Casa Bianca, alle istituzioni da guida sia in
essere focalizzata governativo non le agenzie del Networking and information dellistruzione e societ campo internazionale
pi sulluso dei big dovrebbero includere technology research and development professionali idonee dovrebbe sia nazionale adottando
data e meno sulla particolari soluzioni program dovrebbero raorzare la ricerca incoraggiare le possibilit politiche che incentivino
loro raccolta tecnologiche, ma statunitense nellambito delle tecnologie di formazione e training in luso di tecnologie
e analisi. dovrebbero essere collegate alla privacy e in quelle importanti ambito di protezione della pratiche per la
formulate in termini di aree delle scienze sociali che formano/ privacy, inclusi i percorsi di protezione delle privacy
risultati da raggiungere. caratterizzano il successo dellapplicazione carriera professionale. gi oggi esistenti.
stessa di queste tecnologie.
Fonte. Executive Oce of the President, Presidents Council of Advisors on Science and Technology. Oce of the president presidents council of advisors
on science and technology Report to the President Big data and privacy: a technological perspective executive. Washington, maggio 2014.
da p.31 buona che ci offre i servizi gratu- che nellaffrontarne le conseguenze non fa torit che sia alternativa a Google, ma realiz-
itamente e la destra cattiva che cattura e ri- nulla per rimuoverne le cause. come distri- zare invece una piattaforma pubblica che si
vende i nostri dati. I cosiddetti big data sono buire tappi per le orecchie contro i fastidiosi articoli in infrastrutture pi o meno piccole
infatti cos importanti che lindustria tecno- rumori stradali, invece di fare qualcosa per a disposizione della comunit. Inoltre, per
logica riesce a controllare persino la nostra ridurli. Morozov questo lunico modo afnch
immaginazione e il nostro futuro attraverso Per fare in modo che il costo di un sistema lEuropa non rimanga sottomessa alla regola
la costruzione di storie, facendo diventare alternativo alla Silicon Valley non ricada sul americana.
la Silicon Valley la pi grande storyteller del cittadino consumatore, che si troverebbe a Lintervento pubblico, conclude Morozov,
mondo occidentale. dovere pagare di pi un servizio offerto da tanto pi urgente poich le societ digitali
E i mercati ormai possono raggiungerci aziende tradizionali, Morozov sostiene la ne- si stanno muovendo molto pi di quanto
nelle nostre case facendoci offerte che non cessit di unalternativa di tipo governativo pensiamo, per avere sempre pi potere. Or-
possiamo riutare. La rapida ascesa della a Uber e Airbnb, i giganti della sharing eco- mai Google, operando spesso a Bruxelles,
sharing economy sostiene Morozov pu nomy. Si deve quindi guardare alle istituzio- inuenza la politica e si sta facendo strada
essere letta anche in questa chiave: il capitali- ni pubbliche per raccogliere e gestire i dati perno nel settore dellenergetica. Dunque,
smo dispone ora di nuove tecnologie capaci che ora sono nelle mani delle aziende della bisogna trovare unalternativa. O vogliamo
di convertire ogni merce che sia stata com- Silicon Valley: importante che i big data davvero che in futuro sia tutto gestito da Ai-
prata, e quindi rimossa dal mercato diven- rimangano nelle mani dei cittadini. Ma an- rbnb, Facebook e Google?
tando un capitale inerte poco utile, in oggetti che lEuropa non dovrebbe pensare a unau- [Pagine a cura di Rebecca De Fiore]
afttabili che non abbandonano mai il mer-
cato. Che la sharing economy stia rendendo
le conseguenze dellattuale crisi economica 1. Morozov E. Imprisoned by innovation. The New York Times 2013; 23 marzo.
pi sopportabili innegabile, ma il fatto 2. Morozov E. Silicon Valley: i signori del silicio. Torino: Codice Edizioni, 2016.
Il rendering del
nuovo campus
di Apple ancora
in costruzione
(verr inaugurato
nei primi mesi
dellanno
prossimo).
A
nche in losoa si riette sulla rilevan- preferenze. Ognuno, dice Han, diviene cos il dal narcisismo esibizionistico che anima la
za attuale e prossima dei big data. Non benthamiano panottico di se stesso. Daltra nostra epoca, le nostre stesse persone si posi-
soltanto in chiave etica, interrogando- parte, sostiene non a caso Tim Cook, CEO tivizzerebbero in merci quanticabili, misu-
si sulla questione della privacy, ma sui risvolti della Apple, oggi nessuno esce di casa sen- rabili e controllabili: i big data annunciano
della loro pervasivit sulle forme di vita. za lo smartphone, domani probabilmente la ne della persona e della volont libera.
Protect me from what I want. il truismo saremo connessi allo smartphone3. In altri Con quali conseguenze politiche? Secon-
di Jenny Holzer scelto dal coreano Byung- termini, se oggi disponiamo di protesi mne- do Han, la crisi della libert nella societ
Chul Han per lesergo di un pamphlet che, di motecniche, domani esse saranno parte in- contemporanea consiste nel doversi confron-
suo, ha molto della verit ovvia1. Invece che tegrante di noi, no al punto di anticipare tare con una tecnica di potere che non nega
allItalica bold, font della gigantesca scritta i nostri desideri, alla Minority Report. Lo Luciano De Fiore o reprime la libert, ma la sfrutta. La libera
originale dellartista americana, o alle note aveva in qualche modo previsto anche Freud: Sapienza scelta viene annullata in favore di una libera
indie dei Placebo autori della canzone dallo Luomo per cos dire divenuto una specie Universit di Roma selezione tra le offerte. Tutte le informazioni
stesso titolo ispirata dalla Holzer, stavolta il di dio-protesi, veramente magnico quando divengono merci preziose: la popolazione va
messaggio afdato a una riessione veloce, equipaggiato di tutti i suoi organi accessori; amministrata scrupolosamente, concentran-
ma aflata, sulle nuove tecniche di potere del questi, per, non formano un tuttuno con dosi su procreazione, tassi di natalit e morta-
neoliberismo. Che dei big data farebbero il lui e ogni tanto gli danno ancora del lo da lit, stati di salute, durata e qualit della vita,
proprio big deal, un grandissimo affare: sta- torcere. Si consoli tuttavia: questa evoluzione scelte economiche e di stili di vita. Il che era
to di sorveglianza e mercato venendo cos a non nir nellanno del Signore 1930, quan- gi proprio della politica intesa come biopo-
coincidere. do pubblic il suo Disagio nella civilt, da litica, alla Foucault.
Da cosa ci si dovrebbe proteggere? Dalla cui il passo tratto4. Proprio cos. Ma con un salto evidente: usando le stati-
nostra stessa libert di desiderare. Libert di Ecco che allora i big data divengono, stiche demograche, la biopolitica non acce-
singoli, considerati per come nientaltro che agli occhi di critici estremi come Mayer- deva allo psichico. Ecco quindi il necessario
leccesso del capitale stesso, il quale sfrutte- Schnberger, Cukier5 o appunto Han, uno passaggio neoliberista alla psicopolitica: per
rebbe la libert dellindividuo per ripro- strumento psicopolitico estremamente efca- questo la statistica si differenzia dai big data:
dursi. Essere davvero liberi dovrebbe signi- ce, che permette di estrarre un sapere scon- da essi si pu ricavare non solo lo psicopro-
care piuttosto realizzarsi insieme (secondo il nato sulle dinamiche della comunicazione gramma individuale, ma anche quello collet-
Marx dei Manoscritti), mentre lisolamento sociale. Questo sapere un sapere del dominio, tivo e in caso lo psicoprogramma dellinconscio.
a cui il regime neoliberale induce secondo che consente di avere accesso alla psiche e di Non il petrolio il motore del capitalismo,
Han, e nonostante i social media, anzi non inuenzarla su un piano pre-riessivo. In ma la libido: lenergia libidinale devessere
produrrebbe affatto quella libert, rendendo altre parole, attraverso le informazioni che canalizzata sugli oggetti di consumo cos da
piuttosto ognuno servo del proprio lavoro, o liberamente afdiamo alla rete, anche spinti assorbire le eccedenze della pro- a p.34
per meglio dire, delle proprie azioni. Scelte,
beninteso, liberamente, giacch soltanto lo
sfruttamento della libert individuale offre il Attraverso le informazioni che liberamente afdiamo alla rete,
massimo rendimento. Secondo questo punto
di vista, anche la moltitudine invocata da anche spinti dal narcisismo esibizionistico che anima la nostra epoca,
Negri e Hardt non sarebbe che un insieme ir- le nostre stesse persone si positivizzerebbero in merci quanticabili,
relato di solitudini, inatto a formare un Noi misurabili e controllabili.
politico capace di un agire comune. Tutti, di
nuovo e sempre, soggetti. Sottomessi, cio, ad
un ordine che si erge a nuova trascendenza, Jenny Holzer, The Survival series, Protect Me From What I want, 1985-1986.
con lacquiescenza di tutti.
Questa versione neo-apocalittica della
postmodernit si servirebbe dei social media
per operare un controllo capillare ed estrema-
mente produttivo di coloro che contribuisco-
no volontariamente al proprio sfruttamento.
Come? Grazie allautoesposizione, allauto-
denudamento volontari consentiti, anzi pro-
mossi, dai social che rendono ogni nostro
dato immesso sulla rete uninformazione, e
cos un quantum sfruttabile economicamen-
te. Autoesposizione favorita, aggiungerem-
mo, dal narcinismo imperante2. I dispositivi
tecnici fungerebbero cos da oggetti devozio-
nali: se inteso come strumento di soggettiva-
zione (nel senso proprio, di assoggettamento
individuale), uno smartphone funzionerebbe
al dunque come una volta il rosario per un
cristiano, mutuando la funzione di controllo
e sorveglianza su se stessi: il like lamen di-
gitale. Mentre clicchiamo like, ci sottoponia-
mo al rapporto di dominio.
Una tecnica di potere assai efcace che
rende possibile che gli uomini si sottometta-
no da s alla dipendenza, senza coercizioni:
il neoliberalismo come capitalismo del like,
seducente piuttosto che inibente, invitante di
continuo a comunicare, condividere, parteci-
pare, esprimere le nostre opinioni, desideri e
2 . A N A L I S I D E I R I S U LTAT I
interessante mettere a confronto le risposte alla prima domanda della diverso anche lorientamento espresso a proposito di un altro quesito:
survey. A dierenza dei loro colleghi clinici, per gli epidemiologi ci sono cosa sono i big data? Colpisce la dierente considerazione dei dati che
pochi dubbi che siano le tre V a caratterizzare i big data. scaturiscono dalla ricerca sperimentale, dati tipicamente strutturati e non
necessariamente big: tra le quattro tipologie suggerite lepidemiologo
Con il termine big data si fa generalmente riferimento non ha dubbi, identificando quasi esclusivamente negli electronic
a dati caratterizzati da
health record la fonte di numeri ad alto volume, variabilit e velocit
EPIDEMIOLOGI di produzione; mentre per 4 oncologi su 10 anche i risultati degli studi
1% 3% controllati randomizzati possono essere considerati big data.
Elevata Sensibilit, Elevato margine In ambito sanitario, a proposito di quali fonti possiamo parlare
Specificit di Errore, di big data?
e Semplicit elevata Efficienza
duso e Efficacia EPIDEMIOLOGI
(tre S) (tre E)
93% 3% 9% 4%
Alto Volume, Alta Precisione, Singoli Risultati
alta Variabilit, Produttivit, registri di studi
alta Velocit Peculiarit di farmaci osservazionali
di produzione (tre P) 1%
(tre V) 86%
Cartelle cliniche Risultati
ONCOLOGI elettroniche di studi
dei cittadini controllati
26% 3% (electronic health randomizzati
Elevata Sensibilit, record)
Elevato margine
Specificit di Errore,
e Semplicit elevata Efficienza
duso e Efficacia ONCOLOGI
(tre S) (tre E)
53% 18% 39% 40%
Alto Volume, Alta Precisione, Cartelle cliniche Risultati
alta Variabilit, Produttivit, elettroniche di studi
alta Velocit Peculiarit dei cittadini controllati
di produzione (tre P) (electronic health randomizzati
(tre V) record)
8% 12%
Singoli Risultati
registri di studi
di farmaci osservazionali
Su cosa punterebbe lepidemiologo? Sul potenziamento dei sistemi di Mentre da parte delloncologo c pi interesse per le applicazioni dei big
raccolta e gestione dei dati del paziente e, in seconda battuta, sui cosiddetti data al governo dellinformazione utile per lattivit clinica e assistenziale.
organizational data, comunque legati ai primi.
EPIDEMIOLOGI ONCOLOGI
26 Claire Porter
La policy di Forward
descritta in dettaglio sul sito del progetto.