Sei sulla pagina 1di 4
cono ancora i big data, con laloro incredibile densi di significato sia tecnico che applicativo, Tobicttivo delle ricerche del laboratorio Big- Data@Polio, nato circa due anni fain seno al Politecnico i eravta di un la- boratorio interdipartimentale che vede di Torino. il coinvolgimento dei Dipartimenti di Elettronica e Telecomunicazioni— DET, Automatica ¢ Informatica ~ DAUIN, Ingegneria Gestionale e della Produzione ~ DIGEP e di Scienze Matematiche — DISMA. Pienamente interdisciplinare dunque, come risulta necessaro in questo I Laboratorio ha permesso la creazione di un centro di calcolo aperto, flessi- bile, basato su soluzioni open source € rivolto non solo ai ricercatori e docenti del Politecnico per i loro progetti, ma anche al mondo aziendale, sempre piit interessato allo studio dei Big Dataper finalita differenti, che vanno dal marke- ting, alla definizione di algoritmi innova- tivi, da applicazioni al mondo del Web, alla progettazione di sistemi complet II Politecnico punta in questo modo a diventare un centro di riferimento su queste tematiche, in Italia ¢ anche in Europa, Per fare il punto sulle tante sfide che emergono dai percorsi di ricerca avviaci, e sulle ancor pitt ramificate possiilita di sfruttamento pratico di queste infor mazioni, i responsabili del laborarorio hanno organizzato un seminario, svol- tosia fine aprile presso l'atenco torinese, carattetizzato da un ricco programma di interventi, di cui daremo una sintesi nelle pagine che seguono. Per chi volesse consultare le presentazioni, si possono scaricare dalla pagina: hrep://bigdaca. polito.il. Introdotto dal Rettore del Politecnico di Torino, Marco Gilli, il convegno ha visto innanzieutto una presentazione della scrurcura e degli obietivi del la- oratorio stesso, a cura del prof. Marco Melia, del Dipartimento di Elettronica ¢ delle Telecomunicazioni, seguita poi dall'intervento della prof. Elena Baralis, del Dipartimento di Automatica e In Formatica, che ha esplorato il significaro del termine “Big Data” nelle sue tante € ricehe ramificazio Da questa prim: one, uno evidenziare alcuni concetti di base. Innanzitutto, la possibiliti di immagaz- zinare ¢ di analizzare grandi quantita di dati, cio? tutto cié che generalmente va sotto il nome di big data, pud aprire sce- nari applicativi e opportunir’ di business che prima non si potevano immaginare. ‘oppor Turcavia, quando si tratta di esplorare queste informazioni, é pits opportuno concentrarsi sulla componente di analisi obiettivo infatti non é accumulare dati, bens piutrosto cercare valore nei dati. E nella componente “science” la parte importante di questa evoluzione tecno- logica, pitt che nella componente “big”. A questo proposito si capisce Fimpor- tanza fondamencale della daca science ¢ dei data scientist, coloro che in fondo possono aiutare a conseguire, con stru- menti compleramente nuovi, quello che @ Pobiectivo di sempre, almeno in un contesto commerciale: analizzare i com- portamenti del mercato e dei clienti per capirli meglio, non perderli 0 attrarne di nuovi Big data e metodolog esplorazione Una chiave di lertura molto interessante erta dal prof. Francesco Vacca- sino, del Dipartimento di Scienze Mate~ e stata of matiche: nel suo intervento ha illustrat lo scenario metodologico nel quale si ppossono esplorare grandi quanti di dati in tempi brevi, con processi di analisi e previsioni che risultano attendibili anche senza sapere, con assoluta certezza, come avvengano. Sul volume dei dati digitali che abbiamo a disposizionesi dete tanto: negh ut ;nni sono stati create conservati pitt dati che in tutti gli anni precedenti della storia umana, ¢ nel giro di pochi anni questa quantita risulrerd decuplica ta. Entro il 2020 la produzione di dati arriveri a 1,7 megabyte al secondo per ‘ogni essere umano sulla terra (equivalenti ad una foto, oad un corposo ebook). Le Informazioni accumulate nel corso degli ultimi due anni hanno superato lordine degli zettabyee (1 zettabyte = 1000 mi- liard di gigabyte) e peril 2020 passeremo dagli artuali 4,4 rertabyte di dati nel mondo ad un patrimonio 44 zecabyte i dati. Il punto pert & che di questa enorme itt di dati riusciamo a usarne una Atal proposito,il ompito del marematico @ quello di contribuite insieme a cute lealere necessarie com- ponenti dell analisi ~ alla possibilies di aptire questo patrimonio, per sfruttarne in qualche modo lutilit. Le domande quindi sono: che cosa stia- mo cercando? E che cosa vuol dire rac- cogliere informazioni in questo scenario? In un certo senso si pu dire che qualeosa sia cambiato rispecto al tradizionale para- + NAGGIO 2016 + datavalue 29 ddigma emetso dalla rivoluzione sce ca di Galileo, Negliulcimi quattrocento anni di ricerca scientifica abbiamo ragio- i causaliti e modell. ‘modell scienifici proposti hanno sempre avuto l'obiettivo di cercare un ordina- mento causale: eventi che causano un altro evento, in modo da poter agie sulla causa per verificarne e controllarne lef fetto. II modello matematico, 0 la teoria fisica soggiacente, erano di solito figlie della ricerca di un meccanismo causale in cui si ragionava, appunto, in termini di cause ed effetti. Se parliamo di dati il si compone di: osservazione formulazione di un modella ‘matematico (che pud essere deterministi- co, ma anche statistico 0 probabilistico): generazione di nuovi dati dal modelo; verifica se i dati prodotti dal modelo — ovvero le sue previsioni ~ sono in linea con le osservazioni Quando si di ‘grandi quanti di dati, questo modello ecruare urvanalisi su perd non é pitt adatto, Per capite il perché, pensiamo all evolu- ione delle tecnologie informatiche che sono state inventate per sfidare F'uomo nei giochi che si itiene richiedano il suo massimo grado di intelligenza Nel 1997, ad esempio, Big Blue di IBM — che peraltro era un machina dedicata, «enon un semplice software - per la prima volta sconfisse una persona al gioco degli scacchi. Questo gioco ha cirea quattro miliardi di possibili comb mosse, Il problema @ stato impostato risolto con un metodo tradizionale: si sono fornite alla macchina tutte le pos- sibili mosse, e questa ha agito in modo dla reagire a ciascuna mossa condotta dall'avversario, Cio’: if [n] event, then {n} reaction, Oggi, Google ha studiato una soluzio- ne per affrontare un altro gioco, il G Inventato in Cina oltre 2500 ani giocato oggi da oltre quaranta milioni di petsone in tutto il mondo. Le regole del Go sono semplici: i giocatori, a turno, posizionano le pietre bianche © nere st tuna grande scacchiera, detta goban, da 361 caselle (19 x 19), cercando di cat- turare pietre dell avversario o di circon- dare porzioni di spazio vuoto per fare i cosiddetti punti territorio. In questo gioco i numeri sono comple- tamente diversi da quelli degli scacchi il gioco sulla scacchiera pud assumere 2,08 x 10" configurazioni, ovvero due seguito da 170 zeri. Per dare un'idea, i numero degli atomi nell universo osser- vabile & stato stimato in circa 10®, cioé dleci seguiro da ortanta zeri. La partica pitt lunga possibile, con una mossa al secondo, durerebbe 600.000 miliardi di siliardi di anni Tuctavia Alph: Google ha messo a punto per giocare Go, per la prima volta questanno ha batcuto il campione mondiale, Perché questa sfida Pes effettua un lavoro su. un modello cau- lara quello) calcolan- io, il programma che rilevante, dal punto di thé per giocare ascacchi la machina sale (Se questo a do funzioni di pa probabilita di vito 6 nelf'altra, Per calcolare il pay off di off, ovvero qual & la in una direzione tuna mossa, la machina considera tue: te le combinazioni delle partite giocate in passato: lavora in ottica meramente combinatoria. Dato il numero prati- ‘camente infinito di possibili: mosse, i funzionamento di AlphaGo, invece, & completamente diverso. In questo a- so @ stata sviluppata una coppia di reti mente una rete politica 10 “value”, deputate la primaa prendere le decisioni, la seconda neural, vispe e-una rete di a valutare la probabiliti che una mossa potesse essere buona o cattva. Si tratta i ret simili alle “deep neural network” con milioni di nodi dispost su pit stra- ti, ognuno dei quali corrisponde ad un livello di astrazione. In un primo momento la rete & stata ceducata, facendole imparare trenca mi- lioni di partite gia giocate; ma siccome obiettivo era battere gli uomini, hanno iniziato afar giocare la macchina contro se tess, utiizzando una tecnica denomi- nata reinforced leaming. Messa alla prova giocando contto il campione coreano, al nono dan, la macchina ha vinto. In questa sicuazione 'approccio tradi- zionale, di tipo combinatorio, non sarebbe stato basato su analisi matematiche Quando si deve effettuare un’analisi Te Liic kee tLe 30 datavalue « waccio 2n6 possibile, proprio per Pentitd dei nume- ri in gioco, neanche con un computer grande come l'universo. Era necessario cambiare approccio, uscendo dallo sche- ma classico dei dati ordinati secondo regole causali. Per capire qual é stata 'evoluzione di que- sto modello,citiamo ancora due esempi. Nel 2011, i ricercatori di Stanford, me- diante tecniche di machine learning, sono sono stati in grado di identificare in modo automatico i segni che meglio rivelavano il livello di cancerosiri delle cellule (carcinoma della mammella). Per fare questo i ricercacori hanno dapprima inserito nel sistema foto di cellule, inse- rendo gli anni effectivamente vissuti da ciascun paziente affetwo da tumore, prima del decesso; in seguito, hanno evidenzia- to i watt e i pattern caratterizzanti che potevano predire al meglio quale fosse Faspecrativa di vita della persona Il progeamma restitui undici eratti che crano i pit rilevanti nel predire che una cellula fosse altamente cancerosa. Ot- timo, certo, ma il punto era che nella lecteratura medica ne erano noti solo ow. Tre exano completamente scono- sciuti, nonostante si lavori sull’istologia del cancro al seno almeno dal 1920. Laltro esempio, a dir poco estremo, ebbe tuna cerca risonanza sui giornali nel 2012 Un dipendente dell ufici statistico della catena retail Target elabord un metodo per individuare ¢ predire, fra le clien- ti dei suoi negozi, Peventuale stato di gravidanza, la data del parco e persino il sesso del nascituro; dati che consen- tivano all'azienda di inviare alle clienti messaggi personalizzati. Questo risultato cra ottenuto solo analizzando in maniera retroattiva i dati di acquisto di migliaia di dlienti, da cui emergevano una serie di pattern di acquisto, che confermava- ‘no appunto la situazione della persona. Varienda quindi rischiava di rivolgersi alla persona sbagliata, ma difficilmente la previsione sidiscostava dalla effettiva real. Evidentemente, tutto questo apre anche problematiche important di tipo ea Deep neural network . hidden layer 1 input layer hidden layer 2 hidden layer 3 cetico e legatial dirito di privacy, e ob- bliga a pensare molto seriamente a come proteggere i dati che lasciamo in rete: perché da qualsiasi traccia che vi lacia- ‘mo, sipossono inferire alte informazioni sul nostro presence sul nostro futuro Qualunque informazione, anche appa- rentemente irrilevante, quando viene correlaca con altreala luce di determinati pattern ‘con un patrimonio di eventi, consente di claborare previsioni che rischiano di essere anche molto attendibil Ecco quindi cosa sono i Big Data, e come fanzionano le analisi che si basano sui Big Data Ala base c& qualcosa che si pub definire ‘come una “black box”. Un macchina- rio misterioso, che funziona in modo analogo alle reti neurali profonde, e che produce connessioni interne alle quali atcribuisce pesi diversi. In questo mec- anism si introdueono i training dat per insegnarglia distinguere le gazze dai MACHINE LEARNING TRAINING DATA + Maccio ans + datavalue 3 1 Big Data meri In seguito si introducono i veri dat di input, che il meccanismo in qualche modo discrimina, per poi evidenziare in questi dati delle caratcrstiche fino a quel momento non evident, Insomma: per analizzare grandi voluri di dati siutliz- zano macchine che funzionano in modo cosiefficae, chil loro vero meccanismo ci sostanzialmente ignoto. Non sappiamo quindi come funzioni questo meccanismo né che tipe di calcoli facia, cutcavia & Punico possibile ed & ado di orte cosi attendibil, da poter essere considera~ ti predittivi sulle nostre prossime azioni. Dentro a queste reti si generano come delle enormi funzioni, controllace da migliaia di parametri, che non sono rappresentabili' con la matematica che abbiamo in mano. Abbiamo costruito un ‘0, ma produce sistema che & maten qualcosa che sembra essere al di la di una descrizione intelligibile. Negli esempi vist, la macchina predittiva funziona, nel senso che discrimina e pre- dice, ed &adatta a macinare grandi masse di dati, ma dal punto di vista teorico € matematico, non sappiamo esattamente come lo faccia A questo punto il metodo scientifico come 'abbiamo sempre conosciuto, con modelliche sortendono una telazione di ‘ausalita, resta adatto solo ad una desc zione semplificara della realta, quella che 32. datavalue + saccio 2016 « problemi vanno di pari formato Kindle al prezzo di 1,99 euro. potevamo perseguire in un mondo di small dara. Con questo metodo abbiamo costruito il mondo moderno, con aerei che volano, navi che navigano, machine che si guidano da sole. Turtavia, pur non essendo adatto all'analisi dei Big Data, & pur sempre un modello necessario, come necessario & sapere per davvero quali sono le cause e gli effetti dei fenomeni che osserviamo. Infatti, questo & invece un legame che sfugge toralmente all approccio predic tivo delle nuove soluzioni di analisi. Ad «esempio: Target indovina se una donna incinta, ma non ha idea del perché lei acquisti un determinato prodowto an- viché un altro. I ricercatori di Stanford possono riconoscere i tratti che fanno pensare all’nsorgenza di un cancro, ma con questo metodo non possono capite né come prevenirlo, né come curarlo. Questi approcci sono predittivi quanto vogliamo, ma non consentono di com- prendere qual é il rapporto di causal efferco di cid che viene osservato. Quindi sono utilizzabili solo per deter- minace applicazioni, ma non tutte. Se, ad esempio, i Vigili del Fuoco hanno bisogno di dati predittivi precisi per po- tersi organizzare in modo da intervenire tempestivamente in caso di incendio, este soluzioni so utili, Ma se voglio- jpostare una campagna per preve nie gl incendi,allora dovranno passare PRIMA CHE ACCADA,. Avventure nei fu fo, Nel test 50, insieme con speranze e paure collettive. Il volume & disponi ad un tipo diverso di comprensione dei fai, arrivando ad evidenziare le cause diun innesco, Altea considerazione finale sulle analisi predistive, & che sono cutte basate su fe- nomeni che si sono effectivamente svolti in quel modo: quindi su eventi accaduti nel passato. Solo sul passato. quindi, avanzano Ia loro elaborazione ¢ le loro predizioni, Al contrario tucti noi siamo immersi, come evidente a ciascuno di noi, in un mondo in continuo muta- mento, come eventi, contest e relazioni I big data non sono quindi per nulla “la risposta’, bens dai padri di queste discipline, u formidabile fonte di domande come affermato anche A.al fine il ruolo della matematica ¢ della scatistica& quello di elaborate nuovi metodi e nuove possbilita di rispost soprartusto, quello di geteare dei po fra modalicd di risposta diverse. Potremo comprendere la realthal meglio solo se cercheremo di superare le differen welel: lacune fra il mondo potente, ma tutto sommato cieco, delle reti neurali € delle black box, ¢ il mondo pits limi- ato, ma affidabile, dei modelli e delle connessioni causali. Ognuno di questi approcci andr’ ibridato con Valero, cre- ando quel circolo virtuoso che consenta alle due parti di parlarsie di articchirsi reciprocamente. Per non rimanere fermi ad un modello che predice velocemente, ma non spiega, ¢ quello che comprende a fondo, ma troppo lentamente. turi multipli della scienza I prof. Francesco Vaccarino, matematico, ricercatore e professore aggregato al Politecnico di Torino e Senior Researcher alla Fondazione ISI, e Gabriele Beccaria, giornalista a La Stampa e direttore responsabile di Tuttoscienze, sono gli autori di un nuovo testo, pubblicato a maggio 2016 da La ‘Stampa/40k (numero ISBN 9788865866559). II libro parla del futuro del concetti riportati in questo artic pagine,siintrecciano studi davanguardia e personagg} scienza e include anche

Potrebbero piacerti anche

  • Esercizio Lean Office
    Esercizio Lean Office
    Documento42 pagine
    Esercizio Lean Office
    Roberto Panizzolo
    Nessuna valutazione finora
  • Etf News 219
    Etf News 219
    Documento9 pagine
    Etf News 219
    Roberto Panizzolo
    Nessuna valutazione finora
  • CJ Numero 487
    CJ Numero 487
    Documento20 pagine
    CJ Numero 487
    Roberto Panizzolo
    Nessuna valutazione finora
  • CT Nuova ds5
    CT Nuova ds5
    Documento6 pagine
    CT Nuova ds5
    Roberto Panizzolo
    Nessuna valutazione finora
  • Shopping Bag - Apple (IT)
    Shopping Bag - Apple (IT)
    Documento2 pagine
    Shopping Bag - Apple (IT)
    Roberto Panizzolo
    Nessuna valutazione finora
  • Behavior Based Safety
    Behavior Based Safety
    Documento4 pagine
    Behavior Based Safety
    Roberto Panizzolo
    Nessuna valutazione finora
  • Listino Nuova Ds 5
    Listino Nuova Ds 5
    Documento9 pagine
    Listino Nuova Ds 5
    Roberto Panizzolo
    Nessuna valutazione finora
  • Business Intelligence
    Business Intelligence
    Documento5 pagine
    Business Intelligence
    Roberto Panizzolo
    Nessuna valutazione finora
  • Vitale Considi
    Vitale Considi
    Documento5 pagine
    Vitale Considi
    Roberto Panizzolo
    Nessuna valutazione finora
  • Caso Cucine
    Caso Cucine
    Documento8 pagine
    Caso Cucine
    Roberto Panizzolo
    Nessuna valutazione finora
  • CPFR PDF
    CPFR PDF
    Documento13 pagine
    CPFR PDF
    Roberto Panizzolo
    Nessuna valutazione finora
  • VSM Formato Carta A0
    VSM Formato Carta A0
    Documento1 pagina
    VSM Formato Carta A0
    Roberto Panizzolo
    Nessuna valutazione finora
  • Lean Poster VSM
    Lean Poster VSM
    Documento1 pagina
    Lean Poster VSM
    Roberto Panizzolo
    Nessuna valutazione finora
  • Files
    Files
    Documento12 pagine
    Files
    Roberto Panizzolo
    Nessuna valutazione finora
  • Ds 5 Bluehdi 180 S&s Eat6 Sport Chic
    Ds 5 Bluehdi 180 S&s Eat6 Sport Chic
    Documento4 pagine
    Ds 5 Bluehdi 180 S&s Eat6 Sport Chic
    Roberto Panizzolo
    Nessuna valutazione finora
  • Certificate 486
    Certificate 486
    Documento19 pagine
    Certificate 486
    Roberto Panizzolo
    Nessuna valutazione finora
  • Scienze Manageriali
    Scienze Manageriali
    Documento22 pagine
    Scienze Manageriali
    Roberto Panizzolo
    Nessuna valutazione finora
  • Errata Corrige 18606
    Errata Corrige 18606
    Documento1 pagina
    Errata Corrige 18606
    Roberto Panizzolo
    Nessuna valutazione finora
  • Buoni Fruttiferi Ord e Inflaz
    Buoni Fruttiferi Ord e Inflaz
    Documento219 pagine
    Buoni Fruttiferi Ord e Inflaz
    Roberto Panizzolo
    Nessuna valutazione finora
  • Recupero e Trattamento Dei Raee
    Recupero e Trattamento Dei Raee
    Documento170 pagine
    Recupero e Trattamento Dei Raee
    Roberto Panizzolo
    Nessuna valutazione finora