Sei sulla pagina 1di 65

The Big

Big Data
Workbook
Una guida pratica per avviare
iltuoprimoprogetto Big Data.

Contenuti
Introduzione
Parte A: preparazione

3
4

Informazioni utili
I motivi che spingono le aziende a implementare
progetti Big Data
I motivi del fallimento dei progetti Big Data
Come far funzionare il progetto Big Data

Scelta del progetto giusto


Caratteristiche del progetto giusto
Considerare l'impatto
Progetti di Big Data tattici: alcuni esempi
Il percorso base per i progetti Big Data

12
13
15
17
19

Parte B: la strategia

6
7
10

24
25
27

Definizione delle esigenze sui dati


Quali dati sono necessari?
Cinque considerazioni chiave sui dati

29
30
33

2 | Informatica The Big Big Data Workbook

36

Il team
Cinque lezioni chiave di team-building
Organizzazione della governance dei dati
Competenze richieste e competenze gi disponibili

37
38
42
45

Gli strumenti
Dettagli sugli strumenti per i Big Data

47
48

I processi
Le otto fasi di un progetto Big Data

52
53

L'architettura
Fasi preliminari: l'ambiente sandbox
L'architettura Big Data ideale

56
57
59

Il piano di progetto
Il piano di progetto

60
61

Implementazione

63

Prossimi step

64

Informazioni su Informatica

65

23

Definizione degli obiettivi


Gli obiettivi del business
Obiettivi dell'IT

Suggerimento: fare clic per raggiungere la sezione

Parte C: la supply chain dei Big Data lean

Verso
i Big
Data

Pochi trend tecnologichi hanno raggiunto


la fama e la notoriet dei Big Data, cos
come poche tendenze tecnologiche
hanno offerto un potenziale di
trasformazione grande quanto i Big Data.
Fin da quando il software alla fine del
secolo scorso ha iniziato a supportare in
modo consistente interi processi aziendali
stato chiaro: i dati cambiano il nostro
modo di lavorare.

Questa guida cerca di fare un po'di luce


su questa confusione.
Intende blindare la strategia, permettendo
di eseguirla pragmaticamente. Sia per
un'iniziativa tattica localizzata o per la
pianificazione di un intervento su vasta
scala per lintera azienda, questo
manuale costituisce una guida pratica per
padroneggiare il mondo dei Big Data.

Naturalmente, a una grande pubblicit Diamo inizio a questo viaggio.


segue una grande disillusione. Nel caso
dei Big Data, si sono visti in egual
misura ottimi consigli e disinformazione.
Sfortunatamente, poich questo mondo
di dati infiniti cos nuovo, tutto questo
rumore non ha fatto altro che
confondere molti.

3 | Informatica The Big Big Data Workbook

Parte A:
preparazione
Il manuale diviso in tre parti. Nella prima parte,
cercheremo di rendere pi nitida la visione, in
modo da scegliere il giusto progetto.

Ritorna ai Contenuti

4 | Informatica The Big Big Data Workbook

<

Informazioni
utili

14

12

Prima di approfondire le specifiche del progetto, 10


di seguito sono elencati alcuni consigli che molti
professionisti dei Big Data avrebbero voluto sapere
prima di iniziare i loro progetti.
8

Informazioni utili

I motivi che spingono le aziende ad


implementare progetti Big Data
Solitamente le aziende
decidono di approcciare i
Big Data per uno dei
seguenti motivi.

6 | Informatica The Big Big Data Workbook

L 'azienda sta cercando di migliorare


il livello delle proprie analisi e si
rende conto che per raggiungere
questo risultato occorre
incrementare enormemente la
qualit dei dati da analizzare. Di
norma, una business unit, come ad
esempio il marketing, avvia queste
iniziative.

L'azienda comprende di poter
inglobare i propri prodotti in un
livello di servizio offrendo analytics
(spesso in tempo reale) in grado di
aiutare i clienti a utilizzare i prodotti
in modo pi efficiente ed efficace.

L'azienda intende operare in modo


pi rapido, migliore e pi efficace in
termini economici sfruttando i Big
Data per decisioni informate
relative a una specifica business
unit o a un processo specifico.

L'azienda
si rende conto che i Big
Data sono fondamentali per ogni
business unit in azienda e tenta di
gettare le basi per una vista globale
focalizzata sui dati.
L 'azienda sa di dover iniziare a
prepararsi ai Big Data prima che sia
troppo tardi, ma in realt non ha
ancora capito a cosa servono.
L'obiettivo imparare e
sperimentare con tali dati.

Sono tutti ottimi motivi per


interessarsi ai Big Data, ma per
garantire che i progetti durino nel
tempo (e superino l'esame multidipartimentale), bisogna avere
chiare le motivazioni per il
raggiungimento degli obiettivi
aziendali prefissati.

Informazioni utili

I motivi del fallimento dei


progetti Big Data
1

Un sondaggio indica che il 55%


dei progetti Big Data non viene
completato e molti altri progetti non
raggiungono gli obiettivi. Sebbene
questa percentuale di fallimento sia
abbastanza frequente in una fase
cos prematura di un trend
tecnologico, non sarebbe saggio
imparare da questi errori.
Analizziamo le quattro principali
ragioni di fallimento dei progetti
BigData.

1
Obiettivi vaghi
Il motivo di fallimento pi citato nel
sondaggio "ambito impreciso" del
progetto. Troppe aziende puntano
su progetti ambiziosi, decisamente
troppo ambiziosi, senza obiettivi
chiari, per poi fallire quando
devono prendere decisioni difficili
su cosa importante o meno.

Perseguire i Big Data solo per avere


un progetto Big Data la ricetta
perfetta per un disastro. Le
complessit di questi progetti
richiede una solida dedizione per
ottenere un determinato risultato.
Senza la certezza degli obiettivi,
avere successo impossibile.

1.

7 | Informatica The Big Big Data Workbook

w ww.informationweek.com/software/information-management/
vague-goals-seed-big-data-failures/d/d-id/1108384

Informazioni utili

I motivi del fallimento dei


progetti Big Data
2

3
Sforamenti e ritardi del progetto

Aspettative mal gestite


Tutta la pubblicit attorno ai Big
Data rende alcune assunzioni molto
pericolose, soprattutto per quanto
riguarda i risultati ottenibili dai
progetti. Nonostante la tentazione
di cedere a grandi promesse in
tempi brevi, importante mantenere
una vista realistica in merito a
previsioni del progetto, durata e
quantit di lavoro richiesta per
raggiungere gli obiettivi.

8 | Informatica The Big Big Data Workbook

Quando le aspettative relative a


impatto e informazioni utili ottenibili
sono eccessivamente elevate, ci si
ritrova a navigare in terabyte di
incognite sconosciute. Se le
aspettative per la consegna sono
irrealistiche, si rischia di puntare su
scadenze e budget completamente
sbagliati.

Considerando quanto questa


disciplina sia nuova per le aziende,
non c' da sorprendersi se la
maggior parte dei progetti Big Data
costa eccessivamente o richiede
troppo tempo. Tipicamente si tratta
di una combinazione di aspettative
mal gestite e di incomprensioni su
come creare un'architettura
scalabile.

Quando vengono assunti rari e


costosi sviluppatori Java Hadoop
per mastodontiche implementazioni
di codifica manuale, le aziende
presto realizzano l'impossibilit a
metter piede fuori dall'ambiente
sandbox senza errori. Di
conseguenza, i progetti Big Data
difficilmente escono dal laboratorio.

Informazioni utili

I motivi del fallimento dei


progetti Big Data
4
Incapacit di ridimensionarsi
gi abbastanza complicato
trovare cinque buoni sviluppatori
Java Hadoop, ma quando i progetti
crescono ed necessario passare a
30 sviluppatori Java in un solo
anno, la situazione precipita. La
cosa peggiore non il rapporto
opportunit-costi dei cluster Hadoop
inutilizzati, ma il rapporto
opportunit-costi relativo a perdita
di slancio e tempo.

9 | Informatica The Big Big Data Workbook

Troppo spesso, le aziende mirano a


opportunit a breve termine
piuttosto che alla sostenibilit a
lungo termine. Non possiamo fare a
meno di suggerire che sempre
possibile evitare tale compromesso
e non ci stancheremo mai di
sottolineare l'importanza della vista
a lungo termine. Affinch i dati
siano adeguatamente protetti e
gestiti, considerare sempre le
implicazioni a lungo termine del
progetto.

I quattro motivi per il fallimento dei


Big Data sono preoccupanti e
troppo spesso comuni. Quindi,
prendiamo in esame come evitarli e
come creare un'implementazione
duratura.

Informazioni utili

Come far funzionare il


progetto Big Data
Se la maggior parte dei progetti Big
Data manca di chiarezza e non
riesce a dimostrare l'efficacia
dell'iniziativa, bisogna agire in
prima persona per attirare
attenzione e dimostrarne la validit.
Di seguito, tre utili suggerimenti per
garantire il successo del progetto.

Stabilire obiettivi chiari e gestire le


aspettative

Definire metriche che dimostrino il


valore del progetto

In caso si abbiano dubbi circa gli


obiettivi del progetto, considerare
quelli stabiliti per l'infrastruttura dati
esistente.

Definite metriche chiare per


supportare i vostri obiettivi; eviterete
una gran quantit di problemi.
Stabilendo obiettivi realistici e
misurabili, tutti riusciranno a
visualizzare i progressi.

Se l'azienda necessita gi dei dati per


alcuni processi aziendali (come il
rilevamento delle frodi o le analisi di
mercato), vale la pena prendere in
considerazione il modo in cui i Big
Data possono rendere questi processi
migliori e pi utili. Invece di gettarsi su
un problema completamente nuovo,
provare a migliorare un processo o un
progetto esistente.
Senza una chiara messa a fuoco e
un valore dimostrabile per gli utenti
business il progetto non ha senso di
esistere.
10 | Informatica The Big Big Data Workbook

Cosa pi importante, traccerete una


direzione da seguire nel lungo
termine. Chiedetevi come si misura
l'impatto del progetto nel contesto
dei vostri obiettivi.

Questo fondamentale in quanto si


presenteranno dei compromessi a
breve termine che gli utenti business
dovranno razionalizzare. Obiettivi
misurabili promuovono l'opportunit
di un valore maggiore rispetto a
quanto realizzato.

Informazioni utili

Come far funzionare il


progetto Big Data
3
Siate strategici nella scelta dei tool e
nella codifica manuale
Evitate di codificare manualmente
tutto direttamente in Hadoop.
L'obiettivo non creare
un'implementazione funzionante a
mani nude da zero, ma consegnare
il valore dei Big Data all'azienda.
Invece di tentare di codificare a
mano ogni integrazione, pulire ogni
set di dati e codificare manualmente
tutti gli analytics, cercare gli
strumenti e l'automazione necessari
per accelerare tramite questi
processi.

Cosa pi importante, non cadere nel


tranello di sprecare rari e costosi
talenti nello sviluppo Java per
mansioni assegnabili o trasferibili ad
altri dipendenti. Le decisioni
strategiche sull'utilizzo di scarse risorse
per conseguire i propri obiettivi risulta
quindi determinante.
Adottare strumenti in grado di
aumentare la produttivit del team di
sviluppo sfruttando le competenze e la
conoscenza di esperti in materia di
ETL, data quality e business
intelligence esistenti, consentendo ai
vostri professionisti Java di lavorare su
una logica specifica per la quale non
sono disponibili strumenti.

11 | Informatica The Big Big Data Workbook

Inoltre, poich le tecnologie


Hadoop si evolvono ogni giorno,
vale la pena considerare un livello
di astrazione in grado di proteggere
da specifiche in continua evoluzione
per le tecnologie sottostanti.
Ricordare soprattutto che le
competenze tecniche ricercate sono
scarse, ma gli strumenti sono sempre
disponibili.

Scelta del
progetto
giusto
Alla luce delle sfide che affronterete,
analizziamocome scegliere il progetto
opportuno per l'azienda.

Scelta del
progetto giusto

Caratteristiche del
progetto giusto
Se l'azienda brama cambiamenti e
ha gi accettato un framework
completo di data governance per
migliorare le metodologie di lavoro,
probabilmente possibile saltare
questa sezione.
Se invece state considerando un
progetto tattico localizzato,
adattabile in seguito a tutta
l'azienda, continuate la lettura.

Valore dimostrabile

Sponsorizzazione

Il progetto giusto quello dove il


valore condiviso in modo uniforme
tra IT e business unit alla quale si
fornisce supporto. Questo significa
offrire un valore evidente al
dipartimento, alla business unit o al
gruppo in modo visibile.

Per il successo del progetto,


necessario che gli executive
appoggino questa visione. I progetti
Big Data richiedono sostenitori e
sponsor a tutti noti, intenzionati a
difendere il progetto in corso.

Il progetto giusto prevede i seguenti


quattro componenti.

13 | Informatica The Big Big Data Workbook

Quindi, ad esempio, se possibile


creare analytics eccezionali per la
logistica, ma il CMO l'unico a
sostenere questo progetto,
necessario ripensarlo. Se il
sostenitore il marketing, lavorare
per soddisfare i requisiti degli
analytics di marketing. Il
cambiamento non pu essere
forzato. Seguire l'influenza e
ottenere il massimo valore da essa.

Scelta del
progetto giusto

Caratteristiche del
progetto giusto
3

4
Competenze trasferibili

Un effetto domino
L'importanza strategica del primo
progetto tattico fondamentale.
L'obiettivo non solo provare senza
ombra di dubbio che i Big Data
aiutano le business unit che stanno
supportando, anche accertarsi che il
relativo valore sia poi facilmente
comunicabile a tutta l'azienda.

Una volta dimostrato il valore dei


Big Data al dipartimento marketing,
ad esempio, sar pi semplice
ottenere l'approvazione dai team
della logistica, altrimenti reticenti.

Quindi, durante la scelta del primo


progetto, scegliere strategicamente.

14 | Informatica The Big Big Data Workbook

Come per il punto precedente, il


valore del primo progetto deve
convincere gli altri dipartimenti
aziendali. A tale scopo, dovete
assicurarvi di fare tesoro delle
capacit e competenze sviluppate
con il primo progetto. Pi
esplicitamente, bisogna
documentare tutto, in modo da
poter trasferire le conoscenze al
progetto successivo. Ricordate: per
puntare al successo, bene puntare
tutto sui progetti futuri.

Prepararsi alla scalabilit, per


gestire in futuro un numero
maggiore di progetti. Non solo
una questione di scalabilit del
cluster, ma riguarda la scalabilit
delle competenze e delle attivit
aziendali. Bisogna trovare altri
professionisti Java/Hadoop o
trovare modi per ottenere il massimo
dalle risorse a disposizione.

Scelta del
progetto giusto

Considerare l'impatto
In fase di scelta del progetto
successivo, considerare anche in
che modo influir sull'azienda. Tre
aspetti generali giocano un ruolo
determinante nello stabilire se si
persegue il giusto progetto Big
Data.

1
Costo e interruzione
Tendenzialmente, il costo del
progetto si basa sul tempo e sul
denaro necessari per metterlo in
piedi. In realt, necessario
considerare anche la potenziale
interruzione che causa.

In altri casi tecnologica e relativa


alle competenze: quando richiesta
l'integrazione di nuove tecnologie
nell'infrastruttura esistente e la
relativa riorganizzazione o
l'aggiornamento delle competenze.

A volte l'interruzione procedurale:


quando le business unit sono
abituate a possedere i propri dati e
non intendono concedere il controllo
di tali dati a un framework di data
governance centralizzato.

In ogni caso, necessario


prevedere, riconoscere e accertarsi
che le interruzioni siano ridotte al
minimo oppure comunicare il perch
di una interruzione.

15 | Informatica The Big Big Data Workbook

Scelta del
progetto giusto

Considerare l'impatto
2

3
Risorse e limitazioni

Tempistiche dei vantaggi e dell'impatto


Quando si considerano i diversi
progetti iniziali, si tender
naturalmente verso quelli in grado
di offrire l'impatto e il miglioramento
aziendale massimo. Tuttavia,
anche importante considerare la
natura dell'impatto aziendale. La
maggior parte del valore sar
usufruibile a breve termine o a lungo
termine?

Cosa pi importante, quando gli


utenti business potranno beneficiare
di questi vantaggi da un punto di
vista del business? Ad esempio,
possibile introdurre la gestione dei
dati master sul data warehouse
locale e migliorare decisamente
l'efficienza della business
intelligence, ma tale valore sar
avvertito solo una volta che i
business analyst realizzeranno di
non dover ripulire di nuovo i dati
finanziari.

16 | Informatica The Big Big Data Workbook

Alla luce dell'analisi dei due


precedenti fattori, prendere in
considerazione le risorse a
disposizione. Le suddivideremo in
maggior dettaglio pi avanti, ma
per adesso considerate
l'innovazione offerta dal progetto
piuttosto che l'investimento.

Il conseguimento di tale obiettivo


soddisfa entrambi i requisiti: da una
parte, si punta sul massimo impatto
aziendale, rimanendo comunque
strategici in quanto a budget.
Sebbene la creazione di un team di
data scientist per emulare Google
sia allettante, realmente possibile
permetterselo? Prendere decisioni
intelligenti tra strumenti e personale
risulta un fattore determinante per il
successo del progetto.

Scelta del
progetto giusto

Progetti di Big Data tattici:


alcuni esempi
Esiste una vasta gamma di
applicazioni per i Big Data. Per
quanto possa sembrare esaltante,
risulta altrettanto scoraggiante
per le persone che non sanno con
quale progetto iniziare. Ecco un
elenco di progetti di Big Data
tattici che per nostra esperienza i
clienti hanno intrapreso.
In caso di ulteriori dubbi sul
progetto dal quale iniziare,
prendere in considerazione i
seguenti esempi per offrire
un'idea migliore dei Big Data alla
propria azienda.

17 | Informatica The Big Big Data Workbook

Finance
A
 nalisi dei rischi e
del portafoglio
Consigli sugli
investimenti

Retail
C
 oinvolgimento
proattivo del cliente
Servizi in base alla
localit

Multimediale
T racciamento del
comportamento
durante il gioco
Opzioni di cross-sell e
up-sell

Produzione

Sanit

Settore pubblico

P
 rogrammi correlati
ai veicoli
Manutenzione
predittiva

P
 revisioni sulle
condizioni del
paziente
Costo totale della cura
Scoperta di medicinali

A
 ssicurazione sanitaria
Scambi
Ottimizzazione
tributaria
Rilevamento frodi

Scelta del
progetto giusto

Progetti di Big Data tattici:


alcuni esempi
L'obiettivo di alcuni dei nostri clienti
Prendiamo in esame nello specifico
come alcuni dei nostri clienti
descrivono le proprie iniziative.
Questo il tipo di messa a fuoco da
ricercare per progetti del genere.

U
 na grande azienda tecnologica
della Silicon Valley punta a
risparmiare pi di 10 milioni di
USD sui costi in aumento per il
data warehouse, sfruttando una
combinazione di Hadoop e
tecnologia tradizionale di data
warehouse, allo scopo di
diminuire la crescita nei costi
complessivi per terabyte.
U
 n grande produttore di mezzi di
trasporto punta a ridurre i
consumi di carburante dei propri
veicoli dell'1% nei prossimi 10
anni, oltre a cercare di ridurre le
emissioni di carbonio tossiche
estendendo i periodi di
manutenzione del 10% e
migliorando il chilometraggio
dell'1%.

18 | Informatica The Big Big Data Workbook

U
 n produttore di locomotive
intende sbloccare un ulteriore
miglio all'ora sulle tratte
quotidiane per consentire ai
propri clienti di risparmiare quasi
200 milioni di USD all'anno.
U
 n'azienda di servizi di
pagamento internazionale sta
cercando di aumentare il proprio
business digitale del 30%
personalizzando maggiormente i
servizi offerti al cliente, azione
che fa parte di una strategia Big
Data chiamata "ottimizzazione
omni-channel del retail".
Queste sono alcune delle grandi
vittorie di alcuni team Big Data.

Scelta del
progetto giusto

Il percorso base per i


progetti Big Data
Per iniziare a creare le fondamenta
di un approccio a livello aziendale
ai Big Data, le tre seguenti fasi
risultano fondamentali.
In realt, bisogna tenerle presenti
anche per i progetti Big Data tattici.
Ciascuna fondamentale per
l'integrit di base di un'azienda
incentrata sui dati. Per ottenere il
massimo vantaggio in termini di
costi, seguire questi punti in ordine.

1
Ottimizzazione del data warehouse
Implica l'opzione di
memorizzazione ed elaborazione
dei dati sulla piattaforma pi
economica. L'operazione di norma
inizia trasferendo i dati non
elaborati o utilizzati di rado e i
carichi di lavoro ETL da costosi
hardware di data warehouse.

19 | Informatica The Big Big Data Workbook

L'obiettivo evitare costosi upgrade


dei data warehouse e iniziare a
utilizzare hardware e framework di
computing pi economici, come
Hadoop, in modo da prepararsi a
gestire il volume, la variet e la
velocit dei Big Data.

Scelta del
progetto giusto

Il percorso base per i


progetti Big Data
2

3
Intelligence operativa in tempo reale

Un data lake gestito


Un data lake gestito un unico
punto in cui gestire la domanda e
l'offerta di tutti i dati. La parola
operativa "gestire". L'obiettivo
convertire il disordine multistrutturato in informazioni adatte
allo scopo, attendibili e protette.

Questo significa creare un data lake


che perfezioni, regoli e amministri i
dati. Tuttavia, bisogna effettuare
tutta una serie di previsioni, in
quanto necessario incorporare
policy e processi di data
governance rigorosi e strategici.
Tuttavia senza, il lake correrebbe il
rischio di trasformarsi in una palude.

In questa fase si creano le


tecnologie (analytics, applicazioni
consumatrici di dati, interfacce di
engagement) utili alle persone per
accedere, analizzare e consegnare
tutti i dati. Le applicazioni create in
questa fase devono essere pratiche
e consegnare le informazioni
richieste dagli utenti.
Potrebbero essere un'interfaccia per
i rappresentanti dell'assistenza
clienti che monitora il
comportamento dei clienti su diversi
canali e identifica i clienti con
maggiore probabilit di abbandono
nelle prossime due settimane.

20 | Informatica The Big Big Data Workbook

Scelta del
progetto giusto

Un percorso in tre passi


Come gi descritto in precedenza,
per ottenere il massimo rapporto
costi-vantaggi, si consigliano i
passaggi nell'ordine seguente.
Ottimizzazione del data warehouse

Data lake gestito

Ridurre i costi infrastrutturali e


sostenere l'architettura aziendale.

Creazione di un unico punto in


cui gestire la domanda e
l'offerta di dati.

21 | Informatica The Big Big Data Workbook

Analytics in tempo reale


Offerta di applicazioni
all'avanguardia leader che
forniscano le informazioni
richieste.

Scelta del
progetto giusto

Il percorso base per i


progetti Big Data
Modalit secondo le quali i nostri
clienti definiscono gli obiettivi base
Anche i progetti base devono essere
specifici per quanto riguarda
l'obiettivo finale. In questo caso la
specificit non riguarda il denaro e
le ore risparmiati, ma i limiti di
quanto esattamente viene creato.
Considerate i seguenti esempi di
progetti di infrastruttura Big Data di
alcuni nostri clienti.

U
 n'azienda internazionale che
conduce centinaia di milioni di
transazioni finanziarie in
centinaia di paesi ha creato un
data hub a livello aziendale.
L'obiettivo condurre analisi dei
Big Data per identificare le
macro-tendenze e i macro-schemi
nell'interazione con il cliente.
U
 na grande azienda tecnologica
ha creato un Cloud di analytics a
livello aziendale per ottenere un
time-to-market pi veloce per i
prodotti regolati dai dati,
includendo nuovi set di dati negli
analytics utilizzati tra le business
unit.

22 | Informatica The Big Big Data Workbook

U
 n'azienda di consulenza
finanziaria globale ha creato
un'infrastruttura logica di data
warehouse per garantire di poter
rendere disponibili informazioni
coerenti tra tutte le piattaforme
standard (inclusi Hadoop,
database operazionali e data
warehouse tradizionali) utilizzate
dall'azienda.
In breve: i grandi interventi hanno
un grande impatto, ma richiedono le
giuste basi.

Parte B: la
strategia
Ora analizziamo gli aspetti pratici, esaminando i
requisiti specifici per il prossimo (o il primo)
progetto Big Data.

Ritorna ai Contenuti

23 | Informatica The Big Big Data Workbook

<

598
55mph

Definizione
degli obiettivi

276m
70mph

101m
75mph

Scriviamo. Come gi descritto in precedenza, la


causa numero uno dei fallimenti dei progetti Big
Data la mancanza di obiettivi chiari. A questo
punto, verifichiamo che il progetto concepito non
risenta di ambiguit.
501m
69mph

411m
67mph

136m
72mph

Definizione degli
obiettivi

Gli obiettivi del business


Iniziamo con il business in
quanto questi obiettivi
hanno precedenza rispetto
a quelli dell'IT se il progetto
deve essere appoggiato in
modo esteso.

Siate molto dettagliati nello stabilire


quali sono gli obiettivi che volete
che il vostro progetto raggiunga per
soddisfare le esigenze del business.
Puntare ad obiettivi con un impatto
misurabile.
Nell'esempio di un'interfaccia di
assistenza clienti che preveda il
tasso di abbandono dei clienti, gli
obiettivi per quel progetto non
dovrebbero essere elencati come
qualcosa di vago, come "migliorare
la customer experience".

25 | Informatica The Big Big Data Workbook

Pi sono chiari gli obiettivi,


maggiore sar la probabilit di
raggiungerli. Cinque obiettivi
descritti alla perfezione sono pi
preziosi di un obiettivo vago.

Definizione degli
obiettivi

Gli obiettivi del business


Elencare, in ordine di importanza, gli obiettivi del
progetto Big Data relativi al business e agli utenti
business. Inserire pi o meno obiettivi.
ad es., ridurre il tasso di abbandono dei clienti

Quanto deve durare il


progetto Big Data?

Stabilire una quantit di tempo minima e una massima


per ogni obiettivo da raggiungere.
ad es., da tre a sei mesi

Abbiamo lavorato con clienti che


hanno consegnato progetti tattici in
meno di tre mesi, ma anche con
clienti che hanno impiegato tre anni
per consegnare programmi base.

A questo punto, per ogni obiettivo, scrivere una misura


del successo utilizzabile per determinare se l'obiettivo
stato raggiunto. Idealmente, devono essere metriche o
calcoli disponibili.
ad es., ridurre il tasso di abbandono medio mensile del X%

26 | Informatica The Big Big Data Workbook

Il progetto Big Data deve durare


quanto necessario per realizzare
appieno il suo valore. La nostra
esperienza insegna che l'ambito
del progetto detta la scadenza.

Per i progetti pi lunghi,


bisognerebbe puntare a
dimostrare il valore del progetto
ogni sei mesi. Qualora si adotti un
approccio agile al progetto, tale
approccio aiuta a presentare le
diverse fasi e i diversi traguardi
come progetti pi piccoli.
Una cosa chiara: la durata non
deve essere ipotizzata. Stimare il
tempo per la consegna in base
alla propria esperienza e
all'esperienza di altri che hanno
intrapreso progetti simili in
precedenza. In caso abbiate dei
dubbi su chi contattare per fornirvi
delle indicazioni utili, potete
sempre rivolgervi a noi.

Definizione degli
obiettivi

Obiettivi dell'IT
Ora diamo un'occhiata agli obiettivi
dell'IT, in quanto pertinenti al
progetto.
Se il progetto riguarda migliorare e
velocizzare il lavoro dell'IT, si
incontreranno delle difficolt nel
venderlo agli utenti business. Per
questo motivo, gli obiettivi dell'IT
dovrebbero essere comunicati allo
stesso momento in cui vengono
esposti gli obiettivi per i quali gli
utenti business hanno mostrato
entusiasmo.

Elencare, in ordine di importanza, gli obiettivi del


progetto Big Data legati all'IT. Valutate voi se inserire
pochi o molti obiettivi.
ad es., stabilire processi per acquisizione in tempo
reale, bonifica, amministrazione e memorizzazione di
dati aggregati sui clienti, dati di utilizzo delle carte di
credito, dati grafici sui social e indicatori del tasso di
abbandono

27 | Informatica The Big Big Data Workbook

Fermarsi, collaborare e ascoltare


Questo manuale stato ideato per
promuovere l'inizio di un progetto Big
Data, sia che si lavori nel business o
nell'IT. In entrambi i casi, non lasciare
che gli obiettivi diventino ipotesi. Per
ottenere indicazioni specifiche sugli
obiettivi da conseguire, iniziate subito
a collaborare con un partner che ha
l'esperienza necessaria.
Se il progetto proceder, non sar
possibile mandarlo avanti senza una
collaborazione strategica.

Definizione degli
obiettivi

Obiettivi dell'IT
Stabilire una quantit di tempo minima e una massima
per ogni obiettivo da raggiungere.
ad es. da due a quattro mesi

28 | Informatica The Big Big Data Workbook

A questo punto, per ogni obiettivo, scrivere una misura


del successo utilizzabile per determinare se l'obiettivo
stato raggiunto. Idealmente, devono essere metriche o
calcoli disponibili. ad es., tasso di abbandono previsto
del X%

Definizione
delle esigenze
sui dati
Ora che abbiamo delineato obiettivi specifici per
le iniziative Big Data, analizziamo l'essenza del
progetto: i dati stessi. Qualsiasi sia il progetto,
necessario pensare in modo strategico alle
informazioni necessarie, quali set di dati
soddisfano tale esigenza, in che modo si
otterranno tali dati e come saranno utilizzati.

Definizione delle
esigenze sui dati

Quali dati sono necessari?


Per prima cosa, analizziamo lo
scopo principale del progetto Big
Data, nello specifico le
informazioni che si stanno
cercando di fornire all'azienda.
Rispondere alle seguenti
domande nel modo pi preciso
possibile.

Per conseguire gli obiettivi aziendali delineati in precedenza,


quale aspetto viene indicato dagli utenti aziendali come
necessario per prendere una decisione informata?
Ad es., tra i clienti pi importanti chi ha il potenziale
tasso di abbandono pi elevato e quali comportamenti
correlare all'abbandono

30 | Informatica The Big Big Data Workbook

Per offrire tale conoscenza, quali dati possono essere


utilizzati?
Ad es., cronologia degli acquisti del cliente, dati di
revisione, frequenza degli acquisti, tasso di abbandono,
frequenza di rimbalzo, qualit del servizio del cliente

Definizione delle
esigenze sui dati

Quali dati sono necessari?


Quali sistemi sorgenti contengono tali dati?
Ad es., registrazioni dell'assistenza clienti, metriche
sulle performance del prodotto, database di attivit del
cliente, gestione dei dati master del cliente

31 | Informatica The Big Big Data Workbook

Oltre ai dati gi citati, esistono altre informazioni che


potrebbero conferire valore contestuale o
supplementare alle analisi?
Ad es., dati dei sondaggi dell'assistenza clienti, analisi
sui competitor, dati metereologici, dati dei social

Definizione delle
esigenze sui dati

Quali dati sono necessari?


Alla ricerca dei dark data
Quali set di dati non accessibili potrebbero contenere
dati contestuali supplementari?
Ad es., dati dei social terze parti, dati di mercato terze
parti, dati meteorologici

Quando si considerano i set di dati


non accessibili, non limitarsi ai dati
all'esterno dell'azienda. Gartner ha
riscontrato che la maggior parte
delle aziende utilizza solo il 15%
dei dati presenti all'interno
dell'azienda . Appfluent,
un'azienda che svolge analisi
statistiche sull'utilizzo dei data
warehouse, riscontra che tra il 30%
e il 70% dei dati in un data
warehouse dormiente.
2

Il resto nascosto in silos, archivi


legacy e archivi dati difficili da
raggiungere, costosi o complicati
da trovare. La loro presenza
implica un prezzo per la
memorizzazione di tutti questi dati.
Durante la ricerca dei dati
necessari, partire dai dati gi in
possesso dell'azienda.

2.

32 | Informatica The Big Big Data Workbook

 ito Web Gartner: www.gartner.com/technology/topics/


S
big-data.jsp

Definizione delle
esigenze sui dati

Cinque considerazioni chiave sui dati


Una volta delineati i dati da
cercare, si avr una vista pi chiara
delle sfide specifiche dei Big Data.
In particolare, considerare i seguenti
cinque elementi chiave prima di
procedere, per un'indicazione delle
esigenze di ogni set di dati, oltre a
quelle per il set di dati Big Data.

1
Prepararsi al volume
Prepararsi ad affrontare la
"grandezza" dei dati necessari.
Oltre alle dimensioni, classificare i
dati in base al loro valore (ad es.
transazioni del cliente), al loro
utilizzo (frequenza di accesso), alla
loro dimensione (gigabyte,
terabyte), alla loro complessit (dati
macchina, dati relazionali, video...)
e a chi pu accedervi (solo i data
scientist o utenti aziendali casuali).

33 | Informatica The Big Big Data Workbook

Un inventario accurato e
organizzato dei dati aiuter a
determinare le modalit di gestione.
Valutare la capacit di storage ed
elaborazione corrente e adottare i
metodi pi economici ed efficienti
per renderla scalabile.

Definizione delle
esigenze sui dati

Cinque considerazioni chiave sui dati


2

3
Gestire la velocit

Considerare la molteplicit
L'aspetto pi complesso dei Big
Data la moltitudine di formati e
strutture da riconciliare nelle analisi.
Per includere nuovi tipi di dati e
strutture (social, sensori, video) con
le fonti gi utilizzate (relazionali,
mainframe relazionali) sar
necessario integrare diverse origini.

Il tentativo di codifica manuale di


ogni singola integrazione cos
macchinoso che potrebbe costare
tutto il tempo e le risorse in possesso
dell'azienda. Sfruttare al massimo
gli strumenti di data integration e
data quality disponibili per
velocizzare il processo e
valorizzare le attivit.

34 | Informatica The Big Big Data Workbook

La combinazione di dati in
streaming in tempo reale e dati
cronologici solitamente aumenta il
potere predittivo degli analytics.
Quindi, alcuni dei dati richiesti
potrebbero essere preziosi solo se si
riversano costantemente nei sistemi.

Anzi, la maggior parte delle analisi


in tempo reale deve basarsi su dati
in streaming, spesso da diverse fonti
e in diversi formati. Preparare il
progetto con la tecnologia analitica
di streaming e un'infrastruttura
logica per gestire tutti i dati.

Definizione delle
esigenze sui dati

Cinque considerazioni chiave sui dati


4

5
Considerare la conformit

Garantire la veridicit
Indipendentemente dall'importanza
delle analisi, queste risultano inutili
se le persone non possono fidarsi
dei dati analizzati. Pi dati si
analizzano, maggiore
l'importanza di mantenere un
elevato livello di data quality.

Per rendere i dati adatti allo scopo,


necessario conoscere lo scopo per il
quale sono utilizzati. Se un data
scientist sta cercando schemi nei dati
aggregati di un cliente, la
preparazione richiesta sar minima.
D'altro canto, i dati di rendicontazione
finanziaria e della supply chain
dovranno essere maggiormente curati,
puliti e certificati in termini di
precisione e conformit.
Creare categorie in base alla
quantit di preparazione
necessaria, spaziando da dati
grezzi a un archivio dati altamente
curato e amministrato di dati puliti,
attendibili e autorevoli.

35 | Informatica The Big Big Data Workbook

I diversi set di dati affrontati avranno


diverse disposizioni e requisiti di
sicurezza. Per ogni set di dati,
occorre considerare il lavoro
necessario per rendere anonimi i
dati in base alle policy di sicurezza.

Oltre all'archiviazione sicura e


intelligente dei dati sensibili,
mascherare i dati con regole
predefinite ogni volta che migrano o
entrano in ambienti di sviluppo e
test.

In azienda proliferano masse di dati


in centinaia di archivi dati. Capire
dove si trovano i dati sensibili e
accertarsi che siano protetti alla
fonte tramite la crittografia, quindi
controllare chi vi accede.

Adottare queste cinque


considerazioni per ogni set di dati
affrontato, per prepararsi alla sfida
dei Big Data in modo pi realistico.

Parte C: la supply
chain dei Big Data
lean
I metodi di business intelligence e data warehouse tradizionali
non sono in grado di ridimensionarsi per soddisfare le
esigenze delle iniziative Big Data. A questo punto,
analizzeremo come ridimensionare il team, i processi e
l'infrastruttura.

Ritorna ai Contenuti

36 | Informatica The Big Big Data Workbook

<

Il
team
Il team che lavorer al progetto Big Data
rappresenta la sfida maggiore, ma anche la
principale opportunit. Bisogna trovare il giusto
equilibrio tra persone che comprendono gli
obiettivi aziendali e persone in grado di
ottemperare ai requisiti tecnici.

Il team

Cinque lezioni chiave di team-building


La maggior parte delle
aziende sottovaluta il
livello delle competenze
necessarie per applicare
una nuova tecnologia,
come Hadoop.

I framework di dati distribuiti sono


semplicemente troppo difficili da
gestire. Dalle competenze Java
necessarie a sviluppare su Hadoop
alle nuove competenze di data
science per le quali sono richieste
nuove assunzioni, per far volare il
progetto bisogna incorporare nuove
3
competenze diversificate.

In fase di creazione del team,


seguire i consigli che leggerete
successivamente per la vostra
strategia di assunzione.

Hadoop, Python, and NoSQL lead the pack for big data
jobs, InfoWorld, 5 maggio 2014: www.infoworld.com/t/
it-jobs/hadoop-python-and-nosql-lead-the-pack-big-datajobs-241884)

3.

38 | Informatica The Big Big Data Workbook

Il team

Cinque lezioni chiave di team-building


1

2
Pensare strategicamente alla
composizione del team

Sfruttare le capacit per le quali


sono state assunte le persone
Uno dei principali errori delle
aziende quando assumono data
scientist e analisti quantitativi fargli
fare il "lavoro sporco". Quando le
risorse pi competenti spendono
tutto il loro tempo a scrivere a mano
codice per le integrazioni e la
pulizia dei dati, non solo insorge
frustrazione, ma si perde l'occasione
di sfruttare le competenze pi
difficili da trovare.

Concentrare le competenze pi rare


sulle attivit che richiedono
realmente tali capacit. L'ultima
cosa che si vuole che le risorse
migliori ci abbandonino, cos come
evitare che sprechino il loro tempo
in lavori comodamente fattibili con
altri strumenti.

Se le cose funzionano, il progetto


cresce in portata e risorse. Pensare
in modo strategico da subito, per
risparmiarsi la dura consapevolezza
che alcuni processi non possono
essere ridimensionati abbastanza
rapidamente per via del numero
limitato di persone con le capacit
richieste, anche nella Silicon Valley.

L'equilibrio del team


fondamentale. L'obiettivo il giusto
mix di esperienza di gestione dei
dati duramente ottenuta ed
entusiasmo per imparare nuovi
strumenti. Inoltre, bisogna trovare il
giusto equilibrio tra persone con
competenze tecniche e persone con
esperienza sui domini, per creare
modelli adeguati.

Se la portata del progetto cresce,


quali competenze sono facilmente
recuperabili in tempo per affrontare
le esigenze? Ad esempio, i data
scientist sono infinitamente pi
difficili da trovare, formare e
4
assumere rispetto agli sviluppatori.
Big Datas High-Priests of Algorithms, Wall Street
Journal, 8 agosto 2014: http://online.wsj.com/articles/
academic-researchers-find-lucrative-work-as-big-datascientists-1407543088

4.

39 | Informatica The Big Big Data Workbook

Il team

Cinque lezioni chiave di team-building


3

4
Quando il team cresce, anche
l'esigenza di gestirlo aumenta

Allineare anticipatamente gli


obiettivi del progetto, quindi
comunicarli
Uno degli errori pi comuni delle
aziende quando assumono nuovo
personale dimenticare di
comunicare i reali obiettivi del
progetto. Dal primo colloquio fino al
lavoro vero e proprio, deve essere
chiaro cosa si sta cercando di offrire
agli utenti aziendali. Sfruttare
l'appoggio degli executive per
diffondere la mission e condividere
le storie di successo, oltre alle
problematiche.

Senza un solido controllo del valore


di business del progetto, i nuovi
assunti correranno il rischio di
pensare di essere gli unici a
occuparsi degli obiettivi IT per il
progetto.

40 | Informatica The Big Big Data Workbook

Diversamente dalla nuova


tecnologia che pu essere
distribuita, implementata e poi
integrata in modo obiettivo, i
neoassunti devono abituarsi al
luogo di lavoro, alle mansioni e al
motivo per cui le svolgono.
Qualcuno deve assumersi l'incarico
di gestire la sfida di un nuovo team.

Elementi quali cultura e coesione


non possono essere sottovalutati.
Ponderare attentamente come
integrare i neoassunti nei processi.
Magari non possibile formarli per
determinate competenze, ma
sicuramente possibile aiutarli a
migliorare.

Il team

Cinque lezioni chiave di team-building

Una scelta importante che si ripeter


pi volte consiste nel decidere se
creare le proprie capacit utilizzando
strumenti automatizzati o sfruttando
integrazioni manuali.

5
Il team non pu permettersi di
rimanere fermo
Ogni giorno emergono tecnologie
Big Data e quelle gi esistenti si
evolvono rapidamente. un periodo
estremamente esaltante per le
aziende abbastanza intraprendenti
da adottare best practice in
anticipo, ma rappresenta anche una
sfida fondamentale per partire in
pole position rispetto alla
concorrenza.

L'importanza dell'essere
strategici

I dipendenti devono sempre restare


al passo con la velocit di
cambiamento del mondo attorno a
loro. La buona notizia che niente
motiva di pi le persone della sfida
di superare il resto della
concorrenza. La sfida sta nell'offrire
il training e le informazioni
necessari per continuare ad
accrescere le capacit del
personale e aziendali.

La codifica manuale offre il controllo


preciso e completo del prodotto in
fase di creazione. Spesso questo
aspetto impagabile e necessario
per, ad esempio, la redazione di uno
script complesso per estrarre
metadati in modi prima impossibili.
Gli strumenti offrono tuttavia maggiore
agilit e la capacit di ripetere in modo
sostenibile lo stesso processo. Per
attivit come data integration e data
quality, risultano fondamentali in quanto
evitano ad analyst e data scientist di
fare il "lavoro sporco".
Essere realisti sulle proprie risorse: se
non possibile creare un team grande
e brillante come quello di Google, non
sprecare le scarse risorse a
disposizione tentando di farlo.

41 | Informatica The Big Big Data Workbook

Il team

Organizzazione della
governance dei dati
Se (e si spera quando) si prepara
un'iniziativa Big Data semplice,
necessario implementare un quadro
procedurale per la data
governance. Infatti, anche se il
progetto Big Data punta a offrire
valore a un singolo dipartimento,
prendere in considerazione la
creazione di un consiglio di data
governance in miniatura, per
scoprire come affrontare le sfide
uniche presentate da tale
organismo.

Sostanzialmente, le persone
responsabili della data governance
in azienda sono gli stessi executive
che devono controllare l'approccio
aziendale ai dati. Questo
comprende anche l'esigenza di
data steward: personale funzionale
o specifico di un dipartimento a cui
viene assegnata la gestione dei dati
provenienti da una business unit
specifica.
In effetti, alcuni dei nostri clienti
assegnano ruoli di data stewardship
in base al dominio dei dati, ovvero
una persona addetta ai dati di
prodotto, un'altra ai dati del cliente
e cos via.

42 | Informatica The Big Big Data Workbook

Il team

Organizzazione della
governance dei dati
Bisogna puntare sulla creazione di
processi che garantiscano la
percezione del framework di data
governance come un vantaggio pi
che un problema. Lavorare in modo
attivo per garantire che non si
trasformi in un fardello burocratico,
verificando che tutti siano impegnati
nel conseguimento dei medesimi
obiettivi seguendo le stesse finestre
temporali.

Inter-funzionale

Comunicativo

Un consiglio di data governance


che comprende diverse figure con
ruoli simili risulterebbe inutile.
L'obiettivo creare un organismo in
grado di rappresentare i punti di
vista e le esigenze unici di ogni
business unit servita dal progetto Big
Data.

Senza una buona comunicazione


tra figure professionali, dipartimenti
e domini, il progetto probabilmente
annegher nella burocrazia e
nell'incomprensione e questo
succede troppo spesso.
Minimizzare ogni problema o
risolverlo adeguatamente.

Il framework di data governance


dovr avere le cinque seguenti
caratteristiche.

43 | Informatica The Big Big Data Workbook

Il team

Organizzazione della
governance dei dati
3

Efficiente

Approvato

Centralizzato

Il processo inter-funzionale non deve


essere avvertito come un ostacolo.
Offre un'agilit significativa al
progetto Big Data per il successo.
Quindi, laddove possibile costruire
delle regole di reporting delle
eccezioni e adottare strumenti di
collaborazione, per tenere le linee
di comunicazione aperte e
utilizzabili.

Comunicare gli obiettivi principali


del progetto in modo efficace e
accertarsi che tutti siano coinvolti
nel framework di data governance,
dedicato al conseguimento di tali
obiettivi. Gli obiettivi comuni
determinano il concetto di
governance e il processo di
decision-making.

La sfida pi grande di un framework


di data governance si presenta
quando viene richiesto di assegnare
priorit agli obiettivi di una business
unit rispetto alle altre rappresentate
nel consiglio. Assicurarsi che le
decisioni siano per i vantaggi a
lungo termine dell'intero consiglio,
anche se comportano vantaggi a
breve termine per una business unit.

44 | Informatica The Big Big Data Workbook

Il team

Competenze richieste e
competenze gi disponibili
Compiliamo di nuovo. Ora che
abbiamo identificato le varie insidie
e opportunit individuali presentate
dal nuovo team, definiamo le
caratteristiche effettive di questo
team.

La pagina seguente elenca i ruoli


del progetto Big Data in base alle
mansioni per le quali i nostri clienti
assumono. In base al personale
attualmente disponibile e alla
quantit di tempo prevista per il
progetto (inseriti nella sezione che
inizia a pagina 24), elencare il
numero di persone da assumere.

45 | Informatica The Big Big Data Workbook

Il team

Ruolo

Data scientist

Qualcuno pu gi
ricoprire questo
ruolo?
oppure

Necessaria
assunzione per
questo ruolo

In base alla quantit di


tempo disponibile, devo
assumere X persone

oppure

Esperto di domini
Business analyst
Data analyst
Data engineer

L'esigenza di un pensiero
integrato

Database administrator
Enterprise architect
Business solution architect
Data architect
Data steward
Sviluppatore ETL (data integration)
Sviluppatore di applicazioni
Sviluppatore di dashboard
Modeler statistico
Altro
Altro
Altro
Altro
Altro
46 | Informatica The Big Big Data Workbook

Durante la ricerca di nuove persone per


un team, non limitarsi a coloro dotati
delle giuste qualifiche. Attenzione a non
commettere errori: trovare le persone
con le giuste qualifiche di per s una
sfida, ma bisogna trovare anche
persone che sintetizzino obiettivi
aziendali e capacit tecniche.
Sempre pi spesso, per i clienti
fondamentale che le persone che
lavorano ai progetti di Big Data siano
capaci di comprendere le realt
aziendali e a eseguire complesse
mansioni di data science. Questo tipo
di pensiero integrato smisurato e
difficile da trovare. Vale la pena una
formazione in tal senso.

10356
98276

Gli
strumenti

41523

10392
60303

Concetto gi ampiamente discusso, gli strumenti


utilizzati hanno un ruolo strategico
nell'esecuzione del progetto Big Data. In questa
sezione, analizzeremo gli strumenti in possesso
di un'azienda e quelli richiesti.
18456

63002

15234

45623

Gli strumenti

Dettagli sugli strumenti


per i Big Data
Per esperienza, i seguenti strumenti
sono fondamentali per l'architettura
richiesta per i progetti Big Data
(idettagli di questa architettura sono
illustrati pi avanti). Ovviamente,
obiettivi e risorse devono
determinare la combinazione
tecnologica necessaria per uno
specifico progetto.

Data ingestion
Il processo di consumo dei dati dei
quali si necessita in modo corretto,
efficiente e metodico.

Scorrere l'elenco degli strumenti e


mettere una in corrispondenza di
quelli pi importanti e di maggiore
rilievo a livello strategico per un
progetto specifico.

48 | Informatica The Big Big Data Workbook

Caricamento in batch
possibile accedere a tutti i tipi
di dati necessari e scalare in
modo efficiente le performance
del caricamento in batch negli
archivi dati?
Acquisizione del cambiamento dei
dati
possibile acquisire le modifiche
apportate ai dati nei sistemi
sorgenti senza influire sui sistemi
di origine?

Streaming dei dati


I dati in tempo reale possono
essere raccolti in maniera
attendibile e riprodotti in
streaming negli archivi dati?
Archiviazione
possibile archiviare e
comprimere i dati non utilizzati
frequentemente, garantendo al
tempo stesso un accesso
semplificato ai dati archiviati,
quando necessario?

Gli strumenti

Dettagli sugli strumenti


per i Big Data
Scorrere l'elenco degli strumenti e
mettere una in corrispondenza di
quelli pi importanti e di maggiore
rilievo a livello strategico per un
progetto specifico.

Gestione dei dati


Tutte le policy, i processi e le prassi
richiesti per gestire efficacia,
precisione, attendibilit e
disponibilit dei dati.

49 | Informatica The Big Big Data Workbook

Sicurezza dei dati


possibile rilevare e proteggere i
dati in tutti gli archivi dati
assegnando regole relative a
utilizzo, accesso e autorizzazioni?

Integrazione dei dati


possibile preparare e
consolidare le varie strutture e
fonti in un set di dati coeso per
l'analisi?

Virtual Data Machine


possibile creare un livello di
astrazione per i dati adattabile in
modo flessibile all'elaborazione
dati dall'ambiente di
implementazione sottostante?

Data quality
possibile effettuare la bonifica
dei dati in modo attendibile,
effettuare la deduplica e
rimuovere gli errori?

Gestione dei dati master


Esiste una versione consolidata,
completa e autorevole della
verit, memorizzabile per i vari
domini dati?

Framework dati distribuito


possibile utilizzare una
tecnologia come Hadoop per
ridimensionare in modo
economico le esigenze di storage
ed elaborazione?
Data warehouse
disponibile una tecnologia di
data warehouse in grado di
supportare i requisiti di
performance, utilizzo e scalabilit
per le analisi e le integrazioni Big
Data con le infrastrutture
Hadoop?

Gli strumenti

Dettagli sugli strumenti


per i Big Data
Scorrere l'elenco degli strumenti e
mettere una in corrispondenza di
quelli pi importanti e di maggiore
rilievo a livello strategico per un
progetto specifico.

Consegna dei dati


Il processo di invio dei dati in
possesso ad applicazioni e sistemi
che li richiedono.
Caricamento in batch
possibile ridimensionare
efficientemente il caricamento in
batch dei dati tra sistemi sorgenti,
analitici e di back-end operativi?
Streaming in tempo reale
possibile consegnare i dati in
streaming in tempo reale ad
applicazioni, analytics e sistemi di
back-end che li richiedono?

50 | Informatica The Big Big Data Workbook

Data integration hub


I dati possono essere resi
disponibili tramite un approccio
simile a un modello di publishand-subscribe, per evitare la
proliferazione di integrazioni
punto-punto?
Virtualizzazione dei dati
possibile consegnare i dati dai
sistemi senza sovraccaricarli?
Elaborazione in base agli eventi
possibile rilevare, analizzare e
rispondere a minacce,
opportunit e altri eventi
fondamentali per il business in
tempo reale?

Gli strumenti

Dettagli sugli strumenti


per i Big Data
Scorrere l'elenco degli strumenti e
mettere una in corrispondenza di
quelli pi importanti e di maggiore
rilievo a livello strategico per un
progetto specifico.

Analytics
Gli strumenti e i processi che
trasformano i dati grezzi in
informazioni utili, schemi, previsioni
e calcoli relativi al dominio
analizzato.
Visualizzazione
possibile presentare i dati e le
scoperte secondo modalit
semplici da acquisire e
comprendere?
Analytics avanzati
possibile applicare algoritmi
analitici innovativi ai set di dati
per condurre calcoli complessi?

51 | Informatica The Big Big Data Workbook

Apprendimento automatico
Si possono applicare sofisticati
algoritmi di apprendimento
automatico per identificare
schemi e fare previsioni a un
livello tale da non dover gestire la
larghezza di banda
manualmente?

Tra questi strumenti e tecnologie,


alcuni strumenti come data
integration, data quality e master
data management sono cos
importanti per il percorso Big Data
che non richiedono una nuova
concezione dello strumento. La
quantit di tempo e risorse necessari
per creare queste funzionalit
autonomamente non compensa le
preziose competenze e ore-uomo
del progetto Big Data.
Tenere presente gli obiettivi del
progetto e che non richiedono di
creare tutto su misura.

I processi
Esaminiamo in dettaglio i processi effettivi
necessari per affrontare i Big Data. I processi
specifici saranno unici per gli obiettivi e i requisiti
aziendali. La seguente sezione fornisce una
panoramica relativa alle aspettative e agli
insegnamenti.

I processi

Le otto fasi di un
progetto Big Data
L'esperienza insegna che le
metodologie agili sono un
approccio eccellente per i progetti
Big Data. Garantiscono di poter
gestire le aspettative, imparare dagli
errori e ripetere i propri metodi per
migliorare i processi. Detto questo,
l'approccio al progetto dipende
interamente dall'azienda e dalla
situazione.
In ogni caso, i seguenti otto punti si
dimostreranno fondamentali per la
supply chain dei Big Data. In
qualunque modo vengano seguiti,
stabilire processi efficaci per questi
punti.

Accesso ai dati

Integrazione dei dati

La prima sfida acquisire tutti i dati


necessari. In alcuni casi, questo
implica l'acquisizione dei dati in
streaming e in altri casi l'estrazione
dei dati da un database.
Organizzare processi ripetibili e
gestibili in modo da garantire la
memorizzazione di questi dati
conformemente ai metodi in uso.

La sfida pi complessa dei Big Data


la vasta gamma di strutture e
formati dei dati. Per condurre in
modo sostenibile le analisi,
necessario implementare un
processo per integrare e
normalizzare tutti questi dati.
Idealmente, questa operazione
dovrebbe comportare
un'elaborazione manuale minima.

53 | Informatica The Big Big Data Workbook

I processi

Le otto fasi di un
progetto Big Data
3

Bonifica dei dati

Gestione dei dati

Protezione dei dati

Per rendere le analisi attendibili,


necessario garantire una certa
pulizia dei dati al fine di rimuovere
duplicati, errori, imprecisioni e dati
incompleti. Il processo deve
garantire che gli analisti e i data
scientist pi qualificati in realt non
spendano tutto il loro tempo in
attivit non importanti.

Un metodo per mantenere una fonte


dati pulita e integrata definire un
processo per amministrare i dati.
L'obiettivo creare una ricca
raccolta di dati consolidati,
organizzati per dominio (come ad
esempio prodotti, clienti, ecc.) e
arricchiti con informazioni utili sui
Big Data, che andranno poi ad
alimentare tutti gli altri sistemi.

Richiede due processi base. Il primo


corrisponde alla definizione di
regole e prassi di sicurezza,
richiamate da ogni set di dati. Il
secondo prevede l'identificazione
dei dati sensibili e il mascheramento
in modo persistente o dinamico, per
garantire che tali ruoli e best
practice siano applicati in modo
uniforme.

54 | Informatica The Big Big Data Workbook

I processi

Le otto fasi di un
progetto Big Data
6

Analisi dei dati

Analisi delle esigenze aziendali

Rendere utilizzabili le informazioni

Il processo per l'analisi dipende


dall'analista, dagli strumenti di
analytics e dai requisiti, in quanto
pertinenti agli obiettivi. L'attitudine a
ripetute scoperte e al miglioramento
continuo giocheranno un ruolo
fondamentale, per rendere il
processo migliore, pi rapido,
economico e pi scalabile, con il
tempo e l'esperienza.

Questa fase fondamentale e quasi


sempre viene ignorata. Definire un
processo chiaro per l'analisi delle
esigenze aziendali, anche durante
l'analisi dei dati, fondamentale
poich perdendo coscienza del
business, si rischia di isolare le
iniziative, minimizzando l'impatto
aziendale.

Come descritto in precedenza in


questo documento, deve essere
valutato l'impatto aziendale del
progetto Big Data. Creare pipeline
automatizzate per le risposte
registrate e fornirle agli utenti
aziendali che ne usufruiscono
maggiormente. Ad esempio, i dati
sui clienti con probabilit di
abbandono pi elevata devono
essere resi disponibili agli agenti
dell'assistenza clienti tramite un
apposito dashboard. Incorporare
anche cicli di feedback, per
scoprire come sono ricevute le
informazioni utili.

55 | Informatica The Big Big Data Workbook

L'importanza della
documentazione
Per imboccare la giusta strada in un
progetto Big Data, bisogna
padroneggiare questi otto punti.
L'obiettivo stabilire processi chiari,
ripetibili, scalabili e in continuo
miglioramento. A questo scopo, la
documentazione dei processi e dei
miglioramenti derivanti sono vitali per
il team.
Competenze, capacit e lezioni del
progetto Big Data devono essere rese
trasferibili e comunicate
frequentemente.

92

93
362

L'architettura

40

264

654

Per rendere la supply chain dei Big Data lean ed


efficace, necessario garantire che l'architettura
sia solida e costruita strategicamente. La presente
187
468
sezione illustra le caratteristiche di un'architettura
Big Data ideale e come implementarne una
tramite un approccio graduale.

78
157

62

61
50

L'architettura

Fasi preliminari: l'ambiente sandbox


Durante la creazione
dell'architettura per il
progetto Big Data, il punto
di partenza pi logico la
configurazione di un
ambiente di sviluppo
sandbox nel quale
utilizzare i dati di test per
garantire la realizzabilit
dell'architettura. In questa
fase, prendere in
considerazione i seguenti
punti.

Iniziare in piccolo

Le dimensioni contano

Partendo con un sandbox ben


definito sul quale si detiene il
controllo completo, sar possibile
ripetere le metodologie fino
all'implementazione migliore.
Diventare operativi prima possibile
e documentare le lezioni apprese a
ogni iterazione.

La differenza chiave tra sandbox e


implementazione effettiva la
dimensione dell'ambiente di
produzione, che sar decisamente
pi grande. Richiede l'elaborazione
automatizzata per acquisire,
integrare, ripulire e distribuire
l'output. Per questo motivo,
necessaria un'infrastruttura molto
pi robusta e componenti e processi
comprovati realmente attendibili e
flessibili in un ambiente di
produzione live.

57 | Informatica The Big Big Data Workbook

L'architettura

Fasi preliminari: l'ambiente sandbox


Prima dei test, mascherare i dati

Evitare di perdersi nelle traduzioni

Quando le aziende utilizzano i dati


di test, solitamente sfruttano una
variante dei dati reali di produzione,
per garantire che formati e strutture
rappresentino l'ambiente reale.
Sfortunatamente se tali dati non
vengono mascherati
opportunamente, si corre il rischio di
lasciare i dati sensibili esposti in un
ambiente di test non sicuro.

Una delle principali cause di


sforamenti del budget di progetto e
costosi ritardi nei progetti Big Data
deriva dagli errori di codifica
manuale ignorati in ambiente
sandbox, che si ripresentano al
team quando l'architettura entra in
produzione. Quindi, qualora si
codifichino manualmente parti
significative dell'architettura,
prevedere il re-factoring di buona
parte del codice per soddisfare i
requisiti a livello di produzione e
gestire le aspettative di
conseguenza. In alternativa,
utilizzare gli strumenti di produttivit
e automazione per evitare il refactoring del codice, nonch in
prima battuta gli errori.

58 | Informatica The Big Big Data Workbook

L'architettura

L'architettura Big Data ideale


Il seguente grafico rappresenta il
metodo consigliato per creare
l'architettura tecnologica e di
processo Big Data ideale.

Data ingestion

Origini dei dati

Database relazionali
Mainframe
Documenti ed e-mail
Social media, dati terze
parti, file di log
Sensore macchina
Cloud pubblico
Cloud privato

Caricamento in batch
Acquisizione del
cambiamento dei dati

59 | Informatica The Big Big Data Workbook

Streaming
dei dati
Archiviazione

Gestione dei dati

Data Integration
Data quality
Virtual Data Machine
Sicurezza dei dati
Master Data
Management
Storage scalabile
(ades.,Hadoop)
Data warehouse

Consegna dei dati


Caricamento in batch
Data integration hub
Virtualizzazione
deidati
Elaborazione in
tempo reale e in base
agli eventi

Applicazioni

Visualizzazione
Applicazioni mobile
Analytics
Business intelligence
Dashboard in tempo reale

Il piano di
progetto
Abbiamo ultimato l'analisi di ogni aspetto del
percorso per un progetto Big Data. La fase
successiva utilizzare questo piano come
struttura per gestire il progetto Big Data, dalla
concezione fino all'implementazione.

Il piano di
progetto

Il piano di progetto
Utilizzate questo template
per il piano di progetto
come base per
documentare i dettagli e i
vari elementi del progetto
Big Data, quindi sfruttare il
documento compilato per
raccogliere l'approvazione
dal resto dell'azienda.
Risulter utile anche
durante l'approccio con
partner esterni.

61 | Informatica The Big Big Data Workbook

Fase 1: la strategia

Fase 2: i dati

Identificare gli obiettivi per dipartimento business e IT

Identificare le informazioni necessarie

Definire le misure del successo

Identificare i dati e le fonti per la consegna

Il piano di
progetto

Il piano di progetto
Fase 3: la supply chain
Le persone
oo Valutazione delle
competenze necessarie
oo Valutazione delle
competenze disponibili
Il processo
oo Accesso ai dati
oo Integrazione dei dati
oo Bonifica dei dati
oo Amministrazione dei dati
oo Protezione dei dati
oo Analisi dei dati
oo Analisi delle esigenze aziendali

62 | Informatica The Big Big Data Workbook

Gli strumenti
oo Elaborazione distribuita (ad
esempio, Hadoop)
oo Data Quality
oo Data Integration
oo Master Data Management
oo
oo
oo
oo
oo

Data masking
Visualizzazione
Analytics in streaming
Analytics
Apprendimento automatico

Fase 4: rendere utilizzabili le informazioni acquisite


Sviluppare dashboard
Automatizzare i processi per la consegna dei dati
Predisporre un processo di feedback

Implementazione

Utilizzare liste di controllo, principi e linee


guida del presente manuale per
implementare il potenziale dei Big Data in
azienda. Indipendentemente dalla
dimensione del progetto, per ora, siamo
sicuri che molti clienti siano equipaggiati
al meglio per affrontare le molteplici sfide
legate a questo progetto.
Per quanto riguarda le risorse, rimanere
strategici e conservare una particolare
attenzione per lo sviluppo di processi e
competenze, in modo che siano
trasferibili, scalabili e in continuo
miglioramento. Se l'obiettivo rimane a
lungo termine durante questo progetto,
l'azienda otterr a lungo andare analisi
migliori e decisioni pi informate che
durano nel tempo.

63 | Informatica The Big Big Data Workbook

Per vari motivi, il primo progetto Big Data


non si dimentica mai. Dagli errori relativi
alla creazione del team, si prepara un
percorso di valore strategico immenso per
l'azienda.
Navigando ed evitando le molte insidie
discusse e mantenendo un forte impegno
nei confronti della visione per questo
progetto, possibile modificare le
modalit operative dell'azienda.
Sar un grande cambiamento.

Fasi successive
Pronto ad applicare quanto appreso?

Se sei uno sviluppatore Informatica, puoi


essere anche uno sviluppatore Hadoop.
Le nostre versioni trial, i connettori e i
servizi sui Big Data ti indirizzeranno nella
giusta direzione.

64 | Informatica The Big Big Data Workbook

Informazioni su
Informatica
Aiutiamo le aziende a gestire i dati, in modo da
sfruttarli per ottenere un valore di business misurabile.
Inoltre, aiutiamo alcune delle aziende pi grandi al
mondo a destreggiarsi tra gli errori di gestione dei dati
pi comuni e avere successo con progetti Big Data
scalabili e ripetibili.
Parliamone insieme.

IN18-1014-2730