Esplora E-book
Categorie
Esplora Audiolibri
Categorie
Esplora Riviste
Categorie
Esplora Documenti
Categorie
Volume
Velocità
Varietà
Variabilità
Veracità
Visualizzazione
Valore
VOLUME
Data set molto grandi difficili da gestire e mantenere.
Quanti dati ci sono nel mondo?
160 Exabytes nel 2006 (1EB = 1018B)
4.5 Zettabytes nel 2013 (1ZB = 1021B)
1 ZB = una pila di hard disk da 1TB alta 25,400 km
Quanti dati produciamo al giorno?
2.5 EB = 2.5 106 TB
8 TB, Twitter
50 TB, Facebook
90% dei dati sono stati generati negli ultimi 2 anni
VOLUME
VARIETÀ
Sì:
Gli algoritmi funzionano meglio.
Maggiore tolleranza agli errori.
Ma:
Servono le domande giuste!
PIÙ DATI = PIÙ INTELLIGENZA?
Google Translate è un servizio web di traduzione
automatica.
Basato su un modello di apprendimento
supervisionato addestrato con coppie
<testo, traduzione> continuamente arricchito.
Il Web è pieno di frammenti di testo tradotti.
Più ne usiamo per addestrare il modello e più
sarà accurato.
Questo approccio ha soppiantato l’utilizzo di
complessi insiemi di regole/eccezioni uniti a
dizionari.
COME SI USANO I BIG DATA?
IL PROCESSO DEI BIG DATA
Acquisition
Decision Extraction
Interpretation Integration
Analysis
IL PROCESSO DEI BIG DATA
Acquisition
Decision Extraction
Interpretation Integration
Analysis
ACQUISIZIONE
Operazioni su dati grezzi (non processati):
Selezione
Filtraggio
Generazione di metadati
…
IL PROCESSO DEI BIG DATA
Acquisition
Decision Extraction
Interpretation Integration
Analysis
ESTRAZIONE
Decision Extraction
Interpretation Integration
Analysis
INTEGRAZIONE
Decision Extraction
Interpretation Integration
Analysis
ANALISI
Decision Extraction
Interpretation Integration
Analysis
INTERPRETAZIONE
Richiede:
Conoscenza del dominio applicativo
Identificazione di pattern ricorrenti (visualizzazione,
metodi statistici, machine learning, pattern matching)
…
IL PROCESSO DEI BIG DATA
Acquisition
Decision Extraction
Interpretation Integration
Analysis
DECISIONE
Richiede:
Competenze manageriali e/o scientifiche
…
DATA GOVERNANCE
SMP:
Tecnologia matura.
Tecnologia costosa (costo non scala
linearmente con le risorse).
Consumo di energia anche in stato di riposo.
A volte semplicemente non basta!
SCALABILITÀ ORIZZONTALE
Anatomia di un cluster:
Insieme di computer «low-end» montati su dei rack
interconnessi tramite switch Ethernet.
Switch a livello di rack (Gbps) che interconnettono i vari
rack.
Switch di secondo livello che interconnettono più cluster
insieme (fino a migliaia di computer).
ANATOMIA DI UN CLUSTER
CLUSTER @ GOOGLE
https://www.google.com/about/datacenters
IL MODELLO GOOGLE
Divide Work
Combine Results
DIVIDE ET IMPERA