Sei sulla pagina 1di 20

10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

COME SI DIVENTA DATA SCIENTIST COSA SONO I BIG DATA CERCA …

RICERCHE E RAPPORTI 

Direttore Responsabile: Mauro Bellini  @mbellini3  Linkedin

BIG DATA  DATA SCIENCE BUSINESS INTELLIGENCE DATA ANALYTICS

SICUREZZA E PRIVACY

DATA SCIENCE NEWS  [ 4 ottobre 2018 ] Da city a smart city: 10 OTTOBRE 2018

HOME  DATA ANALYTICS  BUSINESS ANALYTICS 


Software, tool, linguaggi e risorse per Big Data e Data Science

Software, tool, linguaggi e


risorse per Big Data e Data Centro Risorse Data S

Science Ricerca originale, eventi, webinar


interviste e una guida ai tools pe
[...]
 12 gennaio 2018  Business Analytics, Data Mart, Data Scientist,
Data Warehouse, Hadoop, Linguaggi, MapReduce, Report e
Dashboard, Software Big Data, Software Business Intelligence,
Software Data Science

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 1/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

Luca Flecchia*

Per svolgere la professione di Data Scientist è necessario disporre


prima di tutto di una chiara visione degli strumenti di lavoro più di usi
o delle piattaforme più adeguate per ogni obiettivo.

Con questo servizio si avvia un percorso di conoscenza delle


ARTICOLI CORRELATI
piattaforme e dei tools più adeguati da adottare in ogni possibile
circostanza. Il servizio viene costantemente aggiornato con nuove
informazioni e indicazioni sui servizi trattati e con l’inserimento di Big Data e Data Science verso
nuovi servizi. una Data Driven…
3rdPLACE: Big Data in presa
diretta con il business…
Indice degli argomenti 
Pietropaoli, IBM: open e privo di
1. Rassegna degli strumenti di lavoro
preconcetti,…
2. Linguaggi di programmazione e framework
Come si diventa Data Scientist:
2.1. Python
2.2. R skill, scuole,…
3. IDE – Integrated Development Environment Big Data as a Service e Real
3.1. R Studio Time Analytics nel…
3.2. Apache Spark Data Scientist: white paper,
3.3. Scala survey, evento,…
3.4. Hadoop Fare business con la Data
3.5. Jupyter Notebook Monetization: white paper,…
3.6. MySQL Workbench
Dai viaggi al retail, così i big data
3.7. SQL Server Management Studio SSMS
abilitano la…
3.8. Toad
Big data e Analytics, crescono le
3.9. PyCharm
3.10. Spyder
opportunità per il…
3.11. GIT CDO, Chief Data O cer: un
4. Piattaforme Big Data ruolo sempre più…
4.1. Hortonworks
4.2. Cloudera
5. Data Wrangling, Data Mining e Machine Learning
5.1. Trifacta
5.2. KNIME
5.3. H2O.ai

5.4. Weka
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 2/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

5.5. IBM Watson


5.6. Data Science Experience IBM
6. Data visualization
6.1. D3
6.2. QLIK
6.3. Power BI
6.4. Tableau
6.5. Zeppelin
6.6. Ploty
7. Open Data
7.1. Alcune fonti Open Data

Rassegna degli strumenti di lavoro

Per maggiori approfondimenti sulle opportunità della Data


Science e sul lavoro del Data Scientist proponiamo la lettura di
questo servizio: Al lavoro con i data scientist: una guida per
cogliere le opportunità dei big data e delle altre risorse utili:
white paper, survey, eventi e interviste

Linguaggi di programmazione e
framework
Python

Python è un linguaggio di programmazione che nasce nel 1991


grazie al programmatore olandese Guido van Rossum, che lo battezza
celebrando la commedia Monty Python’s Flying Circus dei Monty
Python, uno dei programmi più seguiti negli anni 70 sulla BBC. Il
linguaggio Python ha avuto un importante seguito e ha raccolto un
ampio consenso presso la comunità degli sviluppatori e oggi il suo
sviluppo è gestito dalla Python Software Foundation nella forma
di organizzazione no-pro t.

Python è un linguaggio di programmazione orientato agli oggetti e


utilizzabile per molti tipi di sviluppo software. In particolare Python
supporta diversi paradigmi di programmazione, a partire
dall’object-oriented, dispone di una libreria built-in ricca, una
gestione automatica della memoria e importanti “costrutti” per la
gestione delle eccezioni che contribuiscono a fare di Python uno
dei linguaggi più ricchi e comodi da usare.

Particolarmente adatto per implementare applicazioni distribuite,


Python è utilizzato per scripting, computazione numerica e
system testing. I campi di utilizzo di questo linguaggio sono negli 
ambiti del Web development, delle funzioni di accesso al database,

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 3/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

delle GUI desktop, della formazione scolastica, della


programmazione di rete.

Python gira su Windows, Linux/Unix, Mac OS X, OS/2, è stato portato


sulle macchine virtuali Java e .NET ed è distribuito con licenza Open-
Source approvata dalla OSI. Il suo utilizzo è gratuito ed è libero anche
per prodotti commerciali.

Python è stato concepito per essere un linguaggio intuitivo,


comodo, semplice da usare e imparare. E’ stato realizzato con una
sintassi pulita e leggera così come i suoi costrutti. Python è anche
un linguaggio di tipo “pseudocompilato”: un interprete si occupa di
analizzare il codice sorgente (semplici le testuali con estensione
.py) e, una volta veri cata la sintassi, la può eseguire
immediatamente. In ne, Python è un software open source: non
solo a livello di download dell’interprete per la propria piattaforma,
ma anche come utilizzo nelle applicazioni in forma completamente
gratuita e può inoltre essere liberamente modi cato e ridistribuito,
nel rispetto delle regole de nite dalla licenza open-source.

Negli ultimi anni Python ha guadagnato enormi consensi anche


come linguaggio di programmazione per analisi di Data Science. Ci
sono diverse librerie utilizzate nell’ambito della Data Science, le più
famose sono NumPy, SciPy, Pandas, Matplotlib e Plotly.

Python è particolarmente usato anche per la creazione di modelli


di Deep Learning, specialmente tramite l’utilizzo delle librerie
Keras, Tensor ow e Theano.

Per maggiori informazioni su Python

R è un linguaggio di programmazione e un ambiente di sviluppo


speci co per l’analisi statistica dei dati. Si tratta di un software
libero che viene distribuito con la licenza GNU GPL, ed è
disponibile per diversi sistemi operativi (ad esempio Unix,
GNU/Linux, macOS, Microsoft Windows). R è un linguaggio che
viene utilizzato da sviluppatori e da Data Scientist per il calcolo
statistico. Grazie alla crescente quantità di dati raccolti da sistemi
software e grazie alla necessità di analizzare grandi quantità di dati,
R è oggi una delle tecnologie più rapida crescita nella data science. 
Il linguaggio di R è parte di un progetto GNU ed è open source. R
deriva più precisamente da un linguaggio denominato S (S inteso
come “statistiche”) sviluppato nei Bell Laboratories negli anni
settanta. Il linguaggio orientato agli oggetti è una suite integrata di
funzioni software per la manipolazione dei dati, il calcolo e la

visualizzazione gra ca che includono un e cace sistema di
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 4/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

gestione e storage dei dati, una suite di operatori per calcoli su


array, in particolare matrici, una raccolta ampia, coerente e
integrata di strumenti intermedi per la Data Analysis, oltre a
strutture gra che per l’analisi dei dati e la visualizzazione su
schermo o hardcopy e un linguaggio di programmazione semplice
ed e cace che include condizionali, cicli, funzioni ricorsive de nite
dall’utente e strumenti di input e output.

R, tramite l’enorme numero di librerie statistico-matematiche


disponibili, è stato da subito uno dei linguaggi più apprezzati ed
utilizzati in ambito Data Science. Ci sono tuttavia alcuni punti di
attenzione, come la gestione della memoria e la mancanza della
parallelizzazione automatica, che lo rendono più adatto allo
sviluppo di prototipi che alla realizzazione di modelli da rilasciare in
produzione.

Esiste anche una versione commerciale di R, Microsoft R Server,


che supera i tradizionali limiti della versione open source di R.

Per maggiori informazioni su R 

IDE – Integrated Development


Environment
R Studio

RStudio è l’Integrated Development Environment (IDE) gratuito


e open source di R: un linguaggio di programmazione per il calcolo
statistico e la gra ca. RStudio è disponibile in edizioni commerciali
e open source e viene eseguito sul desktop (Windows, macOS e
Linux) o in un browser connesso a RStudio Server o RStudio Server
Pro (Debian, Ubuntu, Red Hat Linux, CentOS, openSUSE e SLES).
RStudio è scritto nel linguaggio di programmazione C++ e utilizza il
framework Qt per la sua interfaccia utente gra ca.

Per maggiori informazioni su R Studio

Apache Spark

Apache Spark è un framework di tipo open source per la gestione


del calcolo distribuito. Spark è stato sviluppato dall’AMPlab
dell’Università della California e successivamente donato alla
Apache Software Foundation. A di erenza del paradigma
MapReduce di Hadoop, l’ “in-memory” multilivello di Spark
consente nuove possibilità prestazionali in determinati ambiti
applicativi, come ad esempio nel cognitive. Spark è studiato

appositamente per algoritmi di apprendimento automatico e
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 5/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

richiede un gestore di cluster e un sistema di archiviazione


distribuita. Per il primo supporta nativamente un cluster Spark ma
anche Hadoop YARN, o Apache Mesos; per il secondo, Spark può
interfacciarsi con Hadoop Distributed File System (HDFS), Apache
Cassandra, OpenStack Swift, Amazon S3, Apache Kudu, ma anche
soluzioni personalizzabili. Spark supporta anche soluzioni pseudo-
distribuite in modalità locale, usate di solito per lo sviluppo od a
scopo di test.

Per maggiori informazioni su Apache Spark

Scala

Scala è un linguaggio di programmazione a oggetti nato nel 2001


grazie all’iniziativa di Martin Odersky e della EPFL, l’Ecole Polytechnique
Federale de Lausanne ed è poi arrivato “sul mercato” nel 2004 su
piattaforma Java e .NET (quest’ultima oggi però non più supportata).

Scala sta per Scalable Language ed è un linguaggio di


programmazione di tipo general-purpose multi-paradigma studiato
per integrare le caratteristiche e le funzionalità dei linguaggi
orientati agli oggetti e dei linguaggi funzionali. La compilazione
di codice sorgente Scala produce Java bytecode per l’esecuzione su
una JVM. Scala è stato studiato per interoperare con la piattaforma
Java 2 Runtime Environment (JRE) rendendo agevole l’integrazione
con le applicazioni e i componenti Java. Scala utilizza lo stesso
modello di compilazione (compilazione separata, caricamento delle
classi dinamiche) utilizzato da Java permettendo così l’accesso a
molte librerie sviluppate in questo ambiente. Trattandosi di un
linguaggio orientato agli oggetti, ogni elemento del linguaggio è
trattato come un oggetto, inclusi numeri e funzioni.

Scala è anche un linguaggio funzionale: ogni funzione


rappresenta un valore e fornisce un linguaggio molto diretto anche
per de nire funzioni anonime (dichiarate e usate senza essere
legate ad un nome). Scala ha un supporto nativo per il pattern
matching che permette di potenziare l’elaborazione di dati XML
con il supporto di espressioni regolari. Questa caratteristica unita
con la possibilità di de nire delle list comprehension, rende
questo linguaggio adatto allo sviluppo di applicazioni di tipo web
service.

Per maggiori informazioni su Scala

Hadoop

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 6/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

Hadoop è prima di tutto un framework di strumenti per la


archiviazione e la elaborazione di grandi quantità di dati.
Hadoop serve per gestire applicazioni di Big Data e si presenta
nella forma di un set di software Open Source distribuito sotto la
licenza Apache Hadoop Open Source. Hadoop è da utilizzare e
vedere come un software di infrastruttura per la gestione e
l’elaborazione di grandi quantità di dati ed è un progetto che fa
riferimento a due grandi temi: l’archiviazione e la elaborazione di
grandi quantità di dati (con il presupposto legato all’analisi
corretta della natura dei dati per poterli gestire al meglio).

A livello di archiviazione Hadoop è una infrastruttura di cluster per


il le system nella forma di HDFS (Hadoop Distributed File
System). Se ad esempio si deve gestire un le le cui dimensioni
superano quelle della memoria che si ha a disposizione Hadoop
permette di archiviarlo “distribuendolo” su più server o su più nodi.
Hadoop permette poi di gestire le funzioni di processing su questi
dati distribuiti attraverso la funzione MapReduce che cambia le
logiche di elaborazione dei dati, spostando la capacità applicativa
del software a livello di dati con importanti vantaggi in termini di
miglioramento delle prestazioni. MapReduce permette cioè di
distribuire la capacità elaborativa così come HDFS permette di
distribuire la capacità di archiviazione su diversi nodi. Con HDFS e
MapReduce si può passare dalla elaborazione di tipo seriale a una
elaborazione di tipo parallelo. Hadoop può inoltre gestire sia le
strutturati sia le destrutturati.

Con Hadoop le applicazioni possono lavorare con migliaia di nodi e


petabyte di dati e a livello di capacità computazionale Hadoop è
stato ispirato alla logica dell’algoritmo MapReduce di Google ed è
diventato oggi un progetto Apache di alto livello costruito e usato
da una comunità globale di contributori, che usano il linguaggio di
programmazione Java. Hadoop o re una grande quantità di
librerie di semplice utilizzo per Hadoop Map Reduce e per Hadoop
Distributed File System (HDFS).

La versione 3.0 di Hadoop è stata rilasciata il 13/12/2017.

Per maggiori informazioni su Hadoop

Jupyter Notebook

Jupyter Notebook è un’applicazione web open source che permette


di creare e condividere documenti che contengono live code,
equazioni, visualizzazioni e testo narrativo. Si tratta di uno
strumento utilizzato per una serie di attività come data cleaning e

trasformazione dei dati, simulazione numerica, modellazione

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 7/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

statistica, data visualization, machine learning, e altro ancora.  A


livello di notebook lo strumento supporta oltre 40 linguaggi di
programmazione, tra i quali citiamo Python, R, Julia e Scala.

Dal punto di vista operativo i notebook possono essere condivisi


con altri utenti tramite e-mail, Dropbox, GitHub e Jupyter Notebook
Viewer.  Inoltre il codice può produrre un output ricco e interattivo
a livello di HTML, di immagini, ma anche di video, LaTeX e tipi MIME
personalizzati. Jupyter Notebook permette di sfruttare strumenti di
Big Data, come Apache Spark, Python, R e Scala ed esplorare questi
stessi dati con panda, scikit-learn, ggplot2, TensorFlow.

Per maggiori informazioni su Jupiter Notebook

MySQL Workbench

MySQL nasce grazie alla società svedese MySQL AB creatrice del


codice sorgente oggi  disponibile tramite distribuzione con licenza
GNU GPL e con licenza commerciale. La storia di MySQL cambia in
modo signi cativo nel 2008 quando MySQL viene acquisita da Sun
Microsystem per un miliardo di dollari. Una acquiszione che a sua
volta cambia la prospettiva già nell’anno successivo quando la
stessa Sun Microsystem viene acquisita da Oracle con una
operazione che si chiude poi nel 2010. MySQL si appoggia a
MySQL Workbench che si presenta come uno strumento visivo
uni cato per database destinati a database architect, sviluppatori e
DBA. MySQL Workbench consente nello speci co la modellazione
dei dati, lo sviluppo SQL e fornisce un set completo di strumenti
amministrativi per la con gurazione del server, l’amministrazione
degli utenti e molto altro ancora. MySQL Workbench è disponibile
per piattaforme Windows, Linux e Mac OSX. MySQL permette a un
DBA, a uno sviluppatore o un architetto di dati di progettare
visivamente, modellare, generare e gestire database. Lo strumento
comprende tutto ciò di cui ha bisogno un modellatore di dati per la
creazione di modelli ER (entity-relationship o entità-associazione)
complessi, per la progettazione di inversioni oltre a funzionalità
chiave per l’esecuzione di compiti di cili di gestione e
documentazione delle modi che che normalmente richiedono
molto tempo e impegno.

MySQL Workbench o re strumenti visivi per la creazione,


l’esecuzione e l’ottimizzazione delle query SQL. L’editor SQL
fornisce l’evidenziazione della sintassi dei colori, il completamento
automatico, il riutilizzo degli snippet SQL e la cronologia di

esecuzione di SQL. Il Database Connections Panel consente agli

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 8/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

sviluppatori di gestire facilmente connessioni di database


standard, tra cui MySQL Fabric. Il Visualizzatore oggetti fornisce
inoltre l’accesso istantaneo allo schema e agli oggetti del database.
MySQL Workbench fornisce una console gra ca per
amministrare facilmente gli ambienti MySQL e ottenere una
migliore visibilità nei database. Gli sviluppatori e gli amministratori
di database possono utilizzare gli strumenti visivi per con gurare
server, amministrare gli utenti, eseguire backup e ripristino,
ispezionare i dati di controllo e visualizzare lo stato del database.

Per maggiori informazioni su MySQL Workbench

SQL Server Management Studio SSMS

SQL Server Management Studio (SSMS) è un’applicazione


software lanciata per la prima volta con Microsoft SQL Server 2005
che viene utilizzata per la con gurazione, la gestione e
l’amministrazione di tutti i componenti di Microsoft SQL Server. Lo
strumento include sia editor di script che strumenti gra ci che
funzionano con oggetti e funzionalità del server.

SSMS si presenta come un ambiente integrato per la gestione di


qualsiasi infrastruttura SQL, da SQL Server a database SQL. SSMS
fornisce inoltre strumenti per con gurare, monitorare e
amministrare istanze di SQL, può essere utilizzato per distribuire,
monitorare e aggiornare i componenti del livello dati utilizzati dalle
applicazioni, nonché per creare query e script; eseguire query,
progettare e gestire database e data warehouse, ovunque si
trovino (sia a livello di computing locale sia a livello cloud).

Toad

Toad Software è un set di strumenti di gestione database di Quest


che gli sviluppatori di database, gli amministratori di database e gli
analisti di dati utilizzano per gestire database relazionali e non
relazionali utilizzando SQL.

Toad funziona attraverso i database più di usi (compresi RDBMS


e NoSQL), supporta una ricca serie di ambienti e basi di dati tra cui
Amazon Redshift, Amazon SimpleDB, Apache Hbase, Google
Analytics, IBM DB2, IBM Informix Dynamic, Microsoft Excel,
Microsoft SQL Server, Microsoft SQL Server Analysis Services,
Microsoft Windows Azure SQL Database, MongoDB, MySQL, Oracle,
PostgreSQL, salesforce, SAP Business Objects, SAP Sybase ASE

Per maggiori informazioni su Toad


https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 9/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

PyCharm

PyCharm è un Integrated Development Environment (IDE)


utilizzato nella programmazione di computer, in particolare per il
linguaggio Python. È sviluppato dalla società JetBrains e fornisce
l’analisi del codice, un debugger gra co, un tester unità integrato,
l’integrazione con i sistemi di controllo versione (VCSes) con
supporto allo sviluppo web su Django.

PyCharm è una cross-platform con versioni Windows, macOS e


Linux. La Community Edition è rilasciata con la licenza Apache; la
Professional Edition, invece, è rilasciata sotto una licenza
proprietaria. Oltre a Python, PyCharm fornisce supporto per vari
framework di sviluppo web Python, linguaggi template speci ci,
JavaScript, Co eeScript, TypeScript, HTML/CSS, AngularJS, Node.js e
altro.

PyCharm si integra inoltre con IPython Notebook, ha una console


Python interattiva e supporta Anaconda, oltre a molteplici pacchetti
scienti ci tra cui Matplotlib e NumPy.

Per maggiori informazioni su PyCharm

Spyder

Spyder (in precedenza Pydee) è un ambiente di sviluppo integrato


(IDE) multipiattaforma open source per la programmazione
scienti ca in linguaggio Python. Spyder integra NumP, SciPy,
Matplotlib e IPython, così come altri software open source. È
rilasciato sotto la licenza MIT. Spyder è estensibile con una serie di
plugin e include il supporto per strumenti interattivi, per l’ispezione
dei dati e per l’integrazione di strumenti di sicurezza della qualità
del codice speci ci di Python e strumenti di introspezione, come
Py akes, Pylint e Rope. Disponibile in modalità multipiattaforma
tramite Anaconda, su Windows con WinPython e Python (x, y), su
macOS tramite MacPorts e sulle principali distribuzioni Linux come
Arch Linux, Debian, Fedora, Gentoo Linux, openSUSE e Ubuntu,
Spyder fa uso di Qt attraverso il PyQt o PySide.

GIT

Git è un software di controllo gestito con interfaccia a riga di


comando, creato nel 2005. Git supporta diramazione e fusione
(branching and merging) e comprende strumenti speci ci per
visualizzare e navigare una cronologia di sviluppo non lineare. Git
presenta due strutture dati, un indice modi cabile che mantiene le 
informazioni sul contenuto della prossima revisione, e un database

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 10/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

di oggetti che contiene quattro tipi di oggetti: un oggetto blob, un


oggetto albero, un oggetto commit (revisione), un oggetto tag
(etichetta). Ogni oggetto è identi cato da un codice hash SHA-1 del
suo contenuto.

Per ulteriori informazioni su GIT

Piattaforme Big Data


Hortonworks

Hortonworks è un’azienda statunitense di software fondata nel


2011 focalizzata sullo sviluppo e il supporto di Apache Hadoop, il
framework che permette l’archiviazione e la elaborazione
distribuita di grandi insiemi di dati su gruppi di computer (Big
Data).

Hortonworks è specializzata nella creazione, nella distribuzione e


nel supporto di piattaforme orientate a Apache Hadoop, NiFi e
Spark. La società dispone di piattaforme dati collegate che
permettono alle applicazioni basate sui dati di utilizzare la
conoscenza di tutti i dati in tutte le condizioni. La piattaforma
Hortonworks Data Platform HDP è realizzata per permettere la
distribuzione a livello enterprise di soluzioni Apache Hadoop
basate su archietetture centralizzate di tipo Yarn. Le basi di
HPD Hortonworks sono rappresentate da YARN e da HDFS
(Hadoop Distributed File System) per la gestione dei dati a riposo.
HDFS permette la gestione dell’archiviazione scalabile, per i big
data lake, YARN rappresenta l’architettura centralizzata capace di
elaborare contemporaneamente più carichi di lavoro e di fornire
sia la gestione delle risorse e dell’architettura modulare che
l’attivazione di una vasta gamma di metodi di accesso ai dati.

Per maggiori informazioni su Hortonworks

Cloudera

Cloudera è una compagnia fondata nel 2008 da ingegneri con un


background in grandi IT e digital company come Google, Yahoo!,
Oracle e Facebook. Le basi della società sono legate alla convinzione
del ruolo sempre più importante degli open standard e dell’open
source. Nell’ambito dei Big Data Cloudera ha realizzato Cloudera
Data Science Workbench, una soluzione di Machine learning che
unisce analytics e team working. Cloudera Data Science Workbench
permette di velocizzare la progettualità Data Science nelle imprese
in modalità self-service. In particolare Cloudera Data Science 
Workbench permette di lavorare passando dalla fase di

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 11/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

sperimentazione a quella di produzione utilizzando R, Python,


Spark. Per i Data Scientist in particolare Cloudera fornisce accesso
diretto ai dati con Hadoop clusters grazie a Apache Spark e
Apache Impala. Nello stesso tempo Cloudera lavora a livello di
collaboration e di strumenti di lavoro e di coinvolgimento dei team.
Cloudera è attivabile sia in modalità on-premise sia in cloud.

Per maggiori informazioni su Big Data Cloudera

Data Wrangling, Data Mining e


Machine Learning
Trifacta

Trifacta è una piattaforma per esplorare e preparare i dati per


l’analisi. Trifacta funziona con cloud e piattaforme di dati locali,
è progettato per consentire agli analisti di esplorare, trasformare e
arricchire dati grezzi ed eterogenei in formati puliti e strutturati per
l’analisi in ottica self-service. L’approccio di Trifacta si concentra
sull’utilizzo delle più recenti tecniche di machine learning, di
visualizzazione dei dati e di interazione uomo-computer.

Per maggiori informazioni su Trifacta

KNIME

KNIME o Konstanz Information Miner è una piattaforma open


source con licenza GPLv3 di analisi dati, reportistica e integrazione.
Ha al suo interno componenti di machine learning e data mining.
La sua interfaccia gra ca permette di assemblare i nodi per il pre-
processing, per la modellazione, l’analisi e la visualizzazione dei
dati. Fin dal 2006 viene usato in particolare in in ambito sanitario e
Pharma.

Per maggiori informazioni su KNIME

H2O.ai

H2O è un software open-source per l’analisi Big Data. È prodotto


dalla società H2O.ai e consente agli utenti di gestire migliaia di
potenziali modelli per la individuazione di pattern. Il software
H2O può essere utilizzato con R, Python e con altri ambienti. Viene
utilizzato per esplorare e analizzare i set di dati contenuti nei
sistemi di cloud computing e nel le system distribuito Apache

Hadoop, nonché nei sistemi operativi convenzionali Linux, macOS
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 12/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

e Microsoft Windows. Il software H2O è scritto in Java, Python e R.


La sua interfaccia utente gra ca è compatibile con quattro
browser: Chrome, Safari, Firefox e Internet Explorer.

Sono inoltre disponibili librerie H2O per R e Python.

Per maggiori informazioni su H2O.ai 

Weka

Weka è un software open source rilasciato sotto GNU General


Public License ed è costituito da una raccolta di algoritmi di
apprendimento automatico per attività di data mining. Gli
algoritmi possono essere applicati direttamente a un set di dati o
richiamati dal proprio codice Java. Weka contiene strumenti per la
preelaborazione dei dati, la classi cazione, la regressione, il
clustering, le regole di associazione e la visualizzazione.

Per maggiori informazioni su Weka

IBM Watson

Watson è un sistema di intelligenza arti ciale che sempli ca al


massimo livello il rapporto uomo-macchina. Watson è infatti
concepito anche per rispondere a domande (Question answering
computing system) espresse in un linguaggio naturale, ed è
sviluppato all’interno del progetto DeepQA di IBM. Watson si
presenta come un’applicazione avanzata di elaborazione del
linguaggio naturale, di information retrieval, e di rappresentazione
della conoscenza unita a forme di cognitive learning e a tecnologie
di apprendimento automatico nel campo dell’“open domain
question answering”. Una delle basi si trova, come detto, nel
DeepQA, la tecnologia IBM per la formulazione di ipotesi, la
raccolta massiva di controprove, di analisi e di scoring (con la
massima capacità di raggiungere un obiettivo in termini di sviluppo
della conoscenza).

Watson utilizza il software della IBM DeepQA, e il framework


Apache UIMA. Il sistema è stato programmato in diversi linguaggi,
come Java, C++ e Prolog, e gira su un sistema SUSE Linux
Enterprise Server 11 utilizzando Apache Hadoop come framework
per il calcolo distribuito. Il sistema è ottimizzato per gestire il carico
di lavoro richiesto per generare ipotesi, riconoscere la massima
evidenza e analizzare i dati, integrando processori POWER7
estremamente parallelizzati. Watson è composto da una griglia di
server IBM Power 750, ciascuno dei quali è equipaggiato con un

processore POWER7 ad otto core da 3.5 GHz, con quattro threads

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 13/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

per core. In totale, il sistema ha 2880 thread di processori POWER7,


e 16 terabytes di RAM. Dall’assistenza sanitaria, all’istruzione, alla
nanza, dai trasporti  all’energia, Watson è adatto a una serie di
ambiti applicativi nella Data Driven Economy e attinge a una
conoscenza approfondita del dominio per permettere agli
operatori di assumere decisioni più sempre più informate sempre
più velocemente.

Per maggiori informazioni su IBM Watson

Data Science Experience IBM

DSX (Data Science Experience) è un ambiente di data science


interattivo e collaborativo, con strumenti per rilevare e
condividere insight, quali ad esempio notebook Jupyter con
Python, R e Scala. Si può utilizzare su IBM Cloud, su un cloud
protetto (Locale) o sul proprio desktop. In grande sintesi le funzioni
di DSX permettono di eseguire attività in un unico posto, senza mai
uscire dal sito, con la possibilità di connettere ad oltre 30 tipi di
archivi dati, con accesso alla Watson Data Platform, e con la
possibilità di usufruire del vantaggio che deriva dalla condivisione
di dataset, notebook, articoli e altre opzioni.

Per maggiori informazioni su Data Science Experience IBM e su


IBM Analytics

Data visualization
D3

D3.js (o solo D3 per Data-Driven Documents) è una libreria


JavaScript per creare visualizzazioni dinamiche ed interattive
partendo da dati organizzati, visibili attraverso un comune
browser. D3.js utilizza gli standard web: SVG, HTML5, e CSS. La
libreria JavaScript D3, incorporata in una pagina web HTML, utilizza
funzioni JavaScript prede nite per selezionare elementi del DOM,
creare elementi SVG, aggiungere uno stile gra co, oppure
transizioni, e etti di movimento e/o tooltip. Questi oggetti posso
essere largamente personalizzati utilizzando lo standard web dei
“fogli di stile a cascata” (CSS). In questo modo grandi collezioni di
dati possono essere facilmente convertiti in oggetti SVG usando
semplici funzioni di D3 e così generare ricche rappresentazioni
gra che di numeri, testi, mappe e diagrammi. I dati utilizzati
possono essere in diversi formati, il più comune è il JSON, valori
separati da virgola CSV o geoJSON, ma, se necessario, di possono
scrivere funzioni JavaScript apposta per leggere dati in altri formati. 

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 14/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

Per maggiori informazioni su D3 

QLIK

Qlik è una piattaforma di soluzioni dedicati alla Data Visualization


in modalità self-service, di applicazioni per le analisi, per le analisi
integrate e per la reportistica. Qlik permette di visualizzare ed
esplorare le informazioni, per interpretare i fenomeni e per
disporre di visioni che consentono di prendere decisioni più
consapevoli e più velocemente. Qlik integra la Business Intelligence
(BI) partendo dalla convinzione che per ottimizzare la Business
Intelligence è prima di tutto necessario mettere a frutto
l’intelligenza partendo dal concetto che i dati non sono altro che
una fonte e che gli strumenti e le tecnologie di analisi sono e caci
in ragione dei soggetti che li utilizzano. Partono da questa
convinzione le soluzioni per la Visual Analytics che comprendono
tre soluzioni: Qlik Sense, la piattaforma di Visual Analytics di ultima
generazione, QlikView, è la soluzione per analisi guidate e
dashboard e Qlik Cloud è il portfolio di applicazioni SaaS.

Per maggiori informazioni su QLIK

Power BI

Power BI rappresenta una famiglia di strumenti di analisi di dati


per il business in grado di produrre informazioni critiche. Power BI
permette di connettere centinaia di tipologie di dati, sempli cando
la preparazione stessa dei dati e la capacità di dare vita ad analisi
personalizzate. Power BI permette di creare dashboard
personalizzate con la possibilità di dare vita a forme di
visualizzazione personalizzate. Power BI permette di gestire i dati
da qualsiasi origine (sia a livello locale sia dal Cloud) in un’unica
posizione. La piattaforma visualizza dashboard live in tempo
reale con report interattivi e permette di sempli care
l’esplorazione dei dati e delle query in linguaggio naturale con la
possibilità di sottoporre domande e ottenere le risposte sotto
forma di visualizzazioni personalizzabili.

Per maggiori informazioni su Power BI

Tableau

Tableau è una piattaforma di soluzioni per la Data Visualization


basata su tre principi:

la capacità di fondere computer graphics e database 


lavorare sui principi del visual understanding

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 15/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

sviluppare cicli di visual analysis

La loso a della società è racchiusa nella convinzione del ruolo


fondamentale dei fatti e nella capacità di utilizzare i dati per fare la
di erenza. La piattaforma Tableau è costituita da una serie di
strumenti come VizQL, Live Query Engine, In-Memory Data Engine,
Tableau Public e Tableau Mobile.

VizQL è un visual query language che traduce azioni drag-and-drop in


query e ne gestisce la visualizzazione.

Tableau conta su un Data Engine nella forma di un break-through


analytics database progettato per superare le limitazioni dei
database esistenti e i data silos e per fornire un vero supporto a
livello di visual analysis. il Data Engine Tableau permette di
superare la curva tra Big Data e la velocità di analysis.

Per maggiori informazioni su Tableau

Zeppelin

Apache Zeppelin è un notebook web-based che permette di


attuare forme di data-driven analytics interattive e collaborative
con SQL, Scala e altre piattaforme. Zeppelin è basato su un sistema
di plugin e supporta Apache Spark, Python, JDBC, Markdown e
Shell.

Zeppelin è una soluzione Notebook multi-purpose per la Data


Ingestion, la Data Discovery, la Data Analytics e la Data Visualization &
Collaboration.

Per maggiori informazioni su Zeppelin

Ploty

Plotly (Plot.ly) è uno strumento di analisi e visualizzazione dei dati.


Plotly fornisce strumenti gra ci, analitici e statistici online oltre a
librerie gra che scienti che per Python, R, MATLAB , Perl, Julia,
Arduino e REST. Plotly è stato realizzato utilizzando Python e il
framework Django, con un front-end che utilizza JavaScript e la
libreria di visualizzazione D3.js, HTML e CSS.  I server di
collaborazione Ploty (disponibili in cloud o in locale) consentono ai
data scientist di mostrare il proprio lavoro, creare gra ci senza
codi ca e collaborare con analisti aziendali per progettisti, dirigenti
e clienti.

Per maggiori informazioni su Ploty


https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 16/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

Open Data
Con il termine “Open data” si indicano tutti quei dati che sono
liberamente accessibili: che possono essere utilizzati da chiunque
senza restrizioni di copyright, brevetti o altri meccanismi di
controllo, a parte l’obbligo di citare la fonte o mantenere la banca
dati aperta. (Open Data e Open Source: perché Open è meglio)

Gli obiettivi del movimento “Open Data” sono simili a quelli di altri
movimenti “aperti” come Open Source, Open Hardware, Open
Content, Open Government e Open Access. La crescita del
movimento “Open Data” è accompagnata da un aumento dei diritti
di proprietà intellettuale. La loso a alla base dei dati aperti è
ormai consolidata, mentre il termine “Open Data” è più recente e
ha guadagnato popolarità con l’avvento di Internet e World Wide
Web e, in particolare, con il lancio di iniziative governative Open
Data, come Data.gov e Data.gov.uk.

Alcune fonti Open Data

DatiOpen.it

DatiPiemonte.it

I.Stat

DatiCamera.it

Dataverse

Dati.milano.comune.it

Open Data Ministero della Salute

*Luca Flecchia

E’ cresciuto professionalmente nelle principali aziende di


consulenza (KPMG, Capgemini), dove si è occupato di progetti sia di
management consulting che di implementazione di sistemi
informativi. Le sue esperienze variano da analisi di performance di
processi (es. supply chain) alla stesura di analisi funzionali per la
realizzazione di applicazioni custom. Ha sviluppato competenze su
progetti CRM, merchandise nancial planning e analytics, sia in
termini di analytics “tradizionali” (es. dashboard, reporting, data
warehousing) sia di “advanced” analytics. Si occupa attualmente

della gestione della unit di Data Driven Innovation in
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 17/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

Partners4Innovation, dove, tra le altre cose, coniuga le proprie


competenze di analytics con quelle di Business Process
Management (BPM) nell’applicazione delle tecniche di Process
Mining.

Immagine fornita da Shutterstock

Sullo stesso argomento:

3rdPLACE: Big Data in


Big Data e Data Science presa diretta con il
verso una Data Driven… business…

Pietropaoli, IBM: open e Come si diventa Data


privo di preconcetti,… Scientist: skill, scuole,…

Big Data as a Service e Data Scientist: white


Real Time Analytics nel… paper, survey, evento,…

Redazione


Sullo stesso argomento:
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 18/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

3rdPLACE: Big Data in


Big Data e Data Science presa diretta con il
verso una Data Driven… business…

Pietropaoli, IBM: open e Come si diventa Data


privo di preconcetti,… Scientist: skill, scuole,…

Big Data as a Service e Data Scientist: white


Real Time Analytics nel… paper, survey, evento,…

COMMENTA PER PRIMO

Lascia un commento
L'indirizzo email non sarà pubblicato.

Commento

Nome*

E-Mail*

Website


PUBBLICA IL COMMENTO

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 19/20
10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

RSS FEED

AGENDA DIGITALE Indirizzo INFORMATIVA COOKIE


Via Copernico, 38
CORCOM INFORMATIVA PRIVACY
Milano - Italia
CAP 20125 INFORMATIVA
DIGITAL4EXECUTIVE
NEWSLETTER
Contatti
DIGITAL4TRADE
info@digital360.it ISCRIZIONE NEWSLETTER
ECONOMYUP
ABOUT
FORUM PA
CONTATTI
STARTUP BUSINESS
MAPPA
ZEROUNO
ARCHIVIO
UNIVERSITY2BUSINESS
TAGS

CHE COS’È LA BLOCKCHAIN CHE COSA SONO E COME FUNZIONANO LE DLT TUTTE LE FASI DELLA PSD2

GLI AMBITI APPLICATIVI DELL’IOT

Digital360 S.p.A. - Codice scale 08053820968 - P.IVA: 08053820968 - © 2016 DIGITAL 360. ALL RIGHTS RESERVED

https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 20/20

Potrebbero piacerti anche