Software, Tool, Linguaggi e Risorse Per Big Data e Data Science - Big Data 4innovation PDF

10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation
COME SI DIVENTA DATA SCIENTIST COSA SONO I BIG DATA CERCA …
RICERCHE E RAPPORTI 
Direttore Responsabile: Mauro Bellini @mbellini3 Linkedin
BIG DATA  DATA SCIENCE BUSINESS INTELLIGENCE DATA ANALYTICS
SICUREZZA E PRIVACY
DATA SCIENCE NEWS  [ 4 ottobre 2018 ] Da city a smart city: 10 OTTOBRE 2018
HOME  DATA ANALYTICS  BUSINESS ANALYTICS 

Software, tool, linguaggi e risorse per Big Data e Data Science
Software, tool, linguaggi e

risorse per Big Data e Data Centro Risorse Data S
Science Ricerca originale, eventi, webinar

interviste e una guida ai tools pe
[...]
 12 gennaio 2018  Business Analytics, Data Mart, Data Scientist,
Data Warehouse, Hadoop, Linguaggi, MapReduce, Report e
Dashboard, Software Big Data, Software Business Intelligence,
Software Data Science
https://www.bigdata4innovation.it/big-data/software-big-data-big-data/software-tool-linguaggi-risorse-big-data-data-science/ 1/20
Luca Flecchia*
Per svolgere la professione di Data Scientist è necessario disporre

prima di tutto di una chiara visione degli strumenti di lavoro più di usi
o delle piattaforme più adeguate per ogni obiettivo.
Con questo servizio si avvia un percorso di conoscenza delle

ARTICOLI CORRELATI
piattaforme e dei tools più adeguati da adottare in ogni possibile
circostanza. Il servizio viene costantemente aggiornato con nuove
informazioni e indicazioni sui servizi trattati e con l’inserimento di Big Data e Data Science verso
nuovi servizi. una Data Driven…
3rdPLACE: Big Data in presa
diretta con il business…
Indice degli argomenti 
Pietropaoli, IBM: open e privo di
1. Rassegna degli strumenti di lavoro
preconcetti,…
2. Linguaggi di programmazione e framework
Come si diventa Data Scientist:
2.1. Python
2.2. R skill, scuole,…
3. IDE – Integrated Development Environment Big Data as a Service e Real
3.1. R Studio Time Analytics nel…
3.2. Apache Spark Data Scientist: white paper,
3.3. Scala survey, evento,…
3.4. Hadoop Fare business con la Data
3.5. Jupyter Notebook Monetization: white paper,…
3.6. MySQL Workbench
Dai viaggi al retail, così i big data
3.7. SQL Server Management Studio SSMS
abilitano la…
3.8. Toad
Big data e Analytics, crescono le
3.9. PyCharm
3.10. Spyder
opportunità per il…
3.11. GIT CDO, Chief Data O cer: un
4. Piattaforme Big Data ruolo sempre più…
4.1. Hortonworks
4.2. Cloudera
5. Data Wrangling, Data Mining e Machine Learning
5.1. Trifacta
5.2. KNIME
5.3. H2O.ai

5.4. Weka
5.5. IBM Watson

5.6. Data Science Experience IBM
6. Data visualization
6.1. D3
6.2. QLIK
6.3. Power BI
6.4. Tableau
6.5. Zeppelin
6.6. Ploty
7. Open Data
7.1. Alcune fonti Open Data
Rassegna degli strumenti di lavoro
Per maggiori approfondimenti sulle opportunità della Data

Science e sul lavoro del Data Scientist proponiamo la lettura di
questo servizio: Al lavoro con i data scientist: una guida per
cogliere le opportunità dei big data e delle altre risorse utili:
white paper, survey, eventi e interviste
Linguaggi di programmazione e
framework
Python
Python è un linguaggio di programmazione che nasce nel 1991

grazie al programmatore olandese Guido van Rossum, che lo battezza
celebrando la commedia Monty Python’s Flying Circus dei Monty
Python, uno dei programmi più seguiti negli anni 70 sulla BBC. Il
linguaggio Python ha avuto un importante seguito e ha raccolto un
ampio consenso presso la comunità degli sviluppatori e oggi il suo
sviluppo è gestito dalla Python Software Foundation nella forma
di organizzazione no-pro t.
Python è un linguaggio di programmazione orientato agli oggetti e

utilizzabile per molti tipi di sviluppo software. In particolare Python
supporta diversi paradigmi di programmazione, a partire
dall’object-oriented, dispone di una libreria built-in ricca, una
gestione automatica della memoria e importanti “costrutti” per la
gestione delle eccezioni che contribuiscono a fare di Python uno
dei linguaggi più ricchi e comodi da usare.
Particolarmente adatto per implementare applicazioni distribuite,

Python è utilizzato per scripting, computazione numerica e
system testing. I campi di utilizzo di questo linguaggio sono negli 
ambiti del Web development, delle funzioni di accesso al database,
delle GUI desktop, della formazione scolastica, della

programmazione di rete.
Python gira su Windows, Linux/Unix, Mac OS X, OS/2, è stato portato

sulle macchine virtuali Java e .NET ed è distribuito con licenza Open-
Source approvata dalla OSI. Il suo utilizzo è gratuito ed è libero anche
per prodotti commerciali.
Python è stato concepito per essere un linguaggio intuitivo,

comodo, semplice da usare e imparare. E’ stato realizzato con una
sintassi pulita e leggera così come i suoi costrutti. Python è anche
un linguaggio di tipo “pseudocompilato”: un interprete si occupa di
analizzare il codice sorgente (semplici le testuali con estensione
.py) e, una volta veri cata la sintassi, la può eseguire
immediatamente. In ne, Python è un software open source: non
solo a livello di download dell’interprete per la propria piattaforma,
ma anche come utilizzo nelle applicazioni in forma completamente
gratuita e può inoltre essere liberamente modi cato e ridistribuito,
nel rispetto delle regole de nite dalla licenza open-source.
Negli ultimi anni Python ha guadagnato enormi consensi anche

come linguaggio di programmazione per analisi di Data Science. Ci
sono diverse librerie utilizzate nell’ambito della Data Science, le più
famose sono NumPy, SciPy, Pandas, Matplotlib e Plotly.
Python è particolarmente usato anche per la creazione di modelli

di Deep Learning, specialmente tramite l’utilizzo delle librerie
Keras, Tensor ow e Theano.
Per maggiori informazioni su Python
R è un linguaggio di programmazione e un ambiente di sviluppo

speci co per l’analisi statistica dei dati. Si tratta di un software
libero che viene distribuito con la licenza GNU GPL, ed è
disponibile per diversi sistemi operativi (ad esempio Unix,
GNU/Linux, macOS, Microsoft Windows). R è un linguaggio che
viene utilizzato da sviluppatori e da Data Scientist per il calcolo
statistico. Grazie alla crescente quantità di dati raccolti da sistemi
software e grazie alla necessità di analizzare grandi quantità di dati,
R è oggi una delle tecnologie più rapida crescita nella data science.
Il linguaggio di R è parte di un progetto GNU ed è open source. R
deriva più precisamente da un linguaggio denominato S (S inteso
come “statistiche”) sviluppato nei Bell Laboratories negli anni
settanta. Il linguaggio orientato agli oggetti è una suite integrata di
funzioni software per la manipolazione dei dati, il calcolo e la

visualizzazione gra ca che includono un e cace sistema di
gestione e storage dei dati, una suite di operatori per calcoli su

array, in particolare matrici, una raccolta ampia, coerente e
integrata di strumenti intermedi per la Data Analysis, oltre a
strutture gra che per l’analisi dei dati e la visualizzazione su
schermo o hardcopy e un linguaggio di programmazione semplice
ed e cace che include condizionali, cicli, funzioni ricorsive de nite
dall’utente e strumenti di input e output.
R, tramite l’enorme numero di librerie statistico-matematiche

disponibili, è stato da subito uno dei linguaggi più apprezzati ed
utilizzati in ambito Data Science. Ci sono tuttavia alcuni punti di
attenzione, come la gestione della memoria e la mancanza della
parallelizzazione automatica, che lo rendono più adatto allo
sviluppo di prototipi che alla realizzazione di modelli da rilasciare in
produzione.
Esiste anche una versione commerciale di R, Microsoft R Server,

che supera i tradizionali limiti della versione open source di R.
Per maggiori informazioni su R
IDE – Integrated Development

Environment
R Studio
RStudio è l’Integrated Development Environment (IDE) gratuito

e open source di R: un linguaggio di programmazione per il calcolo
statistico e la gra ca. RStudio è disponibile in edizioni commerciali
e open source e viene eseguito sul desktop (Windows, macOS e
Linux) o in un browser connesso a RStudio Server o RStudio Server
Pro (Debian, Ubuntu, Red Hat Linux, CentOS, openSUSE e SLES).
RStudio è scritto nel linguaggio di programmazione C++ e utilizza il
framework Qt per la sua interfaccia utente gra ca.
Per maggiori informazioni su R Studio
Apache Spark
Apache Spark è un framework di tipo open source per la gestione

del calcolo distribuito. Spark è stato sviluppato dall’AMPlab
dell’Università della California e successivamente donato alla
Apache Software Foundation. A di erenza del paradigma
MapReduce di Hadoop, l’ “in-memory” multilivello di Spark
consente nuove possibilità prestazionali in determinati ambiti
applicativi, come ad esempio nel cognitive. Spark è studiato

appositamente per algoritmi di apprendimento automatico e
richiede un gestore di cluster e un sistema di archiviazione

distribuita. Per il primo supporta nativamente un cluster Spark ma
anche Hadoop YARN, o Apache Mesos; per il secondo, Spark può
interfacciarsi con Hadoop Distributed File System (HDFS), Apache
Cassandra, OpenStack Swift, Amazon S3, Apache Kudu, ma anche
soluzioni personalizzabili. Spark supporta anche soluzioni pseudo-
distribuite in modalità locale, usate di solito per lo sviluppo od a
scopo di test.
Per maggiori informazioni su Apache Spark
Scala
Scala è un linguaggio di programmazione a oggetti nato nel 2001

grazie all’iniziativa di Martin Odersky e della EPFL, l’Ecole Polytechnique
Federale de Lausanne ed è poi arrivato “sul mercato” nel 2004 su
piattaforma Java e .NET (quest’ultima oggi però non più supportata).
Scala sta per Scalable Language ed è un linguaggio di

programmazione di tipo general-purpose multi-paradigma studiato
per integrare le caratteristiche e le funzionalità dei linguaggi
orientati agli oggetti e dei linguaggi funzionali. La compilazione
di codice sorgente Scala produce Java bytecode per l’esecuzione su
una JVM. Scala è stato studiato per interoperare con la piattaforma
Java 2 Runtime Environment (JRE) rendendo agevole l’integrazione
con le applicazioni e i componenti Java. Scala utilizza lo stesso
modello di compilazione (compilazione separata, caricamento delle
classi dinamiche) utilizzato da Java permettendo così l’accesso a
molte librerie sviluppate in questo ambiente. Trattandosi di un
linguaggio orientato agli oggetti, ogni elemento del linguaggio è
trattato come un oggetto, inclusi numeri e funzioni.
Scala è anche un linguaggio funzionale: ogni funzione

rappresenta un valore e fornisce un linguaggio molto diretto anche
per de nire funzioni anonime (dichiarate e usate senza essere
legate ad un nome). Scala ha un supporto nativo per il pattern
matching che permette di potenziare l’elaborazione di dati XML
con il supporto di espressioni regolari. Questa caratteristica unita
con la possibilità di de nire delle list comprehension, rende
questo linguaggio adatto allo sviluppo di applicazioni di tipo web
service.
Per maggiori informazioni su Scala
Hadoop

Hadoop è prima di tutto un framework di strumenti per la

archiviazione e la elaborazione di grandi quantità di dati.
Hadoop serve per gestire applicazioni di Big Data e si presenta
nella forma di un set di software Open Source distribuito sotto la
licenza Apache Hadoop Open Source. Hadoop è da utilizzare e
vedere come un software di infrastruttura per la gestione e
l’elaborazione di grandi quantità di dati ed è un progetto che fa
riferimento a due grandi temi: l’archiviazione e la elaborazione di
grandi quantità di dati (con il presupposto legato all’analisi
corretta della natura dei dati per poterli gestire al meglio).
A livello di archiviazione Hadoop è una infrastruttura di cluster per

il le system nella forma di HDFS (Hadoop Distributed File
System). Se ad esempio si deve gestire un le le cui dimensioni
superano quelle della memoria che si ha a disposizione Hadoop
permette di archiviarlo “distribuendolo” su più server o su più nodi.
Hadoop permette poi di gestire le funzioni di processing su questi
dati distribuiti attraverso la funzione MapReduce che cambia le
logiche di elaborazione dei dati, spostando la capacità applicativa
del software a livello di dati con importanti vantaggi in termini di
miglioramento delle prestazioni. MapReduce permette cioè di
distribuire la capacità elaborativa così come HDFS permette di
distribuire la capacità di archiviazione su diversi nodi. Con HDFS e
MapReduce si può passare dalla elaborazione di tipo seriale a una
elaborazione di tipo parallelo. Hadoop può inoltre gestire sia le
strutturati sia le destrutturati.
Con Hadoop le applicazioni possono lavorare con migliaia di nodi e

petabyte di dati e a livello di capacità computazionale Hadoop è
stato ispirato alla logica dell’algoritmo MapReduce di Google ed è
diventato oggi un progetto Apache di alto livello costruito e usato
da una comunità globale di contributori, che usano il linguaggio di
programmazione Java. Hadoop o re una grande quantità di
librerie di semplice utilizzo per Hadoop Map Reduce e per Hadoop
Distributed File System (HDFS).
La versione 3.0 di Hadoop è stata rilasciata il 13/12/2017.
Per maggiori informazioni su Hadoop
Jupyter Notebook
Jupyter Notebook è un’applicazione web open source che permette

di creare e condividere documenti che contengono live code,
equazioni, visualizzazioni e testo narrativo. Si tratta di uno
strumento utilizzato per una serie di attività come data cleaning e

trasformazione dei dati, simulazione numerica, modellazione
statistica, data visualization, machine learning, e altro ancora. A

livello di notebook lo strumento supporta oltre 40 linguaggi di
programmazione, tra i quali citiamo Python, R, Julia e Scala.
Dal punto di vista operativo i notebook possono essere condivisi

con altri utenti tramite e-mail, Dropbox, GitHub e Jupyter Notebook
Viewer. Inoltre il codice può produrre un output ricco e interattivo
a livello di HTML, di immagini, ma anche di video, LaTeX e tipi MIME
personalizzati. Jupyter Notebook permette di sfruttare strumenti di
Big Data, come Apache Spark, Python, R e Scala ed esplorare questi
stessi dati con panda, scikit-learn, ggplot2, TensorFlow.
Per maggiori informazioni su Jupiter Notebook
MySQL Workbench
MySQL nasce grazie alla società svedese MySQL AB creatrice del

codice sorgente oggi disponibile tramite distribuzione con licenza
GNU GPL e con licenza commerciale. La storia di MySQL cambia in
modo signi cativo nel 2008 quando MySQL viene acquisita da Sun
Microsystem per un miliardo di dollari. Una acquiszione che a sua
volta cambia la prospettiva già nell’anno successivo quando la
stessa Sun Microsystem viene acquisita da Oracle con una
operazione che si chiude poi nel 2010. MySQL si appoggia a
MySQL Workbench che si presenta come uno strumento visivo
uni cato per database destinati a database architect, sviluppatori e
DBA. MySQL Workbench consente nello speci co la modellazione
dei dati, lo sviluppo SQL e fornisce un set completo di strumenti
amministrativi per la con gurazione del server, l’amministrazione
degli utenti e molto altro ancora. MySQL Workbench è disponibile
per piattaforme Windows, Linux e Mac OSX. MySQL permette a un
DBA, a uno sviluppatore o un architetto di dati di progettare
visivamente, modellare, generare e gestire database. Lo strumento
comprende tutto ciò di cui ha bisogno un modellatore di dati per la
creazione di modelli ER (entity-relationship o entità-associazione)
complessi, per la progettazione di inversioni oltre a funzionalità
chiave per l’esecuzione di compiti di cili di gestione e
documentazione delle modi che che normalmente richiedono
molto tempo e impegno.
MySQL Workbench o re strumenti visivi per la creazione,

l’esecuzione e l’ottimizzazione delle query SQL. L’editor SQL
fornisce l’evidenziazione della sintassi dei colori, il completamento
automatico, il riutilizzo degli snippet SQL e la cronologia di

esecuzione di SQL. Il Database Connections Panel consente agli
sviluppatori di gestire facilmente connessioni di database

standard, tra cui MySQL Fabric. Il Visualizzatore oggetti fornisce
inoltre l’accesso istantaneo allo schema e agli oggetti del database.
MySQL Workbench fornisce una console gra ca per
amministrare facilmente gli ambienti MySQL e ottenere una
migliore visibilità nei database. Gli sviluppatori e gli amministratori
di database possono utilizzare gli strumenti visivi per con gurare
server, amministrare gli utenti, eseguire backup e ripristino,
ispezionare i dati di controllo e visualizzare lo stato del database.
Per maggiori informazioni su MySQL Workbench
SQL Server Management Studio SSMS
SQL Server Management Studio (SSMS) è un’applicazione

software lanciata per la prima volta con Microsoft SQL Server 2005
che viene utilizzata per la con gurazione, la gestione e
l’amministrazione di tutti i componenti di Microsoft SQL Server. Lo
strumento include sia editor di script che strumenti gra ci che
funzionano con oggetti e funzionalità del server.
SSMS si presenta come un ambiente integrato per la gestione di

qualsiasi infrastruttura SQL, da SQL Server a database SQL. SSMS
fornisce inoltre strumenti per con gurare, monitorare e
amministrare istanze di SQL, può essere utilizzato per distribuire,
monitorare e aggiornare i componenti del livello dati utilizzati dalle
applicazioni, nonché per creare query e script; eseguire query,
progettare e gestire database e data warehouse, ovunque si
trovino (sia a livello di computing locale sia a livello cloud).
Toad
Toad Software è un set di strumenti di gestione database di Quest

che gli sviluppatori di database, gli amministratori di database e gli
analisti di dati utilizzano per gestire database relazionali e non
relazionali utilizzando SQL.
Toad funziona attraverso i database più di usi (compresi RDBMS

e NoSQL), supporta una ricca serie di ambienti e basi di dati tra cui
Amazon Redshift, Amazon SimpleDB, Apache Hbase, Google
Analytics, IBM DB2, IBM Informix Dynamic, Microsoft Excel,
Microsoft SQL Server, Microsoft SQL Server Analysis Services,
Microsoft Windows Azure SQL Database, MongoDB, MySQL, Oracle,
PostgreSQL, salesforce, SAP Business Objects, SAP Sybase ASE
Per maggiori informazioni su Toad


PyCharm
PyCharm è un Integrated Development Environment (IDE)

utilizzato nella programmazione di computer, in particolare per il
linguaggio Python. È sviluppato dalla società JetBrains e fornisce
l’analisi del codice, un debugger gra co, un tester unità integrato,
l’integrazione con i sistemi di controllo versione (VCSes) con
supporto allo sviluppo web su Django.
PyCharm è una cross-platform con versioni Windows, macOS e

Linux. La Community Edition è rilasciata con la licenza Apache; la
Professional Edition, invece, è rilasciata sotto una licenza
proprietaria. Oltre a Python, PyCharm fornisce supporto per vari
framework di sviluppo web Python, linguaggi template speci ci,
JavaScript, Co eeScript, TypeScript, HTML/CSS, AngularJS, Node.js e
altro.
PyCharm si integra inoltre con IPython Notebook, ha una console

Python interattiva e supporta Anaconda, oltre a molteplici pacchetti
scienti ci tra cui Matplotlib e NumPy.
Per maggiori informazioni su PyCharm
Spyder
Spyder (in precedenza Pydee) è un ambiente di sviluppo integrato

(IDE) multipiattaforma open source per la programmazione
scienti ca in linguaggio Python. Spyder integra NumP, SciPy,
Matplotlib e IPython, così come altri software open source. È
rilasciato sotto la licenza MIT. Spyder è estensibile con una serie di
plugin e include il supporto per strumenti interattivi, per l’ispezione
dei dati e per l’integrazione di strumenti di sicurezza della qualità
del codice speci ci di Python e strumenti di introspezione, come
Py akes, Pylint e Rope. Disponibile in modalità multipiattaforma
tramite Anaconda, su Windows con WinPython e Python (x, y), su
macOS tramite MacPorts e sulle principali distribuzioni Linux come
Arch Linux, Debian, Fedora, Gentoo Linux, openSUSE e Ubuntu,
Spyder fa uso di Qt attraverso il PyQt o PySide.
GIT
Git è un software di controllo gestito con interfaccia a riga di

comando, creato nel 2005. Git supporta diramazione e fusione
(branching and merging) e comprende strumenti speci ci per
visualizzare e navigare una cronologia di sviluppo non lineare. Git
presenta due strutture dati, un indice modi cabile che mantiene le 
informazioni sul contenuto della prossima revisione, e un database
di oggetti che contiene quattro tipi di oggetti: un oggetto blob, un

oggetto albero, un oggetto commit (revisione), un oggetto tag
(etichetta). Ogni oggetto è identi cato da un codice hash SHA-1 del
suo contenuto.
Per ulteriori informazioni su GIT
Piattaforme Big Data

Hortonworks
Hortonworks è un’azienda statunitense di software fondata nel

2011 focalizzata sullo sviluppo e il supporto di Apache Hadoop, il
framework che permette l’archiviazione e la elaborazione
distribuita di grandi insiemi di dati su gruppi di computer (Big
Data).
Hortonworks è specializzata nella creazione, nella distribuzione e

nel supporto di piattaforme orientate a Apache Hadoop, NiFi e
Spark. La società dispone di piattaforme dati collegate che
permettono alle applicazioni basate sui dati di utilizzare la
conoscenza di tutti i dati in tutte le condizioni. La piattaforma
Hortonworks Data Platform HDP è realizzata per permettere la
distribuzione a livello enterprise di soluzioni Apache Hadoop
basate su archietetture centralizzate di tipo Yarn. Le basi di
HPD Hortonworks sono rappresentate da YARN e da HDFS
(Hadoop Distributed File System) per la gestione dei dati a riposo.
HDFS permette la gestione dell’archiviazione scalabile, per i big
data lake, YARN rappresenta l’architettura centralizzata capace di
elaborare contemporaneamente più carichi di lavoro e di fornire
sia la gestione delle risorse e dell’architettura modulare che
l’attivazione di una vasta gamma di metodi di accesso ai dati.
Per maggiori informazioni su Hortonworks
Cloudera
Cloudera è una compagnia fondata nel 2008 da ingegneri con un

background in grandi IT e digital company come Google, Yahoo!,
Oracle e Facebook. Le basi della società sono legate alla convinzione
del ruolo sempre più importante degli open standard e dell’open
source. Nell’ambito dei Big Data Cloudera ha realizzato Cloudera
Data Science Workbench, una soluzione di Machine learning che
unisce analytics e team working. Cloudera Data Science Workbench
permette di velocizzare la progettualità Data Science nelle imprese
in modalità self-service. In particolare Cloudera Data Science 
Workbench permette di lavorare passando dalla fase di
sperimentazione a quella di produzione utilizzando R, Python,

Spark. Per i Data Scientist in particolare Cloudera fornisce accesso
diretto ai dati con Hadoop clusters grazie a Apache Spark e
Apache Impala. Nello stesso tempo Cloudera lavora a livello di
collaboration e di strumenti di lavoro e di coinvolgimento dei team.
Cloudera è attivabile sia in modalità on-premise sia in cloud.
Per maggiori informazioni su Big Data Cloudera
Data Wrangling, Data Mining e

Machine Learning
Trifacta
Trifacta è una piattaforma per esplorare e preparare i dati per

l’analisi. Trifacta funziona con cloud e piattaforme di dati locali,
è progettato per consentire agli analisti di esplorare, trasformare e
arricchire dati grezzi ed eterogenei in formati puliti e strutturati per
l’analisi in ottica self-service. L’approccio di Trifacta si concentra
sull’utilizzo delle più recenti tecniche di machine learning, di
visualizzazione dei dati e di interazione uomo-computer.
Per maggiori informazioni su Trifacta
KNIME
KNIME o Konstanz Information Miner è una piattaforma open

source con licenza GPLv3 di analisi dati, reportistica e integrazione.
Ha al suo interno componenti di machine learning e data mining.
La sua interfaccia gra ca permette di assemblare i nodi per il pre-
processing, per la modellazione, l’analisi e la visualizzazione dei
dati. Fin dal 2006 viene usato in particolare in in ambito sanitario e
Pharma.
Per maggiori informazioni su KNIME
H2O.ai
H2O è un software open-source per l’analisi Big Data. È prodotto

dalla società H2O.ai e consente agli utenti di gestire migliaia di
potenziali modelli per la individuazione di pattern. Il software
H2O può essere utilizzato con R, Python e con altri ambienti. Viene
utilizzato per esplorare e analizzare i set di dati contenuti nei
sistemi di cloud computing e nel le system distribuito Apache

Hadoop, nonché nei sistemi operativi convenzionali Linux, macOS
e Microsoft Windows. Il software H2O è scritto in Java, Python e R.

La sua interfaccia utente gra ca è compatibile con quattro
browser: Chrome, Safari, Firefox e Internet Explorer.
Sono inoltre disponibili librerie H2O per R e Python.
Per maggiori informazioni su H2O.ai
Weka
Weka è un software open source rilasciato sotto GNU General

Public License ed è costituito da una raccolta di algoritmi di
apprendimento automatico per attività di data mining. Gli
algoritmi possono essere applicati direttamente a un set di dati o
richiamati dal proprio codice Java. Weka contiene strumenti per la
preelaborazione dei dati, la classi cazione, la regressione, il
clustering, le regole di associazione e la visualizzazione.
Per maggiori informazioni su Weka
IBM Watson
Watson è un sistema di intelligenza arti ciale che sempli ca al

massimo livello il rapporto uomo-macchina. Watson è infatti
concepito anche per rispondere a domande (Question answering
computing system) espresse in un linguaggio naturale, ed è
sviluppato all’interno del progetto DeepQA di IBM. Watson si
presenta come un’applicazione avanzata di elaborazione del
linguaggio naturale, di information retrieval, e di rappresentazione
della conoscenza unita a forme di cognitive learning e a tecnologie
di apprendimento automatico nel campo dell’“open domain
question answering”. Una delle basi si trova, come detto, nel
DeepQA, la tecnologia IBM per la formulazione di ipotesi, la
raccolta massiva di controprove, di analisi e di scoring (con la
massima capacità di raggiungere un obiettivo in termini di sviluppo
della conoscenza).
Watson utilizza il software della IBM DeepQA, e il framework

Apache UIMA. Il sistema è stato programmato in diversi linguaggi,
come Java, C++ e Prolog, e gira su un sistema SUSE Linux
Enterprise Server 11 utilizzando Apache Hadoop come framework
per il calcolo distribuito. Il sistema è ottimizzato per gestire il carico
di lavoro richiesto per generare ipotesi, riconoscere la massima
evidenza e analizzare i dati, integrando processori POWER7
estremamente parallelizzati. Watson è composto da una griglia di
server IBM Power 750, ciascuno dei quali è equipaggiato con un

processore POWER7 ad otto core da 3.5 GHz, con quattro threads
per core. In totale, il sistema ha 2880 thread di processori POWER7,

e 16 terabytes di RAM. Dall’assistenza sanitaria, all’istruzione, alla
nanza, dai trasporti all’energia, Watson è adatto a una serie di
ambiti applicativi nella Data Driven Economy e attinge a una
conoscenza approfondita del dominio per permettere agli
operatori di assumere decisioni più sempre più informate sempre
più velocemente.
Per maggiori informazioni su IBM Watson
Data Science Experience IBM
DSX (Data Science Experience) è un ambiente di data science

interattivo e collaborativo, con strumenti per rilevare e
condividere insight, quali ad esempio notebook Jupyter con
Python, R e Scala. Si può utilizzare su IBM Cloud, su un cloud
protetto (Locale) o sul proprio desktop. In grande sintesi le funzioni
di DSX permettono di eseguire attività in un unico posto, senza mai
uscire dal sito, con la possibilità di connettere ad oltre 30 tipi di
archivi dati, con accesso alla Watson Data Platform, e con la
possibilità di usufruire del vantaggio che deriva dalla condivisione
di dataset, notebook, articoli e altre opzioni.
Per maggiori informazioni su Data Science Experience IBM e su

IBM Analytics
Data visualization
D3
D3.js (o solo D3 per Data-Driven Documents) è una libreria

JavaScript per creare visualizzazioni dinamiche ed interattive
partendo da dati organizzati, visibili attraverso un comune
browser. D3.js utilizza gli standard web: SVG, HTML5, e CSS. La
libreria JavaScript D3, incorporata in una pagina web HTML, utilizza
funzioni JavaScript prede nite per selezionare elementi del DOM,
creare elementi SVG, aggiungere uno stile gra co, oppure
transizioni, e etti di movimento e/o tooltip. Questi oggetti posso
essere largamente personalizzati utilizzando lo standard web dei
“fogli di stile a cascata” (CSS). In questo modo grandi collezioni di
dati possono essere facilmente convertiti in oggetti SVG usando
semplici funzioni di D3 e così generare ricche rappresentazioni
gra che di numeri, testi, mappe e diagrammi. I dati utilizzati
possono essere in diversi formati, il più comune è il JSON, valori
separati da virgola CSV o geoJSON, ma, se necessario, di possono
scrivere funzioni JavaScript apposta per leggere dati in altri formati. 
Per maggiori informazioni su D3
QLIK
Qlik è una piattaforma di soluzioni dedicati alla Data Visualization

in modalità self-service, di applicazioni per le analisi, per le analisi
integrate e per la reportistica. Qlik permette di visualizzare ed
esplorare le informazioni, per interpretare i fenomeni e per
disporre di visioni che consentono di prendere decisioni più
consapevoli e più velocemente. Qlik integra la Business Intelligence
(BI) partendo dalla convinzione che per ottimizzare la Business
Intelligence è prima di tutto necessario mettere a frutto
l’intelligenza partendo dal concetto che i dati non sono altro che
una fonte e che gli strumenti e le tecnologie di analisi sono e caci
in ragione dei soggetti che li utilizzano. Partono da questa
convinzione le soluzioni per la Visual Analytics che comprendono
tre soluzioni: Qlik Sense, la piattaforma di Visual Analytics di ultima
generazione, QlikView, è la soluzione per analisi guidate e
dashboard e Qlik Cloud è il portfolio di applicazioni SaaS.
Per maggiori informazioni su QLIK
Power BI
Power BI rappresenta una famiglia di strumenti di analisi di dati

per il business in grado di produrre informazioni critiche. Power BI
permette di connettere centinaia di tipologie di dati, sempli cando
la preparazione stessa dei dati e la capacità di dare vita ad analisi
personalizzate. Power BI permette di creare dashboard
personalizzate con la possibilità di dare vita a forme di
visualizzazione personalizzate. Power BI permette di gestire i dati
da qualsiasi origine (sia a livello locale sia dal Cloud) in un’unica
posizione. La piattaforma visualizza dashboard live in tempo
reale con report interattivi e permette di sempli care
l’esplorazione dei dati e delle query in linguaggio naturale con la
possibilità di sottoporre domande e ottenere le risposte sotto
forma di visualizzazioni personalizzabili.
Per maggiori informazioni su Power BI
Tableau
Tableau è una piattaforma di soluzioni per la Data Visualization

basata su tre principi:
la capacità di fondere computer graphics e database 

lavorare sui principi del visual understanding
sviluppare cicli di visual analysis
La loso a della società è racchiusa nella convinzione del ruolo

fondamentale dei fatti e nella capacità di utilizzare i dati per fare la
di erenza. La piattaforma Tableau è costituita da una serie di
strumenti come VizQL, Live Query Engine, In-Memory Data Engine,
Tableau Public e Tableau Mobile.
VizQL è un visual query language che traduce azioni drag-and-drop in

query e ne gestisce la visualizzazione.
Tableau conta su un Data Engine nella forma di un break-through

analytics database progettato per superare le limitazioni dei
database esistenti e i data silos e per fornire un vero supporto a
livello di visual analysis. il Data Engine Tableau permette di
superare la curva tra Big Data e la velocità di analysis.
Per maggiori informazioni su Tableau
Zeppelin
Apache Zeppelin è un notebook web-based che permette di

attuare forme di data-driven analytics interattive e collaborative
con SQL, Scala e altre piattaforme. Zeppelin è basato su un sistema
di plugin e supporta Apache Spark, Python, JDBC, Markdown e
Shell.
Zeppelin è una soluzione Notebook multi-purpose per la Data

Ingestion, la Data Discovery, la Data Analytics e la Data Visualization &
Collaboration.
Per maggiori informazioni su Zeppelin
Ploty
Plotly (Plot.ly) è uno strumento di analisi e visualizzazione dei dati.

Plotly fornisce strumenti gra ci, analitici e statistici online oltre a
librerie gra che scienti che per Python, R, MATLAB , Perl, Julia,
Arduino e REST. Plotly è stato realizzato utilizzando Python e il
framework Django, con un front-end che utilizza JavaScript e la
libreria di visualizzazione D3.js, HTML e CSS. I server di
collaborazione Ploty (disponibili in cloud o in locale) consentono ai
data scientist di mostrare il proprio lavoro, creare gra ci senza
codi ca e collaborare con analisti aziendali per progettisti, dirigenti
e clienti.
Per maggiori informazioni su Ploty


Open Data
Con il termine “Open data” si indicano tutti quei dati che sono
liberamente accessibili: che possono essere utilizzati da chiunque
senza restrizioni di copyright, brevetti o altri meccanismi di
controllo, a parte l’obbligo di citare la fonte o mantenere la banca
dati aperta. (Open Data e Open Source: perché Open è meglio)
Gli obiettivi del movimento “Open Data” sono simili a quelli di altri
movimenti “aperti” come Open Source, Open Hardware, Open
Content, Open Government e Open Access. La crescita del
movimento “Open Data” è accompagnata da un aumento dei diritti
di proprietà intellettuale. La loso a alla base dei dati aperti è
ormai consolidata, mentre il termine “Open Data” è più recente e
ha guadagnato popolarità con l’avvento di Internet e World Wide
Web e, in particolare, con il lancio di iniziative governative Open
Data, come Data.gov e Data.gov.uk.
Alcune fonti Open Data
DatiOpen.it
DatiPiemonte.it
I.Stat
DatiCamera.it
Dataverse
Dati.milano.comune.it
Open Data Ministero della Salute
*Luca Flecchia
E’ cresciuto professionalmente nelle principali aziende di

consulenza (KPMG, Capgemini), dove si è occupato di progetti sia di
management consulting che di implementazione di sistemi
informativi. Le sue esperienze variano da analisi di performance di
processi (es. supply chain) alla stesura di analisi funzionali per la
realizzazione di applicazioni custom. Ha sviluppato competenze su
progetti CRM, merchandise nancial planning e analytics, sia in
termini di analytics “tradizionali” (es. dashboard, reporting, data
warehousing) sia di “advanced” analytics. Si occupa attualmente

della gestione della unit di Data Driven Innovation in
Partners4Innovation, dove, tra le altre cose, coniuga le proprie

competenze di analytics con quelle di Business Process
Management (BPM) nell’applicazione delle tecniche di Process
Mining.
Immagine fornita da Shutterstock
Sullo stesso argomento:
3rdPLACE: Big Data in

Big Data e Data Science presa diretta con il
verso una Data Driven… business…
Pietropaoli, IBM: open e Come si diventa Data

privo di preconcetti,… Scientist: skill, scuole,…
Big Data as a Service e Data Scientist: white

Real Time Analytics nel… paper, survey, evento,…
Redazione

Sullo stesso argomento:
3rdPLACE: Big Data in

Big Data e Data Science presa diretta con il
verso una Data Driven… business…
Pietropaoli, IBM: open e Come si diventa Data

privo di preconcetti,… Scientist: skill, scuole,…
Big Data as a Service e Data Scientist: white

Real Time Analytics nel… paper, survey, evento,…
COMMENTA PER PRIMO
Lascia un commento
L'indirizzo email non sarà pubblicato.
Commento
Nome*
E-Mail*
Website

PUBBLICA IL COMMENTO
RSS FEED
AGENDA DIGITALE Indirizzo INFORMATIVA COOKIE

Via Copernico, 38
CORCOM INFORMATIVA PRIVACY
Milano - Italia
CAP 20125 INFORMATIVA
DIGITAL4EXECUTIVE
NEWSLETTER
Contatti
DIGITAL4TRADE
info@digital360.it ISCRIZIONE NEWSLETTER
ECONOMYUP
ABOUT
FORUM PA
CONTATTI
STARTUP BUSINESS
MAPPA
ZEROUNO
ARCHIVIO
UNIVERSITY2BUSINESS
TAGS
CHE COS’È LA BLOCKCHAIN CHE COSA SONO E COME FUNZIONANO LE DLT TUTTE LE FASI DELLA PSD2
GLI AMBITI APPLICATIVI DELL’IOT
Digital360 S.p.A. - Codice scale 08053820968 - P.IVA: 08053820968 - © 2016 DIGITAL 360. ALL RIGHTS RESERVED

Software, Tool, Linguaggi e Risorse Per Big Data e Data Science - Big Data 4innovation PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Software, Tool, Linguaggi e Risorse Per Big Data e Data Science - Big Data 4innovation PDF

Caricato da

Copyright:

Formati disponibili

10/10/2018 Software, tool, linguaggi e risorse per Big Data e Data Science - Big Data 4Innovation

COME SI DIVENTA DATA SCIENTIST COSA SONO I BIG DATA CERCA …

Direttore Responsabile: Mauro Bellini @mbellini3 Linkedin

BIG DATA  DATA SCIENCE BUSINESS INTELLIGENCE DATA ANALYTICS

HOME  DATA ANALYTICS  BUSINESS ANALYTICS 

Software, tool, linguaggi e

Science Ricerca originale, eventi, webinar

Per svolgere la professione di Data Scientist è necessario disporre

Con questo servizio si avvia un percorso di conoscenza delle

5.5. IBM Watson

Rassegna degli strumenti di lavoro

Per maggiori approfondimenti sulle opportunità della Data

Python è un linguaggio di programmazione che nasce nel 1991

Python è un linguaggio di programmazione orientato agli oggetti e

Particolarmente adatto per implementare applicazioni distribuite,

delle GUI desktop, della formazione scolastica, della

Python gira su Windows, Linux/Unix, Mac OS X, OS/2, è stato portato

Python è stato concepito per essere un linguaggio intuitivo,

Negli ultimi anni Python ha guadagnato enormi consensi anche

Python è particolarmente usato anche per la creazione di modelli

Per maggiori informazioni su Python

R è un linguaggio di programmazione e un ambiente di sviluppo

gestione e storage dei dati, una suite di operatori per calcoli su

R, tramite l’enorme numero di librerie statistico-matematiche

Esiste anche una versione commerciale di R, Microsoft R Server,

Per maggiori informazioni su R

IDE – Integrated Development

RStudio è l’Integrated Development Environment (IDE) gratuito

Per maggiori informazioni su R Studio

Apache Spark è un framework di tipo open source per la gestione

richiede un gestore di cluster e un sistema di archiviazione

Per maggiori informazioni su Apache Spark

Scala è un linguaggio di programmazione a oggetti nato nel 2001

Scala sta per Scalable Language ed è un linguaggio di

Scala è anche un linguaggio funzionale: ogni funzione

Per maggiori informazioni su Scala

Hadoop è prima di tutto un framework di strumenti per la

A livello di archiviazione Hadoop è una infrastruttura di cluster per

Con Hadoop le applicazioni possono lavorare con migliaia di nodi e

La versione 3.0 di Hadoop è stata rilasciata il 13/12/2017.

Per maggiori informazioni su Hadoop

Jupyter Notebook è un’applicazione web open source che permette

statistica, data visualization, machine learning, e altro ancora. A

Dal punto di vista operativo i notebook possono essere condivisi

Per maggiori informazioni su Jupiter Notebook

MySQL nasce grazie alla società svedese MySQL AB creatrice del

MySQL Workbench o re strumenti visivi per la creazione,

sviluppatori di gestire facilmente connessioni di database

Per maggiori informazioni su MySQL Workbench

SQL Server Management Studio SSMS

SQL Server Management Studio (SSMS) è un’applicazione

SSMS si presenta come un ambiente integrato per la gestione di

Toad Software è un set di strumenti di gestione database di Quest

Toad funziona attraverso i database più di usi (compresi RDBMS

Per maggiori informazioni su Toad

PyCharm è un Integrated Development Environment (IDE)

PyCharm è una cross-platform con versioni Windows, macOS e

PyCharm si integra inoltre con IPython Notebook, ha una console

Per maggiori informazioni su PyCharm

Spyder (in precedenza Pydee) è un ambiente di sviluppo integrato

Git è un software di controllo gestito con interfaccia a riga di

di oggetti che contiene quattro tipi di oggetti: un oggetto blob, un

Per ulteriori informazioni su GIT