Sei sulla pagina 1di 51

Big Data Introduction

Oleh : Husin Sanusi, ST., M.Kom


STMKG - 2018
Tujuan Pembelajaran
 Setelah mengikuti pertemuan ini,
Taruna/i dapat memahami
teknologi Big Data

 Setelah mengikuti pertemuan ini,


taruna/i dapat mempunyai
gambaran mengenai implementasi
teknologi Big Data
Big Data
You can have data without
information, but you cannot have
information without data”

(Daniel Keys Moran)


IBM 305 Ramac

 1958: IBM 305


Ramac
System
 Kapasitas 5
MB
Audio Tape

 1963: Audio Tape


 Kapasitas 660 KB
Floppy Disk

 1971 Floppy
8”: 80 KB
 1976 Floppy
5.5”: 100 KB
 1981 Floppy
3.5”: 1.4 MB
Optical Disk

CD: 400 MB
DVD: 4.7 GB
Blue Ray: 25 GB
Biaya Penyimpanan Data

http://www.mkomo.com/cost-per-gigabyte
Berapa banyak data di dunia ?

Tidak ada yang benar2 tahu


90% data dihasilkan pada
beberapa tahun terakhir
Perkiraan IDC
 2011: 1.8 zetabytes (trillion of GB),
1021 bytes
 2012: 2.8 zetabytes
 2020: 40 zetabytes

http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf
Setiap menit …
 Lebih dari 204 juta pesan email
 Lebih dari 2 juta permintaan pencarian
Google
 48 jam video YouTube baru
 684,000 bit konten dibagi (share) di
Facebook
 Lebih dari 100.000 tweet
 $ 272,000 dihabiskan untuk e-commerce

http://www.webopedia.com/quick_ref/just-how-much-data-is-out-there.html
Data Center
 Data center NSA di
Bluffdale, Utah –
code name
Bumblehive -
mampu menyimpan
yottabyte data

 Google diperkirakan
menyimpan 15
exabites data pada
disk dan backup
Big Data
 Terjadi ledakan jumlah data
 Teknologi database tradisional sulit
digunakan untuk mengelola data yang
sangat besar

Maka lahirlah Big Data ….

“data of a very large size, typically to the


extent that its manipulation and management
present significant logistical challenges.”
Oxford English Dictionary
Definisi

 “The ability of society to harness


information in novel ways to
produce useful insights or goods
and services of significant value”
and “…things one can do at a
large scale that cannot be done
at a smaller one, to extract new
insights or create new forms of
value.”
Viktor Mayer-Schönberger and
Kenneth Cukier
4V + 1V

Volume Variety Velocity

Veracity Value
Volume: Size does Matter
Data dengan volume terabytes atau
petabytes
Menghitung jumlah records, transaksi,
tabel atau file
Ada yang menghitung berdasarkan
waktu
Variety
Big Data Source Global company
usage
Transaction 88%
Log data 73%
Events 59%
Email 57%
Social Media 43%
Sensor 42%
External Feed 42% Unstru ctured
RFID/POS 41%
Free text 41%
Geo spatial 40%
Audio 38%
Video/Images 34%

http://ugm.id/ibmbd
Velocity
 Frekuensi pembangkitan atau pengiriman
data
 Batch: data dikelompokkan dulu dan
diproses/dikirim sebagai unit
 Real time: proses pembangkitan/pengiriman
data dalam rentang waktu dan laju (rate)
yang ditentukan
 Near time: ada delay antara data dan
pemrosesan
 Stream: aliran data (contoh: bacaan sensor,
twitter, dll)
Veracity/Confidence

1 dari 3 CEO tidak percaya dengan


kualitas data yg mereka miliki u/
decision making
Value
Arsitektur dan Technology
Komponen-komponen yang
membentuk arsitektur teknologi Big
Data adalah sebagai berikut:
Data Source
 Data Source merupakan sumber data yang
akan diolah dengan menggunakan teknologi
Big Data

 Umumnya, data tersebut diambil


menggunakan API atau dengan mekanisme
operasional file system, seperti transfer file

 Berdasarkan jenisnya, sumber data dibagi


menjadi dua yaitu sumber data streaming
dan sumber data bulk
Contoh sumber data streaming
adalah tweets dari Twitter API

Contoh sumber data bulk adalah file


teks biasa yang biasanya berukuran
besar, seperti file log dari suatu aplikasi
atau file yang berisi data dump dari
suatu database
Data Aggregator
• Data Aggregator merupakan tool
atau software yang mengumpulkan
dan menyalurkan data dari sumber
ke beberapa jenis pengolahan di Big
Data.

• Terdapat dua jenis data aggregator


berdasarkan cara kerjanya.
Jenis pertama adalah Pull-based data
aggregator yang mengumpulkan dan
memberikan data tersebut kepada
siapa saja yang meminta tanpa
registrasi sebelumnya, contohnya
adalah Apache Kafka atau
RabbitMQ.
Jenis kedua adalah Push-based data
aggregator dengan mengumpulkan
dan mengirim data ke sistem lain yang
sudah di set terhubung dan menerima
data dari data aggregator seperti
Apache Flume atau Spring-XD.
Realtime Streaming Processor
 Realtime Streaming Processor merupakan
salah satu pengolahan di Big Data yang
berfungsi untuk menganalisis data yang
bersifat real-time dari sumber data
streaming.

 Contoh analisis yang bisa dilakukan


adalah seperti menghitung berapa
jumlah tweet di Twitter setiap detik.
Sifat dari pemrosesan ini haruslah ringan
dan cepat.
Contoh teknologi yang dapat
digunakan untuk proses realtime
streaming adalah Apache Storm,
Apache Spark Streaming, dan Spring-
XD.
Distributed File System
 Distributed File System merupakan tempat
penampungan data berukuran besar yang akan
diproses oleh batch processor.

 Contoh distributed file system pada lingkungan


Hadoop adalah HDFS.

 Distributed file system ini memberikan mekanisme


replikasi data ke beberapa node dalam cluster
komputer untuk memastikan ketersediaan data
dan lokalitas pemrosesan.
Batch Processor
Batch Processor atau disebut juga non
real-time processor adalah proses
data di Big Data untuk data besar
yang terdapat di HDFS.

Pemrosesan ini menggunakan


berbagai jenis tool/teknologi sesuai
kebutuhan. Sebuah data bisa
dianalisis lebih dari satu tools.
 Contoh tool yang sering digunakan antara
lain Hive dan Pig untuk Map Reduce, Apache
Mahout, dan Apache Spark untuk machine
learning dan artificial intelligence.

 Hasil dari pemrosesan ini dimasukkan ke


dalam data store untuk kemudian bisa di lihat
di level aplikasi. Sistem pemrosesan ini
umumnya memerlukan waktu yang relatif
lebih lama mengingat data yang diproses
relatif sangat besar.
Data Store
• Data Store adalah alat untuk
menyimpan data hasil pemrosesan baik
realtime maupun non-realtime.

• Data store bisa berupa RDBMS ataupun


jenis NoSQL lainnya. RDBMS sangat
jarang digunakan sebagai data store
mengingat keterbatasan dalam sisi
ukuran yang bisa ditampung tanpa
kehilangan kinerja.
 Data store yang umumnya dipakai
adalah NoSQL yang berbasis
Document seperti MongoDB, Column-
oriented seperti HBase dan Cassandra,
dan juga key-value pair seperti couchDB.

 Beberapa data store yang jarang


terdengar juga dipakai seperti misalnya
Voldemort dan Druid.
Apps

Apps adalah aplikasi yang berinteraksi


langsung dengan user. Aplikasi ini
mengakses data yang berada di data
store untuk kemudian disajikan
kepada user.

Jenis aplikasi di sini sangat bervariasi


bisa berupa web, desktop ataupun
mobile.
• Pada umumnya, aplikasi di sini
hanyalah untuk melakukan visualisasi
dari data yang sudah dianalisis
sebelumnya. Karena memang
ditujukan untuk user, maka data yang
disajikan harus sesuai dengan
kebutuhan user.
Big Data Analytics
You cannot manage what you do not measure.
You cannot measure what you do not understand.
(David Marco, 2002)
Analytics Big Data Analytics Global
company
usage

Query and Reporting 91%


Data mining 77%
Data visualization 71%
Predictive modeling 67%
Optimization 65%
Simulation 56%
Natural Language 52%
Processing
Geospatial analytics 43%
Streaming analytics 35%
Video analytics 26%
Audio analytics 25%
http://ugm.id/ibmbd
Studi Kasus: ORION UPS
 Tracking 16.3 juta paket/hari untuk 8.8 juta pelanggan
 39.5 permintaan tracking/hari
 UPS menyimpan data sebesar 16 petabytes

 Big data berasal dari sensor yang ada pada 46000


kendaraan
 Memantau kecepatan, arah, pola pengereman dan
kinerja sopir
 Digunakan untuk pemantau kinerja dan optimasi jalur
secara real-time (ambil dan antar paket)

 Pada 2011 menghemat 8,4 juta galon bensin


(pengurangan 85 juta mil rute harian)
 Menghemat $30 juta bila mengurangi 1 mil/sopir/hari
United Healthcare
Analisis kepuasan pelanggan
berdasarkan rekaman suara
Berdasar NLP untuk identifikasi
kata/istilah yg menunjukkan ketidak
puasan
Hadoop, noSQL, SVD
Perusahaan melakukan pendalaman
lebih lanjut untuk mengetahui
penyebab ketidak puasan
Analytic Online
voxvote
Analytic in
Indonesia
Tantangan: Pulau Data

“Data untuk berbagai jenis kebutuhan


apapun sudah banyak di Indonesia,
tetapi tersebar.

“Mencari data agregat saja


susah, apalagi data-data yang
detail.”
Bloomberg Businessweek Indonesia, 12 Juli
2015
Datawarehousing dan
Dashboard
Telkom: Broadband Churn Rate

Churn
Lost Carrier causes &
Indicators
Payment m-2

Network Quality

Download m-3

Download m-3

Customer
complaints
type
Social Media Analytics for Government
City Current Issues Happiness Index

Hot Topic

45
BMKG is ready?
CASE

SENTIMENT ANALYSIS / OPINION MINING


ON TWITTER
Apa itu Sentiment Analysis / Opinion Mining ?

Opinion Mining / Sentiment Analysis (sebagian besar researcher menganggap dua istilah
ini sama/interchangeable) merupakan sebuah cabang penelitian di domain Text Mining
yang mulai booming pada awal tahun 2002-an. Riset-nya mulai marak semenjak paper
dari B.Pang dan L.Lee [1] keluar. Secara umum, Sentiment analysis ini dibagi menjadi 2
kategori besar :
Coarse-grained sentiment analysis
Fined-grained sentiment analysis

Coarse-grained sentiment analysis - kita mencoba melakukan proses analysis pada level
Dokumen. Singkatnya adalah kita mencoba mengklasifikasikan orientasi sebuah
dokumen secara keseluruhan. Orientasi ini ada 3 jenih : Positif, Netral, Negatif. Akan
tetapi, ada juga yang menjadikan nilai orientasi ini bersifat kontinu / tidak diskrit.

Fined-grained sentiment analysis - kategori kedua ini yang sedang Naik Daunsekarang.
Maksudnya adalah para researcher sebagian besar fokus pada jenis ini. Obyek yang ingin
diklasifikasi bukan berada pada level dokumen melainkan sebuah kalimat pada suatu
dokumen.
contoh :
Saya tidak suka programming. (negatif)
Hotel yang baru saja dikunjungi sangat indah sekali. (positif)
Twitter sentiment analys
1. COPI FILE DARI DRIVE
https://drive.google.com/file/d/1K6cjH9Fn6j
RmqiLY9VcJuh3T_CjxNLhQ/view?usp=sharing

2. Extract ke Htdoc, beri nama TSA


3. PUNYA AKUN TWITTER
4. BUAT API TWITTER (apps.twitter.com)
5. MEMBUAT AKUN DI DATUMBOX.COM
6. MENGAMBIL API DI DATUMBOX
7. GENERATE CUSTOMER SECRET/KEY TWITER
8. Masukan semua key ke file config.php
9. Jalankan via browser