2 Konsep Basis Data STMKG

Big Data Introduction
Oleh : Husin Sanusi, ST., M.Kom

STMKG - 2018
Tujuan Pembelajaran
 Setelah mengikuti pertemuan ini,
Taruna/i dapat memahami
teknologi Big Data
 Setelah mengikuti pertemuan ini,

taruna/i dapat mempunyai
gambaran mengenai implementasi
teknologi Big Data
Big Data
You can have data without
information, but you cannot have
information without data”
(Daniel Keys Moran)

IBM 305 Ramac
 1958: IBM 305

Ramac
System
 Kapasitas 5
MB
Audio Tape
 1963: Audio Tape

 Kapasitas 660 KB
Floppy Disk
 1971 Floppy
8”: 80 KB
 1976 Floppy
5.5”: 100 KB
 1981 Floppy
3.5”: 1.4 MB
Optical Disk
CD: 400 MB
DVD: 4.7 GB
Blue Ray: 25 GB
Biaya Penyimpanan Data
http://www.mkomo.com/cost-per-gigabyte
Berapa banyak data di dunia ?
Tidak ada yang benar2 tahu

90% data dihasilkan pada
beberapa tahun terakhir
Perkiraan IDC
 2011: 1.8 zetabytes (trillion of GB),
1021 bytes
 2012: 2.8 zetabytes
 2020: 40 zetabytes
http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf
Setiap menit …
 Lebih dari 204 juta pesan email
 Lebih dari 2 juta permintaan pencarian
Google
 48 jam video YouTube baru
 684,000 bit konten dibagi (share) di
Facebook
 Lebih dari 100.000 tweet
 $ 272,000 dihabiskan untuk e-commerce
http://www.webopedia.com/quick_ref/just-how-much-data-is-out-there.html
Data Center
 Data center NSA di
Bluffdale, Utah –
code name
Bumblehive -
mampu menyimpan
yottabyte data
 Google diperkirakan
menyimpan 15
exabites data pada
disk dan backup
Big Data
 Terjadi ledakan jumlah data
 Teknologi database tradisional sulit
digunakan untuk mengelola data yang
sangat besar
Maka lahirlah Big Data ….
“data of a very large size, typically to the

extent that its manipulation and management
present significant logistical challenges.”
Oxford English Dictionary
Definisi
 “The ability of society to harness

information in novel ways to
produce useful insights or goods
and services of significant value”
and “…things one can do at a
large scale that cannot be done
at a smaller one, to extract new
insights or create new forms of
value.”
Viktor Mayer-Schönberger and
Kenneth Cukier
4V + 1V
Volume Variety Velocity
Veracity Value
Volume: Size does Matter
Data dengan volume terabytes atau
petabytes
Menghitung jumlah records, transaksi,
tabel atau file
Ada yang menghitung berdasarkan
waktu
Variety
Big Data Source Global company
usage
Transaction 88%
Log data 73%
Events 59%
Email 57%
Social Media 43%
Sensor 42%
External Feed 42% Unstru ctured
RFID/POS 41%
Free text 41%
Geo spatial 40%
Audio 38%
Video/Images 34%
http://ugm.id/ibmbd
Velocity
 Frekuensi pembangkitan atau pengiriman
data
 Batch: data dikelompokkan dulu dan
diproses/dikirim sebagai unit
 Real time: proses pembangkitan/pengiriman
data dalam rentang waktu dan laju (rate)
yang ditentukan
 Near time: ada delay antara data dan
pemrosesan
 Stream: aliran data (contoh: bacaan sensor,
twitter, dll)
Veracity/Confidence
1 dari 3 CEO tidak percaya dengan

kualitas data yg mereka miliki u/
decision making
Value
Arsitektur dan Technology
Komponen-komponen yang
membentuk arsitektur teknologi Big
Data adalah sebagai berikut:
Data Source
 Data Source merupakan sumber data yang
akan diolah dengan menggunakan teknologi
Big Data
 Umumnya, data tersebut diambil

menggunakan API atau dengan mekanisme
operasional file system, seperti transfer file
 Berdasarkan jenisnya, sumber data dibagi

menjadi dua yaitu sumber data streaming
dan sumber data bulk
Contoh sumber data streaming
adalah tweets dari Twitter API
Contoh sumber data bulk adalah file

teks biasa yang biasanya berukuran
besar, seperti file log dari suatu aplikasi
atau file yang berisi data dump dari
suatu database
Data Aggregator
• Data Aggregator merupakan tool
atau software yang mengumpulkan
dan menyalurkan data dari sumber
ke beberapa jenis pengolahan di Big
Data.
• Terdapat dua jenis data aggregator

berdasarkan cara kerjanya.
Jenis pertama adalah Pull-based data
aggregator yang mengumpulkan dan
memberikan data tersebut kepada
siapa saja yang meminta tanpa
registrasi sebelumnya, contohnya
adalah Apache Kafka atau
RabbitMQ.
Jenis kedua adalah Push-based data
aggregator dengan mengumpulkan
dan mengirim data ke sistem lain yang
sudah di set terhubung dan menerima
data dari data aggregator seperti
Apache Flume atau Spring-XD.
Realtime Streaming Processor
 Realtime Streaming Processor merupakan
salah satu pengolahan di Big Data yang
berfungsi untuk menganalisis data yang
bersifat real-time dari sumber data
streaming.
 Contoh analisis yang bisa dilakukan

adalah seperti menghitung berapa
jumlah tweet di Twitter setiap detik.
Sifat dari pemrosesan ini haruslah ringan
dan cepat.
Contoh teknologi yang dapat
digunakan untuk proses realtime
streaming adalah Apache Storm,
Apache Spark Streaming, dan Spring-
XD.
Distributed File System
 Distributed File System merupakan tempat
penampungan data berukuran besar yang akan
diproses oleh batch processor.
 Contoh distributed file system pada lingkungan

Hadoop adalah HDFS.
 Distributed file system ini memberikan mekanisme

replikasi data ke beberapa node dalam cluster
komputer untuk memastikan ketersediaan data
dan lokalitas pemrosesan.
Batch Processor
Batch Processor atau disebut juga non
real-time processor adalah proses
data di Big Data untuk data besar
yang terdapat di HDFS.
Pemrosesan ini menggunakan

berbagai jenis tool/teknologi sesuai
kebutuhan. Sebuah data bisa
dianalisis lebih dari satu tools.
 Contoh tool yang sering digunakan antara
lain Hive dan Pig untuk Map Reduce, Apache
Mahout, dan Apache Spark untuk machine
learning dan artificial intelligence.
 Hasil dari pemrosesan ini dimasukkan ke

dalam data store untuk kemudian bisa di lihat
di level aplikasi. Sistem pemrosesan ini
umumnya memerlukan waktu yang relatif
lebih lama mengingat data yang diproses
relatif sangat besar.
Data Store
• Data Store adalah alat untuk
menyimpan data hasil pemrosesan baik
realtime maupun non-realtime.
• Data store bisa berupa RDBMS ataupun

jenis NoSQL lainnya. RDBMS sangat
jarang digunakan sebagai data store
mengingat keterbatasan dalam sisi
ukuran yang bisa ditampung tanpa
kehilangan kinerja.
 Data store yang umumnya dipakai
adalah NoSQL yang berbasis
Document seperti MongoDB, Column-
oriented seperti HBase dan Cassandra,
dan juga key-value pair seperti couchDB.
 Beberapa data store yang jarang

terdengar juga dipakai seperti misalnya
Voldemort dan Druid.
Apps
Apps adalah aplikasi yang berinteraksi

langsung dengan user. Aplikasi ini
mengakses data yang berada di data
store untuk kemudian disajikan
kepada user.
Jenis aplikasi di sini sangat bervariasi

bisa berupa web, desktop ataupun
mobile.
• Pada umumnya, aplikasi di sini
hanyalah untuk melakukan visualisasi
dari data yang sudah dianalisis
sebelumnya. Karena memang
ditujukan untuk user, maka data yang
disajikan harus sesuai dengan
kebutuhan user.
Big Data Analytics
You cannot manage what you do not measure.
You cannot measure what you do not understand.
(David Marco, 2002)
Analytics Big Data Analytics Global
company
usage
Query and Reporting 91%

Data mining 77%
Data visualization 71%
Predictive modeling 67%
Optimization 65%
Simulation 56%
Natural Language 52%
Processing
Geospatial analytics 43%
Streaming analytics 35%
Video analytics 26%
Audio analytics 25%
http://ugm.id/ibmbd
Studi Kasus: ORION UPS
 Tracking 16.3 juta paket/hari untuk 8.8 juta pelanggan
 39.5 permintaan tracking/hari
 UPS menyimpan data sebesar 16 petabytes
 Big data berasal dari sensor yang ada pada 46000

kendaraan
 Memantau kecepatan, arah, pola pengereman dan
kinerja sopir
 Digunakan untuk pemantau kinerja dan optimasi jalur
secara real-time (ambil dan antar paket)
 Pada 2011 menghemat 8,4 juta galon bensin

(pengurangan 85 juta mil rute harian)
 Menghemat $30 juta bila mengurangi 1 mil/sopir/hari
United Healthcare
Analisis kepuasan pelanggan
berdasarkan rekaman suara
Berdasar NLP untuk identifikasi
kata/istilah yg menunjukkan ketidak
puasan
Hadoop, noSQL, SVD
Perusahaan melakukan pendalaman
lebih lanjut untuk mengetahui
penyebab ketidak puasan
Analytic Online
voxvote
Analytic in
Indonesia
Tantangan: Pulau Data
“Data untuk berbagai jenis kebutuhan

apapun sudah banyak di Indonesia,
tetapi tersebar.
“Mencari data agregat saja

susah, apalagi data-data yang
detail.”
Bloomberg Businessweek Indonesia, 12 Juli
2015
Datawarehousing dan
Dashboard
Telkom: Broadband Churn Rate
Churn
Lost Carrier causes &
Indicators
Payment m-2
Network Quality
Download m-3
Download m-3
Customer
complaints
type
Social Media Analytics for Government
City Current Issues Happiness Index
Hot Topic
45
BMKG is ready?
CASE
SENTIMENT ANALYSIS / OPINION MINING

ON TWITTER
Apa itu Sentiment Analysis / Opinion Mining ?
Opinion Mining / Sentiment Analysis (sebagian besar researcher menganggap dua istilah
ini sama/interchangeable) merupakan sebuah cabang penelitian di domain Text Mining
yang mulai booming pada awal tahun 2002-an. Riset-nya mulai marak semenjak paper
dari B.Pang dan L.Lee [1] keluar. Secara umum, Sentiment analysis ini dibagi menjadi 2
kategori besar :
Coarse-grained sentiment analysis
Fined-grained sentiment analysis
Coarse-grained sentiment analysis - kita mencoba melakukan proses analysis pada level
Dokumen. Singkatnya adalah kita mencoba mengklasifikasikan orientasi sebuah
dokumen secara keseluruhan. Orientasi ini ada 3 jenih : Positif, Netral, Negatif. Akan
tetapi, ada juga yang menjadikan nilai orientasi ini bersifat kontinu / tidak diskrit.
Fined-grained sentiment analysis - kategori kedua ini yang sedang Naik Daunsekarang.
Maksudnya adalah para researcher sebagian besar fokus pada jenis ini. Obyek yang ingin
diklasifikasi bukan berada pada level dokumen melainkan sebuah kalimat pada suatu
dokumen.
contoh :
Saya tidak suka programming. (negatif)
Hotel yang baru saja dikunjungi sangat indah sekali. (positif)
Twitter sentiment analys
1. COPI FILE DARI DRIVE
https://drive.google.com/file/d/1K6cjH9Fn6j
RmqiLY9VcJuh3T_CjxNLhQ/view?usp=sharing
2. Extract ke Htdoc, beri nama TSA

3. PUNYA AKUN TWITTER
4. BUAT API TWITTER (apps.twitter.com)
5. MEMBUAT AKUN DI DATUMBOX.COM
6. MENGAMBIL API DI DATUMBOX
7. GENERATE CUSTOMER SECRET/KEY TWITER
8. Masukan semua key ke file config.php
9. Jalankan via browser

2 Konsep Basis Data STMKG

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

2 Konsep Basis Data STMKG

Caricato da

Copyright:

Formati disponibili

Big Data Introduction

Oleh : Husin Sanusi, ST., M.Kom

 Setelah mengikuti pertemuan ini,

(Daniel Keys Moran)

 1958: IBM 305

 1963: Audio Tape

Tidak ada yang benar2 tahu

Maka lahirlah Big Data ….

“data of a very large size, typically to the

 “The ability of society to harness

Volume Variety Velocity

1 dari 3 CEO tidak percaya dengan

 Umumnya, data tersebut diambil

 Berdasarkan jenisnya, sumber data dibagi

Contoh sumber data bulk adalah file

• Terdapat dua jenis data aggregator

 Contoh analisis yang bisa dilakukan

 Contoh distributed file system pada lingkungan

 Distributed file system ini memberikan mekanisme

Pemrosesan ini menggunakan

 Hasil dari pemrosesan ini dimasukkan ke

• Data store bisa berupa RDBMS ataupun

 Beberapa data store yang jarang

Apps adalah aplikasi yang berinteraksi

Jenis aplikasi di sini sangat bervariasi

Query and Reporting 91%

 Big data berasal dari sensor yang ada pada 46000

 Pada 2011 menghemat 8,4 juta galon bensin

“Data untuk berbagai jenis kebutuhan

“Mencari data agregat saja

SENTIMENT ANALYSIS / OPINION MINING

2. Extract ke Htdoc, beri nama TSA

Potrebbero piacerti anche