Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1971 Floppy
8”: 80 KB
1976 Floppy
5.5”: 100 KB
1981 Floppy
3.5”: 1.4 MB
Optical Disk
CD: 400 MB
DVD: 4.7 GB
Blue Ray: 25 GB
Biaya Penyimpanan Data
http://www.mkomo.com/cost-per-gigabyte
Berapa banyak data di dunia ?
http://www.emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf
Setiap menit …
Lebih dari 204 juta pesan email
Lebih dari 2 juta permintaan pencarian
Google
48 jam video YouTube baru
684,000 bit konten dibagi (share) di
Facebook
Lebih dari 100.000 tweet
$ 272,000 dihabiskan untuk e-commerce
http://www.webopedia.com/quick_ref/just-how-much-data-is-out-there.html
Data Center
Data center NSA di
Bluffdale, Utah –
code name
Bumblehive -
mampu menyimpan
yottabyte data
Google diperkirakan
menyimpan 15
exabites data pada
disk dan backup
Big Data
Terjadi ledakan jumlah data
Teknologi database tradisional sulit
digunakan untuk mengelola data yang
sangat besar
Veracity Value
Volume: Size does Matter
Data dengan volume terabytes atau
petabytes
Menghitung jumlah records, transaksi,
tabel atau file
Ada yang menghitung berdasarkan
waktu
Variety
Big Data Source Global company
usage
Transaction 88%
Log data 73%
Events 59%
Email 57%
Social Media 43%
Sensor 42%
External Feed 42% Unstru ctured
RFID/POS 41%
Free text 41%
Geo spatial 40%
Audio 38%
Video/Images 34%
http://ugm.id/ibmbd
Velocity
Frekuensi pembangkitan atau pengiriman
data
Batch: data dikelompokkan dulu dan
diproses/dikirim sebagai unit
Real time: proses pembangkitan/pengiriman
data dalam rentang waktu dan laju (rate)
yang ditentukan
Near time: ada delay antara data dan
pemrosesan
Stream: aliran data (contoh: bacaan sensor,
twitter, dll)
Veracity/Confidence
Churn
Lost Carrier causes &
Indicators
Payment m-2
Network Quality
Download m-3
Download m-3
Customer
complaints
type
Social Media Analytics for Government
City Current Issues Happiness Index
Hot Topic
45
BMKG is ready?
CASE
Opinion Mining / Sentiment Analysis (sebagian besar researcher menganggap dua istilah
ini sama/interchangeable) merupakan sebuah cabang penelitian di domain Text Mining
yang mulai booming pada awal tahun 2002-an. Riset-nya mulai marak semenjak paper
dari B.Pang dan L.Lee [1] keluar. Secara umum, Sentiment analysis ini dibagi menjadi 2
kategori besar :
Coarse-grained sentiment analysis
Fined-grained sentiment analysis
Coarse-grained sentiment analysis - kita mencoba melakukan proses analysis pada level
Dokumen. Singkatnya adalah kita mencoba mengklasifikasikan orientasi sebuah
dokumen secara keseluruhan. Orientasi ini ada 3 jenih : Positif, Netral, Negatif. Akan
tetapi, ada juga yang menjadikan nilai orientasi ini bersifat kontinu / tidak diskrit.
Fined-grained sentiment analysis - kategori kedua ini yang sedang Naik Daunsekarang.
Maksudnya adalah para researcher sebagian besar fokus pada jenis ini. Obyek yang ingin
diklasifikasi bukan berada pada level dokumen melainkan sebuah kalimat pada suatu
dokumen.
contoh :
Saya tidak suka programming. (negatif)
Hotel yang baru saja dikunjungi sangat indah sekali. (positif)
Twitter sentiment analys
1. COPI FILE DARI DRIVE
https://drive.google.com/file/d/1K6cjH9Fn6j
RmqiLY9VcJuh3T_CjxNLhQ/view?usp=sharing