Sei sulla pagina 1di 34
LAPORAN AKHIR JUDUL Student Clustering Based On Academic Using K-M Oleh = 058.1.2207.273 Hironimus Leong, S.Kom., M.Kom 058.1.2007.272 Shinte Estri Wahyuningrum, S.Si., M.Cs 08.02.0015 RUDY PRANOTO UNIVERSITAS KATOLIK SOEGIJAPRANATA SEMARANG FAKULTAS, ILMU KOMPUTER JUNI, 2012 PERPUSTAKAAN ul ih SOR APRANATA No. ii T andy iPUTER: TGL. BERITA ACARA REVIEW PENELITIAN FAKULTAS ILMU KOMPUTER UNIKA SOEGIJAPRANATA TAHUN AJARAN 2011/2012 af Pada hari nigger \% telah diadakan review penelitian dengan Judul Penelitian _: Student Clustering Based On Academic Using K-Means Algorithms Tim Peneliti : Hironimus Leong, S.Kom., M.Kom Shinta Estri Wahyuningrum, S.Si., M.Cs Rudy Pranoto Hasil Review Sdokemp PiManfraticnn Dye Une — fabultes Gn. Semarang, 29 Juni 2012 Reviewer I Reviewer II 4 Orn x Rosita Herawati, ST., MIT R. Setiawan Aji N., ST., MCompIT LEMBAR IDENTITAS DAN PENGESAHAN PENELITIAN INTERNAL UNIVERSITAS, TAHUN ANGGARAN 2012 1. Judul Penelitian : Student Clustering Based On Academic Using K-Means Algorithms 2. Ketua Peneliti : a, Nama lengkap dan gelar__—_: Hironimus Leong, S.Kom.,M.Kom b.Jenis kelamin Laki-Laki ©. Pangkat/GoVNIP AAJIA/058.1.2007.273 4. Jabatan fungsional e. Fakultas/jurusan :Imu Komputer/Teknik Informatika f. Bidang ilmu yang diteliti :Data Mining 3. Jumlah Tim Peneliti e2 Anggota peneliti 1 : Shinta Estri Wahyuningrum, S Si., M.Cs Anggota peneliti 2 : Rudy Pranoto 4, Lokasi Penelitian : Fakultas Ilmu Komputer 5. Pendanaan dan jangka waktu penelitian : a. Jangka waktu penelitian 3 bulan b. Biaya total penelitian Rp. 1,900,000 Semarang, 29 Juni 2012 Menget Dees Imu Komputer Ketua Peneliti, Hironimus A S.Kom., M.Kom NIP 058.1,2007.273 “Metcn exe .068 olan wiAS ABSTRAK Salah satu tujuan dari pengelompokan data mining adalah mencari cluster dari pemodelan data tertentu, Dengan pemodelan data, maka dapat memberikan lebih banyak gambaran tentang data yang dianalisis dan dapat divisualisasikan dalam bentuk grafik. Salah satu metode yang digunakan dalam data mining untuk mencari pemodelan data adalah menggunakan analisis algoritma K-Means. Algoritma K-Means digunakan untuk mencari pengelompokan data dengan titik-titik tertentu yang disebut sebagai centroid. Dengan pengelompokan data, maka data dalam jumlah besar, dalam dikelompokkan menjadi visualisasi yang lebih sederhana. Penelitian K-Means melakukan pengelompokan data berdasarkan nilai akademik mahasiswa pada fakultas ilma komputer. Hasil akhir pengelompokan dapat dijadikan dukungan bagi pengelola fakultas dalam proses pengembangan kurikulum maupun penetapan kebijakan fakultas. Keywords: data mining, k-means DAFTAR ISI BAB | PENDAHULUAN. 1.1 Latar Belakang, 1.2 Rumusan Masalah 1.3. Batasan Masalah. 1.4 Tujuan dan Manfaat Penelitian.... 1.5 Jadwal Pelaksanaan. BAB 2 TINJAUAN PUSTAKA 2.1 Konsep Data Mining 2.2 Algoritma K-Means... BAB 3 METODE PENELITIAN. BAB 4 HASIL IMPLEMENTASI SISTEM... 4.1 PERSIAPAN DATA & SISTEM MENU 4.2 NILALIPK 4.3 NILALIPK - NILAI MATA KULIAH. 4.4 NILAIMATA KULIAH -NILAI MATA KULIAH.... BAB 5 KESIMPULAN DAN. SARAN. 5.1 Kesimpulan, 5.2 Saran... DAFTAR PUSTAKA. BABI PENDAHULUAN 1.1 Latar Belakang Sistem pembelajaran di perguruan tinggi dibangun berdasarkan erencanaan yang relevan dengan tujuan pendidikan yang ingin dicapai. Schingga perlu diterapkan berbagai strategi dan teknik yang menunjang pengembangan mahasiswa untuk berpikir kritis, bereksplorasi, berkreasi dalam memanfaatkan berbagai sumber pengetahuan, Salah satu proses dalam pengembangan sistem pembelajaran tersebut adalah pengembangan dan pembaharuan proses dan kegiatan perkuliahan antara dosen dan mahasiswa. Keseluruhan pengembangan dan Pembaharuan, tertuang dalam proses kegiatan belajar mengajar yang diatur oleh kurikulum. Kurikulum memberikan perangkat rencana dan pengaturan tentang isi, bahan kajian maupun bahan pelajaran sampai pada cara penyampaian dan penilaian yang digunakan sebagai pedoman dalam penyelenggaraan kegiatan belajar mengajar. Pedoman penilaian kepada mahasiswa menjadi tolak ukur bagi suatu program studi dalam pengembangan kurikulum dan kualitas pendidikan yang ingin dicapai. Sehingga penggambaran penilaian tersebut menjadi tolak ukur bagi program studi dalam menetapkan kebijakan kurikulum dan penanganan pengembangan program studi. Penelitian tentang ‘Student Clustering Based On Academic Using K- Means Algorithms’ adalah penelitian yang ingin menggambarkan proses penilaian mahasiswa dalam bentuk analisis data mining. Bahan analisis adalah nilai akademik mahasiswa Fakultas Ilmu Komputer Universitas Katolik Soegijapranata secara keseluruhan, Hasil akhir dari penelitian ini adalah penggambaran mahasiswa secara cluster atau secara pemodelan kelompok nilai baik indeks prestasi komulatif (IPK) mahasiswa maupun nilai mahasiswa pada mata kuliah-mata kuliah tertentu. Dalam penelitian ini, digunakan algoritma K-Means sebagai cara dalam pengelolaan data menjadi cluster atau pengelompokan. Data yang dibutubkan adalah gudang data/warehouse dari Fakultas Imu Komputer yang mencakup data mahasiswa, data mata kuliah dan penilaian mata kuliah, Pendekatan yang digunakan adalah mengambil pemodelan data yang disebut sebagai data mining dalam memberikan gambaran pola nilai mahasiswa secara keseluruhan, Sehingga, harapan akhir dari penelitian ini adalah memberikan gambaran bagi pengelola Fakultas [mu Komputer dalam menetapkan berbagai kebijakan dalam penanganan mahasiswa dan pengembangan kurikulum di masa yang akan datang. 1.2 Rumusan Masalah Rumusan masalah yang akan diselesaikan dalam penelitian ini adalah: 1, Apakah algoritma K-Means dapat digunakan sebagai pengelolaan data nilai menjadi cluster dalam data mining? 2. Bagaimana proses penggambaran cluster data mining nilai IPK mahasiswa dan nilai mata kuliah menggunakan algoritma K-Means? 3. Apakah pola data mining yang dihasilkan oleh analisis K-Means dapat memberikan dukungan keputusan bagi Fakultas Ilmu Komputer dalam penetapkan kebijakan pengembangan program studi? 1.3 Batasan Masalah Penelitian ini menggunakan algoritma K-Means untuk mengelola data mahasiswa berdasarkan beberapa parameter, antara lain: 1. Nilai indeks prestasi komulatif mahasiswa 2. perbandingan nilai mata kuliah terhadap nilai indeks prestasi komulatif’ 3. perbandingan mata kuliah dengan mata kuliah lain dalam rumpun mata kuliah yang sama. Hasil akchir dari analisis akan memberikan gambaran cluster atau pengelompokan data berdasarkan parameter yang ditentukan tersebut, Gambaran yang dihasilkan dapat digambarkan secara visual berupa grafik cluster schingga dapat dijadikan pedoman dukungan keputusan bagi pengelola fakultas ilmu komputer. 1.4Tujuan dan Manfaat Penelitian Tujuan dari penelitian: 1. Menerapkan data mining dalam proses pemodelan data khususnya mengyunakan algoritma K-Means 2. Mengimplementasikan algoritma K-Means sebagai cara penggambaran data mahasiswa berdasarkan nilai indeks prestasi komulatif dan nilai mata kuliah 3. Memberikan visualisasi model data sebagai salah satu faktor dalam proses pengambilan kebijakan pengembangan kurikulum fakultas ilmu komputer Manfaat dari penelitian: 1, Bagi fakultas ilmu komputer: dapat memanfaatkan teknologi pengolahan data mining dalam menentukan pola data khususnya nilai mahasiswa 2. Bagi para dosen pengampu mata kuliah: mendapatkan model penilaian secara keseluruhan berdasarkan mata kuliah yang diampu 3. Bagi universitas: penelitian dapat dijadikan project yang lebih luas untuk diterapkan pada fakultas-fakultas yang lain. 1.5 Jadwal Pelaksanaan Jadwal pelaksanaan dari penelitian ini dijabarkan dalam 3 tahapan yang diselesaikan dalam 3 bulan penelitian; yaitu tahap pengumpulan data, tahap analisis dan desain serta tahapan implementasi sistem. Berikut adalah detil waktu pelaksanaan dari 3 tahapan tersebut: Nama Kegiatan Apr-12 Mei-12 Jun-12 Minggu Ke-|1|2{3|4]1[2[3[a[s[i[2[3[a[s Pengumpulan Data Database Mahasiswa Database Mata Kuliah Database Nilai Pelaporan Analisis & Perancangan Analisis Data Mining Analisis K-Means Pelaporan Implementasi K-Means IPK K-Means Mata Kuliah Pelaporan BAB2 TINJAUAN PUSTAKA 2.1 Konsep Data Mining Pengertian data mining mengacu pada kata “menyaring” atau “menambang” pengetahuan dari sejumlah data berukuran besar. Berry dan Linoff mendefinisikan data mining sebagai: “suatu proses eksplorasi dan analisis, dengan cara otomatis atau semi otomatis, dari sejumlah data yang besar supaya menemukan pola dan aturan yang sangat penting” Umumnya data mining mempunyai pengertian yang sama dengan istilah “Knowledge Discovery in Databases” atau menemukan pengetahuan dalam database. Proses menemukan pengetahuan dalam database menggunakan beberapa langkah iteratif secara sekuensial yaitu sebagai berikut: 1 2 Data cleaning (untuk membersihkan data pencilan dan tidak konsisten) Data integration (menggabungkan data dari beberapa sumber data yang berbeda) Data selection (mengambil data yang relevan dari database yang akan digunakan dalam proses analisis) Data transformation (data ditransformasikan atau digabungkan dalam bentuk form untuk proses analisis) Data mining (proses-proses mendasar dengan menggunakan metode kecerdasan buatan dalam menemukan pola-pola yang khusus dari analisis data) Pattern Evaluation (mengidentifikasikan pola yang menarik berdasarkan pengukuran tertentu dari pengetahuan) Knowledge presentation (teknik yang digunakan untuk visualisasi dan Tepresentasi pengetahuan) Berdasarkan fungsi dan tujuannya, semua proses eksplorasi dalam data mining dapat digolongkan ke dalam 2 kategori besar yaitu proses data mining yang bersifat deskriptif atau menjelaskan dan proses data mining yang bersifat prediktif atau meramalkan. Di bawah ini adalah beberapa teknik yang digunakan dalam data mining untuk mencapai tujuannya. 1. Classification & Prediction Classification adalah proses untuk menemukan sejumlah pola atau fungsi yang dapat mendeskripsikan suatu kelas data. Kelas data tersebut dapat dijadikan dasar prediksi untuk kelas data lain yang belum diketahui, bahkan dapat juga digunakan untuk memprediksikan nilai yang hilang (missing value) dari kelas data lain tersebut. Umumnya classification menggunakan konsep pembelajaran data atau “training data” yang diperoleh dari bentuk representasi lain, misalnya classification rule, decision tree, formula matematika atau jaringan saraf tiruan. 2. Clustering Tidak seperti classification & prediction, clustering melakukan pengelompokan data atau cluster tanpa berdasarkan kelas data tertentu dan tanpa menggunakan training data. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota suatu kelas dan meminimalkan kesamaan antar kelas. Umumnya algoritma clustering memerlukan fungsi Jarak untuk mengukur kemiripan antar data untuk ditempatkan dalam suatu cluster, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki oleh suatu data. 3. Association analysis Association analysis adalah teknik data mining untuk menemukan aturan assosiasi antara suatu kombinasi item dengan item lainnya yang sering muncul bersamaan dengan jumlah atau frekuensi tertentu dari sekumpulan data. Association analysis sering digunakan untuk analisis keranjang belanja atau juga analisis data yang berhubungan dengan model transaksi. 4, dan teknik analisis lainnya Semua pendekatan konsep tersebut di atas menggunakan algoritma penyelesaian masalah yang dikategorikan dalam ilmu statistik, ilmu komputer dan ilmu kecerdasan buatan. 2.2 Algoritma K-Means Algoritma K-Means adalah metode clustering secara Partisi yang membagi data ke dalam beberapa kelompok yang berbeda yang disebut sebagai cluster. Dalam proses algoritma K-Means, dilakukan proses secara iteratif dengan penentuan kelompok/cluster dilakukan secara acak. Setiap data akan dibagi berdasarkan jarak minimal rata-rata data tersebut ke cluster terdekat. Berikut adalah langkah-langkah algoritma K-Means: 1. Tentukan jumlah cluster K yang akan dibentuk 2. Tentukan centroid C secara acak 3.Hitunglah jarak setiap data ke masing-masing centroid menggunakan rumus jarak antar data (euclidian distance) 4. kelompokkan setiap data berdasarkan jarak terdekat data tersebut dengan setiap centroid C. uy dx,y)=/>) r 5, Tentukan posisi centroid C yang baru dengan cara menghitung nilai rata- rata dari data-data yang ada pada centroid yang sama 1 c(t )E4 dimana n adalah jumlah data dalam cluster K dan dj adalah data ke i dalam cluster K 6. Lakukan kembali langkah 3, jika posisi centroid baru tidak sama dengan centroid yang lama (proses iterasi sampai Kondisi centroid ke n sama dengan centroid n-1) Contoh penyelesaian masalah menggunakan algoritma K-Means adalah sebagai berikut: Data mahasiswa Fakultas Ilmu Komputer IPK dan nilai mata kuliah RDBMS (Relational Database Management System): | nim 1 nama | ipk | rdbms | | 09.02.0002 | ALBERT BUDI CHRISTIAN 13.631 4.01 1 09.02.0002 | ROSSYANA DEWI OCTAYANT 13.901 4.01 1 09.02.0003 | TRAN SUGIARTO 13.14) 3.04 1 09.02.0004 | FERDINAND BUDI KURNIAWAN | 3.88 | 4.0 | | 09.02.0005 | DANDY WIDIADAMARRAMA 12.95 | 3.54 | 09.02.0007 | GLENN RICARDO SUAL 12.761 Lot | 09.02.0008 | JAP KRISTIAN ADI DJAYAPRANA | 3.88 | 4.0 | | 09.02.0010 | ALEXANDER KENNY WIKARTA | 2.58 | 1-0 | { 09.02.0012 | CHRISTIAN DWI ADISAPUTRA | 2.68 | 2.5 | 1 09.02.0013 | ROY EDBERT KURNIAWAN 13.761) 3.54 | 09.02.0016 | RONALD HUTOMO 13.741 3.81 | 09.02.0017 | LUCKY SURYA PUTRA 13.621 3.51 | 09.02.0021 | BAMBANG CAHYO SUGIARTO 12.97 | aod | 09.02.0029 | FX. DONNY KURNIAWAN 12.73) 3.01 | 09.02.6030 | JoKo suTRIsNo 13.711 aot | 09.02.0033 | LUKAS BRAHMANTYA PRAKOSC | 3.28 | 3.0 | { 09.02.0051 | ANANI ANGGONOWATI 12.951 2.51 | 09.02.0082 | MILTIADES ADITYA SISWA H. | 3.42 | 3.0 | 1 09.02.0056 | JEUMPA ARUM KUSUMA 12651 2.81 | 09.02.0058 | YAKOBUS ADIEL TRIANTOPUTRO | 2.57 | 2.5 | ton: + Akan dilakukan perhitungan menggunakan K-Means dengan 2 titik centroid yang diambil secara acak yaitu: cl 2 (2.75, 3.00) (3.28, 3.75) ‘Maka perhitungan jarak data pertama (09.02.0001 ~ Albert Budi Christian) didapatkan dari rumus sebagai berikut: 4,(x, 9) = \O.83- 2.757 +(4.0-3.00" d(x, y) = y(3.83- 3.25)? + (4.0 -3.75)? = 0.63 1.47 Langkah berikutnya adalah memasukan pengelompokan clustering berdasarkan hasil hitungan tersebut. Didapatkan nilai minimal 0.63 sehingga data pertama masuk ke dalam pengelompokan cluster C2 Dengan cara yang sama, maka data selanjutnya dapat diperoleh perhitungan jarak dan pengelompokan clustering sebagai berikut: 1 09.02.0002 1 09.02.0002 | | 09.02.0003, | 09.02.0004 | 09.02.0005 1 09.02.0007 | 09.02.0008 | 09.02.0010 1 09-02-0012, 1 09.02.0013 1 09.02.0016 | 09.02.0017 1 ' 1 1 t ' ' I + Q@2rvasaa 09.02.0021 09.02.0029 09.02.0030 09.02.0033 09.02.0052 09.02.0052 09.02.0056 09.02.0058 SSIVaSlSagssssssaass Apabila digambarkan dalam bentuk grafik, maka pengelompokan cluster data akan tetlihat sebagai berikut: Grafik Clustering 4s 4 + oo 38 ° oe 3 Bae g 28 Ba 1s 1 go 0s ° 24 26 28 3 32 34 36 38 4 PK Langkah terakhir adalah menentukan posisi titik centroid yang baru dengan perhitungan mengambil nilai rate-rata dari data yang ada pada centroid. cl nim ipk dba 09.02.0003 3,14 3 09.02.0007 2,76 L 09.02.0010 2,58 1 09.02.0011 2,68 2,5 09.02.0029 2,73 3 09,02,0033 3,28 3 09.02.0051 2,95 2,5 09.02.0082 3,42 3 09.02.0056 2,65 2,8 09.02.0058 2,57 Cl baru = AVERAGE (IPK, RDBMS) = (2.88, 2.4) C2 nim ipk reba 09.02.0002 3,9 4 09.62.0004 3,68 4 09.02.0005 2,98 3,8 09.02.0008 3,08 4 09.02.0013 3,76 3,5 09.02.0016 3,74 3.5 09.02.0017 3,62 3,8 09.02.0021 2,97 4 09.02.0030 a7 4 C2 baru = AVERAGE (IPK, RDBMS) = (3.62, 3.8) a Hasil perhitungan dapat dilanjutkan dengan iterasi berikut menggunakan nilai centroid yang baru. Hasil lengkap yang didapat adalah sebagai berikut: 09.02.0001 09.02.0002 1 09.02.0003 1 09.02.0004 1 09.02.0005 1 09.02.0007 | 09.02.0008 | 09.02.0010 1 09.02.0011 1 09.02.0013 1 09.02.0016 1 09.02.0017 | 09.02.0021 1 09.02.0029, 1 09.02.0030 1 09.02.0033 | 09.02.0051 | 09.02.0052 | 09.02.0056 | 09.02.0058 + ' + ' 1 Grafik Clustering 45 4 oa ° 38 ° oo 3 a a g 25 62 fis 1 @ os 24 26 28 3 32 34 36 38 4 IPK Proses selesai pada iterasi 2 karena keanggotaan centroid tidak berubah. BAB3 METODE PENELITIAN Metode yang digunskan dalam penelitian ini adalah metode penelitian yang umumnya digunakan dalam data mining yaitu metode CRISP-DM (CRoss Industry Standard Process for Data Mining) Metode CRISP-DM adalah adalah standarisasi yang berhubungan dengan proses pemodelan data mining. Standarisasi ini tidak mengacu pada teknologi sebegaimana, melainkan pada semua tingkatan pengguna data mining untuk ‘menyelesaikan masalah perusahaan atau lembaga secara umum. Standarisasi CRISP-DM digambarkan dalam bentuk daur hidup dan dijabarkan dalam 6 fase utama yaitu sebagai berikut: Gambar 3.1 Daur Hidup CRISP-DM. 1. Business Understanding Fase ini merupakan fase inisialisasi awal dari proyek pengembangan data mining yaitu pemahaman tentang obyektivitas dari proyek dan kebutuhan yang ditinjau dari sisi perusahaan atau lembaga, Pemahaman tersebut diterjemahkan ke dalam definisi masalah yang akan diselesaikan dengan data ‘mining sehingga dapat dirancang perencanaan awal untuk mencapai tujuan, Inti dari fase ini adalah memetakan permasalahan perusahaan ke dalam permasalahan data mining. 13 Dalam penelitian ini, pemahaman yang ingin dijadikan fase inisialisasi adalsh perumusan masalah secara umum yaitu bagaimana menggambarkan visualisasi data nilai IPK dan nilai mata kuliah mahasiswa secara grafik berdasarkan analisis algoritma K-Means. Penggambaran data secara visual dapat memetakan secara umum data keseluruhan mahasiswa pada Fakultas Hmu Komputer. 2. Data Understanding Fase data understanding dimulai dengen eksplorasi data yang akan digunakan dalam permasalahan data mining, verifikasi terhadap kualites data dan menemukan pengertian awal dari data yang akan digunakan dalam proses analisis. Dari proses-proses tersebut, maka dapat diperoleh hal-hal menarik untuk penyusunan hipotesis dari informasi yang tersembunyi. Data yang akan digunakan dalam proses analisis data mining ‘menggunakan algoritma K-Means adalah data mahasiswa Fakultas Ilmu Komputer. Gudang data/warehouse yang digunakan adalah database yang ‘menyimpan data tentang identitas mahasiswa, mata kuliah sesuai kurikulum yang, berlaku pada Fakultas Ilmu Komputer dan detil dari nilai setiap mata kuliah yang, diambil oleh mahasiswa, Proses data understanding, diperoleh schema gudang data dari Fakultas Imu Komputer yang tersimpan dalam bentuk sistem komputerisasi sebagai berikut: T_MAHASISWA Pe {uit T_ASLSTUDI NAMAMHS KO_JUR JANGKATAN THNAJAR NIRM KD_MSUJI TPLHR, Fk | NIM PK [KOMK PUS TGLHR ie FK2 | KDMK_PUS. > KELAMIN, NILAI KOMK_JUR MARITAL KELAS NM_MRULIAH ALAMAT NO_ARSIP sks KOTA OPERATOR TELEPON TANGGAL AGAMA KO_JUR DARAH DOSEN KODEPOS ALAMAT_ASAL NIRL Gambar 3.2 Data Mahasiswa Fakultas Iimu Komputer 14 3, Data Preparation Hampir sebagian besar dari proses pemodelan data mining terfokus pada fase data preparation atau persiapan data. Fase ini meliputi beberapa kegiatan yaitu pengumpulan data, penilaian terhadap data, konsolidasi dan pembersihan data, seleksi dan transformasi data, Fase persiapan data dijabarkan lebih rinci dalam beberapa langkah di bawah * Seleksi data: memutuskan data apa yang digunakan dalam proses analisis, ‘criteria data yang relevan dengan tujuan data mining, kualitas data dan aturan teknis dari data, misalnya ukuran dan tipe data yang digunakan, Seleksi data Juga meliputi penentuan tabel, record dan atribut yang akan digunakan dalam proses analisis. ‘* Membersihkan data: Kualitas data yang sudah terseleksi dibawa ke tingkatan yang lebih tinggi sesuai dengan teknik analisis data yang akan digunakan, Data-data yang tidak valid, data yang tidak disertakan dalam proses analisis, data pencilan maupun data yang tidak lengkap dapat diabaikan atau dihapus sehingga memudahkan dalam proses pemodelan data. * Membangun data: Persiapan data yang sudah dilakukan sampai dengan langkah 2 di atas digunakan untuk membangun data, yaitu membangun atribut data; termasuk semua record baru dan nilai hasil transformasi dari atribut yang, sudah ada, * Integrasi data: Metode dimana data-data yang dibangun dapat digabung dari berbagai sumber data yang berbeda menjadi satu kesatuan yang terintegrasi. * Format data: Format data dalam data yang sudah terintegrasi dapat dimodifikasi menjadi format data yang lain tanpa mengubah makna dari format data sebelumnya. Umumnya langkah ini digunakan sebagai pertimbangan dalam kepentingan pemodelan data. Berdasarkan data yang tersedia, maka data yang dilakukan untuk proses analisis dalam tahapan data preparation adalah data mahasiswa yang meliputi nim dan namamhs dari T_MAHASISWA, data KDMK_PUS, NM_MKULIAH dan SKS dari tabel T_MATAKULIAH, dan data nilai dari T_HSLSTUDI Seluruh data yang tersedia dilakukan pengolahan lebih lanjut sebagaimana yang terlampir dalam laporan penelitian ini, 15 4, Modeling Fase modeling adalah fase pemilihan model analisis_ yang akan diimplementasikan dalam data mining, misalnya decision tree, neural network, aturan asosiasi, dan lain-lain. Pemilihan model analisis harus disesuaikan dengan permasalahan aktual yang akan diselesaikan, bahkan beberapa model dapat diimplementasikan dalam suatu analisis data mining. Penentuan parameter-parameter yang digunakan untuk proses pemodelan juga penting ditentukan untuk mendapatkan nilai yang optimal. Parameter-parameter yang menentukan dalam fase pemodelan harus dilakuken pengujian untuk mendapatkan kualitas dan validitas pemodelan yang diimplementasikan tersebut. Jika belum mencapai nilai yang optimal, maka semua langkah pada fase data preparation harus dilakukan kembali. Pada tahepan ini, seluruh data yang dipersiapkan pada tabapan sebelumnya dilakukan pemodelan data sebagaimana yang dibahas pada bab sebelumnya yaitu ‘menggunakan konsep KMeans untuk clustering. Pemodelan menggunakan rumusan statistik dan perhitungan-perhitungan matematis sehingga didapatkan hhasil akhir data yang dapat divisualisasikan dalam bentuk grafik. 5. Evaluation Fase evaluation atau evaluasi adalah fase analisis terhadap model yang digunakan, bagaimana kinerja model terhadap analisis data yang digunakan; apakah model yang diimplementasikan sudah atau belum memenuhi fase pertama Business Understanding yaitu obyektivitas dari proyek. Oleh karena itu dibutuhkan metode dan Kriteria dalam proses evaluasi untuk ‘memastikan apakah interpretasi dari model dapat diteruskan atau tidak ke fase deployment. Jika model yang dikembangkan memiliki ketidaksempumaan, maka perlu dikemukakan alasan dan solusi yang obyektif dari kekurangan model tersebut Dalam tahapan ini, dilihat berbagai permasalahan dalam implementasi sistem yang akan dibahas lebih lanjut pada bab implementasi laporan penelitian ini. 6. Deployment Fase deployment mendefinisikan bagaimana model dikembangkan dalam bentuk sistem, siapa yang akan menggunakannya, dan seberapa sering sistem tersebut digunakan, Terdapat 3 langkah yang ada dalam fase ini, yaitu: * Perencanaan deployment; yaitu menetapkan strategi dan hasil evaluasi serta membuat dokumen prosedur deployment. Perencanaan pengawasan dan pemeliharaan; langkah ini penting apabila hasil dari pemodelan dalam data mining digunakan secara periodik © Menyusun laporan akhir; laporan dapat berbentuk laporan yang terinci, summary atau semacam kesimpulan dari proyek dan langkah-langkah pengembangan. * Review atau peninjauan ulang proyek; yaitu memberikan penilaian yang obyektif tentang kelebihan dan kekurangan dari data mining yang sudah dikembangkan, semua aspek yang dinilai akan digunakan sebagai bahan Penyempurnaan di masa mendatang. Keseluruhan langkah dalam tahapan ini akan dijelaskan pada bab akhir dari pelaporan penelitian tentang kesimpulan akhir dan saran akan pengembangan lanjutan dari penelitian ini. BAB4 HASIL IMPLEMENTASI SISTEM 4.1 PERSIAPAN DATA & SISTEM MENU Persiapan data adalah proses awal dari implementasi sistem. Dalam proses persiapan data, perlu dilakukan persiapan database mahasiswa Fakultas llmu Komputer yang meliputi data mata kuliah, data mahasiswa dan data hasil studi. Implementasi yang digunakan adalah sebagai berikut: /* mambuat database dengan nama dbXMeana */ drop database if exists dbKMeans: create database dbKMeans; use dbKeans; /* membuat tabel t_mahasisva */ CREATE TABLE “1 _MARASISWA’ ( “NIM” varchar (10) NOT NULL default '', ‘WAMAMHS" varchar (30) NOT NULL default '', °KD_JUR" char (2) NOT NULL default '', TANGKATAN” varchar (4) NOT NULL default '', CNIRM” varchar (20) NOT NULL default ‘', Y3PLHR’ varchar (15) NOT NULL default '', “TGLER’ date NOT NULL default '0000-00-00', TRELAMIN" char (1) NOT MULL default '', CMARITAL” char(1) NOT NOLL default '', TALAMAT” varchar (35) NOT NULL default '*, TKOTA’ varchar (20) NOT NULL default '', STELEPON” varchar (15) NOT NULL default''', °AGAMA’ char (1) NOT NULL default '*, °DARAH’ char (2) NOT NOLL default '*, :KODEPOS* varchar (5) NOT NULL default '', TALAMAT_ASAL* varchar (35) NOT NULL default ‘', “NIRL” Varchar (11) NOT NULL default '', PRIMARY KEY ("NIM"), Key “myindex’ (NIM') ) ENGINE=MyISAM DEFAULT CHARSET=Latin1; /* menbuat tabel t_matakuliah +/ CREATE TABLE “T_MATAKULIAH” ( “KDMK_PUS* vaFchar(8) NOT NULL default ‘', "KDMK_JUR” varchar (12) NOT NULL default ;MH_MROLIAH” varchar (25) NOT NULL default *aKS" int (2) NOT NULL default ‘0' ) ENGINE=MyISAM DEFAULT CHARSET=1atin1; 18 /+ mombuat tabel t_helstudi +/ CREATE TABLE “T_HSESTUDI* ( STHNAJAR® varshar (4) NOT NOLL default [XD_MSUJT" char (2) NOT NULL default ' °NIM" varchar (10) NOT NULL default '', [NDMK_POS" varchar (12) NOT NOLL default '', TRTLAT’ char (3) NOT NULL default * TKELAS* char (2) NOT NULL default '', {NO_ARSIP” varchar (16) NOT NULL default '', SOPERATOR® varchar (15) NOT NULL default '', TTANGGAL® datetime NOT NULL dafault 0000-60-00 00. [XD_JUR* char(2) NOT NULL default '', “DOSEN” varchar (20) NOT NOLL default KEY "KOMK_PUS" (“KOMK_PUS*), Rey “myindex’ ("NIM") ) ENGINE=MyISAM DEFAULT CHARSET=Latint; Perlu dipersiapkan juga procedure umum untuk perhitungan clustering untuk berbagai pilihan dalam mengimplementasikan K-Means dalam analisis IPK maupun nilai mata kuliah. Procedure umum adalah sebagai berikut: begin declare nim? varchar (10); declare k int default 0; declare jum int; declare cent3 double; declare crmin cursor fer select nim from temphitungeluster; select count (nim) into jum from tomphitungeluster; open ermin; while (kejum) do fetch crmin into nim2; set minimumt = 99999; set @clustermin = ''; begin declare 1 int default 0; declare juml int? declare crmini cursor for select centroidke from centtemp, select count(centroidke) into jumt from conttemp; open crmint; while(1 @banding then set @minimuml = Qbanding ; set @clustermin = cent3 ; ond if; set 1/141; end while ; close crmint; end ; update temphitungcluster set minimm@minimum? , cluster=@clustermin where nim-nim2; set kek+1; ond while 7 close crmin: ond + Implementasi dalam bentuk program untuk langkah persiapan adalah membangun sistem menu. Sistem menu menyediaken pilihan untuk menentukan 3 pilihan analisis yaitu clustering IPK, clustering perbandingan IPK dan mata kuliah, dan clustering perbandingan mata kuliah dengan mata kuliah, e Akam CLUSTERING OF FACULTY DATA Gambar 4 emu iam 4.2 NILATIPK Hasil implementasi dari nilai IPK adalah melihat pengelompokan cluster berdasarkan nilai IPK mahasiswa Fakultas limu Komputer. Implementasi nilai IPK menggunakan proses pembagian secara jelas antara mahasiswa dengan status mahasiswa aktif dan mahasiswa tidak aktif, Pembagian mahasiswa aktif dan tidak aktif perlu dilakukan untuk melihat validitas data yang dianalisis menggunakan algoritma K-Means, Pembagian ini juga dilakukan untuk memberikan batasan jelas penggambaran data secara detil mahasiswa Fakultas limu Komputer. 20 Untuk mencari clustering K-Means, perlu dilakukan menggunakan procedure khusus untuk perhitungan nilai IPK dan pembagian cluster sebagai berikut: declare ercentroid cursor for elect centroidke,nilai from centtenp; select count (centroidke)inte jumkursor from centtexp: open crcentroid; insert into temphitungeluster (nim,nama,ipk) select T_MAHASISWA.NIM as ‘Nim', ‘T_MAHASISWA.NAMAMES as nama, (eum{casa when T_HSLSTUDI.NILAIS‘A! then 4 when T_HSLSTUDZ.NILAT="AB" then 3.5 when _HSLSTUDI.NILAT='B' then 3 when _HSLSTUDI.NILAT="BC' then 2.5 when T_HSLSTUDI.NILAT='c! thon 2 when 1 HSLSTUDI.NILAT="CD' then 1.5 when T_HSLSTUDI.NILAT="D' then 2 when T_HSLSTUDI.NILAI<'E! then 0 fend) / count (7_MATAKULTAH.SKS)) as 'ipk* from T_HSLSTUDI inner join T_MAHASISWA using (NIM) inner join TMATAKULIAH using (KDMK_PUS) group by 7 MAHASISWA.NIM ; drop table if oxists tempipk: create table tempipk like centtemp; if param < jumkursor then set jumkursor = param ; end if; while(i¢junkursor) do fetch crcentroid into cantroid,nilail; set @test = centroid ; set dquery := concat (Calter table temphitungcluster add column eluster_',atest,* double’); prepare test from @query ; execute test ; deallocate prepare test ; ingert into tempipk (cantroidke,nilai) values (centroid, nilas) ; close creentroid; 21 Berikut adalah implementasi sistem untuk analisis K-Means untuk clustering IPK. Sumfah Colom : | [=] (Proses Glusier) Nim nama [tk _[ctosee (08.02.0009|DEWI NIRMALA SARI fT rT 18.02.0030 AGNESIA ~_[1-289473684]1 )8.02,0036|HANITYO ARIF SANJAYA 1s r 08.02.0044]ANDREAS BENNY SETIAWAN 1.5 1 (08.02.0045|RYAN SEBASTIAN RUSTAM eae ft 8.02.0049|SAMBHAWA DHARMA RADITYAIL.7 q [08.02.0056/TRY LUKMAWATI it (08.02.0065|REZA ARNOLD TUMBELAKA __|[. ht INNURHUDA 3882352|1 | |AGUSTINUS SETYAWAN _ _ [CHAROL MINGGUS P. Si fh IDAMIANUS DOLAME __|0.5 | [08.02.0075|INES SUWARNO t h | [08.02.0076 THOMAS BUDIMAN JAYA W. 26is0a7eifi | Gambar 4.2 Clustering IPK Mahasiswa 4.3 NILAI IPK - NILAI MATA KULIAH Pilihan analisis nilai IPK dan nilai mata kuliah, untuk melihat pengelompokan data IPK mahasiswa dan nilai mata kuliah tertentu. Perlu dibuat procedure untuk analisis pengelompokan cluster nilai IPK dan nilai mata kuliah sebagai berikut: create procedure spcontroidmakul (param int,param3 int,param2 int) begin declare i int default 0; declare jumkursor int; declare cantroid int; doclare nilai1 double; declare ipki double; declare kedemakull varchar (20); declare creentroidmakul cursor for select kodemakul, centroidke,nilaimakul, ipk from centtempmakul ; jalact count (centroidke) inte jumkursor from centtempmakul ; open creantroidmakul ; insert into temphitungelustermakul (ndm,nama, {pk) solect TMAHASISWA.NIM as ‘Nim’, ‘TAASISWA.NAMAMIS as nama ' (sum(case when 7_HSLSTUDI.NILAT="a' ‘then 4 when 7_HSLSTUDI.NILAT=*AB' then 3.5 when _HSLSTUDI.NILAT='B' then 3 when T_HSLSTUDI.NILAI='BC! thon 2.5 when T_HSLSTUDI.NILAI='c’ then 2 when _HSLSTUDI.NILAT='cD' then 1.5 when T_HSLSTUDI.WILAI='D' ‘then 2 when T_HSLSTUDI.NILAT= then 0 end) / count (7_MATAKULIAH.SKS)) as ‘ipk’ from 7 HSLSTUDI inner join 7 MAHASISWA using (NIM) inner Join T_MATAKULIAH using (KDMK_PUS) group by 7_MARASISHA.NIM ; drop table if exists tempipkmakul; create table tempipkmakul like centtampmakul; if param < jumkursor then set jumkursor = param ; end if ; while (i @banding then set @minimml = @banding ; st dclustermin end if; set 1=1+1; end while ; close crmin2; end ; update temphitungolustermakul1 eet minimun=¢minimml , cluster=¢clustermin where nimenim?; set k=kt1; ond while : close crmini; 26 Berikut adalah implementasi hasilnya dalam pengembangan sistem. ‘Mata Kuliah : Comp Organization ‘Mata Kuliah > Comp Organization Cluster Kee: 1 {Lihat Fiasil| fkodemakul 1{kodemakul 2[centroidke nilal makul L[uilat makul 2[ update 0203288: —{o2032547 [4 1 4 | Upaate | e0s2ss7 _[ozoseese [2 2 2 ivpdatey cagsesse _[oroszsse [2 3 B | Update | Jumoiah Colom Sumiah iterasi= Mahasiswa: adit 3] Gambar 4 Analisis Perbandingan Mata Kuliah dengan Mata Kuliah BABS KESIMPULAN DAN SARAN 5.1 Kesimpulan Berdasarkan hasil pembahasan bab pendahuluan sampai pada bab implementasi, maka didapatkan beberapa kesimpulan sebagai berikut: 1. Algoritma K-Means dapat digunakan untuk mengelola nilai IPK mahasiswa menjadi pengelompokan clustering. Pengelompokan IPK dapat dilakukan dengan perhitungan jarak dan nilai_ centroid menggunakan rumusan dan formula K-Means 2. Terhadap 3 analisis utama yang dapat diselesaikan menggunakan algoritma K-Means yaitu analisis data nilai IPK mahasiswa, analisis perbandingan nilai mata kuliah tertentu terhadap nilai IPK dan analisis perbandingan nilai mata kuliah terhadap mata kuliah dalam rumpun mata kuliah yang sama dalam kurikulum. 3. Dengan melakukan proses analisis terhadap nilai baik IPK maupun mata kuliah, maka didapatkan gambaran secara umum tentang data hasil studi mahasiswa Fakultas IImu Komputer. Dengan penggambaran data secara umum tersebut, maka dapat dijadikan pedoman dalam proses pengambilan keputusan lebih lanjut. 28 5.2 Saran Pengembangan sistem menggunakan Algoritma K-Means berlaku dalam proses data mining, Sistem yang dikembangkan masih sebatas dalam penggambaran data secara umum sehingga pengembangan di masa-masa mendatang perlu mempertimbangkan pengembangan sistem pendukung keputusan menggunakan algoritma yang sama. Selain pengembangan lebih lanjut dalam sistem pendukung Keputusan adalah dengan penambahan parameter lain sebagai bahan pelengkap bagi sistem dalam memberikan pertimbangan keputusan. Dengan pengembangan ke arah sistem pendukung keputusan, maka akan semakin memudahkan pengelola fakultas dan pengambil kebijakan kurikulum dalam menata dan mengorganisasikan kualitas pendidikan di fakultas ilmu komputer, DAFTAR PUSTAKA Berry, Michael J.A and Gordons S. Linnoff. Data Mining Techniques , Second Edition, Wiley Publishing, Inc., Indianapolis, Indiana, 2004 Cross Industry Standard Process for Data Mining, http:: www-crisp-dm ors Han, Jiawei and Micheline Kamber. Data Mining : Concepts and Techniques, Morgan Kaufmann Publisher, London, 2001 Inmon, W.H. Building the Data Warehouse, 3rd Edition, John Wiley & Sons, Inc., Canada, 2002 Kantardzic, Mehmed. Data Mining-Concepts, Models, Methods, and Algorithms, New John Wiley & Sons, Inc., New Jersey , 2003 Kelly, Sean. Data Warehouse in Action, John Wiley & Sons, Inc., New Jersey, 1997 Kimball, Ralph and Margy Ross. The Data Warehouse Toolkit-the Complete Guide to Dimensional Modeling, Second Edition, John Wiley & Sons, Inc., Canada, 2002 Malach, Efrem G. Decision Support and Data Warehouse Systems, McGraw-Hill, International Edition, 2000 Marakas, George M. Modern Data Warehousing, Mining, and Visualization - Core Concepts, Prentice Hall, Inc., New Jersey, 2003 Poe, Vidette and Patricia Klauer. Building a Data Warehouse for Decision Support, Second Edition, Prentice Hall, Inc., New Jersey, 1997

Potrebbero piacerti anche