PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016 PERNYATAAN MENGENAI SKRIPSI DAN SUMBER INFORMASI SERTA PELIMPAHAN HAK CIPTA Dengan ini saya menyatakan bahwa skripsi berjudul Penerapan K-means pada Imbalanced Data untuk Klasifikasi Metagenom adalah benar karya saya dengan arahan dari komisi pembimbing dan belum diajukan dalam bentuk apa pun kepada perguruan tinggi mana pun. Sumber informasi yang berasal atau dikutip dari karya yang diterbitkan maupun tidak diterbitkan dari penulis lain telah disebutkan dalam teks dan dicantumkan dalam Daftar Pustaka di bagian akhir skripsi ini. Dengan ini saya melimpahkan hak cipta dari karya tulis saya kepada Institut Pertanian Bogor. Bogor, Desember 2016 Abdul Aziz Fauzi NIM G64100100 ABSTRAK ABSTRAK ABDUL AZIZ FAUZI. Penerapan K-means pada Imbalanced Data untuk Klasifikasi Metagenom. Dibimbing oleh TOTO HARYANTO. Metagenom merupakan studi DNA total dari sumber lingkungan yang diisolasi secara langsung. Metagenom didasari pada isolasi dan karakterisasi DNA dari sampel-sampel lingkungan tanpa diperlukannya budidaya dari mikroorganisme. Studi metagenom mengacu pada kandungan genomik dari ekosistem mikroba lengkap. Dikarenakan pada sampel mikroba yang digunakan terdapat bermacam-macam jenis organisme maka perlu dilakukan proses klasifikasi. Pada tahap proses klasifikasi metagenom umumnya terjadi permasalahan imbalanced data yang dapat mempengaruhi keakuratan hasil klasifikasi. Penelitian ini difokuskan untuk mengatasi masalah klasifikasi pada imbalance data pada metagenom dengan K-means sebagai metode clustering dan mengaplikasikan KNN (k-nearest neighbors) sebagai algoritme untuk klasifikasinya. Berdasarkan hasil penelitian ini dapat diketahui bahwa akurasi rata-rata kelas minoritas setelah dilakukan penyeimbangan data mengalami peningkatan sebesar 4,35% untuk k=1. Adapun akurasi rata-rata pada kelas minoritas untuk k= 3 dan k=5 setelah dilakukan penyeimbangan justru mengalami penurunan sebesar masing-masing sebesar 1,21% dan 6,77%. Kata kunci: Clustering, DNA, imbalance data, Klasifikasi, KNN, K-means. Metagenom. ABSTRACT ABDUL AZIZ FAUZI. Applying K-means on imbalanced data for metagenome classificaton. Supervised by TOTO HARYANTO. Metagenome is a study of total DNA from some environmental sources that are directly isolated. Metagenomics is based on the isolation and characterization of DNA from environmental samples without the need for prior cultivation of microorganisms. Metagenome studies refer to the genomic content of complete microbial ecosystems. Since the microbial samples used may contain a variety of organisms it requires classification process. Usually at the stage of metagenome classification process, imbalanced data problem occurs and may affect the accuracy of the classification results. This research focused on solving imbalanced data classification problem on metagenom using K-means as a clustering method and applying k-nearest neighbors (KNN) as the classification algorithm. Based on the research it can be seen that the average accuracy of the minority after balancing the data increased by 4.35% for k = 1. The average accuracy in the minority class for k = 3 and k = 5 after the balancing actually decreased each by 1.21% and 6.77%. Keywords: classification, clustering, DNA, imbalance data, KNN, K-means, metagenome. PENERAPAN K-MEANS PADA IMBALANCED DATA UNTUK KLASIFIKASI METAGENOM ABDUL AZIZ FAUZI Skripsi sebagai salah satu syarat untuk memperoleh gelar Sarjana Ilmu Komputer pada Departemen Ilmu Komputer DEPARTEMEN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM INSTITUT PERTANIAN BOGOR BOGOR 2016 Pe nguji: 1 Dr Imas Sukaesih Sitanggang, SSi, MKom 2 Azis Kustiyo, SSi MKom
Description: