Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh: Emi Latifah 10207094 Pembimbing I : Selvia Lorena Br Ginting, M.T Pembimbing II : Wendi Zarman, Msi
Pendahuluan Latar Belakang Banyaknya tumbukan data di Jurusan Teknik Komputer. Banyaknya mahasiswa yang menempuh masa studi lebih dari lima tahun. Kebutuhan akan adanya suatu sistem yang mampu memprediksi masa studi seorang mahasiswa. Jumlah penerimaan sering kali tidak sesuai dengan jumlah kelulusan sehingga muncul penggelembungan jumlah mahasiswa di jurusan teknik komputer UNIKOM Tingginya tingkat dropout (DO) di program studi teknik komputer UNIKOM menyebabkan munculnya kebutuhan akan aplikasi datamining yang mampu memperkirakan tingkat kelulusan siswa
Pendahuluan Tujuan Mengimplementasikan serta menganalisis penerapan algoritma ID3 dalam melakukan Prediksi Masa Studi Mahasiswa. Membangun perangkat lunak untuk memprediksi masa studi mahasiswa berdasarkan data nilai akademik yang pernah diambil.
Pendahuluan Batasan Masalah Data yang digunakan dalam studi kasus menggunakan data yang lengkap. Menggunakan bahasa pemrograman visual basic 6.0 Data matakuliah yang digunakan dari semester 1-2 untuk jenjang S1. Mata kuliah yang digunakan oleh sistem meliputi fisika1, fisika2, kalkulus1, kalkulus2, algoritma pemrograman1 , dan Pengantar Sistem Komputer. Menggunakan Microsoft Office Access 2007 sebagai pembuatan database.
Landasan teori Data Mining Klasifikasi Decision Tree: strutur flowchart yang menyerupai tree, dimana setiap simpul internal menandakan suatu tes atribut, dan setiap cabang merepresentasikan suatu kelas. ID3 ( Iterative Dichotomicer 3): algoritma yang digunakan untuk menghasilkan pohon keputusan yang mengklasifikasikan suatu objek. Pencarian secara greedy.
Perancangan Perancangan sistem ini terdiri dari dua buah data: Data Training (data latih) Data Testing (data uji) Dua kategori Atribut tujuan: Masa studi <= 5 tahun Masa studi > 5 tahun
Perancangan Contoh Kasus
Gambar 3 Pohon Keputusan Hasil Perhitungan Node Ke-1 Perancangan Algoritma ID3 (Pencariaan Entropy dan Gain) Jika atribut kosong, berhenti dalam dengan satu pohon dengan satu simpul akar dengan label sesuai nilai yang terbanyak yang ada pada label training untuk yang lain, Mulai A <- atribut yang mengklasifikasikan sample dengan hasil terbaik (berdasarkan information gain), Atribut keputusan untuk simpul akar A, Untuk setiap nilai, vi , yang mungkin untuk A, Tambahkan cabang dibawah akar yang berhubungan dengan A = vi, Tentukan sampel Svi sebagai subset dari sampel yang mempunyai nilai vi untuk atribut A, Jika sampel Svi kosong, dibawah cabang tambahkan simpul daun dengan label = nilai yang terbanyak yang ada pada label training, yang lain tambah cabang baru dibawah cabang yang sekarang ID3 (sampel training, label training, atribut-[A]) Berhenti Gambar 3 Pohon Keputusan Hasil Perhitungan Node Ke-1
Gambar 4 Pohon Keputusan Hasil Perhitungan Node Ke-2 Algoritma ID3 (pencariaan Entropy dan Gain) Gambar 4 Pohon Keputusan Hasil Perhitungan Node Ke-2
Perancangan Sistem-Flowchart Secara Umum
Perancangan Sistem-Flowchart ID3
Analisis Persentase Kecocokan dengan Variasi 4Atribut Algoritma ID3 bersifat greedy, sehingga setiap data yang dimasukkan akan diproses oleh algoritma ID3, padahal tidak semua data memiliki pengaruh yang signifikan terhadap pembangunan pohon, sehingga ada kalanya penggunaan data yang terlalu beragam akan membingungkan sistem sehingga akurasi dapat berkurang
Analisis Persentase Kecocokan dengan Variasi 5Atribut
Kesimpulan Sistem aplikasi ini menerapkan metode decision tree dan algoritma ID3 yang bertujuan untuk memprediksi masa studi mahasiswa di jurusan teknik komputer. Pada jumlah data training yang berjumlah 112 tingkat persentase paling tinggi sebesar 65,71% dengan menggunakan atribut yang sama. Pada pengujian ke-2 dengan 5 atribut (fisika1,kalkulus1, pengantar sistem komputer, fisika2, kalkulus2) dan 5 atribut lain (fisika1, kalkulus1, fisika2, kalkulus2, dan algo1), menghasilkan persentase yang sama sebesar 62,86% yang merupakan persentase paling tinggi. hal ini terlihat pada gambar 2. Hasil pengujian untuk 1 database dengan jumlah data training 70 menggunakan 4 atribut lebih besar tingkat persentasenya dibandingkan dengan jumlah training yang menggunakan 112 data. Hal ini terlihat pada gambar diatas. Fisika1, fisika2, kalkulus2, dan algo1 merupakan 4 atribut yang mendapatkan nilai persentasenya paling tinggi sebesar 71,43%. Tingkat persentase (kecocokan) dipengaruhi dengan banyaknya jumlah data training yang digunakan.
Saran Dapat dibuat teknik prediksi masa studi mahasiswa dengan algoritma lain, yang mampu memprediksi hingga perkiraan masa studi yang lebih detail.
Terima Kasih