PENGKLASIFIKASIKAN SPAM-MAIL PERBANDINGAN KINERJA ALGORITMA ID3 DAN C4 PENGKLASIFIKASIKAN SPAM-MAIL PERBANDINGAN KINERJA ALGORITMA ID3 DAN C4.5 DALAM for further detail, please visit http://library.gunadarma.ac.id
Abstrak ABSTRAKSI Sofi Defiyanti, 11104550 PERBANDINGAN KINERJA ALGORITMA ID3 DAN C4.5 DALAM PENGKLASIFIKASIKAN SPAM-MAIL Tugas Akhir, Jurusan Sistem Informasi, Fakultas Ilmu Komputer, Universitas Gunadarma, 2008. Kata Kunci : Decision Tree, ID3, C4.5, Klasifikasi, Spam-mail, Weka. ( x + 44 + Lampiran) Klasifikasi spam mail digunakan untuk memisahkan antara spam-mail dengan non spam mail (atau yang biasa disebut ham atau legitimate mail). Klasifikasi spam mail ini berguna untuk menghemat waktu dan penghematan biaya yang digunakan untuk menghapus spam mail dari inbox. Untuk itu diperlukan metode yang paling baik untuk mengklasifikasikan spam mail. Algoritma decision tree merupakan salah satu metode yang bisa digunakan untuk klasifikasi spam mail. Algoritma decision tree telah banyak mengalami penge... for further detail, please visit http://library.gunadarma.ac.id
Bab 1 BAB I PENDAHULUAN 1.1 Latar Belakang Perkembang aplikasi-aplikasi internet, salah satunya adalah email, sangat pesat dikarenakan sifatnya yang sangat cepat, tepat, dan murah sehingga banyak pengguna email (selanjutnya disebut pemakai) terutama salesperson memanfaatkannya untuk mengirimkan pesan-pesan ke banyak orang. Pesan tersebut dinamakan “unsolicited bulk email”, “junk mail”,... for further detail, please visit http://library.gunadarma.ac.id
Bab 2 BAB II LANDASAN TEORI 2.1. Data mining Data mining adalah suatu algoritma di dalam menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data (database) yang sangat besar sehingga ditemukan suatu pola yang menarik yang sebelumnya tidak diketahui. Analisa data mining berjalan pada data yang cenderung terus membesar dan teknik terbaik yang digunakan kemudian beorientasi k... for further detail, please visit http://library.gunadarma.ac.id
Bab 3 BAB III ANALISA DAN PEMBAHASAN 3.1. Data yang Digunakan Database spam-mail ini diperoleh dari UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/MLRepository.html. Database ini disumbangkan oleh George Forman dari laboratorium Hewlett-Packard (HP). Database terdiri dari koleksi e-mail dari bulan juni sampai juli 1999. database terdiri dari total 4601 email, dimana 1813 (39.4%) adalah ... for further detail, please visit http://library.gunadarma.ac.id
Bab 4 BAB IV PENUTUP 4.1. Kesimpulan Dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan jumlah data maka dapat disimpulkan algoritma ID3 memiliki kinerja (precision, recall, dan accuracy) yang lebih baik dibandingkan algoritma C4.5. Dan dari pengukuran kinerja kedua algoritma yang telah dilakukan berdasarkan jumlah atribut dapat disimpulkan algoritma ID3 juga memiliki kinerja (pre... for further detail, please visit http://library.gunadarma.ac.id
Bab 5 ... for further detail, please visit http://library.gunadarma.ac.id