DATA MINING with W E K A
Introduction Weka merupakan Aplikasi Data Mining Open Source berbasis Java Weka terdiri dari sekumpulan algoritma machince learning yang digunakan untuk melakukan generalisasi / formulasi dari sekumpulan data sampling Weka telah banyak mendukung algoritma untuk pemodelan data yang disebut dengan CLASSIFIER
Algoritma Pemodelan / Classifier Algoritma J48 merupakan pengembangan dari algiritma C4.5 yang dapat digunakan untuk pembentukan pohon keputusan (Decision Tree) Linear Regression Algoritma untuk menghasilkan formulasi numerik dengan metode statistik regresi linear Naïve Bayes Merupakan salah satu classifier numerik
Format Data Masukan / Input Atribut-Relation File Format (ARFF) File teks yang berisi berbagai instansi data yang berhubungan dengan suatu set atribut data Comma Separated Values (CSV) File teks dengan pemisah tanda koma (,) Format C4.5 Database
Interface 1 : Main Panel
Interface 1 : Main Panel Weka memiliki 4 (empat) PANEL utama untuk menjalankan aplikasinya : EXPLORER digunakan untuk eksplorasi lebih jauh tentang informasi dataset yang akan diuji dengan WEKA EXPERIMENTER digunakan untuk melakukan percobaan dengan pengujian data statistik KNOWLEDGE digunakan sebagai pengetahuan pendukung SIMPLE CLI menggunakan tampilan command line
Training Data Set File ini bisa disimpan dalam format *.ARFF atau *.CSV sebagai Training Data Set yang akan diuji dengan aplikasi WEKA
Interface 2 : WEKA Explorer
Interface 2 : Weka Explorer Weka Explorer memiliki 4 (empat) PANEL utama : Panel PreProcess memiliki fasilitas import data dari database, file CSV, file ARFF dan lainnya. Untuk PreProcessing ini menggunakan algoritma yang disebut FILTERING. Panel Classifier, memungkinkan pengguna untuk menggunakan algoritma Klasifikasi dan Regresi. Panel Associate, menyediakan akses bagi pengguna untuk identifikasi semua keterkaitan attribut dan data. Panel Cluster, penggunaan algorimta K.
Interface 2 : Weka Explorer Panel Attribute, menyediakan algoritma untuk mengidentifikasi atribut yang paling prediktif dalam dataset. Panel Visualisasi, menunjukkan scatter plot matriks. di mana scatter plot individu dapat dipilih dan diperbesar, dan dianalisis lebih lanjut menggunakan operator berbagai pilihan.
Interface 2 : Weka Explorer Berdasarkan gambar diatas, terdapat atribut sebagai berikut : TransID Item
Klasifikasi Data – Algoritma J48
Interface 3 : Classifier Ada 4 pilihan dalam Klasifikasi Data : Use Training Set, pengujian data dilakukan dengan data Training Set itu sendiri. Supplier Test Set, pengujian dilakukan dengan data lain. Dengan pilihan ini pengguna dapat melakukan prediksi data. Cross Validation, nilai default = 10. Dimana k adalah nilai dari fold. Selanjutnya, untuk tiap dari subset, akan dijadikan data tes dari hasil klasifikasi yang dihasilkan dari k-1 subset lainnya. Jadi, akan ada 10 kali tes. Dimana, setiap datum akan menjadi data tes sebanyak 1 kali, dan menjadi data training sebanyak k-1 kali. Kemudian, error dari k tes tersebut akan dihitung rata-ratanya
Interface 3 : Classifier Percentage Split Hasil klasifikasi akan dites dengan menggunakan k% dari data tersebut. k merupakan masukan dari user.
Interface 4 : Output dari Algoritma J48
Interface 4 : Decision Tree berdasarkan Algirutma J48
Penjelasan Decision Tree Bahwa dari decision tree tersebut maka root node pada TransID menunjukkan cabang sebelah kiri untuk pembelian < 2000 dimana Item yang memenuhi syarat adalah A, B, C sebanyak 2
Terima kasih Penutup