Arsitektur dan Model Data Mining 11/29/2018
Arsitektur Data Mining Keterangan : 1. Data cleaning (Pembersihan Data) : untuk membuang data yang tidak konsisten dan noise) 2. Data integration : penggabungan data dari beberapa sumber 3. Data Mining Engine : Mentranformasikan data menjadi bentuk yang sesuai untuk di mining 4. Pattern evaluation : untuk menemukan yang bernilai melalui knowledge base 5. Graphical User Interface (GUI) : untuk mempermudah user berinteraksi dengan sistem data mining Semua tahap bersifat interaktif di mana user terlibat langsung atau dengan perantaraan knowledge base 11/29/2018
Prediction Methods Description Methods Model Data Mining Menggunakan beberapa variabel untuk memprediksi sesuatu atau suatu nilai yang akan datang. Description Methods Mendapatkan pola penafsiran (human-interpretable patterns) untuk menjelaskan data. 11/29/2018
Jaringan syaraf tiruan Klastering Summarization Data Mining Deskriptif Prediktif Klasifikasi Decision tree Analisis Time series Regresi Prediksi Jaringan syaraf tiruan Klastering Summarization Aturan Asosiasi (Assosiation Rule) Sequence Discovery 11/29/2018
Prediktif 11/29/2018
Klasifikasi Proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data dengan tujuan untuk dapat memprediksi kelas dari suatu objek yang labelnya tidak diketahui Contoh : Mendeteksi Penipuan Tujuan : Memprediksi kasus kecurangan transaksi kartu kredit. Pendekatan : Menggunakan transaksi kartu kredit dan informasi dilihat dari atribut account holder Kapan cutomer melakukan pembelian, Dengan cara apa customer membayar, sebarapa sering customer membayar secara tepat waktu, dll Beri nama/tanda transaksi yang telah dilaksanakan sebagai transaksi yang curang atau yang baik. Ini sebagai atribut klass ( the class attribute.) Pelajari model untuk class transaksi Gunakan model ini untuk mendetekdi kecurangan dengan meneliti transaksi kartu kredit pada account. 11/29/2018
Decision tree (Pohon keputusan) Salah satu model klasifikasi yang mudah di interpretasikan Contoh : identifikasi pembeli komputer ( dari decision tree di bawah ini ternyata salah satu kelompok yang potensial adalah orang yang berusia < 30 dan pelajar age <=30 31-40 >40 yes studen Credit rating no yes excelent fair no yes no yes 11/29/2018
Predictive – Time Series Analysis Time series data : sekuens data yang nilainya berubah setiap interval waktu tertentu. Time series data dapat dipresentasikan dalam bentuk grafik atau kurva yang menunjukkan fungsi sebuah variabel data terhadap satuan waktu. Metode : Neural Network (model Backpropagation, multi layer perceptron) Aplikasi : memprediksikan indeks harga saham 11/29/2018
Contoh : Prediksi dalam pasar saham garis yang tegas adalah time-series data sebenarnya dari nilai saham Microsoft, dan garis putus-putus adalah time series model yang memprediksi nilai saham berdasarkan nilai saham pada masa lalu. 11/29/2018
Regression Digunakan untuk memetakan data dengan prediksi atribut bernilai real Contoh: Memprediksi jumlah penjualan produk baru pada advertising expenditure. Memprediksi kecepatan memutar (wind velocities) pada fungsi temperatur, tekanan udara , dll 11/29/2018
Neural Network (Jaringan syaraf tiruan) Jaringan syaraf buatan di mulai dengan layer input, dimana tiap simpul berkorespondensi dengan variabel prediktor. Simpul- simpul input ini terhubung kebeberapa simpul dalam hidden layer. Dan simpul dalam hidden layer dapat terhubung ke simpul lain dalam hidden layer atau ke output layer. Output layer terdiri dari satu atau beberapa variable respon 3 1 6 4 2 output 5 input Hidden layer 11/29/2018
Deskriptif 11/29/2018
Descriptive - Clustering Mengidentifikasi kelompok alami dari data berdasarkan kemiripan atribut Disebut juga Segmentation Unsupervised Method : tidak satupun atribut yang digunakan untuk memandu proses pembelajaran (tidak ada label) Algoritma : k-Means, k-Medoid, Fuzzy C-Means, Subtractive, Mountain, Hierarki 11/29/2018
Contoh : Data Pelanggan Terdiri dari dua atribut, yaitu Age (Umur) dan Income (Pendapatan). Algoritma Clustering mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini. Cluster 1 : populasi berusia muda dengan pendapatan rendah Cluster 2 : populasi berusia menengah dengan pendapatan yang lebih tinggi Cluster 3 : populasi berusia tua dengan pendapatan yang relatif rendah. 11/29/2018
Descriptive – Association Rule Disebut juga Market Basket Analysis. Menganalisa tabel transaksi penjualan dan mengidentifikasi produk-produk yang seringkali dibeli bersamaan oleh customer Untuk mengidentifikasi kelompok kesamaan dari produk dan kebiasaan apa yang terjadi guna kepentingan cross-selling Untuk mencari produk apa yang biasanya terjual bersamaan Untuk mencari tahu apa aturan yang menyebabkan kesamaan tersebut. 11/29/2018
Contoh Ketika orang membeli susu, dia biasanya membeli keju Ketika orang membeli pepsi atau coke, biasanya dia membeli juice 11/29/2018
Descriptive – Sequence Analysis Digunakan untuk mencari pola pada serangkaian kejadian yang disebut dengan Sequence. Contoh rangkaian klik pada sebuah website berisi rentetan URL. Implementasi : memodelkan pembelian oleh pelanggan sebagai sebuah sequence (rangkaian) data : Pertama-tama seorang pelanggan membeli komputer kemudian membeli speaker dan akhirnya membeli sebuah webcam. 11/29/2018
Contoh : Rangkaian Klik pada Sebuah Website Berita Setiap node adalah sebuah kategori URL. Garis melambangkan transisi antar kategori URL tersebut. Setiap transisi dikelompokan dengan sebuah bobot yang menggambarkan kemungkinan transisi antara satu URL dan URL yang lain. 11/29/2018
Penggunaan Data Mining 11/29/2018
Telekomunikasi Data mining digunakan untuk melihat jutaan transaksi yang masuk dengan tujuan menambah layanan otomatis Keuangan Data mining digunakan untuk mendeteksi transaksi-transaksi keuangan yang mencurigakan dimana akan susah dilakukan jika menggunakan analisis standar. Asuransi Australian Health Insurance Commision menggunakan data mining untuk mengidentifikasi layanan kesehatan dan berhasil menghemat satu juta dollar pertahun 11/29/2018
Olah raga IBM Advanced Scout menggunakan data mining untuk menganalisis statistik permainan NBA dalam rangka competitive advantage untuk tim New York Knicks Astronomi Jet Propulsion Laboratory (JPL) di Pasadena dan Pulomar Observatory menemukan 22 quasar dengan bantuan data mining. Internet Web Surf-Aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses halaman Web khususnya berkaitan dengan pemasaran melalui web. 11/29/2018
Selesai 11/29/2018