Data Mining 1 S2 Kom
Data Mining Overview Motivasi : Kenapa data mining Apa itu data mining Data mining : untuk data jenis apa Fungsionalitas data mining Kelasifikasi sistem data mining Isu utama dalam data mining S2 Kom
Computer Hardware VS Information Processing Storage Tech. CPU speed Kapabilitas Knowledge Discovery Tahun S2 Kom
Evolusi teknologi database 1960-an Pengumpulan data, pembentukan database, IMS, dan jaringan DBMS 1970-an Model data relasional, implementasi DBMS relasional 1980-an RDBMS, model data lanjutan Aplikasi berorentasi DBMS 1990-an Data mining, data warehousing, multimedia database dan web database 2000-an Stream data management and mining Data mining dan aplikasinya Teknologi web (XML, data integrasi) dengan sistem informasi global S2 Kom
Kenapa Data Mining Pertumbuhan data : dari terabyte ke petabyte Pengumpulan data dan ketersediaan data. - alat pengumpulan data otomatis, sistem database, web computerized society Sumber utama - bisnis : web, e-com, transaksi, saham - science : remote sensing, bioinformatika, simulasi - society : berita, digital camera Kita tenggelam dalam data tapi lapar pengetahuan “Kebutuhan adalah ibu dari penemuan” (Necessity is the mother of invention) Data mining: analisis dari himpunan segerombolan data S2 Kom
Aplikasi Potensial Analisis data dan pendukung keputusan - analisis pasar dan management target pemasaran, management hubungan pelanggan, analisis keranjang pasar, cross selling - analisis resiko dan manajemen - deteksi kesalahan dan deteksi pola tak biasa (outlier) - text mining (news group, email) - stream data mining - bioinformatika dan analisis bio-data S2 Kom
Analisis pasar dan manajemen Asal data – transaksi kartu kredit Target marketing - menentukan kelompok model pelanggan yang memiliki karakteristik sama, interest, level penghasilan, kebiasaan belanja, dll - menentukan pola pembelian pelanggan Analisis cross-market- menemukan keterkaitan antara penjualan produk, dan memprediksi berdasarkan keterkaitan tersebut Profil pelanggan – tipe pelanggan membeli jenis produk apa (pengelompokan atau kelasifikasi) Analisis kebutuhan pelanggan - indentifikasi produksi terbaik untuk grup pelanggan berbeda - prediksi faktor apa yang akan menarik pelanggan baru S2 Kom
Analisis perusahaan dan manajemen resiko Perencanaan finansial dan evaluasi aset - analisis cash flow dan prediksi - analisis claim berkaitan untuk evaluasi aset - analisis cross – sectional dan time-series Perencanaan sumber daya - menyimpulkan dan membandingkan sumber daya dan penggunaan Kompetisi - monitor pesaing dan arah pasar - mengelompokkan pelanggan ke dalam kelas - strategi menentukan harga dalam pasar persaingan tinggi S2 Kom
Deteksi kesalahan dan pola tak biasa Pendekatan : pengelompokkan dan pembentukan model untuk kesalahan, analisis pencilan Aplikasi : pelayanan kesehatan, kartu kredit, telkom. Asuransi mobil : no claim bonus Pencucian uang : transaksi moneter mencurigakan Asuransi medis - pasien profesional, rantai dokter dan rantai referensi - uji tak bermanfaat atau berkaitan - Telekomunikasi : kesalahan panggilan telpon - Model phone call : tujuan call, durasi Retail industri - analis mengestimasi bahwa 38% kehilangan retail karena ketidak jujuran staf - Anti terorisme S2 Kom
Apa itu data mining Data mining (knowledge discovery dari data) - ekstraksi pola menarik (non-trivial, implisit, sebelumnya tak diketahui dan bermanfaat) atau pengetahuan dari sejumlah besar data Nama alternatif - Knowledge discovery (mining) dalam database , knowledge extraction, analisis data/pola, menuai informasi, inteligensi bisnis S2 Kom
Proses Knowledge Discovery (KDD) Data mining—inti proses penemuan pengetahuan Evaluasi Pola Data Mining Task-relevant Data Seleksi Data Warehouse Data Cleaning Data Integration Databases S2 Kom
Mengapa tidak analisis data tradisional Jumlah data sangat besar - algoritma harus scalable untuk menangani terabyte data Data berdimensi tinggi - larik-mikro dengan ribuan dimensi Data dengan keruwetan (complexity) tinggi - data aliran dan data sensor - data time-series, data temporal, data sikuen - struktur data, grafik, jaringan sosial dan data multi-linhed - database heterogen - data multi media, teks dan web - simulasi ilmiah S2 Kom
Pandangan multi-dimensi data mining Data yang ditambang relasional, data warehouse, transaksi, strean object oriented/relational, aktif, spatial, time-series, teks, multi media, heterogen, www Pengetahuan yang ditambang karakterisasi, diskriminasi, asosiani, kelasifikasi, clustering, trend/deviasi, analisis pencilan, dll. Teknik yang dipakai database oriented, data warehouse (OLAP), machine learning, statistika, visualisasi, optimusasi, dll - Aplikasi retail, telekominikasi, perbankan, analisis kesalahan, bio-data mining, analisis pasar saham, text mining, web mining, dll S2 Kom
Teknik tradisional tidak sesuai karena : - jumlah data yang besar Awal data mining Menarik ide dari machine learning/AI, pengenalan pola, statistika dan sistem database Teknik tradisional tidak sesuai karena : - jumlah data yang besar - data berdimensi tinggi - heterogen S2 Kom
Tugas data mining Metode prediksi menggunakan beberapa variabel untuk memprediksikan nilai yang tak diketahui atau nilai masa datang variabel lainnya Metode deskripsi menentukan pola yang dapat diinterpretasikan orang yang mendeskripsikan data S2 Kom
Tugas data mining Kelasifikasi (prediktif) Pengelompokan (deskriptif) Penemuan aturan asosiasi (deskriptif) Penemuan pola sikuensial (diskriptif) Regresi (prediktif) Deteksi deviasi (prediktif) S2 Kom
Kelasifikasi: definisi Diberikan kumpulan rekod (training set) setiap rekod mengandung sekumpulan atribut, salah satu atribut adalah kelas Temukan model untuk kelas atribut sebagai fungsi dari atribut lainnya Goal : rekod yang tak terlihat sebelumnya harus menentukan suatu kelas seakurat mungkin untuk - himpunan uji dipakai untuk menentukan keakuratan model. Biasanya set data yang diketahui dibagi menjadi training set dan test set, dengan training set dipakai untuk membangun model dan test set dipakai untuk menvalidasi model S2 Kom
Kelasifikasi : Aplikasi Pemasaran langsung - Goal : mengurangi biaya pengiriman dengan mentargetkan himpunan pelanggan yang mungkin membei produk HP - Pendekatan - gunakan data untuk produk sama yang dikeluarkan sebelumnya - dapat diperoleh pelanggan mana memutuskan untuk membeli dan mana yang tidak. Keputusan {beli, tak beli} ini membentuk kelas atribut - kumpulkan berbagai informasi terkait demografi, cara hidup dan interaksi perusahaan tentang semua pelanggan demikian - tipe bisnis, dimana mereka tinggal, penghasilan mereka, dll - Pakai informasi ini sebagai atribut input untuk mempelajari model pengkelasifikasi S2 Kom
Pengelompokan : definisi Diberikan set data, setiaonya memiliki set atribut, dan ukuran sama diantaranya, tentukan kelumpok (cluster) sedemikian hingga - Titik data dalam satu kelompok mirip satu dengan yang lain - Titik data dalam kelompok terpisah kurang mirip satu dengan yang lain Ukuran kemiripan - Jarak Euclid jika atribut kontinu - Persoalan lain – ukuran disesuaikan S2 Kom
Pengelompokan : Aplikasi Segmentasi pasar. - Goal: partisi pasar menjadi subset pelanggan berbeda di mana setiap subset dapat terpilih sebagai target pasar yang dicapai dengan mix marketing berbeda. - Pendekatan : • Kumpulkan atribut berbeda pelanggan yang didasarkan pada informasi geografis dan pola hidup • Tentukan kelompok dari pelanggan yang sama • Ukur kualitas pengelompokan dengan mengamati pola beli pelanggan dalam kelompok sama versus yang dari kelompok berbeda S2 Kom
Penemuan Aturan Asosiasi Diberikan set rekod yang setiapnya mengandung beberapa item dari suatu kumpulan yang diketahui Hasilkan aturan ketergantungan yang akan memprediksi keterjadian suatu item didasarkan pada keterjadian item lainnya Penemuan aturan {Susu} {Coke} {Diaper,Susu} {Beer} S2 Kom
Penemuan aturan asosiasi : Aplikasi Pemasaran dan Promosi penjualan - Andaikan aturan yang ditemukan {Kacang,…} {Chip Kentang} - Chip Kentang sebagai konsekuen dapat dipakai untuk menentukan apa yang harus dilakukan untuk meningkatkan penjualannya - Kacang sebagai anteseden dapat dipakai untuk melihat produk mana terpengaruh jika toko menghentikan penjualan kacang - Kacang dalam anteseden dan Chip Kentang dalam konsekuen dapat dipakai untuk melihat produk apa yang harus dijual dengan Kacang untuk meningkatkan penjualan Chip Kentang. S2 Kom
Penemuan aturan asosiasi: aplikasi Supermarket shelf management - Goal : Mengidentifikasi item yang dibeli bersama-sama oleh cukup banyak pelanggan - Pendekatan : Proses data penjualan yang dikumpulkan dengan barcode scanner untuk menemukan ketergantungan antara item - Aturan klasik • Jika seorang pelanggan membeli diaper dan susu, maka ia sangat mungkin beli beer. • Jadi jangan heran jika anda menemukan sekumpulan beer di samping diaper di shelf . S2 Kom
Penemuan pola sekuensial: definisi Diberikan set objek, dengan setiap objek dikaitkan dengan jalur kejadiannya, tentukan atyran yang memprediksi ketergantungan sikuensial kuat antara kejadian berbeda. (A B) (C) (D E) (A B) (C) (D E) S2 Kom
Penemuan pola sikuensial: aplikasi Dalam sikeun transaksi penjualan - Toko buku Komputer (Intro_to-Visual_C) (C++_Primer) (Perl_for_dummies,Object_Oriented) - Toko Sport (Sepatu)(Racket,Bola_Tenis) (Sport_Jacket) S2 Kom
Regresi Memprediksi suatu nilai variabel bernilai kontinu yang diketahui berdasarkan pada nilai variabel lainnya, dengan mengandaikan model ketergantungan linier atau tak linier. Dipelajari di Statistika, Jaringan syaraf. Contoh : - Memprediksi jumlah penjualan produk baru yang didasarkan pada biaya pemasaran - Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembapan, tekanan udara,dll - Prediksi time series indeks pasar saham S2 Kom