Apa dan untuk apa data mining Dian Eka R
Kebutuhan dan Kesempatan untuk Data Mining Kebutuhan akandata mining dikarenakan: 1.Ketersediaan data yang melimpah, kebutuhan akan informasi(atau pengetahuan) sebagai pendukung pengambilan keputusan untuk membuat solusi bisnis dan dukungan infrastruktur di bidang teknologi informasi 2.Ketersediaan data transaksi dalam volume yang besar 3.Informasi sebagai aset perusahaan yang penting sehingga melahirkan gudang data yang mengintegrasikan informasi dari sistem yang tersebar untuk mendukung pengambilan keputusan 4.Ketersediaan teknologi informasi dalam skala yang terjangkau dan sudah dapat diadopsi secara luas
Apa Data mining Data mining didefinisikan sebagai Eksplorasi dan analisis , dengan otomatis atau semi otomatis dari data yang besar untuk menemukan pola dan aturan (rule) dari data Data mining adalah proses yang menggunakan satu atau lebih teknik-teknik pembelajaran komputer(machine learning) untuk menganalisis dan mengekstraksi pengetahuan(knowledge) secara otomatis
Apa Data mining Penguraian (yang tidak sederhana) informasi potensi implicit (tidak nyata/jelas) yang sebelumnya tidak diketahui dari sekumpulan data Penggalian dan analisis, dengan menggunakan peranti otomatis atau semi otomatis, dari sejumlah besar data yang bertujuan untuk menemukan bentuk yang bermanfaat
Apa Data mining Data mining merupakan proses iteratif dan interaktif untuk menemukan pola atau model yang sahih, baru, bermanfaat, dan dimengerti dalam suatu database yang sangat besar(massive databases). Data mining berupa pengetahuan yang selama ini tidak diketahui secara manual dari suatu kumpulan data Data mining menggunakan berbagai perangkat lunak analisis data untuk menemukan pola dan relasi data agar dapat digunakan untuk membuat prediksi dengan tepat
Data Mining satu set teknik yang digunakan secara otomatis untuk mengeksplorasi secara menyeluruh pada set data yang sangat besar Perangkat lunak yang digunakan untuk menemukan pola-pola tersembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan menghasilkan aturan-aturan yang digunakan untuk memperkirakan perilaku di masa mendatang Data mining sering dikatakan berurusan dengan “penemuan pengetahuan” dalam basis data. Suatu aturan yang dihasilkan oleh data mining misalnya seperti berikut : “Kebanyakan pembeli mobil Forsa adalah wanita berusia di atas 30 tahun”.
Data Mining Proses Data mining yaitu proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secarakeseluruhan
Apa yang (tidak) termasuk Data Mining? Mencari nomer telepon pada buku telepon Melalukan query pada suatu search engine untuk informasi tentang “Amazon” Apa yang termasuk Data Mining? Nama tertentu lebih lazim dipakai di daerah Jawa (Sutinah, Suliyem, Ngatini, Paijo… di Jawa Tengah) Mengelompokkan secara bersamaan dokumen- dokumen yang dihasilkan oleh search engine menurut hubungan kata-katanya (misal: Amazon rainforest, Amazon.com, etc)
Asal Data Mining Menggambarkan ide dari machine learning/AI, pattern recognition, statistics, dan database systems Cara tradisional yang sesuai untuk Data yang amat besar Data dengan banyak dimensi Data yang heterogen dan tersebarHeterogeneous, Machine Learning/ Pattern Recognition Statistics/AI Data Mining Database systems
Prinsip Data Mining
Mengapa Melakukan Data Mining ? (1) Sudut Pandang Komersial: •Meledaknya volume data yang dihimpun dan disimpan dalam data warehouse •Proses komputasi yang dapat diupayakan •Kuatnya tekanan kompetitif ∼Dapat menyediakan yang lebih baik, ∼Informasi menjadi produk yang berarti
Mengapa Melakukan Data Mining ? (2) Sudut Pandang Keilmuan: •Kecepatan data yang dihimpun dan disimpan(Gbyte/hour) ∼Remote sensor yang ditempatkan pada suatu satelit ∼Telescope yang digunakan untuk men-scan langit ∼Simulasi saintifik yang membangkitkan data dalam ukuran terabytes •Teknik-teknik tradisional tidak fisibel untuk mengolah data mentah •Data mining untuk reduksi data ; ∼Catalogging, klassifikasi, segmentasi data ∼Membantu ilmuwan dalam melakukan formulasi hipotesisi
Ilmu Berkaitan Data Mining Database Information science (ilmu informasi) Machine learning Statistik Neural networks (jaringan saraftiruan) Pemodelan matematika Information retrieval Information extraction dan Pengenalanpola
Aplikasi Data Mining Bidang Contoh Pemasaran Mengidentifikasi pembelian yang dilakukan konsumen Menemukan hubungan di antara karakteristik demografi pelanggan Memperkirakan tanggapan penawaran melalui surat Bank Mendeteksi pola penyalahgunaan kartu kredit Mengidentifikasi tingkat loyalitas pelanggan Asuransi Analisis klaim Memperkirakan pelanggan yang akan membeli produk baru
Analisa Pasar dan Manajemen Beberapasolusi dapat diselesaikan dengan data mining : –Menebak target pasar –Melihat pola beli pemakai dari waktu ke waktu –Cross Market Analysis –Profil Customer –Identifikasi Kebutuhan Customer –Menilai loyalitas customer –Informasi summary
Teknologi Untuk Data Mining Statistik Jaringan saraf (neural network) Logika kabur (fuzzy logic) Algoritma genetika dan berbagai teknologi kecerdasan buatan yang lain
Data Mining : Visualisasi Data Pendekatan data mining juga ada yang melalui visualisasi data Pada sistem seperti ini, pemakai akan dibantu untuk menemukan sendiri pola dari sejumlah data berukuran besar dengan didasarkan visualisasi oleh data mining
Posisi data mining Statistics/ AI Machine Learning/ Pattern Recognition Data Mining Database systems
Data Mining Tasks Prediction Methods Classification Clustering Association Rule Discovery Sequential Pattern Discovery From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996
Classification Example categorical categorical continuous class Test Set Learn Classifier Model Training Set
Illustrating Clustering Euclidean Distance Based Clustering in 3-D space. Intracluster distances are minimized Intercluster distances are maximized
Association Rule Discovery: Definition Given a set of records each of which contain some number of items from a given collection; Produce dependency rules which will predict occurrence of an item based on occurrences of other items. Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}
Aplikasi Data Mining Beberapa aplikasi domein Biomedical dan analisa data DNA Analisa data keuangan Industri penjualan eceran Industri telekomunikasi Data Mining : Konsep dan Teknologi 12 Oktober 2006
Data Mining pada Analisa Data Keuangan Data keuangan yang dikumpulkan oleh bank dan lembaga keuangan relatif lebih lengkap, dapat dipercaya, dan bermutu tinggi Disain dan konstruksi dari gudang data untuk multidimensional analisa data dan data mining Gambaran dari hutang perbulan, perdaerah, persektor, dan faktor lain Mengakses informasi statistik seperti maximum, minimum, total, rata- rata, kecenderungannya, dan lain lain Analisa pembayaran peminjaman kebijakan kredit secara prediksi per pelanggan Seleksi di masa depan dan perlunya penggolongan secara atribut Pencapaian pembayaran peminjaman Nilai kredit konsumen Data Mining : Konsep dan Teknologi 12 Oktober 2006
Keuangan Data Mining Penggolongan dan pengelompokan pelanggan untuk target pemasaran Segmentasi multidimensional berdasarkan metode terdekat, penggolongan, alur keputusan, dan lain lain untuk mengidentifikasi penggolongan persediaan sekelompok pelanggan atau pelanggan baru Mendeteksi pencucian uang dan kejahatan keuangan lain pengintegrasian dari berbagai DBs ( sebagai contoh, transaksi bank, DBs sejarah kejahatan federal/negara) Alat bantu: data gambar, analisa pertalian, penggolongan, alat penggabungan, analisa orang asing, dan analisa pola alat percontohan (ditemukan urutan akses secara tidak biasa) Data Mining : Konsep dan Teknologi 12 Oktober 2006
Data Mining pada Industri Retail Industri Retail: besarnya data penjualan, sejarah belanja pelanggan, dan lain-lain Aplikasi dari Retail data mining Mengidentifikasi perilaku pembelian pelanggan Menentukan kecenderungan pola belanja pelanggan Meningkatkan mutu dari layanan pelanggan Mencapai kepuasan pelanggan Tingkatkan perbandingan konsumsi barang-barang Mendisain keefektifan distribusi dan transportasi barang Data Mining : Konsep dan Teknologi 12 Oktober 2006
Contoh Data Mining pada Industri Retail Disain dan konstruksi dari gudang data yang didasarkan keuntungan penggunaan data mining Analisa multidimensional dari penjualan, pelanggan, produk, waktu, dan daerah Analisa dari efektivitas dari kampanye penjualan Ingatan pelanggan: Analisa dari kesetiaan pelanggan Menggunakan informasi kartu kesetiaan pelanggan untuk mendaftarkan urutan dari pembelian dari pelanggan tertentu Menggunakan pola mining untuk menyelidiki perubahan dalam konsumsi atau kesetiaan pelanggan Menyarankan penyesuaian penetapan harga dan variasi barang- barang Referensi pembelian dan perbandingan materi Data Mining : Konsep dan Teknologi 12 Oktober 2006
Contoh Sistem Data Mining ( 1) Miner IBM yang cerdas Suatu cakupan luas dari algoritma data mining Skala algoritma data mining Alat bantu: algoritma jaringan neural, metode statistik, persiapan data, dan alat bantu penggambaran data gambar Pengintegrasian yang ketat IBM dengan relational sistem database DB2 Perusahaan SAS miner Berbagai alat bantu analisa yang statistik Alat bantu data gudang dan berbagai data algoritma mining Microsoft SQLServer 2000 Mengintegrasikan DB dan OLAP dengan mining Mendukung OLEDB untuk DM standard Data Mining : Konsep dan Teknologi 12 Oktober 2006
Contoh Sistem Data Mining ( 2) Sgi Mineset Berbagai algoritma dan statistik tingkat lanjut data mining Alat bantu penggambaran tingkat lanjut Clementine (SPSS) Pengembangan lingkungan data mining yang terintegrasi untuk pengguna akhir dan pengembang Berbagai algoritma data mining dan alat bantu penggambaran DBMiner ( DBMiner Teknologi Inc.) Berbagai modul data mining : analisa OLAP discovery-driven, asosiasi, penggolongan, dan pengelompokan efisien, Asosiasi dan sequential-pattern fungsi mining, dan alat penggolongan visuil Mining antara database relational dan data gudang Data Mining : Konsep dan Teknologi 12 Oktober 2006
Visuallisasi Data Mining Visualisasi: penggunaan grafik komputer untuk menciptakan gambaran visuil yang membantu pemahaman yang ruwet, penyajian presentasi data yang kokoh Visualisasi Data mining: proses menemukan kandungan yang tersembunyi dapat menjadi pengetahuan yang bermanfaat khususnya dari data yang besar dengan menggunakan teknik visualisasi Data Mining : Konsep dan Teknologi 12 Oktober 2006
Visualisasi Tujuan visualisasi Memperoleh masukan ruang informasi dengan mempetakan data ke dalam grafis sederhana Menyediakan ikhtisar yang kwalitatif dari data yang besar Mencari contoh pola, kecenderungan, struktur, ketidakteraturan, hubungan antar data. Bantuan untuk menemukan daerah menarik dan parameter yang pantas untuk analisis kuantitatif lebih lanjut. Data Mining : Konsep dan Teknologi 12 Oktober 2006