Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

S2 Kom1 Data Mining. S2 Kom2 Data Mining Overview Motivasi : Kenapa data mining Apa itu data mining Data mining : untuk data jenis apa Fungsionalitas.

Presentasi serupa


Presentasi berjudul: "S2 Kom1 Data Mining. S2 Kom2 Data Mining Overview Motivasi : Kenapa data mining Apa itu data mining Data mining : untuk data jenis apa Fungsionalitas."— Transcript presentasi:

1 S2 Kom1 Data Mining

2 S2 Kom2 Data Mining Overview Motivasi : Kenapa data mining Apa itu data mining Data mining : untuk data jenis apa Fungsionalitas data mining Kelasifikasi sistem data mining Isu utama dalam data mining

3 S2 Kom 3 Computer Hardware VS Information Processing Storage Tech. CPU speed Knowledge Discovery Tahun Kapabilitas

4 S2 Kom 4 Evolusi teknologi database 1960-an -Pengumpulan data, pembentukan database, IMS, dan jaringan DBMS 1970-an -Model data relasional, implementasi DBMS relasional 1980-an -RDBMS, model data lanjutan -Aplikasi berorentasi DBMS 1990-an -Data mining, data warehousing, multimedia database dan web database 2000-an -Stream data management and mining -Data mining dan aplikasinya -Teknologi web (XML, data integrasi) dengan sistem informasi global

5 S2 Kom 5 Kenapa Data Mining -Pertumbuhan data : dari terabyte ke petabyte -Pengumpulan data dan ketersediaan data. - alat pengumpulan data otomatis, sistem database, web computerized society -Sumber utama -bisnis : web, e-com, transaksi, saham -science:remote sensing, bioinformatika, simulasi - society : berita, digital camera -Kita tenggelam dalam data tapi lapar pengetahuan -“Kebutuhan adalah ibu dari penemuan” (Necessity is the mother of invention) Data mining: analisis dari himpunan segerombolan data

6 S2 Kom 6 Aplikasi Potensial Analisis data dan pendukung keputusan - analisis pasar dan management target pemasaran, management hubungan pelanggan, analisis keranjang pasar, cross selling - analisis resiko dan manajemen - analisis resiko dan manajemen -deteksi kesalahan dan deteksi pola tak biasa (outlier) -text mining (news group, ) -stream data mining -bioinformatika dan analisis bio-data

7 S2 Kom 7 Analisis pasar dan manajemen -Asal data – transaksi kartu kredit -Target marketing -menentukan kelompok model pelanggan yang memiliki karakteristik sama, interest, level penghasilan, kebiasaan belanja, dll -menentukan pola pembelian pelanggan -Analisis cross-market- menemukan keterkaitan antara penjualan produk, dan memprediksi berdasarkan keterkaitan tersebut -Profil pelanggan – tipe pelanggan membeli jenis produk apa (pengelompokan atau kelasifikasi) -Analisis kebutuhan pelanggan - indentifikasi produksi terbaik untuk grup pelanggan berbeda -prediksi faktor apa yang akan menarik pelanggan baru

8 S2 Kom 8 Analisis perusahaan dan manajemen resiko -Perencanaan finansial dan evaluasi aset -analisis cash flow dan prediksi -analisis claim berkaitan untuk evaluasi aset -analisis cross – sectional dan time-series -Perencanaan sumber daya -menyimpulkan dan membandingkan sumber daya dan penggunaan -Kompetisi -monitor pesaing dan arah pasar -mengelompokkan pelanggan ke dalam kelas -strategi menentukan harga dalam pasar persaingan tinggi

9 S2 Kom 9 Deteksi kesalahan dan pola tak biasa Pendekatan : pengelompokkan dan pembentukan model untuk kesalahan, analisis pencilan Aplikasi :pelayanan kesehatan, kartu kredit, telkom. -Asuransi mobil : no claim bonus -Pencucian uang : transaksi moneter mencurigakan -Asuransi medis -pasien profesional, rantai dokter dan rantai referensi -uji tak bermanfaat atau berkaitan -Telekomunikasi : kesalahan panggilan telpon -Model phone call : tujuan call, durasi -Retail industri -analis mengestimasi bahwa 38% kehilangan retail karena ketidak jujuran staf -Anti terorisme

10 S2 Kom 10 Apa itu data mining -Data mining (knowledge discovery dari data) -ekstraksi pola menarik (non-trivial, implisit, sebelumnya tak diketahui dan bermanfaat) atau pengetahuan dari sejumlah besar data -Nama alternatif -Knowledge discovery (mining) dalam database, knowledge extraction, analisis data/pola, menuai informasi, inteligensi bisnis

11 S2 Kom 11 Proses Knowledge Discovery (KDD) –Data mining—inti proses penemuan pengetahuan Data Cleaning Data Integration Databases Data Warehouse Task-relevant Data Seleksi Data Mining Evaluasi Pola

12 S2 Kom 12 Mengapa tidak analisis data tradisional -Jumlah data sangat besar -algoritma harus scalable untuk menangani terabyte data -Data berdimensi tinggi -larik-mikro dengan ribuan dimensi -Data dengan keruwetan (complexity) tinggi -data aliran dan data sensor -data time-series, data temporal, data sikuen -struktur data, grafik, jaringan sosial dan data multi-linhed -database heterogen -data multi media, teks dan web -simulasi ilmiah

13 S2 Kom 13 Pandangan multi-dimensi data mining -Data yang ditambang relasional, data warehouse, transaksi, strean object oriented/relational, aktif, spatial, time-series, teks, multi media, heterogen, www -Pengetahuan yang ditambang karakterisasi, diskriminasi, asosiani, kelasifikasi, clustering, trend/deviasi, analisis pencilan, dll. -Teknik yang dipakai database oriented, data warehouse (OLAP), machine learning, statistika, visualisasi, optimusasi, dll -Aplikasi retail, telekominikasi, perbankan, analisis kesalahan, bio-data mining, analisis pasar saham, text mining, web mining, dll

14 S2 Kom 14 Awal data mining -Menarik ide dari machine learning/AI, pengenalan pola, statistika dan sistem database -Teknik tradisional tidak sesuai karena : - jumlah data yang besar - data berdimensi tinggi - heterogen

15 S2 Kom 15 Tugas data mining -Metode prediksi menggunakan beberapa variabel untuk memprediksikan nilai yang tak diketahui atau nilai masa datang variabel lainnya -Metode deskripsi menentukan pola yang dapat diinterpretasikan orang yang mendeskripsikan data

16 S2 Kom 16 Tugas data mining -Kelasifikasi (prediktif) -Pengelompokan (deskriptif) -Penemuan aturan asosiasi (deskriptif) -Penemuan pola sikuensial (diskriptif) -Regresi (prediktif) -Deteksi deviasi (prediktif)

17 S2 Kom 17 Kelasifikasi: definisi -Diberikan kumpulan rekod (training set) setiap rekod mengandung sekumpulan atribut, salah satu atribut adalah kelas -Temukan model untuk kelas atribut sebagai fungsi dari atribut lainnya -Goal : rekod yang tak terlihat sebelumnya harus menentukan suatu kelas seakurat mungkin untuk -himpunan uji dipakai untuk menentukan keakuratan model. Biasanya set data yang diketahui dibagi menjadi training set dan test set, dengan training set dipakai untuk membangun model dan test set dipakai untuk menvalidasi model

18 S2 Kom 18 Kelasifikasi : Aplikasi -Pemasaran langsung -Goal : mengurangi biaya pengiriman dengan mentargetkan himpunan pelanggan yang mungkin membei produk HP -Pendekatan -gunakan data untuk produk sama yang dikeluarkan sebelumnya -dapat diperoleh pelanggan mana memutuskan untuk membeli dan mana yang tidak. Keputusan {beli, tak beli} ini membentuk kelas atribut {beli, tak beli} ini membentuk kelas atribut -kumpulkan berbagai informasi terkait demografi, cara hidup dan interaksi perusahaan tentang semua pelanggan demikian -tipe bisnis, dimana mereka tinggal, penghasilan mereka, dll -Pakai informasi ini sebagai atribut input untuk mempelajari model pengkelasifikasi

19 S2 Kom 19 Pengelompokan : definisi Diberikan set data, setiaonya memiliki set atribut, dan ukuran sama diantaranya, tentukan kelumpok (cluster) sedemikian hingga - Titik data dalam satu kelompok mirip satu dengan yang lain - Titik data dalam satu kelompok mirip satu dengan yang lain - Titik data dalam kelompok terpisah kurang mirip satu dengan yang lain - Titik data dalam kelompok terpisah kurang mirip satu dengan yang lain Ukuran kemiripan - Jarak Euclid jika atribut kontinu - Jarak Euclid jika atribut kontinu - Persoalan lain – ukuran disesuaikan - Persoalan lain – ukuran disesuaikan

20 S2 Kom 20 Pengelompokan : Aplikasi Segmentasi pasar. - Goal: partisi pasar menjadi subset pelanggan berbeda di mana setiap subset dapat terpilih sebagai target pasar yang dicapai dengan mix marketing berbeda. - Goal: partisi pasar menjadi subset pelanggan berbeda di mana setiap subset dapat terpilih sebagai target pasar yang dicapai dengan mix marketing berbeda. - Pendekatan : - Pendekatan : • Kumpulkan atribut berbeda pelanggan yang didasarkan pada informasi geografis dan pola hidup • Kumpulkan atribut berbeda pelanggan yang didasarkan pada informasi geografis dan pola hidup • Tentukan kelompok dari pelanggan yang sama • Tentukan kelompok dari pelanggan yang sama • Ukur kualitas pengelompokan dengan mengamati pola beli pelanggan dalam kelompok sama versus yang dari kelompok berbeda • Ukur kualitas pengelompokan dengan mengamati pola beli pelanggan dalam kelompok sama versus yang dari kelompok berbeda

21 S2 Kom 21 Penemuan Aturan Asosiasi Diberikan set rekod yang setiapnya mengandung beberapa item dari suatu kumpulan yang diketahui Hasilkan aturan ketergantungan yang akan memprediksi keterjadian suatu item didasarkan pada keterjadian item lainnya Penemuan aturan {Susu}  {Coke} {Diaper,Susu}  {Beer}

22 S2 Kom 22 Penemuan aturan asosiasi : Aplikasi Pemasaran dan Promosi penjualan - Andaikan aturan yang ditemukan - Andaikan aturan yang ditemukan {Kacang,…}  {Chip Kentang} {Kacang,…}  {Chip Kentang} - Chip Kentang sebagai konsekuen  dapat dipakai untuk menentukan apa yang harus dilakukan untuk meningkatkan penjualannya - Chip Kentang sebagai konsekuen  dapat dipakai untuk menentukan apa yang harus dilakukan untuk meningkatkan penjualannya - Kacang sebagai anteseden  dapat dipakai untuk melihat produk mana terpengaruh jika toko menghentikan penjualan kacang - Kacang sebagai anteseden  dapat dipakai untuk melihat produk mana terpengaruh jika toko menghentikan penjualan kacang - Kacang dalam anteseden dan Chip Kentang dalam konsekuen  dapat dipakai untuk melihat produk apa yang harus dijual dengan Kacang untuk meningkatkan penjualan Chip Kentang. - Kacang dalam anteseden dan Chip Kentang dalam konsekuen  dapat dipakai untuk melihat produk apa yang harus dijual dengan Kacang untuk meningkatkan penjualan Chip Kentang.

23 S2 Kom 23 Penemuan aturan asosiasi: aplikasi Supermarket shelf management - Goal : Mengidentifikasi item yang dibeli bersama-sama oleh cukup banyak pelanggan - Goal : Mengidentifikasi item yang dibeli bersama-sama oleh cukup banyak pelanggan - Pendekatan : Proses data penjualan yang dikumpulkan dengan barcode scanner untuk menemukan ketergantungan antara item - Pendekatan : Proses data penjualan yang dikumpulkan dengan barcode scanner untuk menemukan ketergantungan antara item - Aturan klasik - Aturan klasik • Jika seorang pelanggan membeli diaper dan susu, maka ia sangat mungkin beli beer. • Jika seorang pelanggan membeli diaper dan susu, maka ia sangat mungkin beli beer. • Jadi jangan heran jika anda menemukan sekumpulan beer di samping diaper di shelf. • Jadi jangan heran jika anda menemukan sekumpulan beer di samping diaper di shelf.

24 S2 Kom 24 Penemuan pola sekuensial: definisi Diberikan set objek, dengan setiap objek dikaitkan dengan jalur kejadiannya, tentukan atyran yang memprediksi ketergantungan sikuensial kuat antara kejadian berbeda. (A B) (C) (D E) (A B) (C)  (D E)

25 S2 Kom 25 Penemuan pola sikuensial: aplikasi Dalam sikeun transaksi penjualan - Toko buku Komputer - Toko buku Komputer (Intro_to-Visual_C) (C++_Primer)  (Intro_to-Visual_C) (C++_Primer)  (Perl_for_dummies,Object_Oriented) (Perl_for_dummies,Object_Oriented) - Toko Sport - Toko Sport (Sepatu)(Racket,Bola_Tenis)  (Sepatu)(Racket,Bola_Tenis)  (Sport_Jacket) (Sport_Jacket)

26 S2 Kom 26 Regresi Memprediksi suatu nilai variabel bernilai kontinu yang diketahui berdasarkan pada nilai variabel lainnya, dengan mengandaikan model ketergantungan linier atau tak linier. Dipelajari di Statistika, Jaringan syaraf. Contoh : - Memprediksi jumlah penjualan produk baru yang didasarkan pada biaya pemasaran - Memprediksi jumlah penjualan produk baru yang didasarkan pada biaya pemasaran - Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembapan, tekanan udara,dll - Memprediksi kecepatan angin sebagai fungsi dari temperatur, kelembapan, tekanan udara,dll - Prediksi time series indeks pasar saham - Prediksi time series indeks pasar saham


Download ppt "S2 Kom1 Data Mining. S2 Kom2 Data Mining Overview Motivasi : Kenapa data mining Apa itu data mining Data mining : untuk data jenis apa Fungsionalitas."

Presentasi serupa


Iklan oleh Google