Data Mining 3 SKS.

Data Mining 3 SKS

Tujuan Perkuliahan : Mampu menganalisis data dengan menggunakan berbagai teknik dalam datamining

Seputar Perkuliahan Nama : Yeni Kustiyahningsih
Telp : Sistem Penilaian: 30 % tugas+Quis, 35% UTS, 35% UAS Batas Nilai: Buku: Data Mining: Concepts and Techiques, Jiawei Han (bab 1 sd bab 8)

Materi Pendahuluan Data Classification : Decision Tree
Association Analysis: Basic Concepts and Algorithms Cluster Analysis: Basic Concepts and Algorithms Deteksi Anomali

Definisi Data Mining Data mining adalah proses yang mempekerjakan satu atau lebih teknik pembelajaran komputer (machine learning) untuk menganalisis dan mengekstraksi pengetahuan (knowledge) secara otomatis. Definisi lainnya yang terkait : Pembelajaran berbasis induksi (induction-based learning) adalah proses pembentukan definisi-definisi konsep yang umum yang dilakukan dengan cara mengobservasi contoh- contoh spesifik dari konsep-konsep yang akan dipelajari. Knowledge Discovery in Databases (KDD) adalah :penerapan metode saintifik pada data mining. Dalam kontek ini data mining merupakan satu langkah dari proses KDD

Definisi Data Mining Data mining merupakan proses iteratif dan interaktif untuk menemukan pola atau model yang sahih, baru, bermanfaat dan dapat dimengerti dalam suatu database yang sangat besar (massive databases) Sahih : dapat digeneralisasi untuk masa yang akan datang Baru : apa yang sedang tidak diketahui Bermanfaat : dapat digunakan untuk melakukan suatu tindakan Iteratif : memerlukan sejumlah proses yang diulang Interaktif : memerlukan interaksi manusia dalam prosesnya.

Definisi Data Mining Data mining berisi pencarian trend atau pola yang diinginkan dalam database yang besar untuk membantu pengambilan keputusan di waktu yang akan datang Pola-pola ini dikenali oleh perangkat tertentu yang dapat memberikan suatu analisa data yang berguna dan berwawasan yang kemudian dapat dipelajari dengan lebih teliti, yang mungkin saja menggunakan perangkat pendukung keputusan yang lainnya.

Apa (bukan) Data Mining?
mencari nomor telp dalam direktori telepon Query suatu a Web search engine untuk informasi mengenai “Amazon” Data Mining mencari pola pemakai / pengguna obat terlarang (narkoba) di wilayah tertentu mengelompokkan dokumen-dokumen yang sama yang diperoleh dari search engine menurut konteksnya (misal. Amazon rainforest, Amazon.com,)

Data Warehouse Data warehouse merupakan sebuah sistem manajemen basisdata relasional yang didesain khusus untuk memenuhi kebutuhan akan sistem pengolahan transaksi Data warehouse merupakan tempat penyimpanan data terpusat yang dapat diquery untuk kepentingan bisnis Data warehouse sangat bermanfaat untuk mengekstrak data operasional yang diarsipkan dan mengatasi ketidakkonsitensian antara format-format data warisan yang berbeda.

Data Warehouse Data warehouse menyediakan data yang siap ditransformasi dan disimpulkan sedemikian hingga membuatnya sesuai dengan aplikasi DSS yang lebih efisien. Data warehouse biasanya berisi data sejarah, terkumpul dari sumber yang berbeda seperti sistem pengolahan transaksi online –Online Data Transaction Processing (OLTP), sistem warisan, file teks dan spreadsheet. Pada data tersebut dilakukan proses pembersihan untuk akurasi dan konsistensi untuk mempermudah pengelolaan dan efisiensi query

Data mining & teknologi database lainnya
Dari gambar di atas terlihat bahwa teknologi data warehouse digunakan untuk melakukan OLAP, sedangkan data mining digunakan untuk melakukan information discovery yang informasinya lebih ditujukan untuk seorang Data Analyst dan Business Analyst (dengan ditambah visualisasi tentunya). Dalam prakteknya, data mining juga mengambil data dari data warehouse. Hanya saja aplikasi dari data mining lebih khusus dan lebih spesifik dibandingkan OLAP mengingat database bukan satu-satunya bidang ilmu yang mempengaruhi data mining, banyak lagi bidang ilmu yang turut memperkaya data mining seperti: information science (ilmu informasi), high performance computing, visualisasi, machine learning, statistik, neural networks (jaringan syaraf tiruan), pemodelan matematika, information retrieval dan information extraction serta pengenalan pola. Bahkan pengolahan citra (image processing) juga digunakan dalam rangka melakukan data mining terhadap data image/spatial.

Pengantar Mengapa data mining? Apa data mining?
Data Mining: data apa saja? Fungsi data mining Klasifikasi sistem data mining 10 algoritma data mining yang paling umum Permasalahan dalam data mining

Mengapa DM: Banjir Data
Twitter: 8000an tweet per detik  600 juta tweet per hari. Facebook: 30 milyar item (link, status, note, foto dst) per bulan. 500 juta user menghabiskan 700 milyar menit per bulan di situs FB. Indomaret: 4500an gerai, asumsikan 3 transaksi per menit = 12 juta transaksi per hari se Indonesia. Kartu kredit visa: berlaku di 200 negara. 10 ribu transaksi per detik  850 juta transaksi per hari.

Evolusi DB 60-an: koleksi data (file system primitif)
70-80: MIS (Sistem Informasi Management) 80-sekarang: OO, Deductive, Spatial, Multimedia 90-sekarang: Web based (XML, web mining), Datawarehouse, OLAP, Text Database, Text + Data mining 05-sekarang: Stream data management and mining, Cloud, Web

Apa Data Mining? Data mining (pencarian pengetahuan dari data)
Mengekstrak secara otomatis pola atau pengetahuan yang menarik (tidak sederhana, tersembunyi, tidak diketahui sebelumnya, berpotensi berguna) dari data dalam jumlah sangat besar.

Apa Datamining? (lanj) Nama alternatif: Knowledge discovery (mining) in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, data dredging, information harvesting, business intelligence dsb Keuntungan bagi organisasi yang menerapkan data mining?

Keuntungan Datamining
Perusahaan fokus ke informasi yg berharga di datawarehouse/databasenya. Meramalkan masa depan  perusahaan dapat mempersiapkan diri

Contoh: Midwest grocery chain menggunakan DM untuk menganalisisi pola pembelian: saat pria membeli popok di hari Kamis dan Sabtu, mereka juga membeli minuman. Analisis lebih lanjut: pembeli ini belanja di hari kamis dan sabtu, tapi di hari kamis jumlah item lebih sedikit. Kesimpulan yang diambil: pembeli membeli minuman untuk dihabiskan saat weekend. Tindak lanjut: menjual minuman dengan harga full di hari Kamis dan Sabtu. Mendekatkan posisi popok dan minuman.

Contoh Aplikasi Bank me-mining transaksi customer untuk mengidentifikasi customer yang kemungkinan besar tertarik terhadap produk baru. Setelah teknik ini digunakan, terjadi peningkatan 20 kali lipat penurunan biaya dibandingkan dengan cara biaya.

Contoh Aplikasi Perusahaan transportasi memining data customer untuk mengelompokan customer yang memiliki nilai tinggi yang perlu diprioritaskan.

Proses Datamining Knowledge Pattern Evaluation Data Mining
Pembersihan Data Data Integration Databases Data Warehouse Knowledge Task-relevant Data Selection Data Mining Pattern Evaluation Diambil dari

Data Mining dan Business Intelligence
Semakin mendukung pengambilan keputusan End User Pengambilan Keputusan Presentasi Data Business Analyst Teknik Visualiasi Data Mining Data Analyst Penemuan Informasi Eksplorasi Data Statistical Summary, Querying, and Reporting Data Preprocessing/Integrasi, Data Warehouses DBA Sumber Data Database, Web, Paper, Files, Web, eksperimen Diambil dari

Data Mining: Multi Disiplin Ilmu
Teknologi DB Statistik Data Mining Visualisasi Machine Learning Pattern Recognition Ilmu Lain Algoritma

Mengapa tidak analisis data biasa?
Jumlah data yang sangat besar Algoritma harus scalable untuk menangani data yang sangat besar (tera) Dimensi yang sangat besar: ribuan field Data Kompleks Aliran data dan sensor Data terstruktur, graph, social networdk, multi-linked data Database dari berbagai sumber, database lama Spasial (peta), multimedia, text, web Software Simulator

Data Mining dari berbagai sudut pandang
Relational, datawarehouse,web, transaksional, stream, OO, spasial, text, multimedia Pengetahuan yang akan ditambang Karakterisitik, diskriminasi, asosiasi, klasifikasi, clustering, trend, outlier Teknik Database, OLAP, machine learning, statistik, visualiasi Penerapan Retail, telekomunikasi, banking, analisis kejahatan, bio-data mining, saham, text mining, web mining

Klasifikasi sistem Data Mining
Fungsi Deskriptif Prediktif Sudut pandang: Data : Jenis data yang akan ditambang Pengetahuan view: Pengetahuan yang akan ditemukan Teknik: Teknik yang akan digunakan Aplikasi

Mengapa melakukan data mining?
Sudut pandang komersial …… Meledaknya volume data yang dihimpun dan disimpan dalam data warehouse Data web, e-commerce Penjualan di depstore Transaksi bank/credit card Proses komputasi yang dapat diupayakan Kuatnya tekanan kompetitif Dapat menyediakan yang lebih baik, layanan-layanan kastemisasi. Informasi sedang menjadi produk yang berarti

Mengapa melakukan data mining?
Sudut pandang keilmuan… Kecepatan data yang dihimpun dan disimpan (GB/hour) remote sensors pada satellite telescopes untuk memindai langit Simulasi saintifik yang membangkitkan data dlm ukuran terabytes Teknik-teknik tradisional tidak fisibel untuk mengolah data mentah Data mining untuk reduksi data Klasifikasi dan segmentasi data Membantu ilmuwan dalam melakukan formasi hipotesis

Asal Mula Data Mining Mengambil ide dari machine learning/AI, pengenalan pola, statistik, dan database systems Teknik-teknik tradisional mungkin tidak sesuai Membludaknya data (Enormity of data) Dimensi data yang tinggi (High dimensionality of data) Heterogenitas dan sifat data yang tersebar (Heterogeneous, distributed nature of data) Statistics/ AI Machine Learning/ Pattern Recognition Data Mining Database systems

Goals Data Mining Prediksi Deskripsi Apa ?
Bersifat remang-remang (tidak transparan) Deskripsi Mengapa ? Bersifat transparan

Data Mining Tasks... Classification [Predictive]
Clustering [Descriptive] Association Rule Discovery [Descriptive] Sequential Pattern Discovery [Descriptive] Regression [Predictive] Deviation Detection [Predictive]

Proses Knowledge Discovery in Databases
Memahami domain aplikasi Pengetahuan awal, sasaran pengguna Membuat target dataset Pemilihan data, fokus pada subset data Pembersihan dan transformasi data Eliminasi derau, outliers, missing value Pemilihan fitur, reduksi dimensi Penggunaan algoritma data mining Asosiasi, sekuensial, klasifikasi, klasterisasi, dll. Interpretasi, evaluasi dan visualisasi pola Ada sesuatu yang baru dan menarik? Lakukan iterasi jika diperlukan

Teknik-Teknik Data Mining
Kaidah Asosisasi (association rules) Mendeteksi kumpulan atribut-atribut yang muncul bersamaan (co-occur) dalam frekuensi yang sering, dan membentuk sejumlah kaidah dari kumpulan-kumpulan tersebut. Contoh : 90% orang yang berbelanja di suatu supermarket yang membeli roti juga membeli selai, dan 60% dari semua orang yang berbelanja membeli keduanya. Pencarian pola sekuensial (Sequence Mining) Mencari sejumlah event yang secara umum terjadi bersama- sama Contoh, dalam satu set urutan DNA, ACGTC diikuti oleh GTCA setelah suatu celah selebar 9 dengan probabilitas sebesar 30%

Teknik-teknik Data Mining
Klasifikasi dan regresi Menentukan sebuah record data baru ke salah satu dari beberapa katagori (atau klas) yang telah didefinisikan sebelumnya Regresi berkaitan dengan prediksi field-field yang bernilai real. Disebut juga dengan ‘supervised learning’ Klasterisasi (clustering) Mempartisi dataset menjadi beberapa subset atau kelompok sedemikian rupa sehingga elemen-elemen dari suatu kelompok tertentu memiliki set properti yang dishare bersama, dg tingkat similaritas yang tinggi dalam satu kelompok dan tingkat similaritas antar kelompok yang rendah. Disebut juga dengan ‘unsupervised learning’

Teknik-Teknik Data Mining
Pelacakan similaritas Untuk suatu database dari sejumlah obyek dan sebuah “query” terhadap obyek yang diberikan, dapatkan obyek-obyek yang berada dalam jarak yang ditentukan pengguna dari obyek yang dilakukan query. Deteksi deviasi Dapatkan records yang paling berbeda dari records lainnya; atau dengan kata lain dapatkan semua “outlier”. Outlier ini dapat diabaikan sebagai derau (noise) atau merupakan informasi yang menarik

Klasifikasi : Definisi
Klasifikasi adalah proses penentuan obyek-obyek baru pada satu set katagori atau klas yang telah didefinisikan sebelumnya Diberikan satu set record berlabel sbg masukan (training set ) Tiap record terdiri dari satu set attributes, satu dari atribut tersbeut adalah class. Bangun sebuah model untuk class attribute sebagai suatu fungsi dari nilai atribut-atribut yang lain. Tujuan: memprediksi label untuk record-record tidak berlabel setelah model dibangun. Sebuah test set digunakan untuk menentukan akurasi dari model tersebut. Kadang, data set yang diberikan dibagi dalam training dan test sets, dengan training set digunakan untuk membangun model dan test set digunakan untuk memeriksa.

Klasifikasi : Pembelajaran
Supervised Learning (Label diketahui) Contoh dijelaskan dalam bentuk atribut Katagorikal (nilai-nilai simbolik tdk terurut) Numerik / continuous (integer, riil) Klas (Atribut Luaran / Yang diprediksi) Katagorikal untuk klasifikasi, numerik untuk regresi. Training Set Satu set contoh, dimana setiap contoh adalah sebuah vektor fitur (satu set pasangan (atribut,nilai)) disertai dengan klas yang diasosiasikan dengan contoh tersebut. Model dibangun dengan menggunakan training set. Test Set Satu set contoh yang terpisah (disjoint) dari training set, yang digunakan untuk pengujian keakuratan dari model.

Klasifikasi : Contoh Learn Classifier Model categorical categorical
continuous class Test Set Learn Classifier Model Training Set

Klasifikasi : Aplikasi 1
Penjualan Langsung (Direct Marketing) Tujuan: mengurangi cost surat menyurat dengan menentukan (targeting) satu set konsumen yang mempunyai kesamaan dalam membeli produk telepon selular baru. Pendekatan: Gunakan data penjualan untuk suatu produk telepon selular Kita mengetahui pelanggan yang memutuskan untuk membeli dan yang memutuskan untuk tidak membeli. Keputusan {buy, don’t buy} ini membentuk class attribute. Himpun bermacam demografi, gaya hidup dan company- interaction sehubungan dg informasi mengenai pelanggan tertentu. Tipe bisnis, dimana mereka tinggal, berapa banyak mereka membayar, dll. Gunakan informasi tersebut sebagai atribut input untuk mempelajari suatu model klasifikasi. From [Berry & Linoff] Data Mining Techniques, 1997

Fraud Detection Tujuan: Memprediksi kasus-kasus transaksi curang dengan menggunakan kartu kredit. Pendekatan: Gunakan transaksi kartu kredit dan informasi pemegang kartu kredit sebagai atributnya. Kapan seorang pelanggan membeli, apa yang dibeli, apa selalu membayar tepat waktu, dsb Beri label transaksi-transaksi sebelumnya sebagai transaksi ‘fraud’ atau ‘fair’ dan bentuk ini menjadi class attribute. Pelajari satu model untuk klas transaksi tersebut. Gunakan model ini untuk mendeteksi kecurangan dengan mengobservasi transaksi kartu kredit tiap account.

Customer Attrition/Churn: Tujuan: Untuk memprediksi pelanggan mana yang akan berpindah ke kompetitor kita. Pendekatan: Gunakan record transaksi dengan pelanggan yang lalu maupun yang sekarang untuk mendapatkan atribut : Seberapa sering pelanggan menghubungi, dimana dia menghubungi, pada hari apa dia paling sering menghubungi, status keuangannnya, status perkawinannya, dsb. Beri label pelanggan sebagai ‘setia’ atau ‘tidak setia’. Temukan suatu model untuk ‘loyalty’. From [Berry & Linoff] Data Mining Techniques, 1997

Sky Survey Cataloging Tujuan : Untuk memprediksi klas dari obyek-obyek langit (bintang atau galaksi), khususnya obyek yang tampak redup, berdasarkan gambar-gambar yang ditangkap oleh teleskop (dari Palomar Observatory). 3000 gambar dengan 23,040 x 23,040 pixels per gambar. Pendekatan : Lakukan segmentasi citra. Hitung fitur dari citra per obyek. Bentuk model kelas berdasarkan fitur tersebut. From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

Klasifikasi Galaksi Early Class: Attributes: Intermediate Late
Courtesy: Early Class: Stages of Formation Attributes: Image features, Characteristics of light waves received, etc. Intermediate Late Data Size: 72 million stars, 20 million galaxies Object Catalog: 9 GB Image Database: 150 GB back

Clustering : Definisi Jika diberikan sejumlah titik data yang masing-masing mempunyai sejumlah atribut, dan dengan menggunakan satu ukuran similaritas, dapat ditemukan klaster-klaster sedemikian hingga : Titik-titik data dalam satu klaster mempunyai similaritas yang lebih besar. Titik-titik data dalam klaster yang berbeda mempunyai similaritas yang kecil. Ukuran similaritas: Euclidean Distance jika atributnya kontinyu. Other Problem-specific Measures.

Illustrating Clustering
Euclidean Distance Based Clustering in 3-D space. Intracluster distances are minimized Intercluster distances are maximized

Clustering: Aplikasi 1 Market Segmentation:
Tujuan: membagi pasar kedalam subset pelanggan yang berbeda dimana suatu subset mungkin dapat dipilih sebagai target pasar yang dicapai dengan satu kombinasi pemasaran yang berbeda Pendekatan: Kumpulkan atribut dari pelanggan yang berbeda berdasarkan pada informasi tempat tinggal dan gaya hidup. Tentukan klaster dari pelanggan-pelanggan yang sama. Hitung kualitas klaster dengan mengobservasi pola daya beli pelanggan pada klaster yang sama versus dari klaster yang berbeda.

Clustering: Aplikasi 2 Document Clustering:
Tujuan: untuk mendapatkan kelompok dokumen yang mempunyai kesamaan berdasarkan pernyataan atau kata- kata penting yang muncul dalam dokumen tersebut. Pendekatan : untuk mengenali kata-kata yang sering muncul dalam tiap dokumen. Dari suatu pengukuran similaritas yang didasarkan pada frekuensi term yang berbeda. Gunakan pengukuran ini untuk membentuk klaster-klaster Pencapaian : Information Retrieval dapat dimanfaatkan untuk menghubungkan suatu dokumen baru atau mencari term ke dokumen-dokumen yang diklaster.

Illustrating Document Clustering
Clustering Points: 3204 Articles of Los Angeles Times. Similarity Measure: Berapa banyak kata-kata yang biasa ada dalam dokumen-dokumen ini (setelah word filtering). back

Pencarian Pola Asosiasi : Definisi
Jika diberikan sekumpulan record yang masing-masing terdiri dari sejumlah item dari kumpulan yang diberikan; Akan menghasilkan aturan ketergantungan (dependency rules) yang akan memprediksi kejadian dari satu item berdasarkan kejadian item lainnya. Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

Pencarian Pola Asosiasi : Aplikasi 1
Marketing and Sales Promotion: Misalkan diketahui aturan dimana {Bagels, … } --> {Potato Chips} Potato Chips sebagai consequent => dapat digunakan untuk menentukan apa yang dapat dilakukan untuk meningkatkan penjualan. Bagels in the antecedent => Dapat digunakan untuk melihat produk mana yang akan kena dampaknya jika toko tersebut tidak lagi menjual bagels. Bagels in antecedent and Potato chips in consequent => Dapat digunakan untuk melihat produk apa yang harus dijual dengan bagels untuk mempromosikan penjualan Potato chips!

Pencarian Pola Asosiasi : Aplikasi 2
Supermarket shelf management. Tujuan: Untuk mengenali item-item yang dibeli bersama-sama oleh cukup banyak pelanggan. Pendekatan : Memproses data point-of-sale yang dikumpulkan dengan pemindai barcode untuk menemukan ketergantungan antar item. Aturan klasik -- Jika seorang pelanggan membeli diaper dan susu, maka dia juga akan membeli beer. Sehingga jangan kaget jika anda akan menemukan enam pak beer ditumpuk dekat diapers!

Pencarian Pola Asosiasi: Aplikasi 3
Inventory Management: Tujuan: Seorang pelanggan perusahaan perbaikan peralatan mengharapkan keaslian dari perbaikan produk konsumen dan menjaga pelayanan dengan menggunakan suku cadang yang baik untuk mengurangi jumlah kunjungan ke rumah pelanggan. Pendekatan: Memproses data peralatan dan suku cadang yang dibutuhkan pada perbaikan sebelumnya di tempat pelanggan yang berbeda dan menemukan pola- pola kejadian yang berulang. back

Pencarian Pola Sekuensial: Definisi
Jika diberikan sekumpulan obyek, dengan masing-masing obyek dihubungkan dengan waktu kejadiannya, maka dapatkan pola yang memprediksi ketergantungan sekuensial (sequential dependencies) yang kuat diantara kejadian-kejadian yang berbeda. Pola-pola sekuensial pertama, pada dasarnya dibentuk dengan cara mencari semua kemungkinan pola yang ada. Nilai-nilai kejadian dalam pola diatur berdasarkan urutan waktu kejadian. (A B) (C) (D E) (A B) (C) (D E) <= ms <= xg >ng <= ws

Pencarian Pola Sekuensial: Examples
In telecommunications alarm logs, (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) --> (Fire_Alarm) In point-of-sale transaction sequences, Computer Bookstore: (Intro_To_Visual_C) (C++_Primer) --> (Perl_for_dummies,Tcl_Tk) Athletic Apparel Store: (Shoes) (Racket, Racketball) --> (Sports_Jacket) back

Regression Memprediksi nilai dari suatu variabel kontinyu yang diberikan berdasarkan nilai dari variabel yang lain, dengan mengasumsikan sebuah model ketergantungan linier atau nonlinier. Banyak dipelajari dalam statistika, bidang jaringan saraf tiruan (neural network). Contoh : Memprediksi jumlah penjualan produk baru berdasarkan pada belanja promosi/iklan. Memprediksi kecepatan angin sebagai suatu fungsi suhu, kelembaban, tekanan udara, dsb. Time series prediction dari indeks stock market.

TERIMAH KASIH

Data Mining 3 SKS.

Presentasi serupa

Presentasi berjudul: "Data Mining 3 SKS."— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Data Mining 3 SKS.

Presentasi serupa

Presentasi berjudul: "Data Mining 3 SKS."— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan