The Knowledge Discovery Process

Slides:



Advertisements
Presentasi serupa
MODUL 10 APRIORI.
Advertisements

KNOWLEGDE DISCOVERY in DATABASE (KDD)
Kasus 1 Buat algoritma untuk menghitung gaji pegawai. Gaji pegawai didapat dari gaji pokok ditambah tunjangan keluarga dan tunjangan jabatan. Tunjangan.
Struktur selection/seleksi/percabangan
Oleh: Achmad Zakki Falani Universitas Narotama Fakultas Ilmu Komputer
Using Data Warehouse for Customer Relationship Management
BASIS DATA LANJUTAN.
KNOWLEDGE TRANSFER IN THE e - WORLD
Topik-Topik Lanjutan Sistem Informasi Johanes Kevin Lumadi Deny Setiawan Machliza Devi Sasmita Silvia Line Billie.
MENJALIN KEAKRABAN DENGAN PELANGGAN
PENGANTAR REKAYASA PERANGKAT LUNAK I
Data Warehouse dan Decision Support
Kuisoner Tidak Layak Diolah Karena
Proses Data Warehouse M. Syukri Mustafa,S.Si., MMSI.
Pengenalan Data Warehouse
Pengenalan Datawarehouse
Data Warehousing Sistem Basis Data Lanjut Prepared by: MT. Wilson
M ANAJEMEN D ATA “Pengaksesan Data”. P ENDAHULUAN Selama beberapa waktu, teknologi informasi berkonsentrasi pada pembangunan sistem bermisi kritis,- sistem.
Data Mining.
Data Warehouse dan Data Mining
Arsitektur DWH Pertemuan ke-2.
SISTEM INFORMASI Pertemuan 5.
CUSTOMER INTIMACY.
Pengenalan Datawarehouse
REKAYASA PERANGKAT LUNAK
Lecturer Note: Retno Budi Lestari,SE,M.Si
PENGANTAR DATA MINING.
Tahapan dan Pengelompokan Data Mining
Pengenalan Data Mining
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
REKAYASA PERANGKAT LUNAK
Perencanaan Proyek Perangkat Lunak
DATA MINING (Machine Learning)
Data Warehouse dan Data Mining
Penambangan data Pertemuan 2.
ANALISIS ASOSIASI BAGIAN 2
BLS SESI – 3 DATA MINING WAHYU NURJAYA WK.
KECERDASAN BISNIS Data Warehouse, Data Mart, OLAP, dan Data Mining
PERSPEKTIF DAN PROSPEKTIF SISTEM INFORMASI Pertemuan Minggu-2
Pemeliharaan Perangkat Lunak
Cross-Industry Standard Process for Data Mining CRISP-DM
Data Warehouse, Data Mart, OLAP, dan Data Mining
Data Mining.
Konsep Data Mining Ana Kurniawati.
CUSTOMER INTIMACY.
KECERDASAN BISNIS (Data Warehouse, Data Mart, OLAP, dan Data Mining)
Aplikasi Business Intelligence & Data Mining
Business Intelligent Ramos Somya, S.Kom., M.Cs.
KNOWLEGDE DISCOVERY in DATABASE (KDD)
The Data Warehouse and The ODS
BUSINESS INTELLIGENCE
KELOMPOK 6 Nama Kelompok: Lulus Irmawati ( )
INTRODUCTION OF DATA WAREHOUSE
REKAYASA PERANGKAT LUNAK
PENGANTAR REKAYASA PERANGKAT LUNAK
BASIS DATA TERDISTRIBUSI
Gudang Data, dan Permasalahannya
PENGUJIAN / TESTING.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI
Konsep dan Teknik Data Mining
Data PreProcessing (Praproses Data)
Konsep Aplikasi Data Mining
DATA PREPARATION Kompetensi
Arsitektur dan Model Data Mining
DATA PREPARATION.
Konsep Data Mining Ana Kurniawati.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
ASSOCIATION RULE DAN PENERAPANNYA
ADI PRIHANDONO, SKOM, MKOM
Transcript presentasi:

The Knowledge Discovery Process

DATA MINING Data Mining adalah kegiatan untuk menemukan informasi atau pengetahuan yang berguna dari data yang jumlahnya besar.

DM dan KDD

Tahapan KDD (Peter Cabena) Penentuan Sasaran Bisnis (Business Objective Determination) Persiapan Data (Data Preparation) – Data Selection – Data Preprocessing – Data Transformation Data Mining Analysis of Results Assimilation of Knowledge

Bussines Objective Determination #1 Mendefinisikan permasalahan atau tantangan bisnis dengan jelas. Hal ini merupakan aspek yang sangat esensial dalam setiap proyek data mining. (Oleh beberapa peneliti KDD lainnya -- bahkan yang terkenal -- tahapan ini cenderung diabaikan! dan jarang disebut) Jika tanpa sasaran bisnis yang jelas, orang berkata: "Here is the data, please mine it.". Tetapi jika mining dilakukan dan pengetahuan diperoleh, bagaimana dapat diketahui bahwa solusi tersebut benar-benar dibutuhkan?

Bussines Objective Determination #2 Contoh sasaran bisnis: Mengembangkan suatu strategi marketing untuk mempertahankan loyalitas customer Bali terhadap produk soft drink dengan brand dan ukuran tertentu (200ml dalam kemasan kaleng) selama bulan Juni, Juli, Agustus yang akan datang. Perusahaan akan menggunakan kombinasi dari berbagai strategi marketing (mixed marketing), yang salah satunya adalah direct mail campaign kepada customer yang tampaknya "mudah rusak" loyalitasnya.

Bussines Objective Determination #3 Pertanyaan kuncinya: Customer mana yang akan dikirimi brosur supaya usaha ini berhasil? / Customer mana yang tergolong tidak loyal ?

Data Preparation #1 Mempersiapkan data yang diperlukan untuk proses data mining. Tujuannya: – agar data yang digunakan benar-benar sesuai dengan permasalahan yang akan dipecahkan, dapat dijamin kebenarannya, dan dalam format yang sesuai/tepat.

Data Preparation #2 Tahap yang paling banyak mengkonsumsi resources (manusia, biaya, waktu) yang tersedia. Biasanya mencapai 60% keseluruhan proyek KDD. Menurut Cabena: Secara berurutan untuk 5 fase Cabena membutuhkan: 20% (fase 1) + 60% (fase 2)+ 10% (fase 3) + 10% (untuk kedua fase 4 dan 5).

Data Preparation #3

Data Preparation #4 Data Selection Contoh : – Mengidentifikasi semua sumber informasi internal dan eksternal dan memilih sebagian saja dari data yang diperlukan untuk aplikasi data mining. Contoh : dipilih customers yang membeli produk soft drink 200 ml dalam kemasan kaleng di Bali.

Data Preparation #5 Data Preprocessing – Meyakinkan kualitas dari data yang telah dipilih pada tahapan sebelumnya. – Dua issue yang paling sering dihadapkan pada tahap ini: • Noisy Data • Missing Values

Data Preparation #6 Data Transformation (#1) Contoh : – Mengubah data ke dalam model analitis. – Memodelkan data agar sesuai dengan analis yang diharapkan dan format data yang diperlukan oleh algoritma data mining. Contoh : customers yang membeli produk soft drink 200 ml dalam kotak alumunium disorting dalam 10 kategori, yang masing-masing membedakan tingkat loyalitasnya: membeli produk tersebut 0-10%, 11-20%, ..... , 81-90%, 91-100% sepanjang waktu pembeliannya. Selanjutnya data inilah yang akan dibawa ke tahap data mining.

Data Preparation #7 Data Transformation (#2) Perlu diperhatikan terlebih dahulu 2 tipe utama data yang digunakan: Categorical: semua nilai yang mungkin ada, bersifat terbatas nominal: tanpa urutan, seperti status perkawinan (single, kawin, duda/janda, unknown) atau jenis kelamin (laki-laki,perempuan) ordinal: dengan urutan, seperti rating loyalitas customer (sangat baik, baik, cukup, kurang atau vulnerable atau mudah dirusak loyalitasnya).

Data Preparation #8 Data Transformation (#3) – Quantitative: semua nilai yang mungkin dapat diukur perbedaannya continuous (nilai-nilai bilangan real): gaji bulanan, rata-rata transaksi dalam satu periode waktu (bulan, kuartal atau tahun). discrete (nilai-nilai bilangan bulat): seperti jumlah pegawai, jumlah transaksi dalam satu periode waktu.

Data Preparation #9 Data Transformation (#4) Contoh Discretization: Pendapatan < Rp. 500.000, dikodekan 1, Rp. 500.000 s.d. 1 juta dikodekan 2 dan seterusnya. Normalization: Jika proses data mining menggunakan ANN, karena sebagian besar ANN hanya menerima input dalam range 0 s.d. 1 (binary) atau -1 s.d. +1 (bipolar), maka parameter continuous yang di luar range tersebut harus dinormalisasi.

Data Mining #1 Melakukan proses pencarian pengetahuan terhadap data yang ditransformasikan pada tahap sebelumnya. Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“: IF soft drink sejenis dengan ukuran yang lebih besar dibeli dalam lebih dari 58% sejarah pembelian soft drink seorang consumer THEN consumer tersebut diprediksi Loyal.

Data Mining #2 Contoh Pengetahuan berbentuk Association Rule untuk kasus "Soft Drink“: IF seorang consumer cenderung lebih banyak membeli soft drink merk "X" THEN consumer tersebut diprediksi Tidak Loyal IF dihitung secara rata-rata seorang consumer ternyata membeli lebih dari 345,67ml setiap kali belanja AND dengan harga rata rata soft drink per 100ml >= Rp. 550, THEN consumer tersebut diprediksi Loyal.

Analysis of Result Menginterpretasikan dan mengevaluasi output dari tahap mining: patterns. Pendekatan analisa yang digunakan akan bervariasi menurut operasi data mining yang digunakan, tetapi biasanya akan melibatkan teknik visualisasi.

Assimilation of Knowledge Menggunakan hasil mining yang telah dievaluasi ke dalam perilaku organisasi dan sistem informasi perusahaan.

Tahapan Proses KDD (Jia Weihan) #1 Data cleaning Data integration Data selection Data transformation Data mining Pattern Evaluation Knowledge Presentation

Tahapan Proses KDD (Jia Weihan) #1 Data Cleaning: menghilangkan noise dan data yang inkonsisten. Data Integration: menggabungkan berbagai macam sumber data. Data Selection: memilih data yang relevan (dari database) dengan "analysis task". "analysis task" = Business Objective Determination (Cabena).

Tahapan Proses KDD (Jia Weihan) #1 Data Transformation: transformasi atau konsolidasi data ke dalam bentuk yang lebih baik untuk mining, dengan mewujudkan operasi summary dan aggregation (misal: daily data ---> monthly ---> quarterly ---> annual). Data Mining: mengekstrak patterns dari data dengan menerapkan "intelligent methods".

Tahapan Proses KDD (Jia Weihan) #1 Pattern Evaluation: mengidentifikasi sejumlah pola yang sungguh-sungguh menarik dan bakal menjadi pengetahuan berdasarkan sejumlah pengukuran ketertarikan (interestingness measures) seperti rule support dan rule confidence untuk rule extraction. Knowledge Presentation: penggunaan teknik-teknik visualisasi dan representasi untuk menyajikan pengetahuan yang telah diperoleh kepada user

Pemrosesan Data

Mengapa Data Diproses Awal? Data dalam dunia nyata kotor Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasi. Misal, pekerjaan=“” Noise: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain). Misal, Salary=“-10” Tak-konsisten: memuat perbedaan dalam kode atau nama Misal, Age=“42” Birthday=“03/07/1997” Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”

Mengapa Data Diproses Awal? Data yang lebih baik akan menghasilkan data mining yang lebih baik Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan di dalam data mining.

Mengapa Data Kotor ? Ketaklengkapan data Noise data diakibatkan oleh Nilai data tidak tersedia saat dikumpulkan Masalah manusia, hardware, dan software Ketakkonsistenan data diakibatkan oleh Sumber data yang berbeda

Mengapa Pemrosesan Awal Data Penting? Kualitas data tidak ada, kualitas hasil mining tidak ada! Kualitas keputusan harus didasarkan kepada kualitas data Misal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau bahkan statistik yang menyesatkan. Ekstraksi data, pembersihan, dan transformasi merupakan kerja utama dari pembuatan suatu data warehouse. — Bill Inmon

Tugas Utama Pemrosesan Awal Data Pembersihan data (data yang kotor) – Mengisi nilai-nilai yang hilang, menghaluskan noise data, mengenali atau menghilangkan outlier, dan memecahkan ketak-konsistenan Integrasi data (data heterogen) Integrasi banyak database, banyak kubus data, atau banyak file Transformasi data (data detail) Normalisasi dan agregasi

Tugas Utama Pemrosesan Awal Data Reduksi data (jumlah data yang besar) Mendapatkan representasi yang direduksi dalam volume tetapi menghasilkan hasil analitikal yang sama atau mirip Diskritisasi data (kesinambungan atribut) Bagian dari reduksi data tetapi dengan kepentingan khusus, terutama data numerik

Bentuk-Bentuk Pemrosesan Awal Data

Contoh : Data yang menggandung missing values

Penghapusan data yang mengandung missing values

Mean Imputed Values

Clustering for Outlier Detection