Konsep dan Teknik Data Mining

Slides:



Advertisements
Presentasi serupa
Data Warehousing :: Overview
Advertisements

DESAIN & KONFIGURASI DATABASE
Model Kubus Data Melihat data sebagai kubus.
BASIS DATA RELATIONAL.
5.
CHAPTER 7 DATA EXTRACTION
OLAP - PERTEMUAN 8 – OLAP.
Team Keamanan Data Direktorat Sistem Informasi Universitas Airlangga
Data Warehouse dan Decision Support
INTRODUCTION OF DATA WAREHOUSE
OLAP dalam Data Warehouse
Pengenalan Data Warehouse
Pengenalan Datawarehouse
Data Warehousing Sistem Basis Data Lanjut Prepared by: MT. Wilson
Audit TrAIl & Real time audit
Dukungan database dalam Pembangunan Sistem Informasi
Data Warehouse dan Data Mining
Komponen Data warehouse
Data Warehouse (Lecture 1)
Arsitektur DWH Pertemuan ke-2.
Sumber Data untuk DW Data operasional dalam organisasi, misalnya basis data pelanggan dan produk, dan Sumber eksternal yang diperoleh misalnya melalui.
ONLINE ANALYTICAL PROCESSING (OLAP)
Pengenalan Datawarehouse
Database Management System
Desain Database Disusun Oleh : Dr. Lily Wulandari
PERANCANGAN BASIS DATA
Konsep dan Teknik Data Mining
Informasi Dalam Praktik
DATA WAREHOUSE Pertemuan ke-1.
INTRODUCTION OF DATA WAREHOUSE
Data Warehouse dan Data Mining
PEMBANDINGAN KINERJA JEDOX PALO VERSI 1. 0c DENGAN VERSI 2
Konsep Teknologi Informasi B
Model Kubus Data Melihat data sebagai kubus.
Bab 2 Mengenal Data Base Management System (DBMS)
Pertemuan III Betha Nurina Sari, M.Kom
SISTEM MANAJEMEN DATABASE
Information Technology MWU110 (2 sks)
DATA MART Pertemuan ke-3.
Pertemuan 5-2 Database dan Sistem
Pemrograman Visual II Database Management System (DBMS)
Sistem Pustaka Data (Data Warehouse)
Topik Database : 1. Sistem Basis Data 2. ER Model
Charitas Fibriani, S.Kom, M.Eng
ARSITEKTUR DATA WAREHOUSE
KARAKTERISTIK DW Pertemuan ke-2.
DATA WAREHOUSE.
Administrasi Database
Prinsip Data Warehouse
DATA WAREHOUSE.
The Data Warehouse and The ODS
INTRODUCTION OF DATA WAREHOUSE
Data Warehouse Database Systems: Design, Implementation, and Management, Sixth Edition, Rob and Coronel.
INTRODUCTION OF DATA WAREHOUSE
Perancangan Fisik Basis Data
Perancangan Data Logis dan Fisik
Business Intelligent Ramos Somya, S.Kom., M.Cs.
Gudang Data, dan Permasalahannya
Analisis Multidimensional
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Sistem Manajemen Basis Data
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Pertemuan ke-1 (GUDANG DATA)
Business Intelligence Ramos Somya, S.Kom., M.Cs.
DATABASES AND DATA WAREHOUSES
Introduction to Data Warehouse By: Marcello Singadji
Database Management System
Business Intelligent Ramos Somya, S.Kom., M.Cs.
OLTP & ETL Data integration.
Skema Star (Dalam RDBMS)
Transcript presentasi:

Konsep dan Teknik Data Mining 2 Data Warehouse & Teknologi OLAP

Data Warehousing dan Teknologi OLAP Untuk Data Mining Apa itu DW? Model Data Multi-dimensi Arsitektur dan Implementasi DW Pengembangan Lebih Lanjut Dari Teknologi Data Cube Dari DW ke DM

Sumber Informasi Yang Heterogen Problem: Sumber Informasi Yang Heterogen “keheterogenan ada dimana-mana” Database Personal World Wide Web Database saintifik Pustaka Digital Antarmuka berbeda Representasi data berbeda Duplikasi dan ketidak-konsistenan informasi

Problem: Manajemen Data Pada Perusahaan Besar Fragmentasi sistem informasi secara vertikal Hasil dari pengembangan sistem operasional yang digerakkan oleh aplikasi (user) Sales Planning Suppliers Num. Control Stock Mngmt Debt Mngmt Inventory ... ... ... Sales Administration Finance Manufacturing ...

Fragmentasi Relasi Dari Suatu Database Relasional

Goal: Akses Data Terpadu Sistem Integrasi World Wide Web Dabase Personal Pustaka Digital Database Saintifik Mengumpulkan dan mengkombinasikan informasi Menyediakan view terintegrasi dan antarmuka user seragam Menyokong pemakaian bersama-sama (sharing)

Integrasi Data Integrasikan data dari banyak sumber kedalam suatu format bersama untuk data mining Catatan: suatu data warehouse yang baik sudah barang tentu akan memperhatikan ini Server Data Warehouse OLTP DBMS Saring, bersihkan, transformasikan, kumpulkan, muat, ubah Sumber Data yg Lain Data Marts

Mengapa Warehouse? ? Ada 2 pendekatan akses informasi Query-driven (malas) Warehouse (hasrat) ? Source Source

Pendekatan Riset Tradisional Query-driven (malas, atas permintaan) Klien Sistem Integrasi Metadata . . . Wrapper Wrapper Wrapper . . . Sumber Sumber Sumber

Sumber Data Retailer Product Vendor Data Consumer Catalogs Reports Ratings Price Sheets Currency Conversion Tables Inventory Data Company Data Demographic Data

Wrapper Mengubah data dan query dari satu model data ke model data lainnya Memperluas kemampuan query dari sumber yang berkemampuan terbatas Model Data B A Query Sumber Wrapper

Kerugian Pendekatan Query-Driven Keterlambatan dalam pemrosesan query Lambat atau sumber informasi tidak tersedia Penyaringan dan integrasi kompleks Tidak efisien dan berpotensi mahal untuk query yang terlalu sering dilakukan Di sumber, bersaing dengan pemrosesan lokal Belum dipakai di industri

Kelebihan Pendekatan Query-Driven Pendekatan query-driven masih lebih baik untuk Perubahan informasi yang begitu cepat Perubahan sumber informasi yang begitu cepat Jumlah data yang sungguh-sungguh besar dari sejumlah besar sumber Klien dengan kebutuhan yang tidak bisa diprediksi

Pendekatan Warehouse . . . Informasi diintegrasikan terlebih dahulu Klien Informasi diintegrasikan terlebih dahulu Disimpan dalam warehouse untuk query langsung dan analisa Data Warehouse Sistem Integrasi Metadata . . . Extractor/ Monitor Extractor/ Monitor Extractor/ Monitor . . . Sumber Sumber Sumber

Monitoring / Ekstraksi Data Tipe-tipe sumber: relasional, flat file, IMS, VSAM, IDMS, WWW, news-wire, … Bagaimana mendapatkan data? Tool replikasi File dump (isi memori) Membuat laporan ODBC atau pihak ketiga “wrapper”

Teknik Monitoring Periode snapshots Trigger database Pengiriman log Pengiriman data (layanan replikasi) Pengiriman transaksi Polling (query ke sumber) Goresan screen Aplikasi level monitoring

Isu Monitoring Frekuensi Transformasi data Standard (misal, ODBC) periodik: daily, weekly, … Di-trigger: pada perubahan “besar”, banyak perubahan, ... Transformasi data Mengubah data ke format seragam Menghapus & menambah field (misa, menambah date untuk mendapatkan history) Standard (misal, ODBC) Gateways

Integrasi Pembersihan Data Pemasukan Data Data yang diperoleh Client Warehouse Source Query & Analisis Integrasi Metadata

Teknik Integrasi Menerima data (perubahan) dari banyak wrappers / monitors dan memadukannya kedalam warehouse Berbasis kaidah Aksi Memecahkan ketidak-konsistenan Menghilangkan duplikasi Integrasi kedalam warehouse (bisa tidak kosong) Meringkas data Mengambil data yang lebih banyak dari sumber dsb.

Pembersihan Data Mencari (& menghilangkan) duplikasi tuple Misal, Jane Doe vs. Jane Q. Doe Mendeteksi ketidak-konsistenan, data yang salah Nilai-nilai atribut yang tidak cocok Menambal data yang hilang dan tak terbaca Memasukkan nilai-nilai default Menandai sumber-sumber dimana error ditemukan

Pembersihan Data Migrasi (misal, yen ke dollar) Scrubbing: menggunakan pengetahuan domain spesifik (misal, social security numbers) Fusi (misal, mail list, penggabungan customer) billing DB service DB Customer1 (Joe) Customer2 (Joe) merged_customer (Joe)

Pemasukan Data Ke Warehouse Incremental vs. refresh Off-line vs. on-line Frekuensi pemasukan Pada tengah malam, seminggu perbulan, terus-menerus Pemasukan paralel/terpisah

Keuntungan Pendekatan Warehouse Query kinerja tinggi Tetapi tidak perlu selalu informasi terbaru Di sumber, tidak saling mengganggu dengan pemrosesan lokal Query kompleks pada warehouse OLTP pada sumber-sumber informasi Informasi yang disalin (copy) pada warehouse Bisa diubah, diberi keterangan, disari, dan distrukturkan ulang, dsb. Bisa berupa informasi ber-histori Aman, tidak ada pengaudit-an Telah diterapkan di industri

Apa Itu Data Warehouse? Definisinya banyak, namun belum ada yang tepat betul Suatu database penunjang keputusan yang dikelola secara terpisah dari database operasional perusahaan. Penunjang pemrosesan informasi dengan menyediakan suatu platform yang kokoh untuk analisa data yang mengandung histori dan yang terkonsolidasi

Apa Itu Data Warehouse? “Suatu DW adalah suatu koleksi data yang bisa digunakan untuk menunjang pengambilan keputusan manajemen, yang berorientasi subjek (topik), terpadu, time variant, dan tidak mudah berubah” —W. H. Inmon (Bp. Data Warehousing) Data warehousing adalah proses dimana organisasi menyari makna dari aset informasi yang dimilikinya melalui penggunaan data warehouse

Apa Itu Data Warehouse? “Suatu data warehouse sederhananya adalah suatu penyimpanan data tunggal, lengkap dan konsisten, yang diperoleh dari berbagai sumber dan dibuat tersedia bagi end user dalam suatu cara yang bisa mereka pahami dan bisa mereka gunakan dalam suatu konteks bisnis.” - - Barry Devlin, IBM Consultant

Properti Data Warehouse? Subject Oriented Integrated Data Warehouse Non Volatile Time Variant

DW: Berorientasi Subjek (Topik) Diorganisasikan berdasarkan kegunaan disekitar subjek bukan aplikasi, misal: customer, product, sales. Perhatian dipusatkan pada pemodelan dan analisa data untuk pembuat keputusan, bukan untuk operasi harian atau pemrosesan transaksi. View sederhana dan ringkas disekitar subjek pembicaraan disediakan dengan cara memisahkan data-data yang tidak berkaitan dengan proses penunjang keputusan

DW: Berorientasi Subjek (Topik) Data dikategorikan dan disimpan berdasarkan Subjek bisnis ketimbang aplikasi Aplikasi OLTP Subjek Data Warehouse Equity Plans Customer financial information Shares Insurance Savings Loans

DW: Terpadu Dibangun dengan memadukan banyak sumber data yang heterogen Database relasional, flat file, catatan transaksi on-line. Teknik pembersihan dan integrasi data diterapkan Menjamin konsistensi penamaan, penyandian struktur, ukuran atribut, dsb., dari antara sumber-sumber data yang berbeda. Misal, tarif hotel: mata uang, pajak, breakfast covered, dsb. Ketika data dipindahkan ke warehouse, data ini telah terkonversi

DW: Terpadu Data atas suatu subjek tertentu didefinisikan dan Disimpan sekali Savings Current accounts Loans Customer Aplikasi OLTP Data Warehouse

DW: Time Variant Horison waktu untuk DW secara significant lebih lama ketimbang data pada sistem operasional Database operasional: data dengan nilai terbaru Data dari data warehouse: menyediakan informasi dari suatu tinjauan historis (misal, 5-10 tahun terakhir) Setiap struktur key didalam data dari data warehouse memuat suatu elemen waktu baik itu yang secara eksplisit dinyatakan maupun yang secara implisit Tetapi setiap struktur key dari data operasional bisa atau bisa tidak memuat elemen waktu

DW: Time Variant Data disimpan dalam sederetan snapshot, yang masing-masing menggambarkan suatu periode waktu

DW: Non-Volatile Penyimpanan data yang secara fisik terpisah ditransformasikan dari lingkungan operasional Pengubahan data operasional tidak terjadi dalam lingkungan data warehouse Tidak memerlukan mekanisme pemrosesan transaksi, recovery, dan kendali persetujuan Membutuhkan hanya 2 operasi dalam pengaksesan data Pemasukan data awal dan pengaksesan data

DW: Non-Volatile Sistem Data Operasional Warehouse Secara tetap diubah insert update replace delete Load/ Update change update Titik Konsisten Dalam waktu Perubahan konstan Secara tetap diubah Data berubah sesuai kebutuhan, tidak pada suatu jadwal tetap Ditambahkan secara reguler, tetapi pemuatan data jarang sekali diubah secara langsung Namun data warehouse tetap diperbaharui

Pengubahan Data Load pertama kali Database Warehouse Database Refresh Operasional Refresh Refresh Refresh

Pembaharuan Data Warehouse Meneruskan pengubahan pada data sumber ke data yang disimpan didalam warehouse Kapan memperbaharui? Ditentukan oleh kegunaan, tipe dari data sumber, dsb. Bagaimana memperbaharui? Pengiriman data: menggunakan trigger untuk memperbaharui tabel log snapshot dan meneruskan data yang diubah ke warehouse Pengiriman transaksi: mengirimkan perubahan ke log transaksi

On-Line Analytical Processing OLAP: On-Line Analytical Processing Menyediakan suatu front-end untuk warehouse agar dimungkinkan query informasi yang cepat didalam warehouse. Tidak bisa menggunakan standard SQL dalam struktur relasional sebab: (1) query kompleks yang perlu mengumpulkan data bisa menghabiskan waktu berjam-jam untuk dijalankan, (2) end user tidak bisa diharapkan untuk memberikan statement SQL Sistem OLAP menggunakan data dalam format multidimensi (“kubus data”) untuk memberikan query yang lebih cepat

DW vs. DBMS Heterogen Integrasi DB tradisional yang heterogen Buat wrapper/mediator diatas database heterogen Pendekatan Query driven Ketika suatu query ditempatkan di sisi client, suatu meta-dictionary digunakan untuk menerjemahkan query tersebut kedalam query yang sesuai dengan individu dari sisi-sisi yang terlibat, dan hasilnya diintegrasikan kedalam suatu himpunan jawaban global

DW vs. DBMS Heterogen Penyaringan informasi kompleks, bersaing bila pada sumber Data warehouse: update-driven, kinerja tinggi Informasi dari sumber yang heterogen diintegrasikan terlebih dahulu dan disimpan kedalam warehouse untuk query langsung dan analisa.

DW vs. DBMS Operasional OLTP (on-line transaction processing) Tugas utama dari relasi DBMS tradisional Operasi harian: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, dsb. OLAP (on-line analytical processing) Tugas utama dari sistem data warehouse Analisa data dan pengambilan keputusan

DW vs. DBMS Operasional Fitur berbeda (OLTP vs. OLAP): Orientasi user dan sistem: customer vs. market Isi data: current, detail vs. historikal, terkonsolidasi Rancangan database: aplikasi ER + vs. star + subjek View: current, lokal vs. evolusioner, terpadu Pola akses: update vs. read-only tetapi query kompleks

OLTP vs. OLAP OLTP (DB Standard OLAP (Data Warehouse) Tipe users clerk, profesional IT Pekerja pengetahuan Fungsi/kegunaan Operasi hari-ke-hari Pendukung keputusan Rancangan DB Berorientasi aplikasi - Berorientasi subjek - data current, up - to - date historikal, detail, flat relational ringkas, multidimensional isolated Terpadu, terkonsolidasi akses read/write index/hash pada prim. key Banyak mengamati unit kerja Transaksi pendek, sederhana Query kompleks #record yg diakses puluhan jutaan #user ribuan ratusan Ukuran DB 100MB - GB 100GB TB met rik throughput transaksi Throughput query, respons penggunaan berulang Khusus untuk sesuatu maksud

Mengapa Memisahkan Data Warehouse? Kinerja tinggi untuk kedua sistem DBMS— di setel untuk OLTP: metoda akses, pengindeksan, kontrol konkurensi, recovery Warehouse—di setel untuk OLAP: query OLAP kompleks, view multidimensi, konsolidasi. Fungsi-fungsi berbeda dan data berbeda: Data hilang: pendukung keputusan membutuhkan histori data yang biasanya tidak dikelola oleh DB operasional Konsolidasi data: pendukung keputusan membutuhkan konsolidasi (agregasi, ringkasan) data dari sumber heterogen Kualitas data: sumber berbeda biasanya menggunakan representasi data, kode, dan format yang tidak konsisten yang perlu diakurkan

Warehousing dan Industri Warehousing adalah bisnis besar $2 miliar pada tahun 1995 $3.5 miliar pada awal tahun 1997 Ditaksir: $8 miliar pada tahun 1998 [Metagroup] WalMart memiliki warehouse terbesar 900-CPU, 2,700 disk, 23 TB sistem Teradata ~7TB dalam warehouse 40-50GB per hari

Tipe Data Data bisnis – menyajikan arti Metadata – menguraikan arti Data Real-time (sumber awal dari seluruh data bisnis) Data yang diakurkan Data turunan Metadata – menguraikan arti Metadata berdasarkan waktu Kontrol metadata Penggunaan metadata Data sebagai suatu produk* - arti hakiki Dihasilkan dan disimpan untuk nilai intrinsiknya sendiri Contoh, isi dari suatu text-book

Isu Dalam Data Warehouse Rancangan Warehouse Ekstraksi Pembungkus, monitor (pengubah detektor) Integrasi Pembersihan dan penggabungan Spesifikasi warehousing & Perawatan Optimisasi Seleksi (misal, evolusi)

Arsitektur Warehouse ... Klien Klien Warehouse Sumber Sumber Sumber Query & Analysis Warehouse Integrator Metadata Extractor/ Monitor Extractor/ Monitor Extractor/ Monitor Sumber Sumber Sumber ...

(Multidimensional OLAP) Arsitektur Warehouse Klien Server Data Warehouse Sumber Informasi Server OLAP MOLAP (Multidimensional OLAP) OLTP DBMS Analysis Query/Reporting Saring, bersihkan, transforma-sikan, kumpulkan, muat, ubah Sumber Data lainnya Data Mining Data Marts ROLAP (Relational OLAP)

Model Data Multidimensi Model data multidimensional dirancang untuk memfasilitasi analisis dan bukan transaksi Umum didalam data warehouse Konsep intuitif dari banyak dimensi atau perspektif pengukuran bisnis atau fakta-fakta Melihat sales dari perspektif customer, product dan time Model konseptual Hypercube – suatu “kubus n-sisi” Database adalah suatu kumpulan fakta (titik) dalam suatu ruang multidimensi

Model Kubus Data Kubus 2-d ke 3-d Memutar kubus

Model Data Multidimensi Suatu fakta memiliki suatu ukuran dimensi Besaran yang akan dianalisa, misal, sale, budget Sekumpulan dimensi dimana data dianalisa Misal, store, product, date yang dikaitkan dengan suatu jumlah sale Dimensi membentuk suatu sistem koordinat populasi Atribute-atribut dari suatu dimensi bisa berhubungan dengan urutan parsial Hierarki: misal, street > county >city Kisi: misal, date> month>year, date>week>year

Model Data Multidimensi Ukuran– data numerik yang akan diamati Dimensi– parameter bisnis yang mendefinisikan suatu transaksi Contoh: analis ingin melihat data sales (ukuran) berdasarkan dimensi geography, time, dan product Pemodelan dimensional adalah suatu teknik untuk menstrukturkan data disekitar konsep bisnis Model ER menguraikan “entitas” dan “relasi” Model dimensional menguraikan “ukuran” dan “dimensi”

Pemodelan Data Warehouse Data Warehouse == Pemodelan Dimensional OLAP == Query suatu model dimensional Jika manajer/user berkata: “Kita menjual PRODUCT dalam berbagai MARKET dan kita mengukur kinerja kita berdasarkan TIME” Maka secara konseptual kita menggambarkan suatu kubus data dalam 3 dimensi, dimana masing-masing sel memuat pengukuran. TIME MARKET PRODUCT

Pemodelan Data Warehouse Dimensi yang mungkin: Time: day, week, month, quarter, year Geography / Market (Space) :city, county, state, region, nation Product:brand, model, color, size, weight, ... Vendor Customer Organizational unit / Line of Business Salesperson View - actual, budget, forecast... … Masing-masing adalah dasar untuk agregasi dan pemecahan

Proses Rancangan Arsitektur Data Warehouse Pilihan berikut harus dibuat didalam perancangan data warehouse process model Tipe apa yang akan dimodelkan? grain Apa dasar data dan level atom data yang akan disajikan? dimensi Dimensi apa yang dipakai untuk masing-masing record tabel fakta? ukuran Ukuran apa yang akan mengumpulkan masing-masing record tabel fakta?

Dari Tabel dan Spreadsheet menjadi Kubus Data Suatu data warehouse didasarkan kepada suatu model data multidimensi yang melihat data dalam bentuk suatu kubus data Suatu kubus data seperti Sales memungkinkan data untuk dimodelkan dan dilihat dari banyak dimensi Dimensi tabel, seperti item (item_name, brand, type), atau time(day, week, month, quarter, year) Tabel fakta memuat ukuran (seperti dollars_sold) dan kunci untuk setiap dimensi tabel terkait

Dari Tabel dan Spreadsheet Menjadi Kubus Data Dalam pustaka data warehousing, suatu kubus dasar n-D disebut suatu bentuk kubus dasar (base cuboid). Cuboid 0-D adalah bentuk kubus paling atas yang menyimpan intisari level tertinggi dan dinamai apex cuboid (puncak berbentuk kubus). Kisi-kisi dari suatu bentuk cuboid membentuk suatu kubus data

Contoh Kubus Data

Contoh Kubus Data