Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Konsep dan Teknik Data Mining

Presentasi serupa


Presentasi berjudul: "Konsep dan Teknik Data Mining"— Transcript presentasi:

1 Konsep dan Teknik Data Mining
2 Data Warehouse & Teknologi OLAP

2 Data Warehousing dan Teknologi OLAP Untuk Data Mining
Apa itu DW? Model Data Multi-dimensi Arsitektur dan Implementasi DW Pengembangan Lebih Lanjut Dari Teknologi Data Cube Dari DW ke DM

3 Sumber Informasi Yang Heterogen
Problem: Sumber Informasi Yang Heterogen “keheterogenan ada dimana-mana” Database Personal World Wide Web Database saintifik Pustaka Digital Antarmuka berbeda Representasi data berbeda Duplikasi dan ketidak-konsistenan informasi

4 Problem: Manajemen Data
Pada Perusahaan Besar Fragmentasi sistem informasi secara vertikal Hasil dari pengembangan sistem operasional yang digerakkan oleh aplikasi (user) Sales Planning Suppliers Num. Control Stock Mngmt Debt Mngmt Inventory ... ... ... Sales Administration Finance Manufacturing ...

5 Fragmentasi Relasi Dari Suatu Database Relasional

6 Goal: Akses Data Terpadu
Sistem Integrasi World Wide Web Dabase Personal Pustaka Digital Database Saintifik Mengumpulkan dan mengkombinasikan informasi Menyediakan view terintegrasi dan antarmuka user seragam Menyokong pemakaian bersama-sama (sharing)

7 Integrasi Data Integrasikan data dari banyak sumber kedalam suatu format bersama untuk data mining Catatan: suatu data warehouse yang baik sudah barang tentu akan memperhatikan ini Server Data Warehouse OLTP DBMS Saring, bersihkan, transformasikan, kumpulkan, muat, ubah Sumber Data yg Lain Data Marts

8 Mengapa Warehouse? ? Ada 2 pendekatan akses informasi
Query-driven (malas) Warehouse (hasrat) ? Source Source

9 Pendekatan Riset Tradisional
Query-driven (malas, atas permintaan) Klien Sistem Integrasi Metadata . . . Wrapper Wrapper Wrapper . . . Sumber Sumber Sumber

10 Sumber Data Retailer Product Vendor Data Consumer Catalogs Reports
Ratings Price Sheets Currency Conversion Tables Inventory Data Company Data Demographic Data

11 Wrapper Mengubah data dan query dari satu model data ke model data lainnya Memperluas kemampuan query dari sumber yang berkemampuan terbatas Model Data B A Query Sumber Wrapper

12 Kerugian Pendekatan Query-Driven
Keterlambatan dalam pemrosesan query Lambat atau sumber informasi tidak tersedia Penyaringan dan integrasi kompleks Tidak efisien dan berpotensi mahal untuk query yang terlalu sering dilakukan Di sumber, bersaing dengan pemrosesan lokal Belum dipakai di industri

13 Kelebihan Pendekatan Query-Driven
Pendekatan query-driven masih lebih baik untuk Perubahan informasi yang begitu cepat Perubahan sumber informasi yang begitu cepat Jumlah data yang sungguh-sungguh besar dari sejumlah besar sumber Klien dengan kebutuhan yang tidak bisa diprediksi

14 Pendekatan Warehouse . . . Informasi diintegrasikan terlebih dahulu
Klien Informasi diintegrasikan terlebih dahulu Disimpan dalam warehouse untuk query langsung dan analisa Data Warehouse Sistem Integrasi Metadata . . . Extractor/ Monitor Extractor/ Monitor Extractor/ Monitor . . . Sumber Sumber Sumber

15 Monitoring / Ekstraksi Data
Tipe-tipe sumber: relasional, flat file, IMS, VSAM, IDMS, WWW, news-wire, … Bagaimana mendapatkan data? Tool replikasi File dump (isi memori) Membuat laporan ODBC atau pihak ketiga “wrapper”

16 Teknik Monitoring Periode snapshots Trigger database Pengiriman log
Pengiriman data (layanan replikasi) Pengiriman transaksi Polling (query ke sumber) Goresan screen Aplikasi level monitoring

17 Isu Monitoring Frekuensi Transformasi data Standard (misal, ODBC)
periodik: daily, weekly, … Di-trigger: pada perubahan “besar”, banyak perubahan, ... Transformasi data Mengubah data ke format seragam Menghapus & menambah field (misa, menambah date untuk mendapatkan history) Standard (misal, ODBC) Gateways

18 Integrasi Pembersihan Data Pemasukan Data Data yang diperoleh Client
Warehouse Source Query & Analisis Integrasi Metadata

19 Teknik Integrasi Menerima data (perubahan) dari banyak wrappers / monitors dan memadukannya kedalam warehouse Berbasis kaidah Aksi Memecahkan ketidak-konsistenan Menghilangkan duplikasi Integrasi kedalam warehouse (bisa tidak kosong) Meringkas data Mengambil data yang lebih banyak dari sumber dsb.

20 Pembersihan Data Mencari (& menghilangkan) duplikasi tuple
Misal, Jane Doe vs. Jane Q. Doe Mendeteksi ketidak-konsistenan, data yang salah Nilai-nilai atribut yang tidak cocok Menambal data yang hilang dan tak terbaca Memasukkan nilai-nilai default Menandai sumber-sumber dimana error ditemukan

21 Pembersihan Data Migrasi (misal, yen ke dollar)
Scrubbing: menggunakan pengetahuan domain spesifik (misal, social security numbers) Fusi (misal, mail list, penggabungan customer) billing DB service DB Customer1 (Joe) Customer2 (Joe) merged_customer (Joe)

22 Pemasukan Data Ke Warehouse
Incremental vs. refresh Off-line vs. on-line Frekuensi pemasukan Pada tengah malam, seminggu perbulan, terus-menerus Pemasukan paralel/terpisah

23 Keuntungan Pendekatan Warehouse
Query kinerja tinggi Tetapi tidak perlu selalu informasi terbaru Di sumber, tidak saling mengganggu dengan pemrosesan lokal Query kompleks pada warehouse OLTP pada sumber-sumber informasi Informasi yang disalin (copy) pada warehouse Bisa diubah, diberi keterangan, disari, dan distrukturkan ulang, dsb. Bisa berupa informasi ber-histori Aman, tidak ada pengaudit-an Telah diterapkan di industri

24 Apa Itu Data Warehouse? Definisinya banyak, namun belum ada yang tepat betul Suatu database penunjang keputusan yang dikelola secara terpisah dari database operasional perusahaan. Penunjang pemrosesan informasi dengan menyediakan suatu platform yang kokoh untuk analisa data yang mengandung histori dan yang terkonsolidasi

25 Apa Itu Data Warehouse? “Suatu DW adalah suatu koleksi data yang bisa digunakan untuk menunjang pengambilan keputusan manajemen, yang berorientasi subjek (topik), terpadu, time variant, dan tidak mudah berubah” —W. H. Inmon (Bp. Data Warehousing) Data warehousing adalah proses dimana organisasi menyari makna dari aset informasi yang dimilikinya melalui penggunaan data warehouse

26 Apa Itu Data Warehouse? “Suatu data warehouse sederhananya adalah suatu penyimpanan data tunggal, lengkap dan konsisten, yang diperoleh dari berbagai sumber dan dibuat tersedia bagi end user dalam suatu cara yang bisa mereka pahami dan bisa mereka gunakan dalam suatu konteks bisnis.” - - Barry Devlin, IBM Consultant

27 Properti Data Warehouse?
Subject Oriented Integrated Data Warehouse Non Volatile Time Variant

28 DW: Berorientasi Subjek (Topik)
Diorganisasikan berdasarkan kegunaan disekitar subjek bukan aplikasi, misal: customer, product, sales. Perhatian dipusatkan pada pemodelan dan analisa data untuk pembuat keputusan, bukan untuk operasi harian atau pemrosesan transaksi. View sederhana dan ringkas disekitar subjek pembicaraan disediakan dengan cara memisahkan data-data yang tidak berkaitan dengan proses penunjang keputusan

29 DW: Berorientasi Subjek (Topik)
Data dikategorikan dan disimpan berdasarkan Subjek bisnis ketimbang aplikasi Aplikasi OLTP Subjek Data Warehouse Equity Plans Customer financial information Shares Insurance Savings Loans

30 DW: Terpadu Dibangun dengan memadukan banyak sumber data yang heterogen Database relasional, flat file, catatan transaksi on-line. Teknik pembersihan dan integrasi data diterapkan Menjamin konsistensi penamaan, penyandian struktur, ukuran atribut, dsb., dari antara sumber-sumber data yang berbeda. Misal, tarif hotel: mata uang, pajak, breakfast covered, dsb. Ketika data dipindahkan ke warehouse, data ini telah terkonversi

31 DW: Terpadu Data atas suatu subjek tertentu didefinisikan dan
Disimpan sekali Savings Current accounts Loans Customer Aplikasi OLTP Data Warehouse

32 DW: Time Variant Horison waktu untuk DW secara significant lebih lama ketimbang data pada sistem operasional Database operasional: data dengan nilai terbaru Data dari data warehouse: menyediakan informasi dari suatu tinjauan historis (misal, 5-10 tahun terakhir) Setiap struktur key didalam data dari data warehouse memuat suatu elemen waktu baik itu yang secara eksplisit dinyatakan maupun yang secara implisit Tetapi setiap struktur key dari data operasional bisa atau bisa tidak memuat elemen waktu

33 DW: Time Variant Data disimpan dalam sederetan snapshot, yang masing-masing menggambarkan suatu periode waktu

34 DW: Non-Volatile Penyimpanan data yang secara fisik terpisah ditransformasikan dari lingkungan operasional Pengubahan data operasional tidak terjadi dalam lingkungan data warehouse Tidak memerlukan mekanisme pemrosesan transaksi, recovery, dan kendali persetujuan Membutuhkan hanya 2 operasi dalam pengaksesan data Pemasukan data awal dan pengaksesan data

35 DW: Non-Volatile Sistem Data Operasional Warehouse Secara tetap diubah
insert update replace delete Load/ Update change update Titik Konsisten Dalam waktu Perubahan konstan Secara tetap diubah Data berubah sesuai kebutuhan, tidak pada suatu jadwal tetap Ditambahkan secara reguler, tetapi pemuatan data jarang sekali diubah secara langsung Namun data warehouse tetap diperbaharui

36 Pengubahan Data Load pertama kali Database Warehouse Database Refresh
Operasional Refresh Refresh Refresh

37 Pembaharuan Data Warehouse
Meneruskan pengubahan pada data sumber ke data yang disimpan didalam warehouse Kapan memperbaharui? Ditentukan oleh kegunaan, tipe dari data sumber, dsb. Bagaimana memperbaharui? Pengiriman data: menggunakan trigger untuk memperbaharui tabel log snapshot dan meneruskan data yang diubah ke warehouse Pengiriman transaksi: mengirimkan perubahan ke log transaksi

38 On-Line Analytical Processing
OLAP: On-Line Analytical Processing Menyediakan suatu front-end untuk warehouse agar dimungkinkan query informasi yang cepat didalam warehouse. Tidak bisa menggunakan standard SQL dalam struktur relasional sebab: (1) query kompleks yang perlu mengumpulkan data bisa menghabiskan waktu berjam-jam untuk dijalankan, (2) end user tidak bisa diharapkan untuk memberikan statement SQL Sistem OLAP menggunakan data dalam format multidimensi (“kubus data”) untuk memberikan query yang lebih cepat

39 DW vs. DBMS Heterogen Integrasi DB tradisional yang heterogen
Buat wrapper/mediator diatas database heterogen Pendekatan Query driven Ketika suatu query ditempatkan di sisi client, suatu meta-dictionary digunakan untuk menerjemahkan query tersebut kedalam query yang sesuai dengan individu dari sisi-sisi yang terlibat, dan hasilnya diintegrasikan kedalam suatu himpunan jawaban global

40 DW vs. DBMS Heterogen Penyaringan informasi kompleks, bersaing bila pada sumber Data warehouse: update-driven, kinerja tinggi Informasi dari sumber yang heterogen diintegrasikan terlebih dahulu dan disimpan kedalam warehouse untuk query langsung dan analisa.

41 DW vs. DBMS Operasional OLTP (on-line transaction processing)
Tugas utama dari relasi DBMS tradisional Operasi harian: purchasing, inventory, banking, manufacturing, payroll, registration, accounting, dsb. OLAP (on-line analytical processing) Tugas utama dari sistem data warehouse Analisa data dan pengambilan keputusan

42 DW vs. DBMS Operasional Fitur berbeda (OLTP vs. OLAP):
Orientasi user dan sistem: customer vs. market Isi data: current, detail vs. historikal, terkonsolidasi Rancangan database: aplikasi ER + vs. star + subjek View: current, lokal vs. evolusioner, terpadu Pola akses: update vs. read-only tetapi query kompleks

43 OLTP vs. OLAP OLTP (DB Standard OLAP (Data Warehouse) Tipe users
clerk, profesional IT Pekerja pengetahuan Fungsi/kegunaan Operasi hari-ke-hari Pendukung keputusan Rancangan DB Berorientasi aplikasi - Berorientasi subjek - data current, up - to - date historikal, detail, flat relational ringkas, multidimensional isolated Terpadu, terkonsolidasi akses read/write index/hash pada prim. key Banyak mengamati unit kerja Transaksi pendek, sederhana Query kompleks #record yg diakses puluhan jutaan #user ribuan ratusan Ukuran DB 100MB - GB 100GB TB met rik throughput transaksi Throughput query, respons penggunaan berulang Khusus untuk sesuatu maksud

44 Mengapa Memisahkan Data Warehouse?
Kinerja tinggi untuk kedua sistem DBMS— di setel untuk OLTP: metoda akses, pengindeksan, kontrol konkurensi, recovery Warehouse—di setel untuk OLAP: query OLAP kompleks, view multidimensi, konsolidasi. Fungsi-fungsi berbeda dan data berbeda: Data hilang: pendukung keputusan membutuhkan histori data yang biasanya tidak dikelola oleh DB operasional Konsolidasi data: pendukung keputusan membutuhkan konsolidasi (agregasi, ringkasan) data dari sumber heterogen Kualitas data: sumber berbeda biasanya menggunakan representasi data, kode, dan format yang tidak konsisten yang perlu diakurkan

45 Warehousing dan Industri
Warehousing adalah bisnis besar $2 miliar pada tahun 1995 $3.5 miliar pada awal tahun 1997 Ditaksir: $8 miliar pada tahun 1998 [Metagroup] WalMart memiliki warehouse terbesar 900-CPU, 2,700 disk, 23 TB sistem Teradata ~7TB dalam warehouse 40-50GB per hari

46 Tipe Data Data bisnis – menyajikan arti Metadata – menguraikan arti
Data Real-time (sumber awal dari seluruh data bisnis) Data yang diakurkan Data turunan Metadata – menguraikan arti Metadata berdasarkan waktu Kontrol metadata Penggunaan metadata Data sebagai suatu produk* - arti hakiki Dihasilkan dan disimpan untuk nilai intrinsiknya sendiri Contoh, isi dari suatu text-book

47 Isu Dalam Data Warehouse
Rancangan Warehouse Ekstraksi Pembungkus, monitor (pengubah detektor) Integrasi Pembersihan dan penggabungan Spesifikasi warehousing & Perawatan Optimisasi Seleksi (misal, evolusi)

48 Arsitektur Warehouse ... Klien Klien Warehouse Sumber Sumber Sumber
Query & Analysis Warehouse Integrator Metadata Extractor/ Monitor Extractor/ Monitor Extractor/ Monitor Sumber Sumber Sumber ...

49 (Multidimensional OLAP)
Arsitektur Warehouse Klien Server Data Warehouse Sumber Informasi Server OLAP MOLAP (Multidimensional OLAP) OLTP DBMS Analysis Query/Reporting Saring, bersihkan, transforma-sikan, kumpulkan, muat, ubah Sumber Data lainnya Data Mining Data Marts ROLAP (Relational OLAP)

50 Model Data Multidimensi
Model data multidimensional dirancang untuk memfasilitasi analisis dan bukan transaksi Umum didalam data warehouse Konsep intuitif dari banyak dimensi atau perspektif pengukuran bisnis atau fakta-fakta Melihat sales dari perspektif customer, product dan time Model konseptual Hypercube – suatu “kubus n-sisi” Database adalah suatu kumpulan fakta (titik) dalam suatu ruang multidimensi

51 Model Kubus Data Kubus 2-d ke 3-d Memutar kubus

52 Model Data Multidimensi
Suatu fakta memiliki suatu ukuran dimensi Besaran yang akan dianalisa, misal, sale, budget Sekumpulan dimensi dimana data dianalisa Misal, store, product, date yang dikaitkan dengan suatu jumlah sale Dimensi membentuk suatu sistem koordinat populasi Atribute-atribut dari suatu dimensi bisa berhubungan dengan urutan parsial Hierarki: misal, street > county >city Kisi: misal, date> month>year, date>week>year

53 Model Data Multidimensi
Ukuran– data numerik yang akan diamati Dimensi– parameter bisnis yang mendefinisikan suatu transaksi Contoh: analis ingin melihat data sales (ukuran) berdasarkan dimensi geography, time, dan product Pemodelan dimensional adalah suatu teknik untuk menstrukturkan data disekitar konsep bisnis Model ER menguraikan “entitas” dan “relasi” Model dimensional menguraikan “ukuran” dan “dimensi”

54 Pemodelan Data Warehouse
Data Warehouse == Pemodelan Dimensional OLAP == Query suatu model dimensional Jika manajer/user berkata: “Kita menjual PRODUCT dalam berbagai MARKET dan kita mengukur kinerja kita berdasarkan TIME” Maka secara konseptual kita menggambarkan suatu kubus data dalam 3 dimensi, dimana masing-masing sel memuat pengukuran. TIME MARKET PRODUCT

55 Pemodelan Data Warehouse
Dimensi yang mungkin: Time: day, week, month, quarter, year Geography / Market (Space) :city, county, state, region, nation Product:brand, model, color, size, weight, ... Vendor Customer Organizational unit / Line of Business Salesperson View - actual, budget, forecast... Masing-masing adalah dasar untuk agregasi dan pemecahan

56 Proses Rancangan Arsitektur
Data Warehouse Pilihan berikut harus dibuat didalam perancangan data warehouse process model Tipe apa yang akan dimodelkan? grain Apa dasar data dan level atom data yang akan disajikan? dimensi Dimensi apa yang dipakai untuk masing-masing record tabel fakta? ukuran Ukuran apa yang akan mengumpulkan masing-masing record tabel fakta?

57 Dari Tabel dan Spreadsheet menjadi
Kubus Data Suatu data warehouse didasarkan kepada suatu model data multidimensi yang melihat data dalam bentuk suatu kubus data Suatu kubus data seperti Sales memungkinkan data untuk dimodelkan dan dilihat dari banyak dimensi Dimensi tabel, seperti item (item_name, brand, type), atau time(day, week, month, quarter, year) Tabel fakta memuat ukuran (seperti dollars_sold) dan kunci untuk setiap dimensi tabel terkait

58 Dari Tabel dan Spreadsheet Menjadi
Kubus Data Dalam pustaka data warehousing, suatu kubus dasar n-D disebut suatu bentuk kubus dasar (base cuboid). Cuboid 0-D adalah bentuk kubus paling atas yang menyimpan intisari level tertinggi dan dinamai apex cuboid (puncak berbentuk kubus). Kisi-kisi dari suatu bentuk cuboid membentuk suatu kubus data

59 Contoh Kubus Data

60 Contoh Kubus Data


Download ppt "Konsep dan Teknik Data Mining"

Presentasi serupa


Iklan oleh Google