Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehSusanti Hartanto Telah diubah "6 tahun yang lalu
1
Data Warehouses: Architecture, Design & Construction (3rd)
Hanim Maria A. Dept. of Information System
2
Review Operasi OLAP pada multidimensional data
3
I. Data Warehouses: Architecture, Design & Construction
DW Architecture Loading, refreshing Structuring/Modeling DWs and Data Marts Query Processing demos, labs
4
Arsitektur Data Warehouse
Relational Databases Legacy Data Purchased Data ERP Systems Analyze Query Data Warehouse Engine Optimized Loader Extraction Cleansing Metadata Repository
5
Komponen Warehouse Data Extraction and Loading The Warehouse
Analyze and Query -- OLAP Tools Metadata Data Mining tools
6
Membersihkan data sebelum data tersebut diload (diisikan ke warehouse)
Loading the Warehouse Membersihkan data sebelum data tersebut diload (diisikan ke warehouse)
7
Source Data Typically host based, legacy applications External Sources
Operational/ Source Data Sequential Legacy Relational External Typically host based, legacy applications Customized applications Point of Contact Devices POS, ATM, Call switches External Sources Nielsen’s, Acxiom, CMIE, Vendors, Partners
8
Data Quality - The Reality
Tidak ada sesuatupun yang bisa bebas dari kesalahan Data berasal dari sumber yang terpisah-pisah. Legacy systems (sistem terdahulu) tidak didokumentasikan. Berasal dari sumber-sumber luar (Outside sources) dengan kualitas yang dipertanyakan prosedurnya.
9
Data Quality - The Reality
Operational system seringkali didesain untuk menyelesaikan permasalahan bisnis yang spesifik dan jarang mendukung rencana (standart) perusahaan. Sehingga integritas data masih kurang. “ And get it done quickly, we do not have time to worry about corporate standards...”
10
Data Integration Across Sources
Trust Savings Loans Credit card Datanya sama Namanya beda Data beda Nama sama Data hanya ada disini Beda keys Data sama
11
Data Transformation Example
Data Warehouse appl A - m,f appl B - 1,0 appl C - x,y appl D - male, female encoding appl A - pipeline - cm appl B - pipeline - in appl C - pipeline - feet appl D - pipeline - yds unit appl A - balance appl B - bal appl C - currbal appl D - balcurr field
12
Data Integrity Problems
Orangnya sama, spellings (pengejaan) beda Agarwal, Agrawal, Aggarwal etc... Ada banyak cara menggambarkan nama perusahaan Persistent Systems, PSPL, Persistent Pvt. LTD. Menggunakan nama yang berbeda mumbai, bombay Account number berbeda untuk customer yang sama dikarenakan menggunakan aplikasi yang berbeda. Format beda dll
13
Data Transformation Terms
Extracting Menangkap data dari berbagai sumber data operasional dalam status “as is” Kebanyakan data untuk saat sekarang merupakan relational databases. Conditioning Konversi tipe data dari sumber data ke target data store (warehouse).
14
Data Transformation Terms
Householding Mengidentifikasi semua member household (living at the same address) Memastikan hanya ada satu mail yang dikirim ke household. Penghematan yang substansial! 1 lakh catalogues at Rs. 50 each costs Rs. 50 lakhs. A 2% savings would save Rs. 1 lakh.
15
Data Transformation Terms
Enrichment Membawa/mengambil data dari sumber eksternal untuk memperkaya data. Scoring Perhitungan probabilitas dari suatu kejadian. E.g..., kemungkinan bahwa customer akan memberli produk yang baru.
16
Data Extraction and Cleansing
Mengekstraksi data dari berbagai data operasional yang ada dan dari data legacy. Persoalan: Sumber data untuk data warehouse Kualitas data pada sumber data Melakukan merging sumber data yang berbeda-beda Transformasi data Bagaimana melakukan update (pada sumber data) ke warehouse Data yang akan diload kapasitasnya sangat besar (bahkan dalam Terabytes)
17
Scrubbing Data Sophisticated transformation tools.
Digunakan untuk membersihkan/clean data (untuk kualitas data). Clean data adalah penting bagi kesuksesan warehouse Contoh Seshadri, Sheshadri, Sesadri, Seshadri S., Srinivasan Seshadri, etc. are the same person
18
Scrubbing Tools Apertus -- Enterprise/Integrator Vality -- IPE
Postal Soft
19
Loads Setelah melakukan extracting, scrubbing, cleaning, validating, dll, kemudian dilakukan load data ke warehouse. Persoalan Volume data yang akan diload sangat besar Waktu yang tersedia hanya sedikit (biasanya dapat dilakukan ketika operasional dan warehousenya off line. Dan biasanya waktu malam) Kapan membangun index dan summary tables. dll
20
Load Techniques Menggunakan SQL untuk append atau insert data baru lama Menggunakan batch load utility
21
Load Taxonomy Incremental versus Full loads
Online versus Offline loads
22
Refresh Mengupdate sumber data untuk warehouse Permasalahan:
Kapan melakukan refresh Bagaimana melalakukan refresh-- refresh techniques
23
When to Refresh? periodically (e.g., tiap malam, tiap minggu) atau setelah terjadi kejadian-kejadian yang signifikan. Tiap kali sumber data diupdate: not warranted unless warehouse data require current data (up to the minute stock quotes) Kebijakan untuk refresh disetting oleh administrator berdasarkan keperluan user dan traffic (lalu lintas/kepadatannya) Kemungkinan, jika sumber datanya beda, kebijakannya juga beda.
24
Refresh Techniques Full Extract from base tables
Membaca keseluruhan sumber data (table): too expensive Kemungkinan merupakan satu-satunya pilihan untuk legacy systems.
25
How To Detect Changes Membuat a snapshot log table untuk merecord/merekam ids dari baris yang terupdate pada sumber data dan timestampnya. Mendeteksi perubahan dengan: ‘After row triggers’ untuk mengupdate snapshot log letika sumber data (source table) berubah Menggunakan regular transaction log untuk mendeteksi perubahan pada sumber data.
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.