Proses ETL (Extract-Transform-Load)

Slides:



Advertisements
Presentasi serupa
Data Warehousing :: Overview
Advertisements

Chapter 16 Testing Your Data Warehouse
Data Warehousing :: DWH Design
Model Kubus Data Melihat data sebagai kubus.
5.
CHAPTER 7 DATA EXTRACTION
BAB 13 U SING D ATA W AREHOUSE FOR B USINESS I NTELLIGENCE Moh. Muslih Rizal Ario Kiky Cahyaning H Nursyakhroini.
What Is Database? Handy Wicaksono. Apakah Database itu? Database : tempat penyimpanan informasi Jenis database yang paling umum : relational database.
SISTEM BUKU BESAR DAN PELAPORAN
BASIS DATA LANJUTAN.
Ekstraksi, Transformasi dan Loading (ETL)
DATABASE ADMINISTRATION Pertemuan ke-10. Data Movement and Distribution source : Database Administration the complete guide to practices and procedures.
Data Warehouse dan Decision Support
Data Mart dan Metadata Data Warehouse
Pengenalan Data Warehouse
Desain Data Warehouse (Dimensional Modelling)
Dimensional Modeling Achmad Yasid.
Dimensional Modeling Achmad Yasid.
McGraw-Hill/Irwin Copyright © 2008, The McGraw-Hill Companies, Inc. All rights reserved.McGraw-Hill/Irwin Copyright © 2008 The McGraw-Hill Companies, Inc.
Data Mart dan Metadata Data Warehouse
Defining Business Requirement / Medefiniskan kebutuhan User
DATA WAREHOUSING IN SQL SERVER 2005/2008 BUSINESS INTELLIGENCE.
Arsitektur Data Warehouse
Komponen Data warehouse
Dika Anjar Pratiwi Ken Mentari Tilammura Agung Wibowo.
Arsitektur DWH Pertemuan ke-2.
Sumber Data untuk DW Data operasional dalam organisasi, misalnya basis data pelanggan dan produk, dan Sumber eksternal yang diperoleh misalnya melalui.
DATA WAREHOUSING IN SQL SERVER 2005/2008 BUSINESS INTELLIGENCE.
Dimensional Modeling (Advance)
ONLINE ANALYTICAL PROCESSING (OLAP)
Perancangan Database Pertemuan 07 s.d 08
Database Management System
Desain Database Disusun Oleh : Dr. Lily Wulandari
Arsitektur Data Warehouse
Tujuan : Mahasiswa dapat
Pertemuan VI Desain Data Warehouse (Dimensional Modelling)
Desain Data Warehouse (Dimensional Modelling)
DATA WAREHOUSE (The Building Blocks)
Information System in Action
Surrogate Key & Slowly Changing Dimensions. SURROGATE KEY.
Pokok Bahasan DATADATABASEOLTPDSS OLAPDATA WAREHOUSEDATA MINING.
Pertemuan VIII Dimensional Modelling. Relational Database Model FMMFFMMF Anderson Green Lee Ramos Attribute 1 Name Attribute 2 Age Attribute.
Normalisasi.
PERTEMUAN I Perancangan Database.
Defining Business Requirement / Medefiniskan kebutuhan User
Siklus Pendapatan.
Model Kubus Data Melihat data sebagai kubus.
Membuat Table Pertemuan 3
04 Datawarehouse Transformasi Data Febrianti Supardinah, ST.MM.
DATA MART Pertemuan ke-3.
Suhadi Lili Tim Dapodik Ditjen Dikdas
Sistem Pustaka Data (Data Warehouse)
Charitas Fibriani, S.Kom, M.Eng
ARSITEKTUR DATA WAREHOUSE
BUSINESS INTELLIGENCE
Proses ETL (Extract, Transform and Loading)
Perancangan Penyimpanan Data
UPAYA PEMECAHAN MASALAH DALAM MEMBANGUN GUDANG DATA (DATA WAREHOUSE)
ETL (Extract Transform Load)
Business Intelligent Ramos Somya, S.Kom., M.Cs.
Bab 9 Database dan Database Manajemen Sistem
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
ETL (Extract-Transform-Load)
Business Intelligence Ramos Somya, S.Kom., M.Cs.
Presentasi oleh Adhisma Alzahra Siddinanda
Introduction to Data Warehouse By: Marcello Singadji
Business Intelligent Ramos Somya, S.Kom., M.Cs.
OLTP & ETL Data integration.
Bab 9 Database dan Database Manajemen Sistem
Komponen table Ms. Access, lanjutan
Transcript presentasi:

Proses ETL (Extract-Transform-Load) Data Warehousing and Data Mining

Scrub atau data cleansing Transform Load dan Index Proses ETL Ekstrak (Extract) Capture Scrub atau data cleansing Transform Load dan Index ETL = Extract, transform, and load © Prentice Hall, 2002 2

Gambar 1. Langkah rekonsiliasi data STAGING AREA Capture = extract…obtaining a snapshot of a chosen subset of the source data for loading into the data warehouse Incremental extract = mengambil hanya data-data yang mengalami perubahan akibat static extract Static extract = mengambil data-data dari sumber pada waktu tertentu, dan biasanya hanya dilakukan sekali di awal proses. © Prentice Hall, 2002 3

Figure 11-10: Steps in data reconciliation (continued) STAGING AREA Scrub = cleanse…uses pattern recognition and AI techniques to upgrade data quality Fixing errors: salah ejaan, tanggal yang salah, penggunaan kolom yang salah, alamat yang tidak cocok, data yang hilang, data ganda, inkonsistensi juga: decoding, reformatting, time stamping, konversi, key generation, penggabungan, deteksi error, pencarian data hilang © Prentice Hall, 2002 4

Figure 11-10: Steps in data reconciliation (continued) STAGING AREA Transform = convert data from format of operational system to format of data warehouse Record-level: Selection – pemisahan data Joining – penggabungan data Aggregation – peringkasan data Field-level: single-field – dari one field ke one field multi-field – dari many fields ke one, atau one field ke many © Prentice Hall, 2002 5

Figure 11-10: Steps in data reconciliation (continued) STAGING AREA Load/Index= place transformed data into the warehouse and create indexes Refresh mode: penulisan berulang data tujuan secara massal dan berkala Update mode: hanya perubahan-perubahan pada data sumber yang dimasukkan ke data warehouse © Prentice Hall, 2002 6

Figure 11-11: Single-field transformation Secara umum – beberapa fungsi transformasi memindahkan data dari old form ke new form Algorithmic transformation menggunakan sebuah formula atau ekspresi logika Table lookup – pendekatan lain © Prentice Hall, 2002 7

Figure 11-12: Multifield transformation M:1 – dari banyak fields ke one target field 1:M – dari one field ke many target fields © Prentice Hall, 2002 8

Karakteristik Data setelah Proses ETL Terperinci Data terperinci, tidak sekedar peringkasan Historical Data secara periodik Ternormalisasi 3rd NF atau lebih Komprehensif Perspektif pada Enterprise Timely Up-to-date (tidak harus real-time) Quality Controlled Kualitas yang baik

Derived Data Tujuan  Sifat Mempermudah penggunaan aplikasi pendukung keputusan Respon yang cepat terhadap permintaan pengguna yang telah ditetapkan Data yang telah disesuaikan untuk pihak-pihak tertentu Dukungan untuk permintaan pelaporan Kemampuan untuk di Data mining  Sifat Terperinci (data periodic) Ringkas (untuk penyimpulan) Terdistribusi (untuk layanan bagian-bagian tertentu) Most common data model = star schema (also called “dimensional model”) © Prentice Hall, 2002 10

Figure 11-13: Components of a star schema Fact tables contain factual or quantitative data Dimension tables are denormalized to maximize performance 1:N relationship between dimension tables and fact tables Dimension tables contain descriptions about the subjects of the business Excellent for ad-hoc queries, but bad for online transaction processing © Prentice Hall, 2002 11

Figure 11-14: Contoh Star schema Fact table provides statistics for sales broken down by product, period and store dimensions © Prentice Hall, 2002 12

Figure 11-15: Star schema with sample data © Prentice Hall, 2002 13