Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Data Warehouse Joko Sutrisno, M.Kom.

Presentasi serupa


Presentasi berjudul: "Data Warehouse Joko Sutrisno, M.Kom."— Transcript presentasi:

1 Data Warehouse Joko Sutrisno, M.Kom

2 Data Warehouse Pustaka Data (Data Warehouse) menyimpan, mengelola dan memberikan data untuk mendukung pengambilan keputusan strategis. Data Warehouse bersifat informasional: bertujuan untuk menyampaikan informasi untuk keperluan analisa.

3 Definisi Data Warehouse
Pusat koleksi yang lengkap dan konsisten data perusahaan yang dikumpulkan dari berbagai sumber untuk memberikan informasi yang dapat dipahami dan dipergunakan dalam konteks bisnis --Barry Devlin, IBM. ORDERS SHIPPING INVENTORY DATA WAREHOUSE Extract Clean Transform Transfer Load

4 Definisi Data Warehouse
Sistem terstruktur berskala besar untuk meng-analisa data statis yang telah ditransformasikan dari berbagai aplikasi asalnya agar sesuai dengan struktur bisnis, terkumpul dalam waktu yang lama, direpresentasikan dalam terminologi bisnis, dan terangkum untuk memudahkan analisa. --Vivek Gupta, System Services Corp.

5 Transactional (vs Informational) Data
Data proses-bisnis harian (order, inventory, payroll, account) dari aplikasi OLTP: OnLine Transaction Processing Karakteristik: Sebagian besar operasi adalah update - berupa transaksi per satuan data (record) Bersifat rekaman sesaat (snapshot) Orientasi ke aplikasi Hanya data rinci (transaction level)

6 Informational (vs Transactional) Data
Data tentang bisnis - data untuk perencanaan dan analisa (aplikasi OLAP: OnLine Analysis Processing) Karakteristik: Sebagian besar operasi adalah simpan dan baca Query relatif panjang dan kompleks, melibatkan banyak satuan data Bersifat historis Berorientasi topik bisnis (subject oriented) Juga berisi rangkuman/gabungan data Mencakup sumber data lain yang berhubungan dengan manajemen dan perencanaan

7 Transactional vs Informational Design
Transaksional Untuk otomasi proses bisnis Sasaran: efisiensi Menentukan proses bisnis Digerakkan oleh event transaksi Optimasi proses transaksi Informasional Mendukung pengambilan keputusan Sasaran: keefektifan Disesuaikan dengan situasi bisnis Mengantisipasi event transaksi Optimasi query (pengambilan data)

8 DW Characteristics Menyeluruh dan terangkum (integrated)
Karakteristik Data Warehouse: Menyeluruh dan terangkum (integrated) Historis (time varying) Statis (non-volatile) Terorganisasi menurut topik analisa (subject oriented) Ditujukan untuk pemakai bisnis sebagai pendukung pengambilan keputusan.

9 DW Characteristics (2) Update secara append only
Volume data amat besar (terakumulasi) Periode update yang terjadwal sesuai dengan siklus bisnis Harus dipisahkan dari data operasional: Alasan skema: Struktur dan definisi data berbeda dengan OLTP. Alasan kinerja: Pemrosesan query OLAP yang intensif dapat membebani OLTP.

10 BI Component Framework
ORDERS Extract Clean Transform Transfer Load Query Report Analyze Mine Visualize SHIPPING DATA WAREHOUSE INVENTORY Data Warehouse Environment Analytical Environment

11 BI Definition Proses-proses, alat-alat bantu, dan teknologi untuk mengubah data menjadi informasi, dan informasi menjadi pemahaman serta rencana untuk menggerakkan aktivitas bisnis yang efektif -- The Data Warehouse Institute CAPTURE REVIEW ACT PLAN ANALYZE BI Learning Cycle:

12 Data Warehouse Architecture
Arsitektur Virtual (query driven) Terpusat (centralized) Tersebar (federated)

13 (filtering, staging, merging)
Virtual DW Akses langsung ke basis data OLTP analytical tools virtual DW information access (filtering, staging, merging) queries result sets data access data access data access OLTP systems DBMS DBMS DBMS

14 Virtual DW Advantages Keuntungan:
Murah (TCO rendah, tidak ada duplikasi data). Data selalu paling mutakhir. Data yang sangat lengkap dari berbagai sumber. Cocok untuk kebutuhan informasi yang tak terduga/terencana.

15 Virtual DW Disadvantages
Kelemahan: Tidak memiliki data historis. Tidak efisien dan lambat (proses pembersihan, transformasi dan penggabungan untuk setiap query). Dapat menggangu kinerja OLTP: produktifitas perusahaan.

16 Centralized DW Akses ke basis data warehouse pusat OLTP systems
information access data access data warehouse ETL (staging) data access data access data access OLTP systems DBMS DBMS DBMS

17 Centralized DW Tradeoffs
Keuntungan: Kinerja pemrosesan query yang tinggi Tidak mengganggu kinerja OLTP Memenuhi persyaratan DW Kelemahan: Informasi yang dihasilkan belum tentu mutakhir Duplikasi data dengan OLTP

18 Federated DW Akses ke basis data federated Data Marts.
data access information access Data Mart Data Mart Data Mart marketing finance customer care Akses ke basis data federated Data Marts. Sebagai konsekuensi dari desentralisasi dari pengambilan keputusan. Skope Data Mart (DW departmental) pendukung: personal, proyek, departemental/divisional, fungsional/perusahaan.

19 Federated DW Tradeoffs
Keuntungan: Sama dengan DW terpusat Keandalan dan ketersediaan tinggi (basis data terdistribusi) Kelemahan: Struktur data marts pendukung belum tentu sesuai dengan kebutuhan di tingkat pusat: Sudut pandang rancangan data mart bersifat divisional - tidak utuh.

20 Centralized vs Federated
Terpusat (pendekatan Top-Down): Ideal tetapi membutuhkan waktu pengembangan yang lama dan skala proyek yang besar Resiko kegagalan proyek pengambangan tinggi Tersebar (pendekatan Bottom-Up): Memungkinkan prioritasi, pengembangan bertahap sambil mendaki learning curve Dibutuhkan koordinasi melalui team yang mengatur standarisasi kode, penamaan, dan definisi data.

21 Performance Issue: Data Loading
Kinerja adalah Faktor Keberhasilan DW: Kecepatan memuat data baru dalam skala giga bytes atau ratusan ribu records per jam, secara periodik. Waktu untuk data staging: transformasi, penyaringan, konversi format, test kelengkapan data, dsb. termasuk dalam perhitungan kecepatan memuat data.

22 Performance Issue: Query Processing
Query throughput adalah ukuran kesuksesan DW. Banyaknya query yang terjawab (termasuk yang ad-hoc) akan mendorong analis untuk mendapatkan query yang lebih kreatif dan jitu. Optimasi: skala response time dalam detik. Merupakan fungsi dari kompleksitas query bukan ukuran basis data. User scalability. Mampu melayani ratusan pemakai secara bersamaan tanpa perlambatan yang berarti.

23 Scalability Issue: Storage Capacity
Media penyimpanan basis data arus mampu menyimpan data dalam skala tera bytes. DBMS harus juga mampu menangani data dalam skala tera bytes.

24 Extraction Transformation Loading
Tujuan ETL: Mengumpulkan, menseleksi, mengolah dan menggabungkan data relevan dari berbagai sumber untuk disimpan dalam Data Warehouse. Hasil ETL: Data yang memenuhi kriteria DW Historis, terpadu, terangkum, statis, dan memiliki struktur yang dirancang untuk keperluan analisa. Bagian terpenting: menyerap 50%-70% total kerja proyek Data Warehousing.

25 ETL Problems Sumber-sumber data umumnya sangat bervariasi (heterogeneous): Platform mesin dan Operating System yang berlainan Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah ketinggalan jaman Mutu data yang berbeda-beda Aplikasi sumber data mungkin menggunakan nilai data (representasi) internal yang sulit dimengerti Inkonsistensi definisi data, dan tidak adanya mekanisme/prosedur penyeragaman.

26 Data Extraction Perencanaan ekstraksi data melibatkan identifikasi:
Sumber data: sistem OLTP, basis data eksternal, dsb. Metoda ekstraksi Frekuensi ekstraksi Waktu/penjadwalan ekstraksi Tahapan proses ekstraksi Penanganan kejanggalan (anomali) dalam ekstraksi, misal: prosedur operasi manual

27 Data Extraction Methods
Ekstraksi Data Statis Ekstraksi Data Terjadwal/Tertunda Berdasarkan time stamp Berdasarkan perbedaan antara file lama dan baru Ekstraksi Data Seketika Dengan mekanisme log transaksi Dengan mekanisme database trigger Oleh aplikasi sumber

28 Data Extraction Methods
Ekstraksi statis Umumnya dilakukan pada saat off-line: pemuatan data awal atau full refresh periodik Ekstraksi non-statis Umumnya dilakukan sering secara periodik untuk updating DW dengan data terbaru Selektif: hanya mengambil data yang telah berubah sejak ekstraksi terakhir

29 Non-Static Data Extraction
Metoda tertunda (batch): Berdasarkan perbedaan waktu time-stamp Berdasarkan perbedaan image file data Metoda seketika (real-time): Dengan mekanisme transaction log Dengan mekanisme database trigger Langsung oleh aplikasi sumber

30 Batch Data Extraction source operational time-stamp systems extract
based extraction program extract file source databases data staging area today’s file DBMS file comparison program extract file yesterday’s file

31 Real-Time Data Extraction
application generated extract file source operational systems source databases data staging area trigger- driven procedure extract file transaction log file DBMS

32 Extraction Methods Trade-off
Time stamp Image file Transac- tion log DB trigger Applicati- on driven Fleksibilitas langkah ekstraksi tinggi rendah Dampak pada kinerja sistem OLTP tidak ada ada Modifikasi pada sistem besar tidak perlu Aplikasi pada sistem mainframe tidak bisa mungkin bisa file- oriented Pemrogram- an tambahan kecil/tidak besar/ mahal

33 Batch Extraction Schedule
Dapat memakan waktu lama Dibutuhkan sistem DBMS dengan kinerja tinggi atau fasilitas bulk loading Harus dilakukan secara otomatis Misal dengan cron jobs (Unix), job control service (Windows)

34 Data Staging: Transformation
Data dari sistem-sistem OLTP perlu diproses sebelum disimpan dalam data warehouse Langkah-langkah utama: Pembersihan data Konversi dan pengubahan struktur data Melengkapi kolom-kolom kosong Penggabungan data Perangkuman data (penghitungan agregat)

35 Data Cleansing Pemeriksaan validitas data
Pembuangan atau koreksi data yang invalid atau inkonsisten Pembuangan detail yang tidak perlu Pembuangan duplikat-duplikat data

36 Transformation Types Prekalkulasi: Restrukturisasi data:
Penghitungan nilai-nilai derivat Penghitungan agregat (rangkuman) Restrukturisasi data: Splitting: pemecahan kolom data menjadi beberapa kolom Merging: perangkuman beberapa kolom data menjadi satu kolom Penggabungan atribut-atribut (denormalisasi): Pemberian kunci global (surrogate keys)

37 Denormalization surrogate key Kode Proyek Nama Lokasi  P0201 Analisa
Sistem Cabang Balikpapan P0411 Training Manado R0391 Perbaikan Infrastruktur Pusat R0402 Pengembangan Jaringan NIP Nama Alamat Kelamin 818283 Eddy Jl Duren 11 L 818824 Emmy Jl Pisang 2 P 818835 Doddy Jl Mangga 7 818812 Nani Jl Nangka 1 surrogate key Key NIP Nama Jabatan Proyek 01001 818283 Eddy Pengawas P0201 01002 Manajer P0411 01003 818824 Emmy Sekretaris Staf

38 Data Translation Masalah penyeragaman data yang dikumpulkan dari berbagai sumber (sistem aplikasi OLTP): Perbedaan terminologi akibat perbedaan konvensi, struktur/manajemen organisasi, dsb. Perbedaan kodifikasi nilai data. Misal: L/P atau P/W untuk jenis kelamin. Perbedaan periode siklus bisnis: mingguan, bulanan, kuartalan, dsb.

39 Data Translation (2) Perbedaan nilai default untuk missing values
Definisi/representasi nilai data yang hanya dimengerti oleh kalangan pemakai sistem aplikasi sumber saja Perbedaan format data, misal: jumlah digit atau huruf.

40 Transformation Types (2)
Translasi data: Pengubahan format (tipe data dan panjangnya) Translasi (decoding) nilai data Konversi character set Konversi satuan ukuran Konversi format tanggal dan jam

41 Integration & Consolidation Issues
Permasalahan: Skop identitas dari entitas yang terbatas hanya selama satu transaksi, dan Identifikasi entitas yang sama dalam basis-basis data atau sistem-sistem yang berlainan Diperlukan kriteria matching Adanya beberapa sumber untuk elemen data yang sama Diperlukan ranking prioritas sistem-sitem sumber

42 Loading Methods by Data Type
Metoda pemuatan data berdasarkan tipe: Skala transaksi Misal: Total pembelian oleh konsumen P pada hari H di kios K Disimpan ke dalam DW dengan operasi write Skala periodik (periodic snapshot) Misal: Saldo bulanan nasabah tabungan Disimpan ke dalam DW dengan memeriksa batas waktu periode data, operasi penjumlahan, dan operasi update

43 Loading Methods by Data Type (2)
… Metoda pemuatan data berdasarkan tipe: Skala kumulatif (accumulating snapshot) Misal: Total biaya pengobatan pasien rawat jalan (periode tidak tetap/pasti) Disimpan ke dalam DW dengan operasi penjumlahan dan update


Download ppt "Data Warehouse Joko Sutrisno, M.Kom."

Presentasi serupa


Iklan oleh Google