Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Data Warehouse JOKO SUTRISNO, M.KOM.  Pustaka Data (Data Warehouse) menyimpan, mengelola dan memberikan data untuk mendukung pengambilan keputusan strategis.

Presentasi serupa


Presentasi berjudul: "Data Warehouse JOKO SUTRISNO, M.KOM.  Pustaka Data (Data Warehouse) menyimpan, mengelola dan memberikan data untuk mendukung pengambilan keputusan strategis."— Transcript presentasi:

1 Data Warehouse JOKO SUTRISNO, M.KOM

2  Pustaka Data (Data Warehouse) menyimpan, mengelola dan memberikan data untuk mendukung pengambilan keputusan strategis.  Data Warehouse bersifat informasional: bertujuan untuk menyampaikan informasi untuk keperluan analisa. Data Warehouse

3 DATA WAREHOUSE : PUSAT KOLEKSI YANG LENGKAP DAN KONSISTEN DATA PERUSAHAAN YANG DIKUMPULKAN DARI BERBAGAI SUMBER UNTUK MEMBERIKAN INFORMASI YANG DAPAT DIPAHAMI DAN DIPERGUNAKAN DALAM KONTEKS BISNIS --BARRY DEVLIN, IBM. ORDERS SHIPPING INVENTORY DATA WAREHOUSE Extract Clean Transform Transfer Load Definisi Data Warehouse

4 DATA WAREHOUSE: SISTEM TERSTRUKTUR BERSKALA BESAR UNTUK MENG-ANALISA DATA STATIS YANG TELAH DITRANSFORMASIKAN DARI BERBAGAI APLIKASI ASALNYA AGAR SESUAI DENGAN STRUKTUR BISNIS, TERKUMPUL DALAM WAKTU YANG LAMA, DIREPRESENTASIKAN DALAM TERMINOLOGI BISNIS, DAN TERANGKUM UNTUK MEMUDAHKAN ANALISA. --VIVEK GUPTA, SYSTEM SERVICES CORP. Definisi Data Warehouse

5  Data proses-bisnis harian (order, inventory, payroll, account) dari aplikasi OLTP: OnLine Transaction Processing  Karakteristik:  Sebagian besar operasi adalah update - berupa transaksi per satuan data (record)  Bersifat rekaman sesaat (snapshot)  Orientasi ke aplikasi  Hanya data rinci (transaction level) Transactional (vs Informational) Data

6  Data tentang bisnis - data untuk perencanaan dan analisa (aplikasi OLAP: OnLine Analysis Processing)  Karakteristik:  Sebagian besar operasi adalah simpan dan baca  Query relatif panjang dan kompleks, melibatkan banyak satuan data  Bersifat historis  Berorientasi topik bisnis (subject oriented)  Juga berisi rangkuman/gabungan data  Mencakup sumber data lain yang berhubungan dengan manajemen dan perencanaan Informational (vs Transactional) Data

7 Transactional vs Informational Design Transaksional  Untuk otomasi proses bisnis  Sasaran: efisiensi  Menentukan proses bisnis  Digerakkan oleh event transaksi  Optimasi proses transaksi Informasional Mendukung pengambilan keputusan Sasaran: keefektifan Disesuaikan dengan situasi bisnis Mengantisipasi event transaksi Optimasi query (pengambilan data)

8 Karakteristik Data Warehouse :  Menyeluruh dan terangkum (integrated)  Historis (time varying)  Statis (non-volatile)  Terorganisasi menurut topik analisa (subject oriented)  Ditujukan untuk pemakai bisnis sebagai pendukung pengambilan keputusan. DW Characteristics

9  Update secara append only  Volume data amat besar (terakumulasi)  Periode update yang terjadwal sesuai dengan siklus bisnis  Harus dipisahkan dari data operasional:  Alasan skema : Struktur dan definisi data berbeda dengan OLTP.  Alasan kinerja : Pemrosesan query OLAP yang intensif dapat membebani OLTP. DW Characteristics (2)

10 BI Component Framework ORDERS SHIPPING INVENTORY DATA WAREHOUSE Data Warehouse EnvironmentAnalytical Environment Extract Clean Transform Transfer Load Query Report Analyze Mine Visualize

11 BI Definition Proses-proses, alat-alat bantu, dan teknologi untuk mengubah data menjadi informasi, dan informasi menjadi pemahaman serta rencana untuk menggerakkan aktivitas bisnis yang efektif -- The Data Warehouse Institute CAPTURE REVIEW ACT PLAN ANALYZE BI Learning Cycle:

12  Arsitektur  Virtual (query driven)  Terpusat (centralized)  Tersebar (federated) Data Warehouse Architecture

13  Akses langsung ke basis data OLTP virtual DW OLTP systems result sets DBMS data access DBMS data access information access (filtering, staging, merging) information access (filtering, staging, merging) analytical tools queries Virtual DW

14  Keuntungan:  Murah (TCO rendah, tidak ada duplikasi data).  Data selalu paling mutakhir.  Data yang sangat lengkap dari berbagai sumber.  Cocok untuk kebutuhan informasi yang tak terduga/terencana. Virtual DW Advantages

15  Kelemahan:  Tidak memiliki data historis.  Tidak efisien dan lambat (proses pembersihan, transformasi dan penggabungan untuk setiap query).  Dapat menggangu kinerja OLTP: produktifitas perusahaan. Virtual DW Disadvantages

16  Akses ke basis data warehouse pusat DBMS data access DBMS data access information access ETL (staging) data warehouse data access Centralized DW OLTP systems

17  Keuntungan:  Kinerja pemrosesan query yang tinggi  Tidak mengganggu kinerja OLTP  Memenuhi persyaratan DW  Kelemahan:  Informasi yang dihasilkan belum tentu mutakhir  Duplikasi data dengan OLTP Centralized DW Tradeoffs

18  Akses ke basis data federated Data Marts.  Sebagai konsekuensi dari desentralisasi dari pengambilan keputusan.  Skope Data Mart (DW departmental) pendukung: personal, proyek, departemental/divisional, fungsional/perusahaan. information access marketingcustomer care finance Federated DW Data Mart data access

19  Keuntungan:  Sama dengan DW terpusat  Keandalan dan ketersediaan tinggi (basis data terdistribusi)  Kelemahan:  Sama dengan DW terpusat  Struktur data marts pendukung belum tentu sesuai dengan kebutuhan di tingkat pusat: Sudut pandang rancangan data mart bersifat divisional - tidak utuh. Federated DW Tradeoffs

20  Terpusat (pendekatan Top-Down):  Ideal tetapi membutuhkan waktu pengembangan yang lama dan skala proyek yang besar  Resiko kegagalan proyek pengambangan tinggi  Tersebar (pendekatan Bottom-Up):  Memungkinkan prioritasi, pengembangan bertahap sambil mendaki learning curve  Dibutuhkan koordinasi melalui team yang mengatur standarisasi kode, penamaan, dan definisi data. Centralized vs Federated

21 Kinerja adalah Faktor Keberhasilan DW:  Kecepatan memuat data baru dalam skala giga bytes atau ratusan ribu records per jam, secara periodik.  Waktu untuk data staging: transformasi, penyaringan, konversi format, test kelengkapan data, dsb. termasuk dalam perhitungan kecepatan memuat data. Performance Issue: Data Loading

22  Query throughput adalah ukuran kesuksesan DW. Banyaknya query yang terjawab (termasuk yang ad-hoc) akan mendorong analis untuk mendapatkan query yang lebih kreatif dan jitu.  Optimasi: skala response time dalam detik. Merupakan fungsi dari kompleksitas query bukan ukuran basis data.  User scalability. Mampu melayani ratusan pemakai secara bersamaan tanpa perlambatan yang berarti. Performance Issue: Query Processing

23  Media penyimpanan basis data arus mampu menyimpan data dalam skala tera bytes.  DBMS harus juga mampu menangani data dalam skala tera bytes. Scalability Issue: Storage Capacity

24  Tujuan ETL: Mengumpulkan, menseleksi, mengolah dan menggabungkan data relevan dari berbagai sumber untuk disimpan dalam Data Warehouse.  Hasil ETL: Data yang memenuhi kriteria DW Historis, terpadu, terangkum, statis, dan memiliki struktur yang dirancang untuk keperluan analisa.  Bagian terpenting: menyerap 50%-70% total kerja proyek Data Warehousing. Extraction Transformation Loading

25  Sumber-sumber data umumnya sangat bervariasi (heterogeneous): Platform mesin dan Operating System yang berlainan Mungkin melibatkan sistem kuno dengan teknologi basis data yang sudah ketinggalan jaman Mutu data yang berbeda-beda Aplikasi sumber data mungkin menggunakan nilai data (representasi) internal yang sulit dimengerti Inkonsistensi definisi data, dan tidak adanya mekanisme/prosedur penyeragaman. ETL Problems

26  Perencanaan ekstraksi data melibatkan identifikasi: Sumber data: sistem OLTP, basis data eksternal, dsb. Metoda ekstraksi Frekuensi ekstraksi Waktu/penjadwalan ekstraksi Tahapan proses ekstraksi Penanganan kejanggalan (anomali) dalam ekstraksi, misal: prosedur operasi manual Data Extraction

27  Ekstraksi Data Statis  Ekstraksi Data Terjadwal/Tertunda  Berdasarkan time stamp  Berdasarkan perbedaan antara file lama dan baru  Ekstraksi Data Seketika  Dengan mekanisme log transaksi  Dengan mekanisme database trigger  Oleh aplikasi sumber Data Extraction Methods

28  Ekstraksi statis − Umumnya dilakukan pada saat off-line: pemuatan data awal atau full refresh periodik  Ekstraksi non-statis  Umumnya dilakukan sering secara periodik untuk updating DW dengan data terbaru  Selektif: hanya mengambil data yang telah berubah sejak ekstraksi terakhir Data Extraction Methods

29  Metoda tertunda (batch):  Berdasarkan perbedaan waktu time-stamp  Berdasarkan perbedaan image file data  Metoda seketika (real-time):  Dengan mekanisme transaction log  Dengan mekanisme database trigger  Langsung oleh aplikasi sumber Non-Static Data Extraction

30 Batch Data Extraction source operational systems source databases DBMS time-stamp based extraction program time-stamp based extraction program extract file data staging area today’s file yesterday’s file extract file comparison program file comparison program

31 Real-Time Data Extraction source operational systems source databases DBMS application generated extract file data staging area extract file transaction log file trigger- driven procedure trigger- driven procedure

32 Extraction Methods Trade-off

33  Dapat memakan waktu lama  Dibutuhkan sistem DBMS dengan kinerja tinggi atau fasilitas bulk loading  Harus dilakukan secara otomatis  Misal dengan cron jobs (Unix), job control service (Windows) Batch Extraction Schedule

34  Data dari sistem-sistem OLTP perlu diproses sebelum disimpan dalam data warehouse  Langkah-langkah utama:  Pembersihan data  Konversi dan pengubahan struktur data  Melengkapi kolom-kolom kosong  Penggabungan data  Perangkuman data (penghitungan agregat) Data Staging: Transformation

35  Pemeriksaan validitas data  Pembuangan atau koreksi data yang invalid atau inkonsisten  Pembuangan detail yang tidak perlu  Pembuangan duplikat-duplikat data Data Cleansing

36  Prekalkulasi:  Penghitungan nilai-nilai derivat  Penghitungan agregat (rangkuman)  Restrukturisasi data:  Splitting: pemecahan kolom data menjadi beberapa kolom  Merging: perangkuman beberapa kolom data menjadi satu kolom  Penggabungan atribut-atribut (denormalisasi):  Pemberian kunci global (surrogate keys) Transformation Types

37 Denormalization KeyNIPNamaJabatanProyek  EddyPengawasP0201  EddyManajerP0411  EmmySekretarisP0411  EmmyStafP0201  NIPNamaAlamatKelamin  EddyJl Duren 11L  EmmyJl Pisang 2P  DoddyJl Mangga 7L  NaniJl Nangka 1P  Kode Proyek NamaLokasi  P0201Analisa Sistem Cabang Balikpapan  P0411TrainingCabang Manado  R0391Perbaikan Infrastruktur Pusat  R0402Pengemban gan Jaringan Pusat  surrogate key

38  Masalah penyeragaman data yang dikumpulkan dari berbagai sumber (sistem aplikasi OLTP):  Perbedaan terminologi akibat perbedaan konvensi, struktur/manajemen organisasi, dsb.  Perbedaan kodifikasi nilai data. Misal: L/P atau P/W untuk jenis kelamin.  Perbedaan periode siklus bisnis: mingguan, bulanan, kuartalan, dsb. Data Translation

39  Perbedaan nilai default untuk missing values  Definisi/representasi nilai data yang hanya dimengerti oleh kalangan pemakai sistem aplikasi sumber saja  Perbedaan format data, misal: jumlah digit atau huruf. Data Translation (2)

40  Translasi data:  Pengubahan format (tipe data dan panjangnya)  Translasi (decoding) nilai data  Konversi character set  Konversi satuan ukuran  Konversi format tanggal dan jam Transformation Types (2)

41 Permasalahan:  Skop identitas dari entitas yang terbatas hanya selama satu transaksi, dan  Identifikasi entitas yang sama dalam basis-basis data atau sistem-sistem yang berlainan  Diperlukan kriteria matching  Adanya beberapa sumber untuk elemen data yang sama  Diperlukan ranking prioritas sistem-sitem sumber Integration & Consolidation Issues

42 Metoda pemuatan data berdasarkan tipe :  Skala transaksi Misal: Total pembelian oleh konsumen P pada hari H di kios K Disimpan ke dalam DW dengan operasi write  Skala periodik (periodic snapshot) Misal: Saldo bulanan nasabah tabungan Disimpan ke dalam DW dengan memeriksa batas waktu periode data, operasi penjumlahan, dan operasi update Loading Methods by Data Type

43 … Metoda pemuatan data berdasarkan tipe :  Skala kumulatif (accumulating snapshot) Misal: Total biaya pengobatan pasien rawat jalan (periode tidak tetap/pasti) Disimpan ke dalam DW dengan operasi penjumlahan dan update Loading Methods by Data Type (2)


Download ppt "Data Warehouse JOKO SUTRISNO, M.KOM.  Pustaka Data (Data Warehouse) menyimpan, mengelola dan memberikan data untuk mendukung pengambilan keputusan strategis."

Presentasi serupa


Iklan oleh Google