Data Warehouse, Data Mart, OLTP & OLAP
Apa Data Warehouse ? Merupakan database yang berisi data dari beberapa system operasional yang terintegrasi, teragregrasi dan terstruktur sehingga dapat digunakan untuk mendukung analisa dan proses pengambilan keputusan dalam bisnis Sales Clients Products Mktg Suppliers Customer Care Operational data Information Brands Cost
Mengapa kita perlu Data Warehouse? Apakah anda memiliki data detail histori untuk tujuan analisa ? Berapa bulan dari data histori yang diperlukan untuk di-online-kan ? Apakah anda menyimpan level detail yang benar ? Apakah anda dapat menganalisa penjualan untuk tiap produk dari setiap daerah sebelum dan sesudah struktur pelaporan penjualan di-reorganisasi ? Data warehouse dibangun dengan tujuan memecahkan semua persoalan tersebut.
Tujuan Mendukung pengambilan keputusan, bukan untuk melaksanakan pemrosesan transaksi Data warehouse hanya berisi informasi-informasi yang relevan bagi kebutuhan pemakai yang dipakai untuk pengambilan keputusan
Tinjauan Histori Tahun 1970-an aplikasi komersial pertama dibangun => dibangun pada computer mainframe Tahun 70-an dan awal 1980 => minicomputers seperti Digital's PDP-11 dan VAX 11/780 membuat harga hardware turun drastis munculnya database relasional tahun 1979, Oracle sebagai software komersial pertama kemunculan Personal Computer (PC), komputasi beralih dari mainframes ke system client/server Tahun 1980-an system OLTP dibangun dengan menggunakan system relasional
Era Kemunculan Data Warehouse Dan pada akhir tahun 1980-an dan awal tahun 1990-an, mulai dilakukan tinjauan bisnis secara menyeluruh, sehingga muncullah enterprise data warehouses untuk pertama kalinya Istilah data warehouse dikenalkan pertama kali oleh Bill Inmon
Ciri-ciri Data Warehouse Terdapat4 karateristik data warehouse: Subject oriented – Data yang disusun menurut subyek berisi hanya informasi yang penting bagi pemrosesan decision support. – Database yang semua informasi yang tersimpan dikelompokkan berdasarkan subyek tertentu misalnya: pelanggan, gudang, pasar, dsb. – Data-data disetiap subyek dirangkum kedalam dimensi, misalnya: periode waktu, produk, wilayah, dsb, sehingga dapat memberikan nilai sejarah untuk bahan analisa.
Ciri-ciri …(contd.) Integrated Time-variant Non volatile – Jika data terletak pada berbagai aplikasi yang terpisah dalam suatu lingkungan operasional, encoding data sering tidak seragam sehinggga bila data dipindahkan ke data warehouse maka coding akan diasumsikan sama seperti lazimnya. Time-variant – Data warehouse adalah tempat untuk storing data selama 5 sampai 10 tahun atau lebih, data digunakan untuk perbandingan atau perkiraan dan data ini tidak dapat diperbaharui. Non volatile – Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat
Sifat Data Warehouse Kelompok variabel atau parameter disebut Dimensions pada On-Line Analytical Processing (OLAP) Multidimensional yang berarti bahwa terdapat banyak lapisan kolom dan baris (Ini berbeda dengan tabel pada model relasional yang hanya berdimensi dua) Berdasarkan susunan data seperti itu, amatlah mudah untuk memperoleh jawaban atas pertanyaan seperti: “Berapakah jumlah produk 1 terjual di Jawa Tengah pada tahun n-3?”
Data warehouse melihat ke dalam data untuk menemukan informasi Aktifitas utamanya adalah query, atau membaca data. Aktifitas perubahan (update) hanya terjadi pada saat data di-load ke dalam warehouse. Materialized views ditambahkan pula sejak Oracle 8i untuk meningkatkan performansi pada saat melakukan aggregasi dan summary pada data.
Analisa yang diperoleh dari Data Warehouse Tidak cukup hanya dengan mengetahui keuntungan yang diperoleh tahun ini, seorang analis juga perlu mengetahui keuntungan pada setiap periode waktu tertentu untuk setiap produk di setiap area geografis tertentu. Seorang analis perlu membandingkan penjualan bulan ini dengan bulan yang sama pada tahun sebelumnya.
Data warehouse membutuhkan desain database yang berbeda Data warehouses didesain untuk bisa melakukan query secara cepat. Informasi diturunkan dari data lain, dilakukan rolling up data untuk dijadikan ringkasan (summaries), dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, atau melihat pola yang menarik atau melihat trend (kecenderungan). Desain yang sesuai adalah dengan menggunakan skema star yang diperkenalkan mulai pertama oleh Ralph Kimball
Pendekatan dimensional pada skema Star Mengorganisasi data ke dalam table fakta dan tabel dimensi. Dimensi-dimensi dalam skema star digunakan untuk melakukan analisa dan mengorganisasi data. Desain logika ditampilkan dalam bentuk representasi fisik yang akan mengoptimalkan performansi dan manajemen. Dalam hal ini, Tabel, constraints, indexes, dan partisi didefinisikan.
Data warehouses sebagai system terpisah Mengapa kita perlu mengkopi data dari satu system ke system lain untuk membangun warehouse? Alasan: system operasional tidak berisi data histori (data time series – atau data yang mengandung dimensi waktu), sehingga data tidak available untuk dianalisa. Juga skema data system operational tidak didesain untuk keperluan queri kecerdasan bisnis (business intelligence queries).
Data warehouse dibangun dari system operasional Membangun warehouse melibatkan ekstraksi data dari system operasional, dikombinasikan dengan informasi tambahan dari pihak ketiga, mentransformasinya ke dalam format yang seragam dan di-load ke dalam database. 80% waktu digunakan untuk proses extraction/ transformation/load (ETL) : menempatkan data, menulis program untuk ekstraksi; memfilter, dan membersihkan data; mentransformasi data ke dalam skema pengkodean standart; kemudian me-load data ke dalam data warehouse.
Contoh format yang tidak sama Produk dengan kode "1234" disebut dengan “roti” sementara di tempat lain "1234“ disebut “kue” Kode produk direpresentasikan dengan karakter yang dipisahkan dengan tanda ‘-‘(xxx-xx-xxx) sedangkan ditempat lain direpresentasikan dengan karakter yang dipisahkan dengan tanda spasi (xxx xx xxx). Untuk atribut gender pada table customer digunakan nilai "0" atau "1." Sedangkan di system lain, digunakan "M" atau "F.“ Perbedaan mata uang yang tidak sama untuk data penjualan, digunakan rupiah, dollar atau euro.
Software Data Warehouse Data warehouse dapat dibangun sendiri dengan menggunakan perangkat pengembangan aplikasi ataupun dengan menggunakan perangkat lunak khusus yang ditujukan untuk menangani hal ini Beberapa contoh perangkat lunak yang digunakan untuk administrasi dan manajemen data warehouse: HP Intelligent Warehouse (Hewlett Packard) FlowMark (IBM) SourcePoint (Software AG)
Data Mart Data marts adalah subyek spesifik atau aplikasi spesifik dari data warehouses yang berisi data untuk satu line bisnis tertentu semisal penjualan atau pemasaran. Ruang lingkup data mart lebih kecil, data didapatkan dari sumber yang lebih sedikit, dan waktu implementasinya juga lebih pendek.
Tipe Data Mart Data marts bisa bersifat dependent atau independent, tergantung pada sumber informasinya. Sumber informasi untuk data mart yang bersifat dependent adalah data warehouse itu sendiri. Sedangkan data mart bersifat independent jika tidak terdapat data warehouse, dan data diekstrak secara langsung dari system operasional.
Data Warehouse & dependent Data Mart
Software Data Mart SmartMart (IBM) Visual Warehouse (IBM) PowerMart (Informatica)
Online Transaction Processing (OLTP) Suatu class program yg memfasilitasi dan mengatur aplikasi berorientasi transaksi, khususnya untuk data entry dan transaksi pencarian pada sejumlah industri. Meliputi banking, airlines, mailorder, supermakets
OLTP Vs Data Warehouse Workload Data modification Data warehouse didesain untuk menampung query dalam jumlah yang besar OLTP hanya mendukung operasi tertentu Data modification Data warehouse diupdate data secara regular (setiap minggu/ hari) memakai teknik modifikasi data shg user tidak secara langsung mengupdate data warehouse Pada OLTP, user melakukan proses update data secara rutin dan langsung v v v
OLTP Vs Data Warehouse (contd.) Skema Desain : Data warehouse biasanya ternormalisasi secara sebagian bahkan dalam keadaan tidak ternormalisasi OLTP ternormalisasi penuh untuk meningkatkan proses update/insert/delete dan meningkatkan konsistensi data Typical operation Data warehouse menjalankan query yang memproses banyak baris (ratusan atau milyaran), contoh :total penjualan semua customer pada akhir bulan OLTP hanya mengkases record tertentu, contoh :mencari data order untuk customer tertentu
OLTP Vs Data Warehouse (contd.) Historical data Data warehouse menyimpan data selama beberapa bulan atau tahun. Hal ini mendukung proses historical analysis OLTP menyimpan data hanya beberapa minggu atau bulan
Online Analytical Processing (OLAP) Suatu jenis pemrosesan yang memanipulasi dan menganalisa data bervolume besar dari berbagai perspektif (multidimensi). OLAP seringkali disebut analisis data multidimensi (atribut dimensi & ukuran). Saat ini OLAP lebih sering terdengar dengan istilah BI (Business Intelligent) Cara untuk menganalisa data-data perusahaan dengan begitu mudah yaitu dengan cara 'Drag & Drop', sehingga data-data tersebut bisa menjadi suatu informasi yang lebih bernilai
Untuk mempermudah anda mengingat tentang OLAP adalah 'Fast Analysis of Shared Multidimensional Information' atau 'FASMI'. FAST berarti bahwa informasi yang akan dilakukan sangat cepat, untuk memproses data 1,000,000 transaksi hanya membutuhkan waktu +/- 2.5 menit dengan 10 dimensi dan 3 jenis ukuran. ANALYSIS berarti bahwa system dapat mencakup 'Business Logic' dan data analisa statistik yang relevan dengan data-data yang tersedia.
SHARED berati bahwa system ini diimplementasikan dengan suatu system keamanan untuk menjaga kerahasiaan informasi. Sehingga setiap user dapat diatur sesuai kebutuhan. MULTIDIMENSIONAL adalah suatu kunci kebutuhan terhadap penggunaan aplikasi OLAP. Setiap aplikasi ini harus selalu mengandung unsur multi dimensi. INFORMATION adalah semua data dan turunan informasi yang dibutuhkan, dimanapun dan bagaimanapun data itu haruslah berhubungan dengan aplikasi.
Contoh data 2-dimensi
Kemampuan OLAP Konsolidasi melibatkan pengelompokan data. Sebagai contoh kantor-kantor cabang dapat dikelompokkan menurut kota atau bahkan propinsi. Transaksi penjualan dapat ditinjau menurut tahun, triwulan, bulan, dan sebagainya. Kadangkala istilah rollup digunakan untuk menyatakan konsolidasi Drill-down adalah suatu bentuk yang merupakan kebalikan dari konsolidasi, yang memungkinkan data yang ringkas dijabarkan menjadi data yang lebih detail Slicing and dicing (atau dikenal dengan istilah pivoting) menjabarkan pada kemampuan untuk melihat data dari berbagai sudut pandang
Contoh Pivoting Table
SoftWare OLAP Express Server (Oracle) PowerPlay (Cognos Software) Metacube (Informix/Stanford Technology Group) HighGate Project (Sybase)
Tugas Cari contoh artikel aplikasi penggunaan datawarehouse,datamart, OLAP, OLTP! Berikan ilustrasi dalam aplikasi proses-proses: Slice & dice Roll up & Drill down Tugas dikumpulkan minggu depan pada hari yang sama!