04 Datawarehouse Transformasi Data Febrianti Supardinah, ST.MM. FASILKOM Teknik Informatika
Komponen Datawarehouse Connolly and Begg(2002) menjelaskan bahwa arsitektur data warehouse terdiri dari struktur dan komponen yang saling berhubungan satu sama lain dalam membangun data warehouse
Komponen Datawarehouse Operasional Data * Berfokus pada fungsi-fungsi transaksional * Merupakan bagian dari infrastruktur perusahaan * Detail, tidak ada redudansi, dapat diupdate * Merefleksikan nilai sekarang Operasional Data Store * Tempat penyimpanan sementara dari data operasional saat ini * Menyuplai data yang sudah diekstrak dari sistem sumber dan dibersihkan * Menyederhanakan proses integrasi dan restrukturisasi data di DWH
Komponen Datawarehouse 3. Load Manager * Menampilkan semua operasi yang terkait dengan ekstrak dan load data ke dalam DWH * Data bisa diekstrak langsung dari sumber data atau ODS Warehouse Manager * Menampikan semua operasi yang terkait dengan manajemen data dari DWH : - Analisis data untuk menjamin konsistensi - Transformasi dan penggabungan sumber data dari ODS ke table DWH - Pembuatan indeks dan view pada table base - Membuat Denormalisasi dan Agregasi, jika diperlukan - Backing up dan Archiving Data
Komponen Datawarehouse Query Manager * Menampilkan semua operasi yang terkait dengan manajemen query pengguna * Mengarahkan query pada table yang cocok * Menjadwalkan pelaksanaan query Detailed Data Komponen yang menyimpan detail data dalam skema database * Current Detail Data Langsung dari operasional database dan mengacu pada data perusahaan sekarang contoh : profil pelanggan, data aktivitas pelanggan, data sales, data demografis * Old Detail Data Current Detail Data yang berumur atau histori dari subyek area
Komponen Datawarehouse Lightly dan Highly Summarized Data * Menyimpan semua data Lightly dan Highly Summarized yang sudah terdefinisi sebelumnya yang dibuat oleh Warehouse Manager * Tujuan : meningkatkan performance query Back Up Data / Archive Data * Menyimpan Detailed Data dan Summarized Data dengan tujuan mengarsip dan melakukan backup
Komponen Datawarehouse Metadata * Digunakan untuk membangun, memelihara, mengatur, dan menggunakan DWH * Mengandung lokasi dan deskripsi : - Komponen DWH (nama, definisi, struktur, dan isi dari DWH dan end user view) - Identifikasi dari pembuat sumber data (record system) - Aturan-aturan integrasi dan transformasi yang digunakan untuk mempopulasikan DWH - Histori dari update dan refresh DWH - Pola-pola matriks yang digunakan untk performa menganalisa DWH
Komponen Datawarehouse End User Access Tools * Komponen yang menyediakan informasi dari data warehouse yang ada bagi user dalam membantu mengambil keputusan * Tools mencakup : a. Reporting dan Query Tool - Reporting : Menghasilkan laporan operasional yang teratur - Query : Relasi DWH untuk dapat menerima SQL atau untuk menghasilkan pernyataan SQL agar dapat melakukan query pada data yang disimpan dalam DWH b. Application Development Tools - Dirancang untuk kebutuhan Client Server
Komponen Datawarehouse End User Access Tools c. Executive Information System (EIS) Tool - Mendukung pengambilan tingkat tinggi d. OLAP Tool - Konsep multidimensi - Mengizinkan pengguna untuk menganalisis data menggunakan view yang kompleks e. Data Mining Tool Proses menemukan korelasi, pola, dan gaya baru yang bermanfaat dengan ‘menggali’ data dalam jumlah yang banyak dengan menggunakan teknik statistika dan matematika
Struktur Datawarehouse Struktur DWH menurut Inmon (2005): Current Detail Level Older Detail Level Lightly Summarized Data Level Highly Summarized Data Level Aliran data terjadi dari environment operasional menuju environment DWH Proses Transformasi terjadi Aliran data pada DWH selanjutnya berada pada tingkatan detail : Current Detail Level Older Detail Level Summarize : Cuurent Detail Level Lightly Summarized Data Level Highly Summarized Data Level
Struktur Datawarehouse
Struktur Datawarehouse Current Detail Level Level terendah dari DWH Mencerminkan keadaan yang sedang berjalan saat ini Data terlalu lengkap/detail Belum bisa melakukan analisis Older Detail Level Data historical dari Current Detail Data yang merupakan hasil backup yang disimpan dalam media penyimpanan dengan frekuensi akses yang relatif rendah Berupa backup data dari kurun waktu lama , misal : tahunan Penyusunan directory harus mencerminkan umur dari data agar mudah diakses kembali Dipakai untuk menganalisa trend yang akan dihasilkan
Struktur Datawarehouse Lightly Summarized Level Hasil ringkasan atau summary dari Current Detail Belum dapat digunakan dalam proses pengambilan keputusan karena belum bersifat “total summary” dan masih bersifat detail Biasanya sering digunakan untuk gambaran dari keadaan yang sedang berlangsung dan sedang berlangsung Dirangkum berdasarkan periode atau dimensi sesuai kebutuhan Tingkatan data ini disebut Datamart Highly Summarized Level Hasil proses summary yang bersifat “total summary” Sangat mudah diakses Dapat digunakan untuk mendukung pengambilan keputusan terutama kalangan eksekutif perusahaan
Aliran Data pada Datawarehouse Inflow Proses berhubungan dengan extraction, cleansing, loading data dari sistem sumber * Pembersihan data yang kotor * Restruktur Data * Memastikan data sumber konsisten dengan data dalam DWH 2. Upflow Proses berhubungan dengan penambahan nilai dari data dalam DWH melalui summarizing, packaging, pendistribusian data * Meringkas data dengan menyeleksi, projecting, joining, dan grouping relational data ke dalam view yang leboh berguna bagi user * Mengemasi data dengan konversi data yang telah diringkas ke dalam format yang lebih berguna, seperti : dokumen teks * Distribusi data ke kelompok yang sesuai
Aliran Data pada Datawarehouse 3. Downflow Proses berhubungan dengan archiving dan back up data. * Data yang sudah lama ditransfer ke alat penyimpanan lain untjk memelihara performa DWH * Memastikan data sekarang dapat dibangun ulang tanpa kehilangan data Outflow Proses berhubungan dengan pengadaan data agar tersedia bagi end user * Accessing Memuaskan request end-user untuk data yang dibutuhkan. Membuat environment dimana user dapat efektif menggunakan query tools dan mengakses sumber data yang tepat * Delivering Proaktif mengirimkan informasi kepada end user
Aliran Data pada Datawarehouse 5. MetaFlow Proses berhubungan dengan manajemen dari metadata * Deskripsi isi data dalam DWH * Apa saja yang ada di dalamnya * Darimana datangnya * Apa yang telah dilakukan padanya Metadata harus selalu di update sejalan dengan perubahan yang ada
ETL Meliputi : Mengekstrak data dari sumber-sumber eksternal Mentransformasikan data ke bentuk yang sesuai dengan keperluan Memasukkan data ke target akhir, yaitu DWH Dapat digunakan juga untuk mengintegrasikan data dengan sistem yang sudah ada sebelumnya
ETL Tujuan: Mengumpulkan, menyaring, mengolah, dan menggabungkan data yang relevan dari berbagai sumber Hasil dari ETL : Data yang memenuhi kriteria DWH seperti data yang historis, terpadu, terangkum, statis, dan memiliki struktur yang dirancang untuk keperluan analisis
ETL –Extraction Mekanisme Extraction : Logical Extraction a. Full Extraction Proses ekstraksi dilakukan dengan mengambil seluruh data dari source system yang diperlukan Increment Extraction Proses ekstraksi hanya pada data yang berubah atau belum ada pada target sistem pada periode tertentu
ETL –Extraction Physical Extraction a. Online Extraction Data di ekstrak dari source system ke target system secara langsung. Proses ekstraksi dilakukan dengan cara langsung connect ke source system untuk mengakses source table b. Offline Extraction Data tidak di ekstrak secara langsung dari source system, namun berada diluar source system. Data yang akan di ekstrak sudah mempunyai struktur table dan struktur data yang diharapkan sudah sesuai dengan data warehouse. Misalnya flat file
ETL –Transform Menentukan bagaimana data akan digunakan untuk analisis dan dapat melibatkan transformasi seperti penjumlahan data, penggabungan data, pemisahan data, dan kalkulasi data Data disimpan dalam bentuk detail dan ringkasan untuk memenuhi kebutuhan informasi Output : data yang bersih dan konsisten dengan data yang tersimpan pada DWH atau sesuai bentuk yang telah disiapkan untuk dianalisis oleh pengguna dari DWH
ETL –Loading Ketika data dimasukkan ke DWH, batasan-batasan tambahan yang didefinisikan di dalam skema database diaktivasi dalam proses loading Jangka waktu proses loading bergantung kebutuhan organisasi
Granularity Tingkat kedetailan data dalam suatu DWH Detail data tingkat granularity Level yang paling rendah data transaksi Issue : Semakin rendah level granularity, maka jumlah data yang disimpan dalam data warehouse juga akan semakin besar. Semakin rendah lavel granularity, maka tingkat kedetailan data juga akan semakin besar dan berpengaruh pada pertanyaan yang akan dijawab
Konsep Metadata Komponen Direktori Teknikal Berisi informasi tentang data Komponen Direktori Bisnis Berisi perspektif pengguna pada data Komponen Navigasi Informasi Berisi cara akses pada direktori bisnis dan DWH.
Konsep Metadata Komponen Direktori Teknikal a. Data souce - Nama file dan Tipe file - Bagaimana nilai didefinisikan data source - Kapan data dibuat - Data datang dari system mana - Siapa pemilik data - Siapa yang memberikan data - User yang mana yang berhak mengakses data - Skema database operasional
Konsep Metadata Komponen Direktori Teknikal b. Data Target - Nama dan tipe field - Bagaimana nilai didefinisikan dalam DWH - Dimana data ditempatkan dalam DWH - Versi - Tanggal update terakhir - Frekwensi update terakhir - Siapa pemilik data - Siapa yang dapat mengakses data - Skema data dalam data warehouse - Cara end-user melakukan akses data
Konsep Metadata Komponen Direktori Teknikal c. Clean Up Rules - Record dan field yang akan dibersihkan - Mapping antara elemen data pada original data source dengan DWH - Rules yang digunakan untuk mengisi nilai pada fields yang kosong - Rules untuk data integrity - Rules untuk cek konsistensi data
Konsep Metadata Komponen Direktori Teknikal d. Transformation Rules - Bagaimana menentukan waktu dalam melakukan transformasi - Algoritma (business rules) untuk menentukan nilai yang diambil (nilai asal) - Bagaimana ringkasan data dibuat e. Mapping - Rules untuk melakukan filter data dan untuk melakukan penggabungan data dari field atau sumber data yang berbeda.
Konsep Metadata Komponen Direktori Bisnis Berorientasi pada mekanisme DWH : a. Istilah bisnis (business term) yang digunakan untuk mendeskripsikan data b. Nama teknis (alias) yang berhubungan dengan business term yang dapat digunakan untuk mengakses data c. Data Source dan rules yang digunakan untuk mendapatkan data dan tanggal dimana data tersebut dibuat d. Catatan tetang report dan query yang ada e. Informasi tentang keamanan data (siapa yang mempunyai hak akses)
Konsep Metadata Komponen Navigasi Informasi Menjelaskan interface yang memungkinkan user untuk mengakses direktori bisnis dan DWH. Dengan menggunakan kompunen ini, user dapat melakukan : a. Melakukan akses dan drill down pada data warehouse b. Melakukan querry ke data warehouse c. Meminta data baru dari warehouse administrator d. Melakukan transfer data dari warehouse ke datamart atau user lain
Febrianti Supardinah
Soal Jelaskan 4 karakteristik DWH Mengapa perusahaan memerlukan Datawarehouse ? Jelaskan hubungan antara metadata dengan granularity untuk membangun suatu datawarehouse Gambarkan dan jelaskan arsitektur DWH Jelaskan apa yang dimaksud dengan ETL