Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

DATA WAREHOUSE AND OLAP TECHNOLOGI FOR DATA MINING

Presentasi serupa


Presentasi berjudul: "DATA WAREHOUSE AND OLAP TECHNOLOGI FOR DATA MINING"— Transcript presentasi:

1 DATA WAREHOUSE AND OLAP TECHNOLOGI FOR DATA MINING
Kelompok 1 ANDI INDRA JAYA RIA PUTRI UTAMI ALIEF IMRON JULIODINATA YULFADZILAH MUH. IQBAL IIN AYUDHINA FAJRIN H SYAMSUL BAHRI M NUR ARISKA

2 Apa itu Data Warehouse? Data warehouse adalah database yang berisi data dari beberapa system operasional yang terintegrasi dan terstruktur sehingga dapat digunakan untuk mendukung analisa dan proses pengambilan keputusan khususnya dalam bisnis. Data warehouse di desain untuk bisa melakukan query secara cepat. Informasi diturunkan ke data lain, dilakukan rolling up untuk dijadikan ringkasan, dilakukan operasi drilling down untuk mendapatkan informasi lebih detail, melihat pola yang menarik atau melihat trend (kecenderungan).

3 Tujuan dan Manfaat Data Warehouse?
Meningkatkan kualitas dan akurasi informasi bisnis kemudian mengirimkan informasi ke pengguna dalam bentuk informasi yang dimengerti dan dapat diakses dengan mudah. Manfaat Data warehouse memberikan informasi secara ringkas, tanpa harus menjelajahi keseluruhan data. Dengan menggunakan data warehouse segala laporan telah diringkas dan dapat pula mengetahui segala rinciannya secara lengkap, sehingga mempermudah proses pengambilan keputusan.

4 Karakteristik Data Warehouse?
1. Subjek Berorientasi (Subject Oriented): Data disusun menurut subyek yang hanya berisi informasi penting bagi pemprosesan pembuat keputusan. Semua Informasi disimpan dalam suatu sistem gudang data dan di kelompokkan berdasarkan subyek tertentu misalnya: pelanggan, pemasok, sales, gudang, pasar, dsb. Data-data di setiap subyek dirangkum ke dalam dimensi, misalnya: periode waktu, produk, wilayah, dsb, sehingga dapat memberikan nilai sejarah untuk bahan analisa.

5 Karakteristik Data Warehouse?
2. Terintegrasi (Integrated) : Sebuah data warehouse biasanya dibangun dengan mengintegrasikan beberapa sumber heterogen, seperti database relasional, flat file, dan catatan transaksi on-line. Penerapan pembersihan data, dan teknik integrasi data untuk memastikan konsistensi dalam konvensi penamaan, struktur pengkodean, atribut tindakan, dan sebagainya.

6 Karakteristik Data Warehouse?
3. Rentang Waktu (Time Variant) : Data disimpan selama 5 sampai 10 tahun atau lebih dalam mengukur keakuratan suatu data warehouse. Selain itu, data ini digunakan untuk perbandingan atau perkiraan. 4. Non Volatile: Data tidak dapat diperbaharui atau dirubah tetapi hanya dapat ditambah dan dilihat.

7 Mengapa Organisasi Banyak Menggunakan Informasi dari Gudang Data?
Karena dengan penggunaan gudang data dapat mendukung kegiatan pengambilan keputusan bisnis, termasuk: Meningkatkan fokus pelanggan, yang meliputi analisis pola belanja konsumen (Seperti membeli preferensi, manajemen waktu, siklus anggaran, dan selera untuk belanja); Produk reposisi dan portofolio mengelola produk dengan membandingkan kinerja penjualan dengan kuartal, tahun, dan oleh wilayah geografis untuk strategi produksi; menganalisis operasi dan mencari sumber-sumber keuntungan; Mengelola hubungan pelanggan, membuat koreksi lingkungan, dan mengelola biaya aset perusahaan.

8 OLTP versus OLAP dalam Data Warehouse
Online Transactional Processing (OLTP) OLTP adalah sebuah sistem transaksi online dan pemrosesan query dalam rangka operasi sehari-hari suatu organisasi, seperti: pembelian, persediaan manufaktur, perbankan, pendaftaran , dan lain-lain. Online Analytical Processing (OLAP) OLAP adalah suatu sistem atau teknologi yang dirancang untuk mendukung proses analisis data dalam menyajikan data ke berbagai format untuk mengakomodasi beragam kebutuhan pengguna yang berbeda-beda

9 Perbedaan antara sistem OLTP dan OLAP
FITUR OLTP OLAP Pengguna dan sistem orientasi berorientasi pelanggan berorientasi pasar Isi Data mengelola data terlalu rinci mengelola jumlah besar melalui data historis Desain Database mengadopsi model relasi entitas (ER) dan database aplikasi berorientasi design. OLAP mengadopsi star atau model snowflake dan desain orientasi subjek database. Fokus Berfokus pada data saat ini dalam suatu perusahaan atau departemen, tanpa mengacu pada data historis atau data dalam organisasi yang berbeda Penanganan informasi yang berasal dari organisasi yang berbeda, mengintegrasikan informasi dari banyak toko data disimpan pada beberapa media penyimpanan

10 Tipe-Tipe Operasi OLAP
Roll-Up (Konsolidasi) Operasi ini melakukan agregasi pada data kubus dengan cara menaikkan tingkat hirarki konsep atau mengurangi dimensi. Misalkan pada data kubus dari kelompok kota di-roll up menjadi kelompok propinsi atau negara. Drill-Down Operasi ini melakukan agregasi pada data kubus dengan cara menaikkan tingkat hirarki konsep atau mengurangi dimensi. Misalkan pada data kubus dari kelompok kota di-roll up menjadi kelompok propinsi atau negara.

11 Tipe-Tipe Operasi OLAP
Slice dan Dice Operasi slice melakukan pemilihan satu dimensi dari data kubus sehingga menghasilkan bagian kubus (subcube). Operasi dice menghasilkan bagian kubus (subcube) dengan melakukan pemilihan dua atau lebih dimensi. Pivot (rotate) Pivot adalah operasi visualisasi dengan memutar koordinat data pada tampilan yang bertujuan untuk menyediakan presentasi alternatif dari data.

12 Model Data Multidimensi
Tabel dan Spreadsheets untuk Data Kubus data kubus adalah data yang dimodelkan dalam beberapa dimensi. Secara umum, dimensi adalah perspektif sebuah organisasi untuk penyimpanan catatan. Misalnya, semua alat elektronik penjualan data warehouse disimpan dalam sebuah catatan penjualan toko berdasarkan dimensi waktu, item, cabang, dan lokasi. Dimensi ini memungkinkan toko untuk melacak hal-hal seperti penjualan bulanan item dan cabang-cabang serta lokasi

13 Gambar 1. Representasi data kubus dengan 3 dimensi
Tabel dan Spreadsheets untuk data kubus Gambar 1. Representasi data kubus dengan 3 dimensi (Han & Kamber 2001)

14 Tipe-tipe Skema Model Data Multidimensi
1. Skema bintang (star schema) Disebut skema bintang karena hubungan antara tabel dimensi dan tabel fakta menyerupai bintang. Keuntungan: meningkatkan kinerja data warehouse, pemrosesan query yang lebih efisien, dan waktu respon yang cepat. Gambar 2. Skema bintang (Han & Kamber 2001)

15 Tipe-tipe Skema Model Data Multidimensi
2. Skema snowflake (snowflake schema) Skema snowflake adalah variasi dari skema bintang dimana beberapa tabel dimensi dinormalisasi, jadi dihasilkan beberapa tabel tambahan. Keuntungan: penghematan memory, tapi waktu yang dibutuhkan untuk pemrosesan query menjadi lebih lama. Gambar 3. Skema snowflake (Han & Kamber 2001)

16 Tipe-tipe Skema Model Data Multidimensi
3. Skema galaksi (fact constellation) Pada skema galaksi, beberapa tabel fakta berbagi tabel dimensi. Keuntungan: menghemat memory dan mengurangi kesalahan yang mungkin terjadi. Gambar 4. Skema galaksi (Han & Kamber 2001)

17 "Apa keunggulan perusahaan jika memiliki gudang data?”
Memberikan keunggulan kompetitif dengan menyajikan informasi yang relevan dalam mengukur kinerja dan melakukan penyesuaian untuk membantu memenangkan atas pesaing. Meningkatkan produktivitas bisnis karena mampu dengan cepat dan efisien mengumpulkan informasi secara akurat Memudahkan hubungan manajemen dan pelanggan dengan memberikan tampilan yang konsisten dan menfasilitasi barang-barang untuk pelanggan diseluruh lini bisnis semua bagian, dan di semua pasar Membawa penurunan biaya dengan melihat tren maupun pola yang dapat diandalkan dan secara konsisten dalam waktu yang lama,

18 Rancangan Gudang Data 1.Cara merancang sebuah gudang data
2.Tingkatan rancangan gudang data 3.Peralatan cadangan akhir dan Kegunaan untuk gudang data 4.Tempat penyimpanan metadata 5.Jenis server gudang data untuk memproses OLAP.

19 1. Cara merancang sebuah gudang data
Pilihlah proses untuk model, misalnya pesanan, pengiriman, persediaan, rekening administrasi, penjualan, atau buku besar. Proses ini melibatkan beberapa macam obyek yang kompleks maka dari itu model data warehouse harus diikuti. Namun jika proses ini berfokus pada satu jenis maka model data pasarlah sebaiknya dipilih. Pilihlah Proses untuk menyajikan data dengan melihat catatatan tabel fakta dalam keseharian , misalnya transaksi, catatan individual harian dan sebagainya. Pilih proses untuk setiap catatan tabel data. Catatan tabel data misalkan waktu, item, pelanggan, pemasok, jenis transaksi, dan status. Pilih proses tindakan yang akan mengisi setiap catatan tabel fakta. Tindakan khusus adalah jumlah aditif numerik seperti dolar dijual dan unit yang terjual.

20 2.Tingkatan rancangan gudang data
Tingkat bawah digunakan untuk memberikan data dari database operasional atau sumber eksternal lainnya (seperti informasi profil pelanggan yang disediakan oleh konsultan eksternal) dan juga untuk menggabungkan data yang sama dari berbagai sumber ke dalam format terpadu, serta memperbarui data warehouse. sebuah sistem data warehouse memiliki komponen-komponen esensial seperti mengekstrak (extract), membersihkan (clean),mengubah (transform), meload data, dan menyegarkannya kembali Tingkat menengah biasanya dilaksanakan menggunakan (1) OLAP (ROLAP) model relational (2) OLAP (MOLAP) model multidimensi Tingkat atas berisi permintaan dan alat pelaporan, alat analisis, atau alat data mining (misalnya, analisis trend, prediksi, dan sebagainya).

21

22 3. Peralatan cadangan akhir dan Kegunaan untuk gudang data
Ekstraksi data, biasanya mengumpulkan data dari beberapa macam dan juga beberapa sumber dari luar Pembersihana Data, mendeteksi kesalahan dalam data dan membetulkan jika itu memungkinkan. Transformasi data, mengubah data dari yang dulu ke format gudang sekarang (Jika diurutkan, merangkum, menggabungkan, menghitung, memeriksa integritas, dan membangun indeks dan partisi) Refresh, memberikan pembaharuan update dari sumber data ke gudang

23 4. Tempat penyimpanan metadata
Metadata adalah informasi terstruktur yang mendeskripsikan, menjelaskan, menemukan, atau setidaknya menjadikan suatu informasi mudah untuk ditemukan kembali, digunakan, atau dikelola. Digunakan untuk rangkuman meliputi data perincian, partisi, area subyek dan laporan. Data terkait kinerja system meliputi indeks yang meningkatkan akses data dan kinerja pengambilan Metadata operasional meliputi data keturunan (riwayat data bermigrasi,data mata uang (aktif, dan diarsipkan)), dan informasi pemantauan ( laporan kesalahan, dan jejak audit) Metadata bisnis, yang meliputi istilah bisnis dan definisi, informasi kepemilikan data, dan kebijakan pengisian

24 5. Jenis server gudang data untuk memproses OLAP
Relational OLAP (ROLAP) adalah tipe OLAP yang bergantung kepada database relasional(DBMS) sebagai media penyimpanan data yang diolah.Dengan begitu maka OLAP server terhindar dari masalah pengelolaan data storage dan hanya menerjemahkan proses query analysis ke relational query. Multidimensional OLAP (MOLAP) adalah tipe OLAP yang memliki storage sendiri, yang isinya merupakan precomputed agregasi data (SUM, COUNT, MIN, MAX Dan sebagainya) yang terlibat pada berbagai level detil Hybrid OLAP (HOLAP) hadir untuk mengatasi kelemahan dari ROLAP dan MOLAP. HOLAP merupakan kombinasi atau jalan tengah antar keduanya dimana HOLAP aan menyimpan data precomputed aggregate pada media penyimpanan HOLAP sendiri. Yang disimpan HOLAP adalah data untuk beberapa level teratas atau high level view. Sedangkan untuk level yang lebih rendah atau lebih rinci akan disimpan didatabase reliasional.

25 Data Warehouse Implamentation
Metode Efisien untuk Komputasi Data Cube Data Cube  Multidimensional Database Cube adalah sebuah bentuk database dimana data disimpan dalam bentuk Cell, dan posisi dari sel-sel tersebut ditentukan oleh beberapa variabel yang disebut dengan Dimension. Jumlah Dimension ini secara teori bisa tidak terbatas, tidak perlu terkuantifikasi untuk membentuk sebuah bangun 3 dimensi berupa cube. Istilah Cube dan penggambaran dalam bentuk cube (3 dimensi) ini dimaksud untuk mempermudah visualisasi kita tentang sifat multidimensionalnya.

26 EXAMPLE Misalkan Anda ingin membuat cube data untuk penjualan AllElectronics yang berisi berikut: kota, item, tahun, dan penjualan dalam dolar. Anda ingin dapat menganalisa data tersebut, dengan pertanyaan seperti berikut: Menghitung jumlah penjualan, pengelompokan berdasarkan kota dan barang Menghitung jumlah penjualan, pengelompokan berdasarkan kota Menghitung jumlah penjualan, pengelompokan berdasarkan barang Berapa jumlah total kubus, atau kelompok-berdasarkan ini, yang dapat dihitung untuk cube data? Mengambil tiga atribut, kota, item, dan tahun, sebagai dimensi untuk cube data, dan penjualan dalam dolar sebagai ukuran, jumlah total kubus, atau kelompok-berdasarkan ini, yang dapat dihitung untuk cube data 23=8. Mungkin kelompok-berdasarkan ini adalah sebagai berikut: {(kota, item, tahun), (kota, item), (kota, tahun), (item, tahun), (kota), (item), (tahun), ()}. dimana () berarti bahwa kelompok-berdasarkan ini kosong (yaitu, dimensi tidak dikelompokkan)

27 Dasar yang berbentuk kubus ini menampilkan tiga dimensi, yaitu kota, item, dan tahun. Hal ini dapat menunjukkan total penjualan untuk setiap kombinasi tiga dimensi. Berbentuk kubus apex, atau 0-D yang berbentuk kubus, dengan mengacu kepada kasus di mana kelompok yang kosong. Ini berati jumlah total seluruh penjualan. Dasar yang berbentuk kubus ini adalah yang paling umum (paling spesifik) dari kubus. Jika kita mulai dengan berbentuk kubus Apex dan menjelajahi ke bawah dalam tipa sisi, ini seperti dengan pengeboran ke bawah dalam cube data. Jika kita mulai dari dasar berbentuk kubus dan mengeksplorasi ke atas, ini mirip dengan menggulung.

28 Materialisasi Parsial: Perhitungan yang dipilih dari kubus
Tidak ada materialisasi: Bukan pra menghitung salah satu dari "non basis" kubus. Hal ini menyebabkan komputasi agregat multidimensi sulit, sehingga proses bisa sangat lambat. Penuh materialisasi: Pra menghitung semua kubus. kisi yang dihasilkan dari kubus dihitung disebut sebagai kubus penuh. Pilihan ini biasanya memerlukan sejumlah besar ruang memori untuk menyimpan semua pra perhitungan kubus Parsial materialisasi: Selektif menghitung subset yang tepat dari seluruh rangkaian mungkin kubus. Atau, kita dapat menghitung bagian dari kubus, yang hanya berisi sel-sel yang memenuhi beberapa kriteria fi ed tertentu pengguna, seperti di mana jumlah sebuah tuple setiap sel di atas ambang batas. Kami akan menggunakan subcube jangka untuk merujuk pada kasus terakhir, di mana hanya beberapa sel mungkin sudah dihitung untuk berbagai kubus. materialisasi parsial merupakan trade-off yang menarik antara ruang penyimpanan dan waktu respon.

29 Indexing OLAP Data memfasilitasi data untuk efesiensi akses, sebagian besar sistem Gudang data mendukung struktur indeks pada data kubus. metode memilih data kubus untuk materialisasi dibahas pada bagian sebelumnya. Pada bagian ini, akan dijelaskan bagaimana indeks data OLAP yaitu: 1. bitmap pengindeksan 2. join pengindeksan.

30 Bitmap Indexing Metode pengindeksan bitmap di proses OLAP berfungsi untuk pencarian cepat dalam data kubus. Index bitmap merupakan alternatif untuk B+Tree. Indeks B+Tree merupakan metode pengindeksan default ketika anda membuat sebuah kolom dari beberapa kolom. Dalam index bitmap sebuah bitmap dibuat untuk setiap nilai kunci suatu daftar RowID seperti yang dilakukan dalam indeks B+Tree. Sedangkan RowID merupakan lokasi sesungguhnya dari record yang tersimpan dalam tabel.

31 Contoh Dalam gudang data AllElectronics, misalkan item dimensi pada tingkat atas memiliki empat nilai (jenis item): “home entertainment," “computer," “phone," dan “security". Setiap nilai (misalnya, "komputer" ) diwakili oleh satuan vektor dalam tabel pengindeksan bitmap untuk item. Misalkan kubus disimpan sebagai tabel hubungan dengan baris. karena domain item terdiri dari empat nilai, tabel pengindeksan bitmap memerlukan empat vektor (atau daftar), masing-masing dengan baris. Gambar 2.17 menunjukkan data tabel yang berisi item dimensi dan kota, serta pemetaan tabel indeks bitmap untuk masing-masing dimensi.

32

33 Join Indexing Metode join pengindeksan mendapatkan popularitas dari penggunaannya dalam pengolahan query database relasional. Model skema bintang dari gudang data membuat join indeks menarik untuk pencarian tabel silang karena hubungan antara tabel fakta dan tabel dimensi yang sesuai adalah kunci asing dari tabel fakta dan kunci utama dari tabel dimensi. Join indeks mempertahankan hubungan antara nilai-nilai atribut dimensi (misalnya, dalam tabel dimensi) dan baris yang sesuai di tabel fakta. Join indeks dapat menjangkau banyak dimensi untuk membentuk komposit join indeks. Kita dapat menggunakan join indeks untuk mengidentifikasi sub kubus yang menarik.

34 Contoh Join pengindeksan. Pada Contoh 2.4, kita mendefinisikan skema bintang untuk AllElectronics dari bentuk "bintang penjualan [waktu, item, cabang, lokasi]: dolar terjual = sum (penjualan dalam dolar)". Contoh hubungan join indeks antara tabel fakta penjualan dan tabel dimensi untuk lokasi dan item ditunjukkan pada Gambar Misalnya, "Main Street" nilai dalam tabel dimensi lokasi join dengan tupel T57, T238, dan T884 dari tabel fakta penjualan. Demikian pula, nilai "Sony-TV" dalam tabel dimensi item yang bergabung dengan tupel T57 dan T459 dari tabel fakta penjualan. Join tabel indeks yang sesuai ditunjukkan pada Gambar 2.19.

35

36

37 Pengolahan Efisien OLAP Query
Tujuan mewujudkan kubus dan membangun struktur indeks OLAP adalah untuk mempercepat pemrosesan query dalam data kubus. Mengingat pandangan terwujud, pemrosesan query harus melanjutkan sebagai berikut: Menentukan operasi harus dilakukan pada kubus yang tersedia Tentukan dimana materialised berbentuk kubus (s) operasi yang relevan harus diterapkan

38 Metadata Repository "Apa metadata" Metadata adalah data tentang data. Ketika digunakan dalam data warehouse, metadata adalah data yang mendefinisikan objek warehouse. Metadata diciptakan untuk data nama dan definisi dari warehouse yang diberikan. Metadata tambahan yang tercipta dan ditangkap untuk timestamping setiap data yang diambil, sumber data yang diambil, dan bidang hilang yang telah ditambahkan oleh proses pembersihan data atau integrasi.

39 Sebuah repositori metadata harus berisi sebagai berikut:
Sebuah deskripsi struktur data warehouse, yang mencakup skema gudang, view, dimensi, hirarki, dan definisi data yang berasal, sebagai lokasi Data mart dengan baik dan konten Metadata operasional, yang meliputi keturunan data (riwayat data bermigrasi dan urutan transformasi diterapkan untuk itu), mata uang data (aktif, diarsipkan, dan dibersihkan), dan informasi pemantauan (statistik penggunaan warehouse, laporan kesalahan, dan jejak audit) Algoritma yang digunakan untuk summarization, yang meliputi ukuran dan definisi dimensi algoritma, data pada granularity, partisi, bidang studi, agregasi, summarization, dan pertanyaan yang telah ditetapkan dan laporan

40 Pemetaan dari lingkungan operasional ke data warehouse, yang meliputi database sumber dan isinya, deskripsi gateway, partisi data, ekstraksi data, pembersihan, aturan transformasi dan default, data yang menyegarkan dan membersihkan aturan, dan keamanan (otorisasi pengguna dan kontrol akses) Data terkait kinerja sistem, yang meliputi indeks dan profil yang meningkatkan akses data dan kinerja pengambilan, selain aturan untuk waktu dan penjadwalan refresh, update, dan ulangan siklus Metadata bisnis, yang meliputi istilah bisnis dan definisi, pemilik data informasi kapal, dan kebijakan pengisian


Download ppt "DATA WAREHOUSE AND OLAP TECHNOLOGI FOR DATA MINING"

Presentasi serupa


Iklan oleh Google