DATA MINING.

Slides:



Advertisements
Presentasi serupa
Data Warehousing :: Overview
Advertisements

5.
OLAP - PERTEMUAN 8 – OLAP.
BASIS DATA LANJUTAN.
Materi Kuliah [5]: (Sistem Pendukung Keputusan)
Data Warehouse dan Decision Support
OLAP dalam Data Warehouse
Data Mart dan Metadata Data Warehouse
DATA WAREHOUSE Pertemuan ke-3.
Pengenalan Data Warehouse
Pengenalan Datawarehouse
KONSEP DAN ARSITEKTUR SISTEM BASIS DATA
Data Warehousing Sistem Basis Data Lanjut Prepared by: MT. Wilson
Data Mart dan Metadata Data Warehouse
Data Warehouse dan Data Mining
Arsitektur DWH Pertemuan ke-2.
Sumber Data untuk DW Data operasional dalam organisasi, misalnya basis data pelanggan dan produk, dan Sumber eksternal yang diperoleh misalnya melalui.
Data Warehouse, Data Mart, OLTP & OLAP
SISTEM INFORMASI Pertemuan 5.
Pengenalan Datawarehouse
Database Management System
PERANCANGAN BASIS DATA
Konsep dan Teknik Data Mining
Informasi Dalam Praktik
DATA WAREHOUSE Pertemuan ke-1.
INTRODUCTION OF DATA WAREHOUSE
Data Warehouse dan Data Mining
Datamart dan Datawarehouse
BLS SESI – 3 DATA MINING WAHYU NURJAYA WK.
PEMBANDINGAN KINERJA JEDOX PALO VERSI 1. 0c DENGAN VERSI 2
KECERDASAN BISNIS Data Warehouse, Data Mart, OLAP, dan Data Mining
Wahyu Nurjaya WK, S.T., M.Kom
Design Basis Data Kelompok 9
KONSEP DAN ARSITEKTUR SISTEM BASIS DATA
23/01/2018 DATA MINING.
Data Warehouse, Data Mart, OLAP, dan Data Mining
SISTEM DATABASE.
SISTEM MANAJEMEN DATABASE
Information Technology MWU110 (2 sks)
DATA MART Pertemuan ke-3.
Sistem Pustaka Data (Data Warehouse)
Charitas Fibriani, S.Kom, M.Eng
ARSITEKTUR DATA WAREHOUSE
BUSINESS INTELLIGENCE
Pertemuan 2 Database Environment
KECERDASAN BISNIS (Data Warehouse, Data Mart, OLAP, dan Data Mining)
KARAKTERISTIK DW Pertemuan ke-2.
Konsep Data Warehouse Kelompok 3 :
DATA WAREHOUSE.
The Data Warehouse and The ODS
Perancangan Basis Data
INTRODUCTION OF DATA WAREHOUSE
Perancangan Penyimpanan Data
Data Warehouse Database Systems: Design, Implementation, and Management, Sixth Edition, Rob and Coronel.
INTRODUCTION OF DATA WAREHOUSE
Perancangan Data Logis dan Fisik
Business Intelligent Ramos Somya, S.Kom., M.Cs.
Gudang Data, dan Permasalahannya
Analisis Multidimensional
Oleh : Rahmat Robi Waliyansyah, M.Kom.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
Pertemuan ke-1 (GUDANG DATA)
Business Intelligence Ramos Somya, S.Kom., M.Cs.
DATA WAREHOUSE AND OLAP TECHNOLOGI FOR DATA MINING
Sistem Pengolahan Data
DATABASES AND DATA WAREHOUSES
Introduction to Data Warehouse By: Marcello Singadji
Business Intelligent Ramos Somya, S.Kom., M.Cs.
KONSEP DAN ARSITEKTUR SISTEM BASIS DATA
OLTP & ETL Data integration.
Transcript presentasi:

DATA MINING

Logical scheme (User’s view, Semantic comp.) Real World Modelling (logical & Physical) Domain Aplikasi Logical scheme (User’s view, Semantic comp.) Physical Scheme (performance) Query Language Security (disaster, privacy) Distributed Access & Data  Machine

Komponen : tgl. pasang, tgl. Rusak, km pakai, origin, lokasi pakai CASE : Komponen : tgl. pasang, tgl. Rusak, km pakai, origin, lokasi pakai Q : Menentukan kesesuaian antara origin komponen, dengan kondisi operasi komponen Mhs : Prodi, IP, lama kuliah, Asal SMA, Asal SD, Suku Q : Menentukan keterkaitan antara SUKU dengan prestasi pada prodi tertentu. Tgl. Pasang Tgl. Rusak KM Pakai Origin Lokasi Pakai Okt.05 Agu.06 53.000 Korea Jakarta Mar.05 Jul.06 40.000 Taiwan Bandung Jan.06 Sep.06 35.000 Jepang Prodi IP Lama Kuliah Asal SMA Asal SD Suku IF 3,6 11 Jogya Jawa EL 3,4 10 Makssar Minang AR 3,7 12 Bandung Majalaya Sunda TL 3,2 9 Jakarta Ambon

DATA MINING DBMS db-1 QUERY CTIL dw (OLAP) db-n ATURAN INFORMATION Pattrern of Information KNOWLEDGE

DATA WAREHOUSE An Overview of DW and OLAP Tech [S.Chaudhuri and U.Dayal] DATA MINING : Concepts and Techniques [Jiawei Han and Micheline Kamber]

Data Warehouse

Decision Support dan OLAP DSS: teknologi informasi untuk membantu “knowledge worker” (seperti eksekutif, manajer, analis) membuat keputusan lebih cepat dan tepat Bagaimana volume penjualan berdasarkan daerah dan kategori produk pada tahun sebelumnya? Bagaimana hubungan antara harga saham dari pembuat komputer dengan keuntungan triwulan selama 10 tahun terakhir? Apakah diskon 10% akan meningkatkan volume penjualan? OLAP merupakan sebuah elemen dari DSS Data mining merupakan sebuah kakas analisis data yang “powerful” dengan performansi yang tinggi bagi DSS

OLAP (On-Line Analytical Processing) Multidimensional (ROLAP, MOLAP) Analysis Information / Presentation Fast(single query)

OLAP Servers Relational OLAP (ROLAP): extended relational DBMS yang melakukan mapping operasi terhadap data multidimensi menjadi operasi relasional standar Multidimensional OLAP (MOLAP): special purpose server yang secara langsung mengimplementasikan data dan operasi multidimensi Hybrid OLAP (HOLAP): memberikan kepada pemakai/administrator sistem kebebasan untuk memilih partisi yang berbeda

PROSES OLAP : On-Line Analytical Processing Karakteristik : Akses data [seluruhnya] dari sudut pandang tertentu.  akses Sekuensial Sering menggunakan “rekapitulasi” berdasarkan kategori tertentu (kategorisasi).

OLAP Operations Drill down(decrease level aggregation) Pull up(increase level aggregation) Slice and Dice (selection & projection) Pivoting(reorienting view)

OLAP Servers Relational OLAP (ROLAP): extended relational DBMS yang melakukan mapping operasi terhadap data multidimensi menjadi operasi relasional standar Multidimensional OLAP (MOLAP): special purpose server yang secara langsung mengimplementasikan data dan operasi multidimensi Hybrid OLAP (HOLAP): memberikan kepada pemakai/administrator sistem kebebasan untuk memilih partisi yang berbeda

Traditional OLTP Pada sistem konvensional, DBMS digunakan untuk online transaction processing (OLTP) entri pesanan: tampilkan pesanan xx-yy-zz dan update field statusnya perbankan: transfer Rp.500.000,- dari rekening nomor XXX ke rekening nomor YYY pemrosesan data clerical data bersifat detil dan up-to-date pekerjaan terstruktur dan bersifat pengulangan unit kerja berupa transaksi yang singkat membaca dan/atau menulis sejumlah kecil record isolasi, pemulihan, dan integritas merupakan hal yang kritis

OLTP vs OLAP OLTP OLAP pengguna fungsi perancangan BD data penggunaan clerk, IT professional knowledge worker fungsi operasi harian pengambilan keputusan perancangan BD application-oriented subject-oriented data terkini, up-to-date, detil, relasional yang flat, terisolasi historis, summarized, multidimensi, terintegrasi, terkonsolidasi penggunaan berulang adhoc akses baca/ tulis pembacaan yang sangat banyak unit kerja transaksi pendek dan sederhana query kompleks jml record diakses puluhan jutaan jml ribuan ratusan ukuran BD 100MB-GB 100GB-TB metrik transaction throughput query throughput, respons

Data Warehouse Sumber data bagi aplikasi sistem pengambilan keputusan (DSS) dan sistem informasi eksekutif (EIS) Dikelola secara terpisah dari basis data operasional Bukan (tidak harus) merupakan basis data Prinsip data warehouse: subject-oriented integrated time-varying non-volatile Kumpulan data yang digunakan terutama untuk pengambilan keputusan di dalam organisasi

DATA WAREHOUSE Gudang “DATA” Integrasi seluruh data dari “topik” tertentu (tingkat organisasi) dalam satu kesatuan akses (logik), sehingga memungkinkan adanya proses “analisis” terhadap karakteristik organisasi, dalam rangka pengambilan keputusan.

Karakteristik Umum Subject Oriented : orientasi pembuatan model lebih menekankan aspek “integrasi akses”, bukan model yang lebih menekankan kemudahan eksekusi transaksi operational (seperti halnya pada database).  Data lengkap untuk subject tertentu. Integrated : menyatukan data dari berbagai sumber (heterogenous resources : database, spread-sheet, file, etc.).  Dapat diakses dari berbagai sudut pandang. Time variant : data teritengrasi dengan deskripsi “waktu” (historical data).  Data lengkap dari sisi periode (historical).

Data Warehouse - Arsitektur

Data Warehouse - Subject oriented Diorientasikan kepada subjek-subjek utama yang terkait dengan korporasi yang telah didefinisikan di dalam model data Basis data operasional mengandung sejumlah subjek yang menjadi kandidat pengelompokan dalam data warehouse Perusahaan asuransi: pelanggan, produk, transaksi atau aktifitas, policy, claim, rekening, dll. Toko buku: pelanggan, buku, majalah, pegawai, supplier Pengorganisasian basis data operasional dapat dilakukan dengan cara beragam

Data Warehouse - Integrated Tidak terdapat konsistensi dalam pengkodean, penamaan, … antara sumber data yang berbeda Saat data dipindahkan ke data warehouse, harus dikonversi ke suatu konvensi tertentu

Data Warehouse - Non Volatile Data operasional diakses secara reguler dan manipulasi atau update juga dilakukan terhadap data dalam lingkungan pengoperasian Data pada data warehouse diload pada waktu-waktu tertentu dan diakses. Update terhadap data tidak pernah muncul di dalam lingkungan data warehouse

Data Warehouse - Time Variance Horizon waktu bagi data warehouse jauh lebih panjang dari pada yang terdapat di sistem operasional Basis data operasional menyimpan nilai current dari data. Data pada data warehouse akan berbentuk sekumpulan snapshots yang diambil pada waktu-waktu tertentu Struktur kunci dari data operasional tidak selalu mengandung elemen waktu. Struktur kunci dari data warehouse selalu mengandung elemen waktu Konsep-konsep pada basis data temporal berlaku terhadap data warehouse

Alasan Data Warehouse yang terpisah dari basis data Performansi organisasi data khusus, metode akses, dan metode implementasi dibutuhkan untuk mendukung view dan operasi multidimensi yang merupakan ciri dari OLAP query kompleks untuk OLAP akan menurunkan performansi dari transaksi operasional kontrol konkurensi dan pemulihan pada OLTP tidak kompatibel dengan analisis OLAP Fungsi data yang hilang: data historis biasanya tidak dikelola basis data operasional konsolidasi data: agregasi dan sumarisasi data dari berbagai sumber kualitas data: terdapat perbedaan representasi, kode, dan format

ARSITEKTUR DW PROSES/FASILTIAS UMUM : Pemasukan DATA [cleaning, integration, transformation, and reduction] Akses Data (READ) Analytical Tools (statistik, dll.).

Multitiered Architecture metadata Monitor & Integrator Extract Transform Load Refresh Data Sources Operational DBs other Sources Data Warehouse Data Marts Serve Analysis Query Reports mining Tools OLAP Server

Sumber Data Sumber data sering kali sistem-sistem operasional, yang menyediakan data pada level terendah Sumber data didesain untuk penggunaan operasional, dan bukan untuk kebutuhan pengambilan keputusan  fakta ini direfleksikan oleh data Sumber data yang banyak sering kali berasal dari sistem yang berbeda yang berjalan di perangkat keras yang berbeda dengan perangkat lunak yang dibangun in-house atau sudah dikustomisasi Sumber data yang banyak memunculkan sejumlah besar isu  konflik semantik

Data Preprocessing

The need of data preprocessing Problems with huge real-world database Incomplete data : missing value Noisy Inconsistent  Influence data mining process, especially pattern mined

Techniques Data cleaning Data integration Data transformation Data reduction  Improve the quality of the pattern mined and/or the time required for the actual mining

Data Cleaning Correct the : Anomaly in the data Data Inconsistent Missing entries Violation of integrity constraints

Pembersihan Data (Data Cleaning) Hal yang penting bagi data warehouse, karena data dari berbagai sumber sering kali ‘kotor’ Terdapat tiga kelas kakas: Migrasi Data: transformasi data sederhana Scrubbing Data: menggunakan pengetahuan yang domain-specific Audit Data: menemukan aturan dan keterhubungan melalui proses pembacaan (scan) terhadap data (menemukan keterurutan)

Data Cleaning – Missing values  Tuples have no recorded value for several attributes Ignore the tuple Fill in the missing value Using global constant Using ‘measured’ values : attribute mean, most probable value

Data Cleaning – Noisy  Random error or variance in a measured variable Binning  smooth a sorted data value by consulting its ‘neighborhood’  local smoothing

Clustering  Detect the outliers by grouping similar values Regression  smooth data by fitting data to a function, such as regression  linear regression, multiple linier regression

Data Integration Combine data from multiple sources into coherent data store Schema integration: entity identification problem Redundancy: detected by correlation analysis Detection & resolution of data value conflict: semantic heterogenity & different representation

Data Transformation Data are transformed or consolidated into forms appropriate for mining Involve: Smoothing Aggregation Generalisation Normalisation

Data Reduction Reduce representation of data set that is much smaller in volume, while maintains the integrity of the original data. Strategies: Data cube aggregation Dimension reduction Data compression

Load dan Refresh Loading ke data warehouse mencakup sejumlah pemrosesan lainnya: memeriksa batasan integritas, pengurutan, sumarisasi, pembangunan indeks, dll. Refreshing sebuah data warehouse berarti mempropagasi perubahan terhadap data sumber ke data yang tersimpan di dalam data warehouse kapan harus melakukan refresh ditentukan oleh penggunaan, tipe dari sumber data, dll. bagaimana cara refresh data shipping: menggunakan triggers untuk mengubah tabel log snapshot dan mempropagasi data yang berubah itu ke data warehouse transaction shipping: mengirimkan perubahan yang terdapat di log transaksi

Monitor Mendeteksi perubahan yang terjadi terhadap sumber informasi yang merupakan “interest” dari data warehouse mendefinisikan triggers mengawasi perubahan yang terjadi pada file log membuat program Mempropagasi perubahan dalam bentuk yang umum ke integrator

Integrator Menerima perubahan dari monitor mengubah data ke dalam bentuk yang sesuai dengan skema yang terdapat pada data warehouse Mengintegrasikan perubahan ke dalam data warehouse menggabungkan data dengan data lain yang telah ada menyelesaikan kemungkinan anomali yang dapat muncul

Metadata Repository Metadata administratif basis data sumber dan isinya deskripsi gateway skema data warehouse, view, dan definisi data turunan dimensi dan hirarki query dan laporan yang pre-defined lokasi dan isi dari data marts partisi data ekstraksi data, pembersihan, aturan transformasi, nilai default aturan untuk refresh dan purge terhadap data profil pengguna dan pengelompokan pengguna security: otorisasi pengguna, kontrol akses

Struktur Data DW DATA CUBE (multi dimentional) PENJUALAN CABANG WAKTU/SAAT PRODUK

PENJUALAN CABANG WAKTU/SAAT PRODUK Multi-dimensional view (mis.) : Penjualan “produk” dari waktu ke waktu Penjualan “produk” pada masing-masing cabang Produk yang tersedia. Dll.

1. Rekapitulasi multi-view / multi-dimensi dapat dilayani CABANG Negara KUSTOMER Propinsi Group Kota Kategori Jalan Nama/orang Hari Nama/produk Minggu Bulan Brand WAKTU Kategori PRODUK 1. Rekapitulasi multi-view / multi-dimensi dapat dilayani Oleh DB, jika : TERINTEGRASI (dpt diakses secara logik sebagai Satu kesatuan, LENGKAP (dalam arti sampai ke level primitif, Yang biasanya dicakup oleh DB OLTP), dan ……….. 2. DBMS pada umumnya mengembangkan fasilitas untuk dapat Mendukung OLAP.

Metadata Repository 2 Data bisnis Metadata operasional peristilahan dan definisi bisnis kepemilikan data charging policies Metadata operasional data lineage: sejarah migrasi data dan urutan transformasi yang dikenakan kekinian data: aktif, archived, purged informasi monitoring: statistik penggunaan data warehouse, laporan kesalahan, audit trails

Data Marts Sebuah data mart (disebut juga data warehouse departemental) adalah sebuah sistem yang mengumpulkan data yang dibutuhkan oleh sebuah departemen atau aplikasi yang terkait Data marts dapat diimplementasikan di dalam data warehouse dengan cara membuat view yang khusus, spesifik untuk aplikasi tertentu Data marts dapat juga diimplementasikan sebagai materialized view subjek departemental yang difokuskan kepada subjek tertentu materialized views adalah view yang tupel hasilnya disimpan Data marts dapat memiliki representasi yang berbeda dan menggunakan OLAP engines tersendiri

Tools lainnya Antar muka pemakai yang memungkinkan pemakai melakukan interaksi dengan data warehouse kakas untuk query dan pelaporan kakas untuk melakukan analisis kakas untuk data mining

Perancangan Sistem Perencanaan kapasitas - pendefinisian arsitektur Integrasi servers, media penyimpanan, clients Perancangan skema data warehouse, views Perancangan organisasi fisik data warehouse: penempatan data, partisi, metode akses Menghubungkan sumber: gateways, ODBC drivers Perancangan dan implementasi scripts untuk ekstraksi data, load, dan refresh Pendefinisian metadata dan populasi repository Perancangan dan implementasi aplikasi pengguna Roll out data warehouse dan aplikasi

Pembangunan Data Warehouse Top Down Membuat rancangan data warehouse keseluruhan Menentukan sumber data dan mekanisme pengintegrasian data ke data warehouse Bottom Up Membuat data marts untuk setiap sub sistem yang ada Menggabungkan data marts-data marts yang telah terbentuk untuk menghasilkan sebuah data warehouse yang utuh

Soal Jelaskan latar belakang munculnya Data Mining ! Mengapa Data Mining penting ? Apa yang dimaksud dengan Data Mining ? Jelaskan gambar yang ada di slide 2. Pada data yang bagaimana Data Mining bisa bekerja? Jelaskan ! Apa yang dimaksud dengan Data Warehouse? Jelaskan OLAP Technology dan OLTP Technologi ! Mengapa data perlu di Preprocessing? Apa yang dimaksud dengan : Missing Values Noisy Data Inconsistent Data