Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Pertemuan #3 DATA MINING.

Presentasi serupa


Presentasi berjudul: "Pertemuan #3 DATA MINING."— Transcript presentasi:

1 Pertemuan #3 DATA MINING

2 Pengenalan Data Mining
Perangkat lunak yang digunakan untuk menemukan pola-pola ter- sembunyi maupun hubungan-hubungan yang terdapat dalam basis data yang besar dan mengha silkan aturan-aturan yang diguna- kan untuk memperkirakan perilaku di masa medatang Data mining sering dikatakan ber- urusan dengan “penemuan penge- tahun” dalam basis data. Suatu aturan yang dihasilkan oleh data mining misalnya seperti berikut : “Kebanyakan pembeli mobil Forsa adalah wanita berusia di atas 30 th” Data Mining

3 Data Mart Bagian dari data warehouse yang mendukung kebutuhan pada tingkat departemen atau fungsi bisnis tertentu dalam perusahaan. Karakteristik yang membeda- kan data mart dan data warehouse adalah sbb : (Connolly, Begg, Strachan 1999). Data Mining

4 Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai yang terkait dalam sebuah departemen atau fungsi bisnis. Data mart biasanya tidak mengandung data operasional yang rinci seperti pada data warehouse. Data mart hanya mengandung sedikit informasi dibandingkan dengan data warehouse. Data mart lebih mudah dipahami dan dinavigasi. Data Mining

5 Teknik-Teknik Data Mining
Operasi-operasi dan teknik- teknik yang berhubungan : 1. Operasi Predictive modeling : classification, value prediction 2. Database segmentation : demographic clustering, neural clustering 3. Link Analysis : association discovery, sequential pattern discovery, similar time- sequence discovery 4. Deviation detection : statistics, visualization Data Mining

6 Peralatan Data Mining Karakteristik yang terpenting dari peralatan data mining : - Fasilitas persiapan data - Skalabilitas produk dan kinerja - Fasilitas untuk visualisasi hasil Data Mining

7 Data Mining dan Data Warehouse
Kualitas dan konsistensi data merupakan persyaratan untuk data mining untuk menjamin keakuratan model-model prediksi. Data warehouse dipopulasikan dengan data yang bersih dan konsisten. Data mining akan sangat berguna jika mendapatkan data dari banyak sumber untuk mendapatkan sebanyak mungkin keterhubungan antar data. Data warehouse hanya berisikan data dari beberapa sumber Data Mining

8 Pemilihan subset-subset record dan field untuk data mining membutuhkan kemampuan query dari data warehouse Hasil pembelajaran data mining berguna jika ada cara untuk menyelidiki lebih jauh lagi mengenai pola-pola yang ditemukan. Data warehouse menyediakan kemampuan untuk melihat sumber data masa lalu. Data Mining

9 Referensi Connoly, Thomas; Begg, Carolyn; Strachan, Anne; Database Systems : A Practical Approach to Design, Implementation and Management, 3rd edition, Addison Wesley, 2003. Data Mining

10 Kesimpulan Data mining merupakan perangkat lunak yang digunakan untuk menemukan pola tersembunyi maupun hubungan yang terdapat dalam basis data yang besar dan menghasilkan aturan yang digunakan untuk memperkirakan perilaku di masa medatang Teknik-teknik data mining : classification, value prediction, demographic clustering, neural clustering, association discovery, sequential pattern discovery, similar time-sequence discovery, statistics, visualization Data Mining

11 Karakteristik yang terpenting dari peralatan data mining : fasilitas persiapan data, skalabilitas produk dan kinerja, fasilitas untuk visualisasi hasil Data mart merupakan bagian dari data warehouse yang mendukung kebutuhan pada tingkat departemen atau fungsi bisnis tertentu dalam perusahaan Data Mining

12 Teknik-teknik data mining terdiri dari :
Analisis cluster Induksi (pohon keputusan dan aturan induksi) Jaringan syaraf buatan (Neural Network) Online Analytical Processing (OLAP) Visualisasi data

13 Analisis Cluster Dalam lingkungan ‘unsupervised learning’, sistem harus mendapatkan klas2nya sendiri dan ini dilakukan dengan meng-cluster data dalam database seperti tergambar pada gambar 1. Langkah pertama adalah dengan mendapatkan subset2 dari objek2 yang terhubung, kemudian mencari deskripsinya cth, D1, D2, D3, dst., yang menggambarkan masing2 subset. Gambar 1. Perolehan cluster dan deskripsi pada database

14 Analisis Cluster (Lanjutan)
Clustering dan segmentasi sebenarnya mempartisi database, karena itu setiap partisi atau group adalah sama menurut kriteria atau metrik tertentu. Jika pengukuran kesamaan tersedia, maka terdapat sejumlah teknik untuk membentuk cluster. Kebanyakan aplikasi2 data mining menggunakan clusteing menurut similarity (kesamaan), contohnya segmentasi basis klien. Clustering menurut optimasi dari sekumpulan fungsi-fungsi digunakan pada analisis data, misalnya ketika mensetting tarif asuransi klien dapat disegmentasi menurut sejumlah parameter. Contoh aplikasi : Perangkat ‘stand-alone’ : explore data distribution Langkah preprocessing untuk algoritma lain Pengenalan pola, analisis data spasial, pengenalan citra, market research, WWW, … clustering dokumen2 clustering data log web untuk mendapatkan group dengan pola akses yang sama

15 Apa itu Clustering ? Penggelompokkan data ke cluster2
Data yang sama satu sama lain berada pada cluster yang sama Yang tidak sama berada pada cluster lain ‘Unsupervised learning’: klas2 yang belum ditentukan Gambar 2. Clustering Cluster 1 Cluster 2 Outliers

16 Clustering Yang Baik Intraclass similarity (Kesamaan di dalam klas) yang tinggi dan interclass similarity (kesamaan antar klas) yang rendah Bergantung pada pengukuran kesamaan Kemampuan untuk memdapatkan beberapa atau semua pola yang tersembunyi

17 Kebutuhan Clustering Scalability
Kemampuan mengerjakan atribut2 dari berbagai tipe Penemuan clusters dengan bentuk yang tidak tentu Kebutuhan minimal untuk pengetahuan domain untuk menentukan parameter input Dapat menerima noise dan outlier Tidak mengindahkan susunan record dari input Dimensi yang tinggi Menyatu dengan batasan yang dispesifikasikan oleh user Interpretability and usability

18 Tipe-tipe Data pada Clustering
Variabel2 berskala interval Variabel biner Variabel nominal, ordinal dan rasio Variable2 dari berbagai tipe variabel

19 Kategori Pendekatan Clustering
Algoritma Partisi Mempartisi objek2 ke dalam k cluster Realokasi objek2 secara iteratif untuk memperbaiki clustering Algoritma Hirarkis Agglomerative: setiap objek merupakan cluster, gabungan dari cluster2 membentuk cluster yang besar Divisive: semua objek berada dalam suatu cluster, pembagian cluster tsb membentuk cluster2 yang kecil Metode berbasis densitas Berbasis koneksitas dan fungsi densitas Noise disaring, kemudian temukan cluster2 dalam bentuk sembarang Metode berbasis grid Kuantisasi ruang objek ke dalam struktur grid Berbasis Model Gunakan model untuk menemukan keadaan data yang baik

20 Algoritma Partisi : Konsep Dasar
Partisi n objek ke dalam k cluster Optimasi kriteria partisi yang dipilih Global optimal: dicoba semua partisi (kn-(k-1)n-…-1) partisi yang mungkin Metode heuristik : k-means dan k-medoids K-means: cluster direpresentasikan oleh pusat K-medoids or PAM (partition around medoids): setiap cluster direpresentasikan oleh salah satu objek pada cluster

21 K-means Pilih k objek sembarang sebagai inisial pusat cluster
Sampai tidak ada perubahan, kerjakan Tunjukkan setiap objek pada cluster dimana objeknya hampir sama, berdasarkan nilai tengah dari objek2 pada cluster Update the cluster means, i.e., calculate the mean value of the objects for each cluster

22 Gambar 3. Contoh : K-Means
1 2 3 4 5 6 7 8 9 10 10 9 8 7 6 5 Update the cluster means 4 Assign each objects to most similar center 3 2 1 1 2 3 4 5 6 7 8 9 10 reassign reassign K=2 Arbitrarily choose K object as initial cluster center Update the cluster means

23 Induksi Induksi merupakan salah satu teknik inferensi informasi pada database. Ada dua teknik inferensi yakni Induksi merupakan teknik inferensi informasi yang digeneralisasi dari database, contohnya setiap pegawai mempunyai manajer. Deduksi merupakan teknik inferensi informasi dari konsekuensi logis informasi pada database, contohnya operasi join pada dua tabel; dimana yang pertama mengenai pegawai dan departemen sedangkan yang kedua mengenai departemen dan manajer, menghasilkan relasi antara pegawai dan manajer.

24 Pohon Keputusan Pohon keputusan merupakan representasi pengetahuan yang simpel. Pohon keputusan ini mengklasifikasikan contoh2 pada klas2 dengan angka finit, node diberi nama atribut, edge di beri nilai atribut sedangkan leave diberi nama klas. Objek2 diklasifikasikan dengan struktur pohon, dengan menggunakan dahan2nya sebagai nilai atribut dari objek. Gambar berikut mengenai keadaan cuaca. Objek2 berisikan informasi mengenai suasana cuaca, kelembaban dll. Beberapa objek merupakan contoh positif dinotasikan dengan P sedangkan yang lain negatif atau N.

25 Gambar 4. Struktur Pohon Keputusan

26 Induksi Aturan Sistem data mining harus dapat menyimpulkan suatu model dari database dimana model ini mendefinisikan klas2 seperti halnya database yang terdiri atas satu atau lebih atribut yang menunjukkan klas dari tupel. Klas dapat didefinisikan oleh kondisi atribut. Aturan produksi dipergunakan untuk merepresentasikan pengetahuan sistem pakar dan keuntungannya mudah diinterpretasikan oleh kepakaran manusia dikarenakan modularitas yakni aturan yang tunggal dapat dipahami dengan sendirinya dan tidak perlu referensi aturan lain.

27 Jaringan Syaraf Buatan
Merupakan pendekatan perhitungan yang melibatkan pengembangan struktur secara matematis dengan kemampuan untuk ‘belajar’. Mampu menurunkan pengertian dari data yang kompleks dan tidak jelas dan dapat digunakan pula untuk mengekstrak pola dan mendeteksi tren2 yang sangat kompleks untuk dibicarakan baik oleh manusia maupun teknik komputer lainnya. Jaringan syaraf buatan yang terlatih dapat dianggap sebagai ‘pakar’ dalam kategori informasi yang akan dianalisis. Pakar ini dapat digunakan untuk memproyeksi situasi baru dari ketertarikan dan jawaban dari pertanyaan ‘what if’

28 Jaringan Syaraf Buatan (Lanjutan)
Dikarenakan jaringan syaraf buatan adalah terbaik dalam mengidentifikasikan pola atau tren dalam data, maka cocok pula digunakan untuk kebutuhan memprediksi antara lain: Prediksi penjualan Pengontrolan proses industri Riset Pelanggan Validasi data Manajemen resiko Pemasaran target dll

29 Jaringan Syaraf Buatan (Lanjutan)
Jaringan ini menggunakan sekumpulan elemen2 pemrosesan (node) analog pada syaraf otak manusia. Elemen2 pemrosesan ini terhubung dalam jaringan dimana dapat mengidentifikasikan pola2 dalam data sewaktu dipertunjukkan pada data, artinya jaringan belajar dari pengalaman seperti halnya manusia. Pada gambar 5, layer bawah adalah lapisan input dengan x1 – x5. Layer tengah disebut juga layer tersembunyi dengan sejumlah variabel node. Layer atas merupakan layer output dengan node z1 – z2 yang diperoleh dari input yang dicobakan. Contoh, prediksi penjualan (output) berdasarkan penjualan lama, harga dan cuaca (input).

30 Gambar 5. Struktur Jaringan Syaraf Buatan

31 Jaringan Syaraf Buatan (Lanjutan)
Setiap node yang ada pada layer tersembunyi, secara keseluruhan terhubung dengan input, berarti setiap yg dipelajari didasarkan pada semua input yg diambil bersamaan. Hal ini terlihat pada gambar 6. Pada gambar 7. dijelaskan mengenai jaringan syaraf buatan The Clementine User Guide untuk mengidentifikasikan resiko kanker dari berbagai faktor input.

32 Gambar 6. Di dalam Node

33 Gambar 7. Jaringan Syaraf Buatan The Clementine User Guide

34 OLAP (On-line Analytical Processing) Definisi Menurut E.F. Codd
OLAP atau On line Analytical Processing merupakan salah satu aplikasi database untuk memproses database yang sangat besar dengan data yang kompleks. OLAP didefinisikan oleh E.F. Codd (1993) sebagai sintesis dinamik, analisis dan konsolidasi dari data multidimensional yang sangat besar. Aturan atau kebutuhan dari sistem OLAP : - View konseptual multidimensional - Penanganan dynamic sparse matrix - Transparansi - Pendukung multi-user - Aksesibilitas - Operasi unrestricted cross dimensional - Kinerja reporting yang konsisten - Manipulasi data intuitif - Arsitektur client/server - Reporting yang fleksibel - Dimensionalitas generik - Level agregasi dan dimensi yang tidak terbatas

35 Definisi OLAP Menurut Nigel Pendse
OLAP didefinisikan oleh Nigel Pendse sebagai Fast Analysis of Shared Multidimensional Information, artinya Fast dimana pemakai memperoleh respon dalam detik sehingga tidak terputus rantai pemikirannya Analysis dimana sistem menyediakan fungsi2 analisis dan lingkup intuitif dan fungsi2 ini dapat mensuplai logika bisnis dan analisis statistikal yang relevan dengan aplikasi user Shared dimana sistem mendukung user yang banyak secara konkurensi Multidimensional merupakan kebutuhan utama sehingga sistem mensuplai view konseptual multidimensional dari data termasuk pendukung untuk hirarki multiple Information merupakan data dan informasi yang diwariskan, dimana dibutuhkan oleh aplikasi user

36 Komponen OLAP Menurut Kirk Cruikshank
Kirk Cruikshank dari Arbor Software mengidentifikasikan ada 3 komponen OLAP : Database multidimensional harus dapat mengekspresikan kalkulasi bisnis yang kompleks dengan mudah. Data harus bereferensi dan didefinisikan matematis Navigasi intuitatif dalam penyusunan data ‘roam around’ yang mana membutuhkan hirarki mining Respons instan, yang artinya kebutuhan untuk memberi user informasi secepat mungkin

37 Contoh OLAP Contoh database OLAP misalnya data penjualan yang dikumpulkan dari region, tipe produk dan cabang penjualan. Queri OLAP harus mengakses database penjualan yang lebih dari satu tahun dan multi-gigabyte untuk menemukan penjualan produk di setiap region per-tipe produk. Queri OLAP dapat dikarakterisasikan sebagai transaksi online yang Mengakses data dalam jumlah besar, mis: data penjualan beberapa tahun Menganalisis relationship antara tipe elemen bisnis mis: penjualan, wilayah, produk dan cabang Melibatkan data yang terkumpul mis: volume penjualan, dollar yang dianggarkan dan dollar yang dihabiskan

38 Contoh OLAP (lanjutan)
Menyajikan data dalam berbagai perspektif, mis: penjualan berdasarkan wilayah vs penjualan berdasarkan cabang dari produk dalam setiap wilayah Membandingkan data yang terkumpul dalam periode waktu secara hirarki, mis: bulanan, tahunan Melibatkan kalkulasi kompleks antara elemen data , mis: keuntungan yang diharapkan sebagai fungsi dari pendapatan penjualan untuk setiap tipe dari cabang penjualan dalam suatu wilayah tertentu. Dapat merespon permohonan user secara cepat sehingga user dapat mengikuti proses pemikiran yang analitik tanpa masuk pada sistem

39 Visualisasi Data Visualisasi data memungkinkan si analis menperoleh pemahaman yang dalam dan lebih intuitif mengenai data dan dapat bekerja sebaik mungkin pada data mining. Data mining memperbolehkan si analis memfokuskan pola2 dan trend2 tertentu dan menjelajahi ke dalam menggunakan visualisasi.


Download ppt "Pertemuan #3 DATA MINING."

Presentasi serupa


Iklan oleh Google