PENGEMBANGAN APLIKASI DATA MINING MENGGUNAKAN FUZZY TEMPORAL ASSOCIATION RULES OLEH : HANDAYANI RETNO SUMINAR G64103032 PEMBIMBING : IMAS S SITANGGANG, S.Si, M.Kom ANNISA, S.Kom
Overview PENDAHULUAN TINJAUAN PUSTAKA METODE PENELITIAN HASIL DAN PEMBAHASAN KESIMPULAN DAN SARAN DAFTAR PUSTAKA
Latar Belakang Penelitian PENDAHULUAN Latar Belakang Penelitian Kegiatan terkomputerisasi Hasil Data melimpah Analisis Pengetahuan yang berguna Data mining Data mining merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar (Han & Kamber 2001) Teknik Association Rules Mining untuk menemukan keterkaitan antaritem pada basis data
PENDAHULUAN (Lanjutan) Ekspresi Tanggal Awal bulan untuk kondisi keuangan yang baik Tengah atau akhir bulan untuk kondisi keuangan yang menipis Awal bulan Tengah bulan Akhir bulan Diadopsi Fuzzy calendar Pembelian barang pada kurun waktu tertentu
PENDAHULUAN (Lanjutan) Fuzzy calendar Kecenderungan pembelian Pembelian sembako di awal bulan Fuzzy calendar + Association rules Fuzzy temporal association rules Keterkaitan antaritem pada kurun waktu tertentu (Lee & Lee 2004)
PENDAHULUAN (Lanjutan) Tujuan Penelitian Mengembangkan aplikasi data mining dengan metode fuzzy temporal association rules untuk mengetahui keterkaitan antara beberapa item pada basis data khususnya data transaksi pembelian di Sinar Mart Swalayan pada kurun waktu tertentu.
PENDAHULUAN (Lanjutan) Ruang Lingkup Penelitian Data transaksi pembelian di Sinar Mart Swalayan selama 1 Maret – 21 Mei 2004 Perlakuan percobaan mengambil contoh dataset 50, 100, 150 transaksi dari data yang sama Pembentukan himpunan fuzzy menggunakan fuzzy calendar algebra dengan batasan 1 operator saja
PENDAHULUAN (Lanjutan) Manfaat Penelitian Diharapkan dapat digunakan untuk mengetahui keterkaitan antaritem pada data transaksi supermarket, sehingga dapat digunakan untuk menentukan stok barang pada tanggal-tanggal tertentu
TINJAUAN PUSTAKA Basis Data Basis Data Transaksional Meliputi Sekumpulan data atau entitas (beserta deskripsinya) yang berhubungan secara logika,dibuat untuk memenuhi kebutuhan informasi suatu organisasi (Connoly & Begg 2002) Basis Data terdiri dari sebuah file di mana setiap record merepresentasikan transaksi (Han & Kamber 2001) Basis Data Transaksional Meliputi Identitas transaksi dan daftar items yang dibeli
TINJAUAN PUSTAKA (Lanjutan) Populasi keseluruhan pengamatan yang menjadi perhatian Contoh suatu himpunan bagian dari populasi Peluang kejadian A Contoh acak sederhana n pengamatan suatu contoh yang dipilih sedemikian rupa sehingga setiap himpunan bagian yang berukuran n dari populasi mempunyai peluang terpilih yang sama (Walpole 1995)
TINJAUAN PUSTAKA (Lanjutan) suatu proses menemukan pengetahuan dari suatu basis data yang terdiri atas urutan langkah– langkah (Han & Kamber 2001) Knowledge Discovery in Database (KDD) 1 Pembersihan data 2 Pengintegrasian data 3 Seleksi data 4 Transformasi data 5 Data mining 6 Evaluasi pola 7 Representasi pengetahuan
TINJAUAN PUSTAKA (Lanjutan) Himpunan yang memiliki fungsi keanggotaan, yaitu fungsi yang menjelaskan hubungan antara nilai dari himpunan dan derajat keanggotaannya (Cox 2005). Himpunan Fuzzy anggota penuh Membran semipermeable bukan anggota anggota sebagian
TINJAUAN PUSTAKA (Lanjutan) Teori himpunan fuzzy yang diadopsi untuk membangun kalender. Pengguna tidak perlu mengetahui batasan yang pasti tentang interval waktu (Lee & Lee 2004) Fuzzy calendar Minggu Bulan Tahun Awal minggu Tengah minggu Akhir minggu Awal bulan Tengah bulan Akhir bulan Awal tahun Tengah tahun Akhir tahun
TINJAUAN PUSTAKA (Lanjutan) Operasi-operasi pada Fuzzy Calendar untuk Fuzzy Calendar A dan B 1. Operasi AND 2. Operasi OR 3. Operasi NOT A 4. Operasi XOR 5. Operasi SUB
TINJAUAN PUSTAKA (Lanjutan) Fuzzy Calendar digunakan untuk menghitung bobot di tiap partisi Contoh: Fuzzy Calendar : Awal Minggu Or Awal Tahun Tanggal : 1 Maret 2004 Hari Ke 2 dalam minggu Bulan Ke 3 dalam tahun Awal Minggu (Senin, 2) = Beginning Of The Week Awal Tahun (Maret, 3) = Beginning Of The Year
TINJAUAN PUSTAKA (Lanjutan) Association Rules Mining Berguna untuk menemukan aturan asosiasi pada basis data, sehingga dapat membantu proses pengambilan keputusan (Han & Kamber 2004) Bentuk “Jika Antecedent, maka Consequent (X -> Y)” Support dari X->Y: proporsi banyaknya kejadian dalam basis data, dimana item X dan Y terdapat dalam sebuah transaksi (Larose 2005) Ukuran keakuratan Confidence dari X->Y: ukuran keakuratan dari aturan, yang dihitung dari persentase transaksi dalam basis data yang mengandung item X dan juga Y (Larose 2005)
TINJAUAN PUSTAKA (Lanjutan) Contoh : 1000 orang berbelanja pada Kamis malam membeli 200 orang diapers 50 orang membeli beer Aturan yang dihasilkan : “Jika membeli diapers, maka membeli beer” Support = 50/1000=5% Confidence = 50/200=25% Mining System untuk menemukan, semua association rule yang berasal dari fuzzy calendar yang telah didefinisikan sebelumnya.
METODE PENELITIAN Proses dasar sistem mengacu pada Knowledge Discovery in Database 1. Transaksi yang hanya mengandung 1 jenis barang dihapus 1. Pembersihan Data 2. Menyederhanakan perulangan barang yang sama dalam suatu transaksi 1. Transformasi tanggal menjadi bentuk numerik (datenum) 2. Transformasi Data 2. ID barang yang semula 1 digit ditransformasikan menjadi 2 digit Menyeleksi transaksi dan membaginya ke dalam beberapa bentuk contoh 3. Seleksi Data
METODE PENELITIAN (Lanjutan) 4. Data Mining Data Transaksi terdiri atas : 7 Tanggal, misal tanggal 1 Maret – 7 Maret Fuzzy Calendar : Awal Minggu Or Awal Tahun Support Threshold : 40% Confidence Threshold : 75% 1. Membagi Partisi 1 2 3 4 5 6 7 wi=operasi fuzzy calendar 2. Menghitung Bobot 3. Menghitung threshold mi=wi x |Pi| x s% Weighted count threshold Mij= Mi(j-1) + mj Cummulative weighted count threshold
METODE PENELITIAN (Lanjutan) 4. Mencari semua kombinasi 2 items dan menghitung bobot serta bobot kumulatif dari masing-masing kombinasi Bobot : Bobot kumulatif: Uij= Ui(j-1)+ 5. Membandingkan bobot dari masing-masing kombinasi dengan threshold di masing-masing partisi Ya, lolos candidate 2 itemsets Uij>=Mij ? Tidak, tidak lolos candidate 2 itemsets C= C2,C3,…,Ck
METODE PENELITIAN (Lanjutan) 6. Mencari semua frequent itemsets berdasarkan C dengan memeriksa basis data sekali lagi, serta menghitung bobot dan membandingkannya dengan M1n (cummulative weighted count threshold dari basis data) 1 2 3 4 5 6 7 1040 Ya, lolos sebagai frequent itemsets Uij>=M1n ? Tidak, tidak lolos sebagai frequent itemsets L= L2,L3,…,Lk 7. Mencari semua aturan asosiasi yang mungkin berdasarkan L yang didapat, serta menghitung weighted confidence dari masing- masing aturan asosiasi, dan akan membandingkannya dengan confidence threshold yang diberikan oleh pengguna 10 40 1040 40 10 C%>=confidence threshold ?
METODE PENELITIAN (Lanjutan) 5. Representasi Pengetahuan sederetan aturan asosiasi yang telah ditemukan diperlihatkan kepada pengguna
METODE PENELITIAN (Lanjutan) Lingkungan Pengembangan Sistem a. Perangkat keras pada komputer personal: Processor: Intel Pentium IV 2,4 MHz Memory: 1 GB Harddisk 80 GB Keyboard, mouse, dan monitor b. Perangkat lunak yang digunakan: Sistem operasi: Microsoft® Windows XP Professional MATLAB 7.0.1 sebagai bahasa pemrograman Microsoft® Excel 2003 sebagai pengolah data
27854 record dengan 9110 transaksi Pengambilan contoh per minggu HASIL DAN PEMBAHASAN Seleksi Data 27854 record dengan 9110 transaksi Waktu eksekusi lama Dibagi Data 1 Maret – 21 Mei 2004 11 Minggu 50 transaksi Pengambilan contoh per minggu 100 transaksi 150 transaksi
HASIL DAN PEMBAHASAN (Lanjutan) Pembentukan frequent itemsets dengan Fuzzy Calendar, yaitu Awal Minggu Or Awal Tahun Jumlah Frequent Itemsets Jenis Transaksi S=20% S=30% S=40% 50 Transaksi 86 10 4 100 Transaksi 77 6 2 150 Transaksi 40 Frequent Itemsets Jenis Transaksi S=20% S=30% S=40% 50 Transaksi 3080,6080,7080,1011,3070,6070, 8014,1080,1014,1030,1428,7014, 3014,8013,8034,8090,4080,7034, 1070,1314,6014,108014, 307080,708034 6080,7080,8014,3080,1080, 1014,3070 7080,3080,8014 100 Transaksi 3080,6080,7080,8014,1080,3070, 1014,1030,4014,4080,7014,3014, 1428,8028,307080 3080,7080,1080,8014 3080,7080 150 Transaksi 3080,6080,1080,8014,7080,3070 -
HASIL DAN PEMBAHASAN (Lanjutan) Barang-barang yang sering dibeli, yaitu barang dengan ID 10 (mie instant), ID 14 (sabun), ID 28 (pasta gigi), ID 30 (susu), ID 34 (tissue), ID 40 (kopi), ID 60 (permen), ID 70 (minuman), dan ID 80 (snack) Frequent 2 Itemsets dengan support threshold tertinggi 40% : 3080, 7080, dan 8014 Frequent 3 Itemsets berada pada support threshold 20% : 307080, 108014, dan 708034
HASIL DAN PEMBAHASAN (Lanjutan) 2. Pembentukan Aturan Asosiasi Jumlah Aturan Asosiasi No Jenis Transaksi S=20% S=30% S=40% c=65% c=70% c=75% 1 50 Transaksi 43 32 28 15 11 8 6 4 2 100 Transaksi 35 23 16 14 9 7 3 150 Transaksi 22 10 5 Waktu Pembentukan Aturan Asosiasi No Jenis Transaksi S=20% S=30% S=40% c=65% c=70% c=75% 1 50 Transaksi 56.716 56.693 56.642 26.75 26.746 26.74 20.833 20.828 2 100 Transaksi 82.969 82.963 82.898 52.514 52.501 52.474 42.355 42.354 3 150 Transaksi 87.121 87.081 87.007 62.649 62.645 62.635 58.094
HASIL DAN PEMBAHASAN (Lanjutan) NEXT 3. Penggunaan Fuzzy Calendar Minggu yang dipilih adalah Minggu Keempat Maret dan Minggu Kedua April dengan jumlah transaksi 50, dengan support threshold dan confidence threshold tertingggi, yaitu 40% dan 75% No Fuzzy Calendar Minggu 4 Maret Minggu 2 April 1 Awal Minggu 70→80 - 2 Akhir Minggu 3 Awal Tahun 30→80 4 Tengah Bulan 5 Akhir Bulan 6 Awal Minggu OR Awal Tahun 7 Tengah Bulan OR Awal Tahun 8 Akhir Bulan OR Awal Tahun 9 Awal Minggu AND Awal Tahun 10 Tengah Bulan XOR Awal Tahun 11 Awal Tahun SUB Akhir Minggu 12 Awal Tahun SUB Tengah Bulan 13 Not Akhir Minggu 30→80, 80→30
HASIL DAN PEMBAHASAN (Lanjutan) Awal Minggu Or Awal Tahun Awal Minggu Or Awal Tahun, memiliki makna bahwa pencarian aturan berada pada awal minggu, yaitu hari Minggu (1), Senin (2), dan Selasa (3), atau awal tahun dimana bulan Maret dan April berada. Aturan asosiasi untuk minggu keempat Maret, yaitu 70->80, berarti barang yang sering dibeli adalah minuman (70) dan snack (80) Aturan asosiasi minggu kedua April, yaitu 30->80, yang berarti barang yang sering dibeli adalah susu (30) dan snack (80). BACK
HASIL DAN PEMBAHASAN (Lanjutan) Not Akhir Minggu Not Akhir Minggu, memiliki makna pencarian aturan dilakukan selain hari Kamis (5), Jumat (6), dan Sabtu (7). Aturan asosiasi untuk minggu keempat Maret, yaitu 70->80, berarti barang yang sering dibeli adalah minuman (70) dan snack (80) Aturan asosiasi untuk minggu kedua April, yaitu 30->80 dan 80->30, barang yang sering dibeli adalah susu (30) dan snack (80). BACK
HASIL DAN PEMBAHASAN (Lanjutan) Representasi Pengetahuan dengan confidence threshold tertinggi, yaitu 75%, dan fuzzy calendar Awal Minggu Or Awal Tahun Jenis Transaksi S=20% S=30% S=40% 50 Transaksi 60->80,70->80,30->80,28->14, 34->80,90->80,40->80,10->80, 34->70, 34->7080,7034->80, 8034->70,1080->14 30->80,70->80, 14->80 30->80,70->80 100 Transaksi 30->80,60->80,70->80, 3070->80 150 Transaksi 30->80,60->80,10->80,70->80 30->80 - NEXT
HASIL DAN PEMBAHASAN (Lanjutan) “JIKA pembeli membeli barang dengan ID 70 (minuman) dengan fuzzy calendar awal minggu or awal tahun, MAKA dia juga akan membeli barang dengan ID 80 (snack)”. Proporsi banyaknya kejadian dalam basis data di mana barang dengan ID 70 dan ID 80 dibeli secara bersamaan mencapai 40% dari jumlah transaksi. Keakuratan dari aturan tersebut, yang dihitung dari persentase transaksi dalam basis data yang mengandung barang dengan ID 70 dan juga ID 80, mencapai 75%. BACK
KESIMPULAN DAN SARAN Kesimpulan Frequent 2 itemsets yang dihasilkan dengan support threshold tertinggi, yaitu 40%, adalah 3080, 7080, dan 8014. Untuk frequent 3 itemsets dihasilkan dari support threshold sebesar 20% pada 50 dan 100 transaksi, dengan hasil, yaitu 307080, 108014, dan 708034. Aturan yang dihasilkan dengan support threshold 40% dan confidence threshold tertinggi 75% adalah 30->80 dan 70->80. Penggunaan fuzzy temporal association rules kurang efektif diterapkan pada data transaksi pembelian barang kebutuhan sehari-hari. Fuzzy calendar memudahkan penggunakan untuk mengekspresikan kalender dengan baik dan mudah, karena kata-kata, seperti awal, tengah, dan akhir sebenarnya sering digunakan untuk mengekspresikan tanggal atau kalender.
KESIMPULAN DAN SARAN Saran Penggunaan data yang dipengaruhi oleh waktu atau musim tertentu, seperti data transaksi penjualan di toko buku. Penggunaan kombinasi operasi fuzzy calendar yang lebih dari 1 operator, seperti (awal bulan and akhir minggu) or (tengah minggu or akhir tahun). Penggunaan border yang berisi candidate frequent itemsets tetapi tidak memiliki weighted support yang cukup dalam perhitungan frequent saat proses update. Penambahan proses Incremental Updating, seperti penambahan dan penghapusan data pada basis data
DAFTAR PUSTAKA Connoly TM dan Begg CE. 2002. Database System: A Practical Approach to Design, Implementation, and Management. Third Edition. Harlow, England: Addison Wesley. Cox E. 2004. Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. Elseiver Inc. San Francisco, USA. Han J dan Kamber M. 2001. Data Mining: Concepts and Techniques. San Diego, USA: Morgan-Kauffman. Larose DT. 2005. Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey, USA: Wiley-Interscience. Lee WJ dan Lee SJ. 2004. Discovery of Fuzzy Temporal Association Rules. IEEE Transactions On Systems, Man, and Cybernetics, Vol. 34, No. 6. Walpole RE. 1995. Introduction to Statistics. Third Edition. Gramedia Pustaka Utama. Jakarta, Indonesia.
TERIMA KASIH