Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
1
Oleh: Tri Endah Wijayanti G64104067
INCREMENTAL UPDATING PADA APLIKASI FUZZY TEMPORAL ASSOCIATION RULE UNTUK DATA TRANSAKSI Oleh: Tri Endah Wijayanti G PEMBIMBING: Imas S.Sitanggang, S.Si, M.Kom Annisa, S.Kom, M.Kom
2
PENDAHULUAN Melanjutkan dari penelitian sebelumnya yaitu “Handayani Retno Suminar” pada tahun 2007 dengan judul “Pengembangan Aplikasi Fuzzy Temporal Association Rule Mining”
3
informasi yang berguna
LATAR BELAKANG Data Dampak teknologi waktu hasil Data baru analisis merupakan proses ekstraksi informasi atau pola dalam basis data yang berukuran besar (Han & Kamber 2006) data mining informasi yang berguna teknik Association Rules Mining untuk menemukan keterkaitan antaritem pada basis data
4
LATAR BELAKANG LANJ… pembelian barang pada waktu tertentu
Fuzzy Calendar pembelian barang pada waktu tertentu Association rules mencari keterkaitan antaritem pada basis data baru setelah dilakukan incremental updating maka pada basis data tidak perlu diperiksa secara berulang-ulang (Lee & Lee 2004) Fuzzy Temporal Association Rules
5
TUJUAN PENELITIAN Menambahkan proses incremental updating pada aplikasi data mining yang telah dilakukan di penelitian sebelumnya (Handayani 2007) Membandingkan hasil yang diperoleh dan waktu eksekusi dari implementasi algoritme fuzzy temporal association rule tanpa adanya penambahan data dan dengan adanya penambahan data
6
RUANG LINGKUP PENELITIAN
Menambahkan data transaksi berdasarkan tanggal yang sekuensial Data transaksi pembelian di Sinar Mart Swalayan selama 1 Maret – 21 Mei 2004 Perlakuan percobaan mengambil contoh dataset 50, 100, transaksi dari data yang sama Pembentukan himpunan fuzzy menggunakan fuzzy calendar algebra dengan batasan 1 operator saja
7
MANFAAT PENELITIAN Diharapkan dapat memudahkan dalam penambahan data transaksi baru di waktu tertentu sehingga incremental updating dapat dilakukan tanpa melakukan pemrosesan data secara berulang-ulang akan menghasilkan keterkaitan antaritem yang akan digunakan dalam pengambilan keputusan
8
TINJAUAN PUSTAKA
9
Time varying information
BASIS DATA TEMPORAL Time varying information Data / informasi yang nilainya tergantung dari waktunya (Jensen et al 1992) Basis data temporal Basis data yang menyimpan time-varying information (Jensen et al 1999)
10
ASSOCIATION RULE MINING
Berguna untuk menemukan aturan asosiasi pada basis data, sehingga dapat membantu proses pengambilan keputusan (Han & Kamber 2006) Ukuran keakuratan (Larose 2005) Support proporsi banyaknya kejadian di basis data dimana item A dan item B terdapat di suatu transaksi Confidence persentase transaksi di basis data yang mengandung item A dan item B
11
FUZZY CALENDAR Teori himpunan fuzzy yang diadopsi untuk membangun kalendar Minggu Bulan Tahun Awal minggu Tengah minggu Akhir minggu Awal bulan Tengah bulan Akhir bulan Awal tahun Tengah tahun Akhir tahun
12
Operasi-operasi pada Fuzzy Calendar untuk Fuzzy Calendar A dan B
FUZZY CALENDAR LANJ… Operasi-operasi pada Fuzzy Calendar untuk Fuzzy Calendar A dan B 1. Operasi AND 2. Operasi OR 3. Operasi NOT A 4. Operasi XOR 5. Operasi SUB
13
FUZZY CALENDAR LANJ… Fuzzy Calendar digunakan untuk menghitung bobot di tiap partisi Contoh: Fuzzy Calendar : Awal Minggu Or Awal Tahun Tanggal : 1 Maret 2004 Hari Ke 2 dalam minggu Bulan Ke 3 dalam tahun Awal Minggu (Senin, 2) = Beginning Of The Week Awal Tahun (Maret, 3) = Beginning Of The Year = (1 + 1) – (1 × 1) = 0
14
MINING FUZZY AR untuk menemukan semua association rule yang berasal dari fuzzy calendar yang telah didefinisikan sebelumnya Telah dilakukan pada penelitian sebelumnya (Handayani 2007) 1. Menentukan frequent itemset pada basis data tunggal Penambahan data transaksi baru pada basis data (incremental updating) 2. Update frequent itemset Persamaan yang digunakan untuk menghitung update frequent itemset sebagian menggunakan persamaan di penelitian sebelumnya
15
PERSAMAAN YANG DIGUNAKAN
Partisi Pi, didefinisikan weighted count threshold, mi dari Pi Mencari cumulative weighted count threshold Mencari himpunan candidate 2-itemset, C2 Cumulative weighted count dari itemset (I), didefinisikan sebagai Mencari candidate 2-itemset di masing-masing partisi I akan disimpan menjadi C2, dimana adalah weighted count dari I. Ui(j-1) + I akan dihapus dari C2
16
INCREMENTAL UPDATING Suatu proses penambahan data transaksi baru pada basis data yang telah ada tanpa harus memeriksa secara berulang-ulang (Lee & Lee 2004) Update dilakukan untuk menentukan aturan asosiasi baru dengan cara menggunakan hasil dari mining sebelumnya Frequent itemset untuk data update (L’) adalah D’ = D + ∆+ ∆+ dibagi menjadi r partisi, sehingga perhitungan ∆+ menjadi n+1 ≤ i ≤ n+r Perhitungan ∆+ : persamaan di penelitian sebelumnya (Handayani 2007) Weighted count untuk data update : weighted count sebelumnya pada frequent itemset (L) dengan weighted count di penambahan data (∆+) dengan persamaan dimana
17
METODE PENELITIAN
18
PROSES DASAR SISTEM Praproses Data
Meliputi pembersihan, transformasi dan seleksi data. Penelitian ini menggunakan data pada penelitian sebelumnya (Handayani 2007) Data mining Proses ini menggunakan fuzzy temporal association rule dengan penambahan data transaksi baru yang diajukan oleh Wan Jui Lee dan Shie Jue Lee (2004) Contoh : Data lama : pada tanggal 01 – 03 Maret 2004 (Senin – Rabu) Data baru : pada tanggal 01 – 02 April 2004 (Kamis – Jumat) Fuzzy Calendar : Awal bulan and Awal tahun Support & Confidence threshold : 20% & 75%
19
DATA MINING 4 5 Data baru (∆+) candidate 2 itemset baru (C2_baru)
Membagi menjadi r partisi sehingga perhitungan dimulai n+1 ≤ i ≤ j ≤ n+r Menghitung bobot (wi) : operasi fuzzy calendar w4 = × = 1 × 0.67 = 0.67 w5 = × = 1 × 0.67 = 0.67 Menghitung threshold Weighted count threshold : m4 = 0.67 × 2 × 0.2 = 0.268 m5 = 0.67 × 3 × 0.2 = 0.4 Cumulative weighted count threshold : M 44 = m4 = M45 = M44 + m5 = = M55 = m5 = 0.4 Mencari semua kombinasi 2 items dan menghitung bobot serta bobot kumulatif dari masing-masing kombinasi Bobot : Bobot kumulatif : 4 5
20
DATA MINING LANJ…. ? ≥ M2(5) ≥ 1.868
Membandingkan bobot dari masing-masing kombinasi dengan threshold di masing-masing partisi Ui(j-1) + >> C2_baru : 6080, 5080, 3040, 3060, 3070, 3080, 4060, 4070, 4080, 6070, 7080, dan 1070 Data lama : didapat cumulative weighted count ( ) di frequent itemset (L) Ya, Lolos sebagai C2_baru Tidak, tidak lolos sebagai C2_baru ? Ya, Lolos sebagai L_baru Tidak, tidak lolos sebagai L_baru L 3070 2 3028 6080 7080 3080 ≥ M2(5) L_baru = 3070, 3028, 6080, 7080, 3080 ≥ 1.868
21
DATA MINING LANJ… C’= C2’, C3’,…,Ck’
Menggabungkan C2_baru dengan L_baru berdasarkan weighted count antar keduanya -> candidate 2 itemsets terbaru (C2’ ) >> C2’ : 3028, 6080, 5080, 3040, 3060, 3070, 3080, 4060, 4070, 4080, 6070, 7080, dan 1070 Mencari candidate frequent itemset terbaru (C’) >> (C’) = 3028, 6080, 5080, 3040, 3060, 3070, 3080, 4060, 4070, 4080, 6070, 7080, 1070, , , , dan C’= C2’, C3’,…,Ck’ Memeriksa basis data baru (D’) membandingkan frequent itemset terbaru (L’) >> L’= L2’,L3’,…,Lk’
22
DATA MINING LANJ… ≥ M2(5) L’ = 3028, 6080, 3070, 3080, 7080, 607080
(C’) Count C’ 3028 2 6080 4 5080 0.67 3040 3060 3070 2.67 3080 4060 4070 4080 6070 7080 1070 607080 304060 304070 304080 L’= L2’,L3’,…,Lk’ ≥ M2(5) L’ = 3028, 6080, 3070, 3080, 7080, ≥ 1.868 Diagram alir
23
DATA MINING LANJ… 28 -> 30 60 -> 80 3070 -> 80 3080 -> 70
Mencari kemungkinan aturan asosiasi terbaru berdasarkan L’ & hasil confidence dibandingkan dengan confidence threshold yang dimasukkan oleh pengguna >> L’ C% 28 -> 30 1 60 -> 80 3070 -> 80 0.75 3080 -> 70 ≥ confidence threshold pengguna (75%) 28 -> 30 60 -> 80 3070 -> 80 3080 -> 70 rule Representasi Pengetahuan Sederetan aturan asosiasi terbaru yang telah ditemukan diperlihatkan kepada pengguna
24
LINGKUNGAN PENGEMBANGAN SISTEM
a. Perangkat keras pada komputer personal Processor: AMD Athlon 64, 3000+ Memory: 512 MB Harddisk 80 GB Keyboard, mouse, dan monitor b. Perangkat lunak yang digunakan: Sistem operasi: Microsoft® Windows XP Professional MATLAB sebagai bahasa pemrograman Microsoft® Excel 2007 sebagai pengolah data
25
HASIL DAN PEMBAHASAN
26
PERCOBAAN PENELITIAN Penggunaan data lama Minggu keempat Maret untuk data 50, 100 dan 150 transaksi Penggunaan fuzzy calendar Awal minggu or awal tahun Penggunaan data baru minggu pertama April hingga minggu ketiga Mei minggu pertama Mei untuk data 50, 100 dan 150 transaksi Penggunaan support dan confidence threshold Support : 20%, 30% dan 40% Confidence : 65%, 70% dan 75% Pembahasan : Pembentukan frequent itemset Pembentukan aturan asosiasi Waktu eksekusi pembentukan aturan asosiasi
27
PENGGUNAAN DATA PERCOBAAN
Jenis Data : 50 Transaksi Data lama : minggu ke-4 Maret 04 terdiri dari 7 hari (tgl : 22 – 29 Maret 04) & 246 record -> penelitian sebelumnya Data update : minggu ke-1 Mei 04 terdiri dari 7 hari (tgl : 27 April – 04 Mei) & 234 record -> ∆+ incremental updating Data gabung : minggu ke-4 Maret & ke-1 Mei 04 terdiri dari 14 hari & 280 record -> gabungan dari data lama & data update menggunakan pada penelitian sebelumnya
28
PEMBENTUKAN FREQUENT ITEMSET
Jumlah frequent itemset Support threshold Data lama Data update Data gabung 50 Transaksi S=20% 7 4 6 S=30% 2 3 S=40% 1 100 Transaksi 5 150 Transaksi Mengalami penurunan frequent itemset kombinasi items yg dibeli jumlah transaksi pada data yg ditambahkan sehingga kemunculan jenis items semakin
29
FREQUENT ITEMSET Support threshold Data lama Data update Data gabung 50 Transaksi S=20% 7080, 3080, 3070, 6070, 6080, 1011, 8014 7080, 3080, 6080, 8014 7080, 3080, 3070, 1080, 6080, 8014 S=30% 7080, 3080 3080, 7080 7080, 3080, 8014 S=40% 7080 − Support threshold Data lama Data update Data gabung 100 Transaksi S=20% 1080, 3080, 3070, 7080, 8014, 6080, 3080, 7080, 8014, 1080, 6080, 3070 1080, 3080, 7080, 8014, 6080 S=30% 3080, 7080 S=40% − Support threshold Data lama Data update Data gabung 150 Transaksi S=20% 1080, 3080, 7080 3080, 7080, 1080 1080, 3080, 7080, 8014 S=30% 7080 S=40% − Barang-barang yang sering dibeli yaitu barang dengan : ID 10 (mie) ID 11 (saus kecap) ID 14 (sabun) ID 30 (susu) ID 60 (permen) ID 70 (minuman) ID 80 (snack)
30
PEMBENTUKAN ATURAN ASOSIASI
Support threshold 40% di setiap confidence threshold 65%, 70% dan 75% Jumlah aturan asosiasi Mengalami kenaikan aturan asosiasi S=40% Data lama Data update Data gabung 50 Transaksi c=65% 2 c=70% 1 c=75% 100 Transaksi 150 Transaksi Count untuk data update mengalami peningkatan jika dibandingkan dengan perhitungan count data gabung
31
WAKTU EKSEKUSI Waktu eksekusi untuk pembentukan aturan asosiasi didapat dari penjumlahan waktu eksekusi frequent itemset dan waktu eksekusi aturan asosiasi Percobaan dilakukan dengan 3 kali perulangan kemudian diambil rataannya threshold threshold threshold Waktu eksekusi (detik) 50 transaksi Waktu eksekusi (detik) 100 transaksi Waktu eksekusi (detik) 150 transaksi
32
WAKTU EKSEKUSI LANJ… Data update akan semakin cepat seiring dengan bertambahnya data transaksi jika dibandingkan dengan data lama Data gabung kurang efisien karena waktu eksekusi sangat lama Waktu eksekusi tercepat terjadi pada jenis data 50 transaksi dengan support dan confidence threshold tertinggi yaitu 40% dan 75% dengan waktu detik Waktu eksekusi terlama terjadi pada jenis data 150 transaksi dengan support dan confidence threshold tertendah yaitu 20% dan 65% dengan waktu detik
33
WAKTU EKSEKUSI LANJ… Peningkatan kecepatan dengan menggunakan proses incremental updating Support threshold Transaksi 20% 30% 40% 50 37.05% 9.63% 2.90% 100 37.76% 14.90% 6.08% 150 51.54% 16.99% 11.22% Semakin banyak jenis transaksi dan semakin tinggi penggunaan support dan confidence threshold akan semakin cepat pembentukan aturan asosiasi
34
REPRESENTASI PENGETAHUAN
Aturan asosiasi support threshold tertinggi 40% disetiap confidence threshold 65%, 70% dan 75% dengan fuzzy calendar awal minggu or awal tahun Hanya 2 items, yaitu 70→80 dan 80→70 S=40% Data lama Data update Data gabung 50 Transaksi c=65% 70→80, 80→70 − c=70% 70→80 c=75% 100 Transaksi 30→80, 70→80 150 Transaksi Untuk support threshold 20% & 30% banyaknya aturan asosiasi untuk data update mengalami peningkatan jika dibandingkan dengan data lama maupun data gabung
35
REPRESENTASI PENGETAHUAN LANJ…
“JIKA pembeli membeli barang dengan ID 70 (minuman) dengan fuzzy calendar awal minggu or awal tahun, MAKA dia juga akan membeli barang dengan ID 80 (snack)” Proporsi banyaknya kejadian dalam basis data di mana barang dengan ID 70 dan ID 80 dibeli secara bersamaan mencapai 40% dari jumlah transaksi Keakuratan dari aturan tersebut, yang dihitung dari persentase transaksi dalam basis data yang mengandung barang dengan ID 70 dan juga ID 80, mencapai 65%, 70% dan 75%
36
KESIMPULAN DAN SARAN
37
KESIMPULAN Dengan adanya penambahan proses incremental updating data bisa diperbaharui (update) tanpa melakukan pemrosesan data secara berulang-ulang Frequent itemset yang terbentuk dengan adanya penambahan data hanya menghasilkan 2 items untuk setiap support threshold (S) 20%, 30%, dan 40% di masing-masing jenis transaksi (50, 100, dan transaksi) Jumlah aturan asosiasi yang terbentuk di setiap support threshold (S) 20%, 30% dan 40% dengan masing-masing confidence threshold (c) 65%, 70%, dan 75% untuk penambahan data mengalami kenaikan jika dibandingkan dengan tanpa adanya penambahan data
38
KESIMPULAN LANJ… Banyaknya aturan asosiasi yang terbentuk ditentukan oleh nilai support dan confidence threshold yang dimasukkan oleh pengguna. Semakin besar nilainya maka akan semakin sedikit dan semakin cepat hasil aturan asosiasi yang terbentuk (S %) dan (c%) tertinggi yaitu 40% dan 75% pada data 50 transaksi yaitu detik sedangkan untuk (S %)dan (c%) terendah yaitu 20% dan 65% yaitu detik Efisiensi terhadap waktu eksekusi agar dapat membentuk aturan asosiasi setelah terjadi penambahan data dengan menggunakan proses incremental updating lebih cepat hingga 37.05%, % dan 51.54% untuk jenis data 50, 100 dan 150 transaksi dengan support threshold 20% jika dibandingkan dengan proses yang tanpa incremental updating
39
SARAN Praproses data dapat dilakukan secara automatis, tidak dilakukan secara manual sehingga dapat mempercepat hasil yang terbentuk Penggunaan kombinasi operasi fuzzy calendar lebih dari satu operasi misalkan (awal bulan and akhir tahun) or (tengah minggu or akhir tahun)
40
DAFTAR PUSTAKA Cox E Fuzzy Modeling and Genetic Algorithms for Data Mining and Exploration. Elseiver Inc. San Francisco, USA. Han J, Kamber M Data Mining: Concepts and Techniques. San Diego, USA: Morgan-Kauffman. Larose DT Discovering Knowledge in Data: An Introduction to Data Mining. New Jersey, USA: Wiley-Interscience. Lee WJ, Lee SJ Discovery of Fuzzy Temporal Association Rules. IEEE Transactions On Systems, Man, and Cybernetics, Vol. 34, No. 6. Jensen, C. S., Cliford, J., Gadia, S. K., & R. T. Snodgrass A Glossary of Temporal Database Concepts. [6 Oktober 2001]. Jensen, C. S Temporal Database Management. [20 November 2001]. Suminar HR Pengembangan Aplikasi Fuzzy Temporal Association Rule Mining (Studi Kasus : Data Transaksi Pasar Swalayan) [Skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor.
41
TERIMA KASIH
42
UKURAN KEAKURATAN Contoh : 1000 orang berbelanja pada Kamis malam
membeli 200 orang diapers 50 orang membeli beer Aturan yang dihasilkan : “Jika membeli diapers, maka membeli beer” Support = 50/1000=5% Confidence = 50/200=25%
43
Banyaknya aturan asosiasi dengan support threshold (S) 20% dan 30% untuk dataset 50, 100, dan 150 taransaksi S=20% Data lama Data update Data gabung 50 Transaksi c=65% 5 3 c=70% 4 c=75% 100 Transaksi 150 Transaksi 2 6 1 S=30% Data lama Data update Data gabung 50 Transaksi c=65% 3 4 2 c=70% c=75% 100 Transaksi 150 Transaksi 1
44
PENGOLAHAN DATA Data asli : 54441 record Seleksi Data
Pembersihan data (transaksi yg berisi 1 jenis barang dihapus, barang yg sama namun berulang lebih dari 1 record secara berurutan dijadikan 1 record saja) Seleksi Data 27854 record dengan 9110 transaksi Waktu eksekusi lama Data 1 Maret – 21 Mei 2004 Dibagi 11 Minggu 100 transaksi 50 transaksi 150 transaksi Pengambilan contoh per minggu (setelah dilakukan pembersihan data)
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.