Association Rules
Association rule mining Oleh Agrawal et al in 1993. Banyak dipelajari oleh komunitas peneliti data mining. Mengasumsikan seluruh data categorical. Market Basket Analysis untuk menemukan keterkaitan antara item-item yang dibeli oleh customer Bread Milk [sup = 5%, conf = 100%] CS583, Bing Liu, UIC
The model: data I = {i1, i2, …, im}: sekumpulan items. Transaction t : t sekumpulan item dan t I. Transaction Database T: sekumpulan transaksi T = {t1, t2, …, tn}. CS583, Bing Liu, UIC
Transaksi data : data supermarket Transaksi keranjang pasar (Market basket transactions): t1: {bread, cheese, milk} t2: {apple, eggs, salt, yogurt} … … tn: {biscuit, eggs, milk} Konsep: An item: item dalam keranjang I: sekumpulan dari seluruh item yang dijual di toko transaction: item yang dibeli transactional dataset: sekumpulan transaksi CS583, Bing Liu, UIC
Transaction data: a set of documents Dokumen text. Masing masing dokumen menyatakan keranjang dari kosa kata doc1: Student, Teach, School doc2: Student, School doc3: Teach, School, City, Game doc4: Baseball, Basketball doc5: Basketball, Player, Spectator doc6: Baseball, Coach, Game, Team doc7: Basketball, Team, City, Game CS583, Bing Liu, UIC
The model: rules Transaksi t berisi X, sekumpulan item-item (itemset) dalam I, jika X t. Association rule adalah implikasi dari bentuk X Y, dimana X, Y I, dan X Y = Itemset adalah sekumpulan items. misalkan., X = {milk, bread, cereal} adalah itemset. k-itemset adalah itemset dengan k items. Misal, {milk, bread, cereal} adalah 3-itemset CS583, Bing Liu, UIC
Rule strength measures Support: sup = Pr(X Y). Confidence: conf = Pr(Y | X) Association rule adalah pola kejadian dimana dari keadaan dimana X terjadi , Y terjadi dengan probabilitas tertentu CS583, Bing Liu, UIC
Support and Confidence Support count: Support count dari itemset X, dinyatakan dengan X.count, dalam data set T adalah jumlah dari transaksi dalam T yang berisi X. Diasumsikan T memiliki n transaksi: Maka, CS583, Bing Liu, UIC
Tujuan Tujuan : Mencari aturan –aturan yang memenuhi ketentuan user minimum support (minsup) dan minimum confidence (minconf). CS583, Bing Liu, UIC
Contoh Data transaksi Asumsi: Contoh frequent itemset: t1: Beef, Chicken, Milk t2: Beef, Cheese t3: Cheese, Boots t4: Beef, Chicken, Cheese t5: Beef, Chicken, Clothes, Cheese, Milk t6: Chicken, Clothes, Milk t7: Chicken, Milk, Clothes Contoh Data transaksi Asumsi: minsup = 30% minconf = 80% Contoh frequent itemset: {Chicken, Clothes, Milk} [sup = 3/7] Association rules dari itemset: Clothes Milk, Chicken [sup = 3/7, conf = 3/3] … … Clothes, Chicken Milk, [sup = 3/7, conf = 3/3] CS583, Bing Liu, UIC
Apriori algorithm Ada dua tahapTwo steps: Misalkan frequent itemset Menemukan seluruh itemsets yang memiliki minimum support (frequent itemsets, juga disebut large itemsets). Gunakan frequent itemsets untuk menghasilkan rule-rule (aturan-aturan). Misalkan frequent itemset {Chicken, Clothes, Milk} [sup = 3/7] dan salah satu aturan dari frequent itemset Clothes Milk, Chicken [sup = 3/7, conf = 3/3] CS583, Bing Liu, UIC
Step 1: Mining all frequent itemsets frequent itemset adalah itemset dengan support-nya ≥ minsup. Ide utamanya: The apriori property (downward closure property): subsets dari frequent itemset juga frequent itemsets ABC ABD ACD BCD AB AC AD BC BD CD A B C D CS583, Bing Liu, UIC
CS583, Bing Liu, UIC
CS583, Bing Liu, UIC
CS583, Bing Liu, UIC
CS583, Bing Liu, UIC
L2 Lakukan prunning (I2,I3,I5) Tidak masuk C3 karena karena (i3,I5) tidak masuk L2) CS583, Bing Liu, UIC
L3 CS583, Bing Liu, UIC
CS583, Bing Liu, UIC
CS583, Bing Liu, UIC
CS583, Bing Liu, UIC