Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Data Mining Sequential Pattern Mining. Data Sequence ObjectTimestampEvents A102, 3, 5 A206, 1 A231 B114, 5, 6 B172 B217, 8, 1, 2 B281, 6 C141, 8, 7 Database.

Presentasi serupa


Presentasi berjudul: "Data Mining Sequential Pattern Mining. Data Sequence ObjectTimestampEvents A102, 3, 5 A206, 1 A231 B114, 5, 6 B172 B217, 8, 1, 2 B281, 6 C141, 8, 7 Database."— Transcript presentasi:

1 Data Mining Sequential Pattern Mining

2 Data Sequence ObjectTimestampEvents A102, 3, 5 A206, 1 A231 B114, 5, 6 B172 B217, 8, 1, 2 B281, 6 C141, 8, 7 Database Sequence:

3 Contoh Data Sequence Database Sequence Elemen (Transaksi) Kejadian (Item) CustomerTransaksi-transaksi penjualan yang dilakukan oleh konsumen tertentu Item – item yang dibeli konsumen dalam waktu t. Buku, diary Produk, CD, dll. Web DataAktifitas browsing pada pengunjung web tertentu Sekumpulan File-file yang dilihat pengunjung web setelah melakukan proses single mouse click Home page, index page, contact info, dll Event dataKejadian – kejadian yang dihasilkan oleh sensor tertentu Kejadian-kejadi yang timbul dari sensor saat waktu t Jenis-jenis tanda(alarm) yang dihasilkan oleh sensor Genome sequences DNA sequence dari spesies tertentu Elemen dari DNA sequenceBases A,T,G,C Sequence E1 E2 E1 E3 E2 E3 E4 E2 Elemen (Transaksi) Kejadian (Item)

4 Definisi Sequence Sebuah sequence adalah urutan dari elemen-elemen (transaksi) s = –Setiap elemen terdiri dari kumpulan kejadian-kejadian (item) e i = {i 1, i 2, …, i k } –Setiap elemen merupakan atribut yang dihubungkan dengan suatu lokasi atau waktu tertentu (spesifik) Panjang Sequence, |s|, adalah banyaknya unsur-unsur sequence yang diberikan. A k-sequence adalah sebuah sequence yang terdiri dari k kejadian (item)

5 Contoh Sequence Web sequence: Sequence kejadian kecelakaan yang disebabkan oleh ledakan nuklir pada 3-mile Island: (http://stellar- one.com/nuclear/staff_reports/summary_SOE_the_initiating_event.ht m) Sequence buku checked out pada perpustakaan:

6 Definisi Subsequence Sebuah sequence terdapat dalam sequence lain (m ≥ n) jika terdapat integer i 1 < i 2 < … < i n maka a 1  b i1, a 2  b i1, …, a n  b in Support subsequence w didefinisikan sebagai bagian dari data sequence yang berisi w Sequential pattern adalah subsequence yang sering muncul (yaitu, support subsequence ≥ minsup) Data sequenceSubsequenceContain? Yes No Yes

7 Definisi : Sequential Pattern Mining Terdapat: –Database sequence –Minimum menetapkan user yang mendukung(support), minsup Task: –Menemukan semua subsequence dengan user yang mendukup ≥ minsup

8 Diberikan sebuah sequence: –contoh subsequence:,,, dll. Berapakah banyaknya k-subsequences yang dapat diekstraksi dari n-sequence yang diberikan? n = 9 k=4: Y _ _ Y Y _ _ _ Y Tantangan : Sequential Pattern Mining

9 Contoh : Sequential Pattern Mining Minsup = 50% Contoh Frequent Subsequence: s=60% s=80% s=60%

10 Ekstraksi Sequential Pattern Terdapat n kejadian: i 1, i 2, i 3, …, i n Candidate 1-subsequence:,,, …, Candidate 2-subsequence:,, …,,, …, Candidate 3-subsequence:,, …,,, …,,, …,,, …

11 Generalisasi Sequential Pattern (GSP) Step 1: –Langkah pertama mengabaikan database sequence D untuk menghasilkan semua 1-element frequent sequence Step 2: Ulangi sampai tidak (ada) frequent sequences baru yang ditemukan –Candidate Generation: Gabungkan frequent subsequences yang ditemukan ( k-1)th untuk menghasilkan candidate sequence yang berisi k item –Candidate Pruning: Prune candidate k-sequence yang berisikan infrequent(k-1)- subsequences –Support Counting: Mencari hal yang baru dalam sequence database D untuk menemukan support pada candidate sequence tersebut. –Candidate Elimination: Meng-eliminasi candidate k-sequences yang actual support kurang dari minsup

12 Generalisasi Candidate Kasus Dasar (k=2): –Penggabungan dua frequent 1-sequences dan akan menghasilkan dua candidate 2-sequences: dan Kasus Umum (k>2): –Sebuah frequent (k-1)-sequence w 1 digabungkan dengan frequent yang lain (k-1)-sequence w 2 untuk menghasilkan sebuah candidate k-sequence jika subsequence yang diperoleh dengan memindahkan event pertama di w 1 adalah sama dengan subsequence yang diperoleh dengan memindahkan event terakhir in w 2 Hal ini menghasilkan candidate setelah penggabungan diberi oleh sequence w 1 diperluas sampai dengan event yang terakhir dari w 2 –Jika yang terakhir dua event didalam Cara lainnya, event yang terakhir di dalam w 2 menjadi suatu element terpisah dengan menambahkan pada ujung w 1 mempunyai element yang sama, kemudian peristiwa yang terakhir di dalam w 2 menjadi bagian dari element yang terakhir di dalam w 1 –Cara lainnya, event yang terakhir di dalam w 2 menjadi suatu element terpisah dengan menambahkan pada ujung w 1

13 Contoh : Candidate Generation Penggabungan sequences w 1 = dan w 2 = akan menghasilkan candidate sequence karena dua event yang terakhir didalam w 2 (4 and 5) merupakan element yang sama Penggabungan sequences w 1 = dan w 2 = akan menghasilkan candidate sequence karena dua event yang terakhir w 2 (4 and 5) bukan merupakan element yang sama Tidak dapat dilakukan penggabungan sequence w 1 = dan w 2 = menghasilkan candidate karena jika yang terakhir adalah viable candidate,lalu tersebut dapat diperoleh dari penggabungan w 1 dengan

14 GSP Example

15 Timing Constraints (I) {A B} {C} {D E} <= m s <= x g >n g x g : max-gap n g : min-gap m s : maximum span Data sequenceSubsequenceContain? Yes No Yes No x g = 2, n g = 0, m s = 4

16 Mining Sequential Pattern Dengan Timing Constraints Pendekatan 1: –Menemukan sequential pattern tanpa timing constraints –Postprocess menentukan pattern Pendekatan 2: –Memodifikasi GSP untuk langsung menjadi prune candidates namun melanggar timing constraints –Question: Apa apriori prinsip masih dipegang ?

17 Apriori Principle Untuk Data Sequence Suppose: x g = 1 (max-gap) n g = 0 (min-gap) m s = 5 (maximum span) minsup = 60% support = 40% but support = 60% Problem ada dikarenakan terdapat max-gap constraint Tidak terdapat problem jika max-gap tanpa batas

18 Contiguous Subsequences s merupakan contiguous subsequence dari w = … jika memenuhi kriteria berikut ini : 1.s diperoleh dari w dengan menghapus suatu item dari e 1 or e k 2.s diperoleh w dengan menghapus sebuah item dari elemen e i yang terdiri lebih dari 2 item. 3.s dikatakan contiguous subsequence dari s’ dan s’ dikatakan a contiguous subsequence dari w (recursive definition) Contoh: s = –contiguous subsequence,, dan –BUKAN contiguous subsequence and

19 Langkah Modifikasi Candidate Pruning Without maxgap constraint: –Candidate k-sequence dikatakan pruned jika salah satunya (k-1)-subsequences adalah infrequent With maxgap constraint: –Candidate k-sequence dikatakan pruned jika salah satunya contiguous (k-1)- subsequences adalah infrequent

20 Timing Constraints (II) {A B} {C} {D E} <= m s <= x g >n g <= ws x g : max-gap n g : min-gap ws: window size m s : maximum span Data sequenceSubsequenceContain? No Yes Yes x g = 2, n g = 0, ws = 1, m s = 5

21 Langkah Modifikasi Support Counting Step Candidate pattern: –Beberapa data sequences terdiri dari, ( dimana time({c}) – time({a}) ≤ ws) (dimana time({a}) – time({c}) ≤ ws) yang digunakan dalam menentukan candidate pattern

22 Formula Lain Dalam beberapa domain, kita hanya mempunyai satu very long time series –Contoh: monitoring network traffic events for attacks Monitoring siatuasi network traffic untuk mencari penyelesaian suatu masalah monitoring telecommunication alarm signals Memonitor sinyal telecommunication Bertujuan untuk menemukan kejadian- kejadian frequent sequences dalam time series –Masalah ini juga untuk mengetahui frequent episode mining E1 E2 E1 E2 E1 E2 E3 E4 E3 E4 E1 E2 E2 E4 E3 E5 E2 E3 E5 E1 E2 E3 E1 Pattern:

23 Skema General Support Counting Asumsi: x g = 2 (max-gap) n g = 0 (min-gap) ws = 0 (window size) m s = 2 (maximum span)


Download ppt "Data Mining Sequential Pattern Mining. Data Sequence ObjectTimestampEvents A102, 3, 5 A206, 1 A231 B114, 5, 6 B172 B217, 8, 1, 2 B281, 6 C141, 8, 7 Database."

Presentasi serupa


Iklan oleh Google