ANALISIS ASOSIASI BAGIAN 2

Slides:



Advertisements
Presentasi serupa
MODUL 10 APRIORI.
Advertisements

Association Rule B y : E ka P raja W iyata M andala Universitas Putra Indonesia YPTK Padang Fakulas Ilmu Komputer Program Studi Teknik Informatika.
Pendahuluan Landasan Teori.
DATA MINING 1.
Kemajuan teknologi informasi & komunikasi memungkinkan sebuah perusahaan untuk memperoleh dan menyimpan data transaksional dan demografi secara.
Algoritma A priori.
Market Basket Analysis
Chapter 10 ALGORITME for ASSOCIATION RULES
M ANAJEMEN D ATA “Pengaksesan Data”. P ENDAHULUAN Selama beberapa waktu, teknologi informasi berkonsentrasi pada pembangunan sistem bermisi kritis,- sistem.
The Knowledge Discovery Process
Tugas Pengendalian Mutu
Data Mining Sequential Pattern Mining
Pertemuan XIV FUNGSI MAYOR Assosiation. What Is Association Mining? Association rule mining: –Finding frequent patterns, associations, correlations, or.
Market Basket Analysis - #3
BILANGAN TITIK-KAMBANG (FLOATING-POINT)
Association Rules.
Association Rule (Apriori Algorithm)
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Pertemuan XIV FUNGSI MAYOR Assosiation. What Is Association Mining? Association rule mining: –Finding frequent patterns, associations, correlations, or.
Pengenalan Supervised dan Unsupervised Learning
Association Rules and Frequent Item Analysis
Dosen Pengampu : Edhy Sutanta, ST.,M.Kom.. Hoby Renang Badminton Traveling.
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
Tim Dosen Data Mining Fakultas Informatika
DATA MINING (Machine Learning)
Association Rules (Kaidah Asosiasi)
ANALISIS ASOSIASI BAGIAN 1
ANALISIS ASOSIASI.
DR.EUIS ETI ROHAETI,M.PD WAHYU HIDAYAT, M.PD.
Association Rule Ali Ridho Barakbah Mata kuliah Data Mining.
SEMINAR TUGAS AKHIR 16 JULY 2008
ANALISIS ASOSIASI BAGIAN 1
ALGORITMA A PRIORI Wahyu Nurjaya WK, S.T., M.Kom.
Probabilitas dan Statistik
FIKRI FADLILLAH, S.T., MMSI
Fakultas Informatika – Telkom University
Assocation Rule Data Mining.
ANALISIS ASOSIASI BAGIAN 1
BAB 3 TEORI PENAKSIRAN Seringkali seseorang dituntut untuk membuat dugaan yang rasional dalam kondisi yang penuh ketidakpastian tanpa informasi yang lengkap.
Konsep Data Mining Ana Kurniawati.
Firman Ardiansyah, S.Kom, M.Si. Imas S. Sitanggang, S.Si., M.Kom
ANALISA ASOSIASI DATA MINING.
Data Mining Junta Zeniarja, M.Kom, M.CS
Model Heuristik Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [8]:
Statistik Komputasi Pendahuluan.
KULIAH TEORI SISTEM DISKRIT MINGGU 5 Dosen Pengampu: Dr. Salmah, M.Si
.: ALGORITMA APRIORI :. DSS - Wiji Setiyaningsih, M.Kom
APLIKASI DATA MINING MENGGUNAKAN ATURAN ASOSIASI
Classification Supervised learning.
Statistik deskriptif Pokok bahasan : 1. Pengumpulan, pengorganisasian, dan penyajian data 2. Distribusi frekuensi dan presentasi grafik 3. Ukuran pemusatan.
Associasion Rule dengan RapidMiner
Oleh : Rahmat Robi Waliyansyah, M.Kom.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
(Aplikasi Seismik Attribute)
ANALISIS ASOSIASI APRIORI.
KLASIFIKASI.
Associasion Rule dengan RapidMiner
GUNAWAN Materi Kuliah [8]: (Sistem Pendukung Keputusan)
MODUL 10 APRIORI.
Pembobotan Kata (Term Weighting)
Arsitektur dan Model Data Mining
Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.
PERTEMUAN II VARIABEL & DATA 6-Dec-18.
KLASIFIKASI.
IKG2H3/ PERSAMAAN DIFERENSIAL DAN APLIKASI
Konsep Data Mining Ana Kurniawati.
ASSOCIATION RULE DAN PENERAPANNYA
DECISION SUPPORT SYSTEM [MKB3493]
Textbooks. Association Rules Association rule mining  Oleh Agrawal et al in  Mengasumsikan seluruh data categorical.  Definition - What does.
ASSOCIATION RULES APRIORI.
Transcript presentasi:

ANALISIS ASOSIASI BAGIAN 2 Tim Dosen Data Mining Fakultas Informatika

Atribut Kategoris Masalah : Bagaimana menerapkan analisisi asosiasi pada atribut yang bertipe kategoris? Solusi : Transformasi data menjadi “item-item” (Binary Item), sehingga bentuk data seperti data transaksi, baru diterapkan algoritma- algoritma pada metoda analisis asosiasi

Contoh Data Gender Education State Chat Online Shop Online Privacy Concern Female Graduate Illinois Yes Male College California No Michigan Virginia Minnesota Alaska High School Oregon Texas …

Data Hasil Transformasi Male Female Education=Graduate Education = College … Shop Online = Yes Shop Online =No 1

Issue yang harus dipertimbangkan (1) Beberapa nilai atribut kurang sering muncul untuk menjadi “frequent pattern”. Solusi yang diusulkan munculkan kategori baru sehingga yang kurang sering muncul nilainya menjadi lebih besar. Contoh : munculkan kategori “lain-lain”

Issue yang harus dipertimbangkan (2) Beberapa nilai atribut terlalu tinggi frekuensinya dibandingkan nilai atribut lainnya, sehingga dapat memunculkan “redundant pattern”. Solusi yang diusulkan lakukan preprocessing dengan menghilangkan atribut yang dianggap kurang penting atau redundant Contoh : {Computer at home= Yes, Shop Online = Yes}-> {Privacy Concern =Yes}

Issue yang harus dipertimbangkan (3) Waktu proses menjadi lama, terutama jika ada item yang terbentuk dengan frekuensi tinggi, shg candidate itemset yang terbentukpun banyak. Solusi : Hindari membentuk candidate itemset yang mengandung lebih dari satu item dari atribut yang sama, krn support countnya pasti nol Contoh : {State = X, State = Y, ….}

Atribut Kontinu Dikenal juga dengan nama quantitative association rules Preprocessing yang dapat dilakukan : - Metoda Diskritisasi - Metoda Statistik - Metoda Non diskritisasi

Metoda Diskritisasi Diskritisasi pada data kontinu, dilakukan dengan mengelompokkan nilai dari data kontinu tersebut pada sejumlah interval. Setelah itu diikuti dengan transformasi binarisasi data diskrit sebelum dapat dilakukan proses analisis asosiasi

Diskritisasi (2) Parameter kunci dalam proses diskritisasi adalah jumlah interval (range interval) yang digunakan untuk membagi data pada tiap atribut. Salah menentukan interval dapat berakibat tidak muncul rule yang memenuhi treshold atau justru terlalu banyak rule yang muncul

Contoh Data Age dibagi dalam interval sbb: Age [16,20) Age [20,24) Gender Age Income … Privacy Concern Female 26 90 K Yes Male 51 135 K No 29 80 K 45 120 K 31 95 K 25 55 K Data Age dibagi dalam interval sbb: Age [16,20) Age [20,24) Age [24,32) … Age [50,60)

Isu penting dalam proses diskritisasi (1) Proses komputasi menjadi mahal, perhatikan jika data terbagi menjadi k interval, maka akan ada k(k-1)/2 binary item yang harus dibentuk, dan jika item-item tersebut frequent, maka candidate itemset yang terbentukpun banyak. Solusi yang diusulkan : gunakan nilai treshold support yang maksimum

Isu penting dalam proses diskritisasi (2) Banyak redundant rule yang terbentuk Contoh : R1 : {Age [16,20), Gender = Male}-> {Chat Online = Yes} R2 : {Age [16,24), Gender = Male}-> {Chat Online = Yes} Seharusnya yang digunakan R2 saja , karena coverage nya lebih besar, jadi R1 merupakan redundant rule

Metoda Statistik Dalam pembentukan rule statistik yang digunakan adalah statistik deskriptif seperti rata- rata,median, variansi, dsb. Digunakan untuk menggambarkan populasi atribut yang dianggap menarik Untuk memvalidasi rule yang terpilih digunakan uji hipotesa

Metoda Non Diskritisasi Contoh penggunaan metoda non diskritisasi adalah text mining yang dikenal dengan algoritma Min-Apriori

Min-Apriori (Han et al) Document-term matrix: Contoh : W1 dan W2 cenderung muncul bersamaan

Min-Apriori Solusi yang potensial : Ubah menjadi matriks 0/1 dan gunakan algoritma yang ada ( mis. Apriori) Diskritisasi tidak diperlukan karena user justru menginginkan asosiasi antar kata bukan pada range kata- kata

Min-Apriori Setiap kata harus mempunyai nilai support 1.0 Bagaimana menentukan nilai support sbh kata? Normalisasi vektor kata – mis. menggunakan L1 norm Setiap kata harus mempunyai nilai support 1.0 Normalize

Min-Apriori Definisi support : Example: Sup(W1,W2,W3) = 0 + 0 + 0 + 0 + 0.17 = 0.17

Sifat Anti-monotone Support Contoh misal minsup = 0,6 Sup(W1) = 0.4 + 0 + 0.4 + 0 + 0.2 = 1 Sup (w2) = 1, sup (w3 ) = 0,99, sup( w4)= 1, sup (w5)= 1 Sup(W1, W2) = 0.33 + 0 + 0.4 + 0 + 0.17 = 0.9 sup(w1,w3) = 0,2 ; sup (w1,w4)= 0; sup (w1,w5)= 0,37 sup (w2,w3)= 0.17;s(w4,w5)=0.33 ; s(w3,w4)= 0.33; s( w2, w5) = 0.34; s(w3,w5)=0.83; s(w4,w5)= 0.33 Sup(W1, W2, W3) = 0 + 0 + 0 + 0 + 0.17 = 0.17 w1,w2,w3,w5 s (w1, w2, w3) = --> sudah pasti infrequent = 0.17 ; s (w1,w3,w5) = 0.2 --> krn w1 dan w3 tidak frequent maka sesuai prinsip apriori supersetnya pasti akan infrequent s ( w1,w2, w5)= 0.37 w2 dan w3 tidak frequent s( w2, w3, w5) = tridak prefquent sehingga item set yang dihasilkan dengan min support = 0,6 adalah 1. {W1,W2} 2. {w3,w5} W1 --> w2 = w2 --> w1 = w3 --> w5 = w5 --> w1 =

Latihan Transformasi data berikut sehingga bisa dilakukan analisis asosiasi, kemudian carilah frequent itemset dengan minsup=2