ABDUL AZIS ABDILLAH ABDUL AZIS ABDILLAH

Slides:



Advertisements
Presentasi serupa
Sumber: Pengantar Optimasi Non-Linier Ir. Djoko Luknanto, M.Sc., Ph.D.
Advertisements

TEKNIK OPTIMASI MULTIVARIABEL DENGAN KENDALA BENTUK KHUSUS
Statistical Process Control using Support Vector Machines: A Case Study Stephanie Mayang P
Sistem Pendukung Keputusan
PI, Manajemen Informatika, Fakultas Ilmu Komputer, Universitas Gunadarma, PENGGUNAAN APLIKASI YAHOO SEARCH HACK for further detail, please visit
PENDAHULUAN.
StopList dan Stemming yasmi afrizal
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
Chapter 9 ALGORITME Cluster dan WEKA
Data Mining.
Pengenalan Pola/ Pattern Recognition Introduction
Mata Kuliah :Web Mining Dosen
Support Vector Machine (SVM)
Sistem Temu Kembali Informasi/ Information Retrieval
FUZZY INFORMATION RETRIEVAL
Information Retrieval
Pengenalan Supervised dan Unsupervised Learning
Support Vector Machine (SVM)
1 Pertemuan 7 Estimable parameter Matakuliah: I0204/Model Linier Tahun: Tahun 2005 Versi: revisi.
Final Project Temu Balik Informasi
DATA MINING (Machine Learning)
Sistem Berbasis Fuzzy Materi 4
Data Mining Junta Zeniarja, M.Kom, M.CS
SEARCH ENGINE.
Seminar Ganang Mahendra B G Mei 2009.
SUPPORT VECTOR MACHINE
Oleh : Desca Marwan Toni (G )
K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN
Implementasi vector space model untuk pencarian dokumen
Konsep, Metode dan Model Temu Kembali Informasi
Latent Semantic Indexing (LSI)
KATEGORISASI TEKS MENGGUNAKAN N-GRAM UNTUK DOKUMEN BERBAHASA INDONESIA
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
Oleh: Ineza Nur Oktabroni (G )
IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE     Oleh: Utis Sutisna G  
Penambahan Operasi OLAP dan Fungsi Agregat pada Temporal Data Warehouse Tanaman Pangan Kabupaten Karo Oleh : Karina Gusriani – G Pembimbing : Ibu.
MUHAMMAD RAFI MUTTAQIN G
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
PEMBUATAN POHON KEPUTUSAN
Data Mining Junta Zeniarja, M.Kom, M.CS
Sistem Temu-Balik Informasi yasmi afrizal
VECTOR SPACE MODEL.
Pengenalan Pola Materi 1
Konsep Data Mining Ana Kurniawati.
Konsep Support Vector Machine
UNIVERSITAS GUNADARMA 2010
StopList dan Stemming yasmi afrizal
Ir. Julio Adisantoso, M.Kom.
Metode penelitian lesson #10
Oleh : Rahmat Robi Waliyansyah, M.Kom.
METODE DUA FASE.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Statistika, Vol. 2, No. 2, November 2014
Similarity Analisis.
USING DATA MINING TO MODEL PLAYER EXPERIENCE
Metode Data Mining “ Self-Organizing Map [SOM] ” Taskum Setiadi ADVANCE MACHINE LEARNING STMIK Nusa Mandiri Jakarta2016 ADVANCE MACHINE LEARNING.
DATA MINING with W E K A.
TEKNIK KLASIFIKASI DAN PENGENALAN POLA
Sistem Temu Kembali Informasi/ Information Retrieval
Pembimbing : Aziz Kustiyo, S.Si., M.Kom. Endang Purnama Giri, S.Kom.
Nugraha Iman Santosa ( )
Fungsi diskriminan linear, klasifikasi diskret dan regresi
SEARCH ENGINE.
TEKNIK KLASIFIKASI DAN PENGENALAN POLA
Peta Konsep. Peta Konsep A. Sistem Persamaan Linier dengan dua Variabel.
Pengelompokan Dokumen (Document Clustering)
Konsep Data Mining Ana Kurniawati.
IKG2B3/METODE KOMPUTASI
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Machine Learning (Stock Prediction using Artificial Neural Networks) Mursalim P Universitas Dian Nuswantoro 2019.
Transcript presentasi:

ABDUL AZIS ABDILLAH ABDUL AZIS ABDILLAH 1006786032 UNIVERSITAS INDONESIA UJI KINERJA LEARNING TO RANK MENGGUNAKAN METODE SUPPORT VECTOR REGRESSION ABDUL AZIS ABDILLAH 1006786032 UNIVERSITAS INDONESIA

LATAR BELAKANG Tahun 2005, search engine Yahoo! telah mengindeks lebih dari 19.2 milyar dokumen.1 Perubahan jumlah halaman website dari tahun 2000-2007.2 http://www.iht.com/articles/2005/08/15/business/web.php http://therawfeed.com/

ABDUL AZIS ABDILLAH Saat ini telah dikembangkan banyak sekali metode rangking, tetapi hasil yang diperoleh masih belum optimal. (Tie-Yan Liu, SIGIR, 2008) Salah satu solusi untuk menyelesaikan masalah perangkingan adalah dengan Machine Learning. (Tie-Yan Liu, SIGIR, 2008) Machine Learning adalah metode yang dapat belajar dari data historis sehingga menjadi cerdas atau memiliki kemampuan generalisasi terhadap data baru yang belum dipelajari sebelumnya, misal dalam memprediksi, mengklasifikasi, merangking, dll. UNIVERSITAS INDONESIA

Dengan machine learning, kita mencoba mempelajari pola pengguna dalam menentukan relevansi suatu web terhadap suatu query yang diberikan. Topik ini dikenal dengan nama Learning to Rank. Metode SVM yang digunakan untuk menyelesaikan persoalan Learning to Rank yaitu metode Support Vector Regression (SVR).

PERUMUSAN MASALAH TUJUAN PENELITIAN Bagaimana kinerja Learning to Rank menggunakan metode Support Vector Regression (SVR)? TUJUAN PENELITIAN Mencari nilai parameter optimal agar dapat membangun model perangkingan yang optimal untuk masalah Learning to Rank dengan metode SVR. Simulasi kinerja Learning to Rank dengan metode SVR menggunakan dataset LETOR.

METODE PENELITIAN Penelitian dilakukan dengan mempelajari karya-karya ilmiah yang disajikan dalam bentuk buku, disertasi ataupun paper yang relevan dengan topik penelitian. Kemudian penelitian dilanjutkan dengan melakukan eksperimen menggunakan software SVMlight terhadap dataset yang digunakan.

SUPPORT VECTOR REGRESSION Support Vector Regression (SVR) merupakan perluasan masalah SVM untuk masalah regresi. Misal diberikan data pembelajaran fungsi linier yang digunakan sebagai fungsi regresi memiliki bentuk umum sebagai berikut: Pada fungsi regresi linier untuk mendapatkan parameter bobot w dan bias b, kita meminimumkan fungsi error quadratic yang diregularisasi berikut ini (Bishop, 2006):

Dengan menggantikan fungsi error quadratic dengan fungsi error -insensitive yang diperkenalkan oleh Vapnik, SVM dapat digunakan untuk menyelesaikan masalah regresi (Scholkopf, 2002). untuk mendapatkan parameter bobot w dan bias b pada fungsi regresi linier, fungsi error -insensitive yang diregularisasi berikut ini harus diminimumkan Dimana fungsi error -insensitive didefinisikan sebagai: Dengan

Untuk data target ti yang terletak pada -tube akan memenuhi kondisi: Untuk data target ti yang terletak diluar -tube , maka kita membutuhkan variabel slack , (Hamel, 2011) dimana : Sehingga Dengan demikian semua data pembelajaran akan memenuhi

meminimumkan fungsi error -insensitive ekuivalen dengan masalah optimasi berikut (Scholkopf, 2002) yang merupakan masalah optimasi pada SVR. Tujuan dari masalah optimasi ini adalah untuk mencari nilai optimal w dan b yang meminimumkan error. Untuk mempresentasikan ke bentuk dual, digunakanlah perkalian Lagrange, dimana merupakan pengali Lagrange yaitu: Dengan

Dengan menurunkan L terhadap w, b, sama dengan nol, maka: Substitusikan hasil turunan tersebut ke persamaan Lagrange, sehingga diperoleh: Dengan demikian bentuk dual dari masalah SVR yaitu:

Misalkan merupakan solusi formulasi dual pada masalah SVR, maka vektor bobot w* dapat dinyatakan sebagai : sehingga fungsi linier adalah: Berdasarkan vektor bobot w* hanya data dengan (support vector) yang berperan pada fungsi linier SVR, sehingga dapat ditulis menjadi: Dimana j menunjukkan indeks dari data yang menjadi support vector dan SV merupakan himpunan indeks support vector.

Berdasarkan persyaratan Karush-Kuhn-Tucker (Bishop, 2006) Dengan memilih , maka berdasarkan pers 3 didapat dan berdasarkan pers 1 didapat Dengan mensubstitusikan ke akan diperoleh , dimana . Sehingga didapat

NON LINIER SVR Jika suatu data di ruang input tidak dapat di pisahkan oleh hyperplane linier. Transformasikan data ke ruang Feature sehingga data tersebut dapat dipisahkan oleh hyperplane linier di ruang Feature. dimana dimensi dari F lebih besar dari dimensi X. Pada kasus data yang nonlinier, memetakan data dari ruang input ke ruang Feature dapat membuat data dipisahkan oleh sebuah hyperplane linier (Scholkopf, 2002). fungsi regresi yang digunakan pada kasus nonlinier adalah

fungsi keputusan di ruang Feature dapat dinyatakan sebagai : Karena untuk mengetahui fungsi transformasi yang tepat agar dapat memisahkan data di ruang Feature sangat sulit dan perhitungan dot product di ruang Feature mungkin menjadi sangat besar. Solusinya menggunakan Berikut diberikan contoh penggunaan fungsi Kernel: Kernel polinomial dengan , Tujuan digunakannya fungsi Kernel adalah untuk menggambarkan dot product di ruang Feature. adalah suatu fungsi Kernel dengan fungsi pemetaan yaitu suatu fungsi pemetaan dari R2 ke R3.

Sehingga fungsi keputusan dapat dinyatakan sebagai : dengan Fungsi Kernel yang umum digunakan adalah RBF : Polynomial : Linier :

ABDUL AZIS ABDILLAH EKSPERIMEN Percobaan Learning to Rank menggunakan metode Support Vector Regression (SVR). Software yang digunakan yaitu SVMlight.3 Dataset yang digunakan adalah LETOR4 4.0 MQ2008. Spesifikasi komputer yang digunakan untuk eksperimen yaitu Processor Intel Pentium(R) Dual-Core T4200 @ 2.0GHz 1.20 GHz, RAM 3.5 GB dan OS Windows XP SP3. http://svmlight.joachims.org/ http://research.microsoft.com/users/LETOR/ UNIVERSITAS INDONESIA

ABDUL AZIS ABDILLAH DATASET LETOR adalah koleksi data untuk learning to rank yang terbuka untuk umum yang diorganisasi oleh microsoft. Contoh dataset LETOR MQ2008 UNIVERSITAS INDONESIA

FITUR PADA DATASET No Deskripsi 1 TF of body 17 DL of anchor 33 BM25 of URL 2 TF of anchor 18 DL of title 34 LMIR.ABS of URL 3 TF of title 19 DL of the URL 35 LMIR.DIR of URL 4 TF of URL 20 DL of document 36 LMIR.IM of URL 5 TF of document 21 BM25 of body 37 BM25 of document 6 IDF of body 22 LMIR.ABS of body 38 LMIR.ABS of document 7 IDF of anchor 23 LMIR.DIR of body 39 LMIR.DIR of document 8 IDF of title 24 LMIR.IM of body 40 LMIR.IM of document 9 IDF of URL 25 BM25 of anchor 41 PageRank 10 IDF of document 26 LMIR.ABS of anchor 42 Inlink number 11 TF * IDF of body 27 LMIR.DIR of anchor 43 Outlink number 12 TF * IDF of anchor 28 LMIR.IM of anchor 44 Number of slash in URL 13 TF * IDF of title 29 BM25 of title 45 Length of URL 14 TF * IDF of URL 30 LMIR.ABS of title 46 Number of child page 15 TF * IDF of document 31 LMIR.DIR of title 16 DL of body 32 LMIR.IM of title

DESAIN EKSPERIMEN Five Cross Validation FOLD TRAINING VALIDATION TEST {S1, S2, S3} S4 S5 Fold 2 {S2, S3, S4} S1 Fold 3 {S3, S4, S5} S2 Fold 4 {S4, S5, S1} S3 Fold 5 {S5, S1, S2} FOLD TRAINING VALIDATION TEST Fold 1 9630 2707 2874 Fold 2 9404 2933 Fold 3 8643 3635 Fold 4 8514 3062 Fold 5 9442

UKURAN EVALUASI RANGKING Dataset MQ2008 memiliki tiga label relevansi yaitu 2 (highly relevant), 1 (relevant), 0 (not relevant). Untuk menguji akurasi rangking pada dataset MQ2008, digunakan tiga Ukuran Evaluasi Rangking (Jun Xu, dkk. 2010): Precision at position n untuk query q (P@n) : misalkan diperoleh hasil perangkingan untuk suatu query q sebagai berikut : {2, 1, 1, 0, 2, 0}, maka P@1 sampai P@6 bernilai {1, 2/2, 3/3, 3/4, 4/5, 4/6, 5/7}, dimana 2 dan 1 dianggap relevant. Mean Average Precision untuk query q (MAP) : Berdasarkan contoh P@n, kita tahu bahwa P@n yang relevan adalah P@1, P@2, P@3, P@5} MAP didapat dengan mencari nilai rata-rata AP untuk semua query.

Normalized Discount Cumulative Gain at position n (NDCG) : r(j) merupakan relevansi dari posisi dokumen ke j dari hasil perangkingan, dan Zn merupakan normalisasi yang membuat perfect rangking NDCG bernilai 1.

HASIL EKSPERIMEN PADA DATA TRAINING Parameter P@1 P@3 P@5 MAP NDCG@1 NDCG@3 NDCG@5 C  0.000001 0.1 0.437492 0.373572 0.331453 0.456963 0.358688 0.402064 0.442482 0.000002 0.450673 0.387615 0.344217 0.474702 0.37442 0.421094 0.46409 0.000005 0.444722 0.384208 0.345831 0.473729 0.371588 0.419901 0.466716 0.00001 0.449406 0.38832 0.347361 0.475577 0.372302 0.421926 0.466803 0.00002 0.443448 0.383074 0.345152 0.471472 0.371731 0.415391 0.462752 0.00005 0.448549 0.386477 0.347278 0.47514 0.374279 0.421287 0.466913 0.0001 0.453225 0.387044 0.34685 0.477238 0.378106 0.421963 0.467164 0.0002 0.447699 0.383642 0.347107 0.476004 0.373715 0.419104 0.46692 0.0005 0.433672 0.362101 0.320916 0.447676 0.35827 0.393336 0.432554 0.001 0.433265 0.352916 0.309965 0.431684 0.360698 0.381402 0.416406

HASIL EKSPERIMEN PADA DATA VALI Parameter P@1 P@3 P@5 MAP NDCG@1 NDCG@3 NDCG@5 C  0.000001 0.1 0.417108 0.351195 0.320919 0.438451 0.34056 0.379038 0.424365 0.000002 0.427258 0.374558 0.33648 0.461052 0.351571 0.406853 0.451897 0.000005 0.419606 0.372443 0.339544 0.461018 0.347316 0.412287 0.460727 0.00001 0.424718 0.377974 0.340565 0.46354 0.352423 0.414016 0.458885 0.00002 0.370325 0.336234 0.459651 0.354968 0.407279 0.453228 0.00005 0.425984 0.375848 0.338016 0.463353 0.352001 0.411877 0.45875 0.0001 0.420897 0.374144 0.338272 0.464064 0.351154 0.410704 0.457369 0.0002 0.428524 0.373292 0.341841 0.464375 0.357937 0.411686 0.461143 0.0005 0.400465 0.346075 0.308135 0.42402 0.330734 0.370474 0.409141 0.001 0.38268 0.318477 0.285479 0.401441 0.318044 0.349384 0.382654

ABDUL AZIS ABDILLAH UNIVERSITAS INDONESIA

Dari beberapa parameter C yang di uji dengan =0 Dari beberapa parameter C yang di uji dengan =0.1, diperoleh kesimpulan sebagai berikut: Nilai P@1 terbaik pada data training diperoleh saat C=0.0001 dan =0.1 dengan nilai 0.453225, sedangkan pada data vali diperoleh saat C=0.0002 dan =0.1 dengan nilai 0.428524. Nilai P@3 terbaik pada data training diperoleh saat C=0.00001 dan =0.1 dengan nilai 0.38832, sedangkan pada data vali diperoleh saat C=0.00001 dan =0.1 dengan nilai 0.377974. Nilai P@5 terbaik pada data training diperoleh saat C=0.00001 dan =0.1 dengan nilai 0.347361, sedangkan pada data vali diperoleh saat C=0.0002 dan =0.1 dengan nilai 0.341841. Nilai MAP terbaik pada data training diperoleh saat C=0.0001 dan =0.1 dengan nilai 0.477238, sedangkan pada data vali diperoleh saat C=0.0002 dan =0.1 dengan nilai 0.464375.

Nilai NDCG@1 terbaik pada data training diperoleh saat C=0 Nilai NDCG@1 terbaik pada data training diperoleh saat C=0.0001 dan =0.1 dengan nilai 0.378106, sedangkan pada data vali diperoleh saat C=0.0002 dan =0.1 dengan nilai 0.357937. Nilai NDCG@3 terbaik pada data training diperoleh saat C=0.0001 dan =0.1 dengan nilai 0.421963, sedangkan pada data vali diperoleh saat C=0.00001 dan =0.1 dengan nilai 0.414016. Nilai NDCG@5 terbaik pada data training diperoleh saat C=0.0001 dan =0.1 dengan nilai 0.467164, sedangkan pada data vali diperoleh saat C=0.0002 dan =0.1 dengan nilai 0.461143. Dapat disimpulkan parameter optimal dari beberapa parameter C yang digunakan, yaitu C=0.0002 dan =0.1. Parameter P@1 P@3 P@5 MAP NDCG@1 NDCG@3 NDCG@5 C  0.0002 0.1 0.422162 0.373289 0.336227 0.462019 0.352431 0.414021 0.458194

DAFTAR PUSTAKA Bishop, C. M. 2006. Pattern Recognition and Machine Learning. Springer.Bishop, C.H. 2006. Pattern Recognition And Machine Learning. Springer. Hang Li. 2011. Learning to Rank for Information Retrieval and Natural Language Processing. Morgan &Claypool PublishersHang Li. 2011. Tie-Yan Liu. 2011. Learning to Rank for Information Retrieval. Springer. Jun Xu,. Tie-Yan Liu,. Hang Li,. Tao Qin,. Wenying Xiong,. 2007. LETOR:Benchmark Dataset for Research on Learning to Rank for Information Retrieval. SIGIR 2007: Workshop on Learning to Rank for Information Retrieval. Cristianni, Nello & Shawe-taylor, John. 2000. An Introduction to Support Vector Machines. Cambridge : Cambridge University Press. Scholkopf, B & Smola, A. 2002. Learning with Kernels. The MIT Press, Cambridge, Mas-sachusetts. Hamel, Lutz. 2009. Knowledge Discovery with Support Vector Machines. New Jersey: John Wiley & Sons Inc. Witten, I. H,. Frank, Eibe,. Hall, Mark A. 2011. Data Mining Practical Machine Learning Tools and Techniques. Burlington, USA: Morgan Kaufmann Publishers.

Masalah optimasi maksimum margin SVM adalah: Masalah optimasi untuk soft margin SVM adalah (Bishop,2006): dimana C > 0 adalah parameter yang menentukan besarnya penalti akibat kesalahan dalam klasifikasi data. Masalah optimasi SVR adalah: dimana C > 0 adalah parameter yang menentukan besarnya penalti akibat kesalahan dalam klasifikasi data.