SUPPORT VECTOR MACHINE LAMPIRAN SUPPORT VECTOR MACHINE Hyperplane yang terbaik diperoleh dengan memaksimalkan margin dan melewati pertengahan antara dua kelas Margin : minimum jarak antara hyperplane dengan training sample Proses learning pada SVM : mencari support vector untuk memperoleh hyperplane terbaik Model linear yang digunakan sebagai hyperplane memiliki bentuk umum sebagai berikut: Hyperplane Support Vector Hyperplane Support Vector Margin UNIVERSITAS INDONESIA
LINEARLY SEPARABLE Cara memaksimalkan margin sbb : : data : kelas Jarak antara hyperplane dengan sembarang data xn adalah: (2) Memaksimumkan margin dapat dideskripsikan sebagai (3) d Margin (1)
Data yang terdekat dengan hyperplane Semua data pembelajaran akan memenuhi Masalah optimasi sebelumnya dapat disederhanakan menjadi memaksimumkan 1/w yang ekuivalen dengan meminimumkan w2 Sehingga masalah optimasinya menjadi (Primal): Penentuan nilai parameter w dan b menjadi masalah pemrograman kuadrat
Untuk mempresentasikan ke bentuk dual, digunakanlah perkalian Lagrange, dimana an0 ,yaitu: Fungsi Lagrange L harus diminimumkan terhadap variabel (primal) w dan b dan dimaksimumkan terhadap variabel (dual) an : Substitusikan hasil turunan tersebut ke persamaan Lagrange, sehingga menjadi:
BUKTI
Substitusikan persamaan (A) dan (B) ke persamaan Lagrange sbb:
Sehingga bentuk dual dari masalah margin maksimum adalah: Solusi dari pemrograman kuadrat bentuk dual tersebut adalah nilai maksimum a, misal a*, sehingga:
Hanya data dengan an*>0 (support vector) yang berperan pada persamaan hyperplane, sehingga dapat dinyatakan sebagai: Dimana m menunjukkan indeks dari vektor-vektor yang menjadi support vector dan SV merupakan himpunan indeks support vector. Selanjutnya, b dapat dicari dengan cara sbb: Dimana SV merupakan himpunan indeks support vector, dan NS adalah jumlah semua support vektor.
SOFT MARGIN Pada perhitungan sebelumnya, sesuai dengan pers. (7), data diasumsikan 100% dapat terklasifikasikan dg benar (Hard Margin). Padahal dalam kenyataannya tidak demikian. Umumnya data tidak dapat terklasifikasikan 100% benar, sehingga asumsi di atas tidak berlaku dan solusi tidak dapat ditemukan. Soft Margin: Melunakkan constraint dengan memberikan toleransi data tidak terklasifikasi secara sempurna.
Untuk merealisasikan soft margin, diperkenalkan variabel slack, n 0, n=1,…,N dengan satu variabel slack untuk masing-masing data pembelajaran. Variabel slack bernilai n =|tn-y(xn)|, sehingga n = 0, jika data terletak pada canonical hyperplane dan sisi yang benar. 0 < n 1, jika data terletak diantara hyperplane dan canonical hyperplane dengan sisi yang benar n > 1, jika data terletak pada sisi yang salah
Bentuk primal dari masalah optimasi hard margin adalah: Maka bentuk primal dari masalah optimasi untuk soft margin adalah: C>0 merupakan parameter yang mengkontrol tradeoff antara margin dan error klasifikasi n. Semakin besar nilai C, berarti pinalti terhadap kesalahan menjadi semakin besar, sehingga proses training menjadi lebih ketat.
Untuk mempresentasikan ke bentuk dual, digunakanlah perkalian Lagrange, dimana an0, n0 ,yaitu: Fungsi Lagrange L harus diminimumkan terhadap variabel (primal) dan dimaksimumkan terhadap variabel (dual) :
Substitusikan hasil turunan tersebut ke persamaan Lagrange, sehingga menjadi: Sehingga bentuk dual dari masalah soft margin maksimum adalah:
Solusi dari pemrograman kuadrat bentuk dual tersebut adalah nilai maksimum a, misal a*, sehingga: Hanya data dengan an*>0 (support vector) yang berperan pada persamaan hyperplane, sehingga dapat dinyatakan sebagai: Dimana m menunjukkan indeks dari vektor-vektor yang menjadi support vector dan SV merupakan himpunan indeks support vector.
FUNGSI KERNEL SVM hanya mampu menyelesaikan masalah yang sifatnya linearly separable. Agar dapat dipakai pada kasus non linier, data yang berada pada ruang vektor awal, harus dipetakan ke ruang vektor baru yang berdimensi lebih tinggi. Sehingga kedua buah data dapat dipisahkan secara linier oleh sebuah hyperplane. Teknik komputasi ini disebut Kernel Trick, yaitu menghitung dot product dua buah vektor di ruang vektor baru dengan memakai kedua buah vektor tersebut di ruang vektor awal.
Fungsi kernel yang sering dipakai dalam SVM Polynomial Gaussian Kelas - Fungsi kernel yang sering dipakai dalam SVM Polynomial Gaussian Sigmoid Kelas +
LAMPIRAN Salah satu metode klasik untuk merangking halaman web adalah berdasarkan nilai cosine similarity. Misal d adalah vektor web, q adalah vektor query, masing-masing dengan panjang n, maka cosine similarity adalah: q d2 d1 UNIVERSITAS INDONESIA
Contoh Kasus Metode Cosine Similarity 1. Ekstrak term terhadap query dan dokumen Diketahui terdapat tiga dokumen sebagai berikut: d1 : Bursa pencalonan presiden mulai ramai. d2 : Perdagangan saham mulai ramai di Surabaya. d3 : bursa saham di Jakarta semakin meningkat. Query yang dimasukkan adalah “Bursa efek Jakarta”. Jadi dokumen yang paling relevan adalah?? Term q d1 d2 d3 bursa 1 pencalonan presiden mulai ramai perdagangan saham menurun di surabaya jakarta semakin meningkat efek
2. Menghitung Kemiripan Vektor Query q dengan Setiap Dokumen d 3. Tabel Dokumen Setelah Diurutkan Hasil perhitungan cosine similarity untuk setiap dokumen. Dapat disimpulkan dokumen yang paling relevan dengan query “bursa efek Jakarta” adalah d3. Sim(q,d1) Sim(q,d2) Sim(q,d3) 0.258 0.471
DAFTAR PUSTAKA Arens, Robert James. 2009. Learning to Rank Documents with Support Vector Machines Via Active Learning. Disertasi, Universitas Iowa. Bishop, C.H. 2006. Pattern Recognition And Machine Learning. Springer. Chapelle, Olivier,. Chang, Yi. 2011. Yahoo! Learning to Rank Challenge Overview. JMLR: Workshop and Conference Proceedings 14 (2011) 1-24. Li, Hang. 2011. Learning to Rank for Information Retrieval and Natural Language Processing. Morgan & Claypool Publishers. Liu, Tie-Yan. 2008. Learning to Rank for Information Retrieval. Singapura: SIGIR ‘08. Liu, Tie-Yan. 2009. Learning to Rank for Information Retrieval. Foundation and Trends in Information Retrieval: Vol. 3, No. 3. Liu, Tie-Yan. 2011. Learning to Rank for Information Retrieval. Springer. Liu, Tie-Yan,. Xu, Jun,. Qin, Tao,. Xiong, Wenying,. Li, Hang. LETOR: Benchmark Dataset for Research on Learning to Rank for Information Retrieval. SIGIR 2007 Workshop on Learning to Rank for Information Retrieval. Qin, Tao,. Liu, Tie-Yan,. Xu, Jun,. Li, Hang,. 2009. LETOR: A Benchmark Collection for Research on Learning to Rank for Information Retrieval. Springer Science and Business Mdia, LLC 2009.