Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming Ketua Kelompok Dian Restiani 14.11.0226 Anggota : Wahyu Septi Anjar 14.11.0224 Patria Adhyaksa 14.11.0225 Afiatur Rohmah 14.11.0231 Indah Dwi Prawitasari 14.11.0234 Faiz Al-Hamidi 14.11.0235 Bella Crista C L 14.11.0236 Ifal Pandu Kiat 14.11.0237 Nandya Tiara N 14.11.0311
Stoplist dan Stemming Stoplist adalah yaitu proses pembuangan kata buang, seperti: tetapi, yaitu, sedangkan, dan sebagainya. Stemming adalah proses penghilangan / pemotongan dari suatu kata menjadi bentuk dasar yang merupakan salah satu cara yang digunakan untuk meningkatkan performa IR (Information Retrival)
Konsep Stoplist Bagian dari informasi yang tidak bermakna seperti halnya imbuhan, sehingga harus dihilangkan untuk mempercepat proses pengindeksan dan proses query. Misalnya: tetapi, yaitu, adalah, sedangkan, yang, untuk, dari, ke,pada, jika, maka, dan, di. Proses pembuangan stopword dilakukan dengan acuan kamus/basis data. Stopword yang akan dibuang terlebih dahulu disimpan didalam basis data untuk selanjutnya setiap kata yang ada dalam basis data akan dibuang oleh sistem. Stoplist adalah kumpulan dari stopword
Jenis Stopword Stopword Statis: stopword yang telah ditentukan dari awal sebelum dilakukan proses indeks dan filtering pada suatu sistem temu kembali informasi. Kelebihan: 1. proses filtering stopword lebih singkat 2. kemudahan dalam pemakaian dengan data lain yang menggunakan bahasa yang sama Kekurangan: Pada domain-domain tertentu akan terdapat kata-kata yang bukan stopword, tetapi dianggap stopword oleh domain tertentu. Seperti kata “resep” pada domain masakan Indonesia.
Jenis Stopword, lanjutan.. Stopword Dinamis: stopword yang dihasilkan suatu proses tertentu, proses tersebut biasanya melibatkan korpus yang akan digunakan. Kelebihan: Kemampunnya dalam beradaptasi dengan korpus atau domain yang spesifik, akurasi temu kembali informasi akan lebih baik jika dibandig menggunakan stopword statik. Kekurangan: Dibutuhkan proses komputasi tambahan untuk menghasilkan stopword.
Algoritma yang digunakan untuk menghilangkan stopword Memasukkan daftar stopword dari database ke dalam array stoplist Menampung input kata kunci pencarian ke dalam variable Memecah variable string menggunakan fungsi string split ke dalam array kata kunci Inisialisasi variable ketemy berisi nilai Boolean false Apakah elemen pada array kata kunci sama dengan elemen pada stoplist ? jika iya, lakukan langkah 6, jika tidak terpenuhi lakukan langkah 7. Ubah nilai variable ketemu menjadi true. Lakukan langkah 8. Lakukan langkah 4-5 hingga seluruh elemen pada array stoplist habis
Algoritma yang digunakan untuk menghilangkan stopword lanjutan... Apakah variable ketemy bernilai false ? jika kondisi terpenuhi, lakukan langkah 9, jika tidak terpenuhi lakukan langkah 10 Masukkan elemen array kata kunci yang dipilih ke dalam array hasil Lakukan langkah 4-9 hingga seluruh elemen pada array kata kunci habis. Dari algoritma di atas, akan dihasilkan sebuah array yang berisi kata kunci pencarian yang dimasukkan oleh pengguna namun sudah terbebas dari stopword.
Konsep Stemming Stemming merupakan proses penghilangan / pemotongan dari suatu kata menjadi bentuk dasar. Proses stemming diawali dengan tahap pencarian root kata dari tiap kata hasil filtering. Dalam prosesnya stemming menggunakan beberapa algoritma.
Tahap Stemming Tahap Stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentuk kata ke dalam suatu representasi yang sama. Contoh mudahnya dapat dilihat pada gambar proses stemming di bawah ini: Stemming Bahasa Indonesia Misalnya: Berkata kata Mengatakan kata Perkataan kata
Algoritma yang di gunakan untuk Stemming Bahasa Indonesia 1). Algoritma Stemming Porter digunakan sebagai stammer untuk bahasa inggris, porter stemmer dalam bahasa Indonesia akan menghasilkan keambiguan karena aturan morfologi bahasa Indonesia. Langkah-langkah algoritma ini : Hapus Particle Hapus Possesive Pronom Jika ada awalan pertama, hapus awalan pertama dilanjutkan dengan hapus akhiran (jika ada) / lanjutkan dengan hapus awalan kedua. Kata akhir = root Jika tidak ada awalan pertama, hapus awalan kedua dilanjutkan dengan hapus akhiran. Kata akhir = root
Algoritma yang di gunakan untuk Stemming Bahasa Indonesia 2). Algoritma Nazief & Adriani Stemmer Tahapannya : Cari kata yang akan distem dalam kamus (root word) Buang Inflection Suffixes (“lah”, “-kah”, “-ku”, “-mu”, atau “-nya”), particles (“-lah”, “-kah”, “-tah”, atau “-pun”), Possesive Pronous (“-ku”, “-mu”, atau “- nya”) Hapus Derivation Suffixes (“-i”, “-an”, atau “-kan”). Jika kata di temukan dalam kamus maka berhenti. Jika tidak maka....
Tabel-tabel aturan Tabel Aturan Untuk First Order Derivational Prefix Tabel Aturan Kombinasi Awalan Akhiran Yang Tidak Diijinkan Awalan Replacement Measure Condition Contoh Meng- NULL 2 Mengukur ukur Meny- S Menyapu sapu Men- Menduga duga Mem- P Memaksa paksa Membaca baca Me- Merusak rusak Peng- Pengukur ukur Peny- Penyapu sapu Pen- Penduga duga Pem- Pemaksa paksa Pembaca baca di- Diukur ukur Ter- Tersapu sapu Ke- Kekasih kasih Awalan Akhiran yang tidak diijinkan Be- -i di- -an Ke- -i, -kan Me- Se-
Lanjutan tahapan Algoritma Nazief & Adriani Stemmer Jika kata tidak ditemukan dalam kamus maka langkah selanjutnya: Akhiran “-an” dihapus, dan huruf terakhir “k” maka “k” juga di hapus. Algoritma berhenti jika kata akhir ada dalam kamus Hapus prefik, jika pada langkah sebelumnya menghapus sufiks maka periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Algoritma berhenti Melakukan Recording Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai
Lanjutan... Algoritma Algoritma Nazief & Adriani Stemmer memiliki keterbatasan, untuk itu perlu di tambahkan aturan : Jika kata yang dihubungkan sama ( buku-buku) maka root word adalah bentuk tunggalnya yaitu (buku), contoh lain (berbalas-balasan ) maka pisahkan dulu (berbalas) dan ( balasan) sehingga root word pada kedua kata tersebut (balas). Berbeda dengan (bolak-balik) root word kedua kata ini berbeda maka kata akhirnya (bolak-balik) Tambahan bentuk awalan dan akhiran serta aturannya, untuk tipe awalan “mem” “memp” hasilnya mem (mempertemukan memertemukan) “meng” “mengk” hasilnya meng (mengkuak menguak) Pebandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk stemming dokumen Bahasa Indonesia: pembanding Stemming Porter Nazief & Adriani Proses Lebih cepat Labih lambat Kekuratan (presisi) Lebih kecil Lebih besar Pengaruh kamus terhadap keakuratan Tidak terlalu memperhatikan Memperhatikan kamus yang di pakai
Daftar Pustaka 1. blog : https://ranuchi.wordpress.com/2010/05/18/information-retrieval- intro/ 2. Bab 2 : http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/6830/ Bab%202.pdf?sequence=11 3. queri ganda : http://repository.ui.ac.id/contents/koleksi/2/c737ea3ac21e7be11f286ce3a a0b1098d96fb350.pdf 4. https://yudiagusta.files.wordpress.com/2009/11/196-201-knsi09-036- perbandingan-algoritma-stemming-porter-dengan-algoritma-nazief- adriani-untuk-stemming-dokumen-teks-bahasa-indonesia.pdf 5. https://ti.ukdw.ac.id/ojs/index.php/eksis/article/download/363/133 6. http://download.portalgaruda.org/article.php?article=414302&val=8924&ti tle=Stopword%20Dinamis%20dengan%20Pendekatan%20Statistik