STOPLIST DAN STEEMING Temu Balik Informasi
Anggota Dwi Ngafifudin (14.11.0241) Taufik Zulkarnaen (14.11.0244) Zaen Nurrohman (14.11.0238) Ulvah Windi Rahayu (14.11.0249) Deni Kurniawan (14.11.0240) Renita Isnaeni (14.11.0246) Nurhanif (14.11.0247) Fahrizal Fahmi (14.11.0245)
STOPLIST Secara garis besar Stoplist/ StopWord yaitu proses penghapusan kata-kata yang sering ditampilkan dalam dokumen. STEEMING Yaitu proses mengubah suatu kata bentukan menjadi kata dasar
1 STOPLIST
Stoplist adalah proses yang dilakukan setelah proses tokenisasi. Proses stoplist merupakan proses pembuangan kata penghubung atau kata dalam bahasa indonesia, seperti dan, maka, lalu, dalam, yang, akan, dari, pada, itu, telah, dengan, dan sebagainya. Stoplist adalah proses yang dilakukan setelah proses tokenisasi. Stopword adalah mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau word list (menyimpan kata penting). (http://ejournal.uin-suska.ac.id/index.php/sitekin/article/viewFile/563/535 )
Proses stopword removal merupakan proses penghapusan term yang tidak memiliki arti atau tidak relevan. Proses ini dilakukan pada saat proses tokenisasi.
2 STEMMING
Stemming adalah proses pemotongan atau penghilangan imbuhan dari suatu kata. Menurut Lovins (Lovins, 1968, p. 22), sebuah algoritma stemming adalah prosedur komputasi yang mengurangi kata dengan akar yang sama ke bentuk umum, biasanya dengan pengupasan setiap kata akhiran yang derivasional dan infleksional. (http://journal.uinjkt.ac.id/index.php/ti/article/viewFile/2031/1586)
(http://ejournal.undip.ac.id/index.php/jsinbis)
Ada tiga jenis metode stemming, antara lain : Successor Variety (SV) : lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter. Affix Removal : membuang suffix dan prefix dari term menjadi suatu stem.
Algoritma Lovins steemer lovins stemmer menggunakan context-sensitive. Stemmer ini dikembangkan oleh Julie Beth Lovins dari Institut Teknologi Massachusetts pada tahun 1968. Ini adalah awal dari penggunaan stemming yang ditargetkan untuk temu kembali informasi dan Computational Linguistics (Interaksi Komputer dan Manusia mengunakan Bahasa Alami). Lovins steemer
Algoritma Paice/Husk Stemmer Paice/Husk stemmer menggunakan satu table atau daftar aturan yang masing-masing bagian mempunyai tugas untuk memotong imbuhan. Teknik memotong yang digunakan adalah menghindari masalah pengejaan kecuali diuraikan lebih awal. Dengan mengganti kata akhiran bukan dengan memotong akhiran, stemmer melakukannya tanpa memisahkan langkah-langkah dalam proses stemming. Ini membantu memelihara efisiensi dari algoritma akan membuat menjadi lebih efektif. Paice/Husk Stemmer
Aturan dari indeks kata dasar dan kata berimbuhan Sebuah akhir dari satu atau lebih karakter, yang diselenggarakan di urutan terbalik Sebuah bendera utuh opsional '*' Sebuah digit menentukan total penghapusan (nol atau lebih) Sebuah string opsional tambahkan satu atau lebih karakter 5) Sebuah simbol kelanjutan, '>' atau '.'
Algoritma Porter Stemmer Porter stemmer adalah pengembangan stemmer yang dibuat oleh Martin Porter di Universitas Cambridge pada tahun 1980. Stemmer berdasarkan pada akhiran di dalam bahasa Inggris (kurang lebih 1200 kata). Kebanyakan dengan menggunakan kombinasi akhiran yang sederhana. Porter Stemmer
Gambar 5. Flowchart Stremmer Porter
Algoritma Steeming Bahasa Indonesia Algoritma Nazrief & Andriani Algoritma ini paling sering dibicarakan dalam steeming bahasa indonesia. Algoritma ini merupakan hasil penelitian internal UI (Universitas Indonesia) dan tidak dipublikasikan secara umum. Namun, algoritma ini mempunyai dua masalah, yang pertama kemampuannya tergantung dari besarnya database kata dasar, dan yang kedua, hasil steeming tidak selalu optimal untuk aplikasi information retrieval. Steeming Bahasa Indonesia Algoritma Nazrief & Andriani
Algoritma Algoritma Winnowing Algoritma Winnowing merupakan algoritma yang digunakan untuk deteksi penjiplakan. Input dari algoritma ini adalah dokumen teks yang diproses sehingga menghasilkan output berupa kumpulan nilai-nilai hash, nilai hash merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter. Algoritma Winnowing
Algoritma Stemming Menggunakan Pendekatan Confix-Stripping Pada Tahapan ini merupakan pengolahan Stemming dilakukan berdasarkan input daftar filter term, proses Stemming ini menggunakan algoritma Confix- Stripping. Langkah pertama pada algoritma stemmer ini dilakukan pengecekan rule Precedence yakni larangan kombinasi awalan danakhiran, kemudian mencocokkan term pada elemen diindex tertentudengan daftar “kata dasar” dalam database kamus. Stemming Menggunakan Pendekatan Confix-Stripping
Thank You