Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

STOPLIST DAN STEEMING Temu Balik Informasi.

Presentasi serupa


Presentasi berjudul: "STOPLIST DAN STEEMING Temu Balik Informasi."— Transcript presentasi:

1 STOPLIST DAN STEEMING Temu Balik Informasi

2 Anggota Dwi Ngafifudin (14.11.0241) Taufik Zulkarnaen (14.11.0244)
Zaen Nurrohman ( ) Ulvah Windi Rahayu ( ) Deni Kurniawan ( ) Renita Isnaeni ( ) Nurhanif ( ) Fahrizal Fahmi ( )

3 STOPLIST Secara garis besar Stoplist/ StopWord yaitu proses penghapusan kata-kata yang sering ditampilkan dalam dokumen. STEEMING Yaitu proses mengubah suatu kata bentukan menjadi kata dasar

4 1 STOPLIST

5 Stoplist adalah proses yang dilakukan setelah proses tokenisasi.
Proses stoplist merupakan proses pembuangan kata penghubung atau kata dalam bahasa indonesia, seperti dan, maka, lalu, dalam, yang, akan, dari, pada, itu, telah, dengan, dan sebagainya. Stoplist adalah proses yang dilakukan setelah proses tokenisasi. Stopword adalah mengambil kata-kata penting dari hasil token. Bisa menggunakan algoritma stoplist (membuang kata yang kurang penting) atau word list (menyimpan kata penting). ( )

6 Proses stopword removal merupakan proses penghapusan term yang tidak memiliki arti atau tidak relevan. Proses ini dilakukan pada saat proses tokenisasi.

7 2 STEMMING

8 Stemming adalah proses pemotongan atau penghilangan imbuhan dari suatu kata. Menurut Lovins (Lovins, 1968, p. 22), sebuah algoritma stemming adalah prosedur komputasi yang mengurangi kata dengan akar yang sama ke bentuk umum, biasanya dengan pengupasan setiap kata akhiran yang derivasional dan infleksional. (

9 (

10 Ada tiga jenis metode stemming, antara lain :
Successor Variety (SV) : lebih mengutamakan penyusunan huruf dalam kata dibandingkan dengan pertimbangan atas fonem. N-Gram Conflation : ide dasarnya adalah pengelompokan kata-kata secara bersama berdasarkan karakter-karakter (substring) yang teridentifikasi sepanjang N karakter. Affix Removal : membuang suffix dan prefix dari term menjadi suatu stem.

11 Algoritma Lovins steemer lovins stemmer menggunakan context-sensitive.
Stemmer ini dikembangkan oleh Julie Beth Lovins dari Institut Teknologi Massachusetts pada tahun Ini adalah awal dari penggunaan stemming yang ditargetkan untuk temu kembali informasi dan Computational Linguistics (Interaksi Komputer dan Manusia mengunakan Bahasa Alami). Lovins steemer

12

13 Algoritma Paice/Husk Stemmer
Paice/Husk stemmer menggunakan satu table atau daftar aturan yang masing-masing bagian mempunyai tugas untuk memotong imbuhan. Teknik memotong yang digunakan adalah menghindari masalah pengejaan kecuali diuraikan lebih awal. Dengan mengganti kata akhiran bukan dengan memotong akhiran, stemmer melakukannya tanpa memisahkan langkah-langkah dalam proses stemming. Ini membantu memelihara efisiensi dari algoritma akan membuat menjadi lebih efektif. Paice/Husk Stemmer

14 Aturan dari indeks kata dasar dan kata berimbuhan
Sebuah akhir dari satu atau lebih karakter, yang diselenggarakan di urutan terbalik Sebuah bendera utuh opsional '*' Sebuah digit menentukan total penghapusan (nol atau lebih) Sebuah string opsional tambahkan satu atau lebih karakter 5) Sebuah simbol kelanjutan, '>' atau '.'

15

16 Algoritma Porter Stemmer
Porter stemmer adalah pengembangan stemmer yang dibuat oleh Martin Porter di Universitas Cambridge pada tahun 1980. Stemmer berdasarkan pada akhiran di dalam bahasa Inggris (kurang lebih 1200 kata). Kebanyakan dengan menggunakan kombinasi akhiran yang sederhana. Porter Stemmer

17 Gambar 5. Flowchart Stremmer Porter

18 Algoritma Steeming Bahasa Indonesia Algoritma Nazrief & Andriani
Algoritma ini paling sering dibicarakan dalam steeming bahasa indonesia. Algoritma ini merupakan hasil penelitian internal UI (Universitas Indonesia) dan tidak dipublikasikan secara umum. Namun, algoritma ini mempunyai dua masalah, yang pertama kemampuannya tergantung dari besarnya database kata dasar, dan yang kedua, hasil steeming tidak selalu optimal untuk aplikasi information retrieval. Steeming Bahasa Indonesia Algoritma Nazrief & Andriani

19 Algoritma Algoritma Winnowing
Algoritma Winnowing merupakan algoritma yang digunakan untuk deteksi penjiplakan. Input dari algoritma ini adalah dokumen teks yang diproses sehingga menghasilkan output berupa kumpulan nilai-nilai hash, nilai hash merupakan nilai numerik yang terbentuk dari perhitungan ASCII tiap karakter. Algoritma Winnowing

20 Algoritma Stemming Menggunakan Pendekatan Confix-Stripping
Pada Tahapan ini merupakan pengolahan Stemming dilakukan berdasarkan input daftar filter term, proses Stemming ini menggunakan algoritma Confix- Stripping. Langkah pertama pada algoritma stemmer ini dilakukan pengecekan rule Precedence yakni larangan kombinasi awalan danakhiran, kemudian mencocokkan term pada elemen diindex tertentudengan daftar “kata dasar” dalam database kamus. Stemming Menggunakan Pendekatan Confix-Stripping

21

22 Thank You


Download ppt "STOPLIST DAN STEEMING Temu Balik Informasi."

Presentasi serupa


Iklan oleh Google