Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehYuliana Setiabudi Telah diubah "7 tahun yang lalu
1
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar Patria Adhyaksa Afiatur Rohmah Indah Dwi Prawitasari Faiz Al-Hamidi Bella Crista C L Ifal Pandu Kiat Nandya Tiara N
2
Stoplist dan Stemming Stoplist adalah yaitu proses pembuangan kata buang, seperti: tetapi, yaitu, sedangkan, dan sebagainya. Stemming adalah proses penghilangan / pemotongan dari suatu kata menjadi bentuk dasar yang merupakan salah satu cara yang digunakan untuk meningkatkan performa IR (Information Retrival)
3
Konsep Stoplist Bagian dari informasi yang tidak bermakna seperti halnya imbuhan, sehingga harus dihilangkan untuk mempercepat proses pengindeksan dan proses query. Misalnya: tetapi, yaitu, adalah, sedangkan, yang, untuk, dari, ke,pada, jika, maka, dan, di. Proses pembuangan stopword dilakukan dengan acuan kamus/basis data. Stopword yang akan dibuang terlebih dahulu disimpan didalam basis data untuk selanjutnya setiap kata yang ada dalam basis data akan dibuang oleh sistem. Stoplist adalah kumpulan dari stopword
4
Jenis Stopword Stopword Statis: stopword yang telah ditentukan dari awal sebelum dilakukan proses indeks dan filtering pada suatu sistem temu kembali informasi. Kelebihan: 1. proses filtering stopword lebih singkat 2. kemudahan dalam pemakaian dengan data lain yang menggunakan bahasa yang sama Kekurangan: Pada domain-domain tertentu akan terdapat kata-kata yang bukan stopword, tetapi dianggap stopword oleh domain tertentu. Seperti kata “resep” pada domain masakan Indonesia.
5
Jenis Stopword, lanjutan..
Stopword Dinamis: stopword yang dihasilkan suatu proses tertentu, proses tersebut biasanya melibatkan korpus yang akan digunakan. Kelebihan: Kemampunnya dalam beradaptasi dengan korpus atau domain yang spesifik, akurasi temu kembali informasi akan lebih baik jika dibandig menggunakan stopword statik. Kekurangan: Dibutuhkan proses komputasi tambahan untuk menghasilkan stopword.
6
Algoritma yang digunakan untuk menghilangkan stopword
Memasukkan daftar stopword dari database ke dalam array stoplist Menampung input kata kunci pencarian ke dalam variable Memecah variable string menggunakan fungsi string split ke dalam array kata kunci Inisialisasi variable ketemy berisi nilai Boolean false Apakah elemen pada array kata kunci sama dengan elemen pada stoplist ? jika iya, lakukan langkah 6, jika tidak terpenuhi lakukan langkah 7. Ubah nilai variable ketemu menjadi true. Lakukan langkah 8. Lakukan langkah 4-5 hingga seluruh elemen pada array stoplist habis
7
Algoritma yang digunakan untuk menghilangkan stopword lanjutan...
Apakah variable ketemy bernilai false ? jika kondisi terpenuhi, lakukan langkah 9, jika tidak terpenuhi lakukan langkah 10 Masukkan elemen array kata kunci yang dipilih ke dalam array hasil Lakukan langkah 4-9 hingga seluruh elemen pada array kata kunci habis. Dari algoritma di atas, akan dihasilkan sebuah array yang berisi kata kunci pencarian yang dimasukkan oleh pengguna namun sudah terbebas dari stopword.
8
Konsep Stemming Stemming merupakan proses penghilangan / pemotongan dari suatu kata menjadi bentuk dasar. Proses stemming diawali dengan tahap pencarian root kata dari tiap kata hasil filtering. Dalam prosesnya stemming menggunakan beberapa algoritma.
9
Tahap Stemming Tahap Stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentuk kata ke dalam suatu representasi yang sama. Contoh mudahnya dapat dilihat pada gambar proses stemming di bawah ini: Stemming Bahasa Indonesia Misalnya: Berkata kata Mengatakan kata Perkataan kata
10
Algoritma yang di gunakan untuk Stemming Bahasa Indonesia
1). Algoritma Stemming Porter digunakan sebagai stammer untuk bahasa inggris, porter stemmer dalam bahasa Indonesia akan menghasilkan keambiguan karena aturan morfologi bahasa Indonesia. Langkah-langkah algoritma ini : Hapus Particle Hapus Possesive Pronom Jika ada awalan pertama, hapus awalan pertama dilanjutkan dengan hapus akhiran (jika ada) / lanjutkan dengan hapus awalan kedua. Kata akhir = root Jika tidak ada awalan pertama, hapus awalan kedua dilanjutkan dengan hapus akhiran. Kata akhir = root
11
Algoritma yang di gunakan untuk Stemming Bahasa Indonesia
2). Algoritma Nazief & Adriani Stemmer Tahapannya : Cari kata yang akan distem dalam kamus (root word) Buang Inflection Suffixes (“lah”, “-kah”, “-ku”, “-mu”, atau “-nya”), particles (“-lah”, “-kah”, “-tah”, atau “-pun”), Possesive Pronous (“-ku”, “-mu”, atau “- nya”) Hapus Derivation Suffixes (“-i”, “-an”, atau “-kan”). Jika kata di temukan dalam kamus maka berhenti. Jika tidak maka....
12
Tabel-tabel aturan Tabel Aturan Untuk First Order Derivational Prefix
Tabel Aturan Kombinasi Awalan Akhiran Yang Tidak Diijinkan Awalan Replacement Measure Condition Contoh Meng- NULL 2 Mengukur ukur Meny- S Menyapu sapu Men- Menduga duga Mem- P Memaksa paksa Membaca baca Me- Merusak rusak Peng- Pengukur ukur Peny- Penyapu sapu Pen- Penduga duga Pem- Pemaksa paksa Pembaca baca di- Diukur ukur Ter- Tersapu sapu Ke- Kekasih kasih Awalan Akhiran yang tidak diijinkan Be- -i di- -an Ke- -i, -kan Me- Se-
13
Lanjutan tahapan Algoritma Nazief & Adriani Stemmer
Jika kata tidak ditemukan dalam kamus maka langkah selanjutnya: Akhiran “-an” dihapus, dan huruf terakhir “k” maka “k” juga di hapus. Algoritma berhenti jika kata akhir ada dalam kamus Hapus prefik, jika pada langkah sebelumnya menghapus sufiks maka periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Algoritma berhenti Melakukan Recording Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai
14
Lanjutan... Algoritma Algoritma Nazief & Adriani Stemmer memiliki keterbatasan, untuk itu perlu di tambahkan aturan : Jika kata yang dihubungkan sama ( buku-buku) maka root word adalah bentuk tunggalnya yaitu (buku), contoh lain (berbalas-balasan ) maka pisahkan dulu (berbalas) dan ( balasan) sehingga root word pada kedua kata tersebut (balas). Berbeda dengan (bolak-balik) root word kedua kata ini berbeda maka kata akhirnya (bolak-balik) Tambahan bentuk awalan dan akhiran serta aturannya, untuk tipe awalan “mem” “memp” hasilnya mem (mempertemukan memertemukan) “meng” “mengk” hasilnya meng (mengkuak menguak) Pebandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk stemming dokumen Bahasa Indonesia: pembanding Stemming Porter Nazief & Adriani Proses Lebih cepat Labih lambat Kekuratan (presisi) Lebih kecil Lebih besar Pengaruh kamus terhadap keakuratan Tidak terlalu memperhatikan Memperhatikan kamus yang di pakai
15
Daftar Pustaka 1. blog : intro/ 2. Bab 2 : Bab%202.pdf?sequence=11 3. queri ganda : a0b1098d96fb350.pdf 4. perbandingan-algoritma-stemming-porter-dengan-algoritma-nazief- adriani-untuk-stemming-dokumen-teks-bahasa-indonesia.pdf 5. 6. tle=Stopword%20Dinamis%20dengan%20Pendekatan%20Statistik
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.