Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming

Slides:



Advertisements
Presentasi serupa
MEMBACA SCANNING.
Advertisements

Konsep Basis Data di Web
LINK LIST Latifah Rifani.
PENCARIAN (SEARCHING)
Urutan (Sequence) Ery Setiyawan Jullev A.
Memori dan Scope Variabel
Searching.
Algorithm and Data Structures.
Algoritma (Struktur, Tipe Data, Input/Output)
Notasi Algoritma.
Praktikum Java Script.
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
Text Pre-Processing M. Ali Fauzi.
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
ALGORITMA STEMMING DAN STOPLIST
Temu Balik Informasi Materi Pertemuan Ke – 1 Materi Dasar TBI
Universitas Budi Luhur
TEMU BALIK INFORMASI ANGGOTA KELOMPOK BAYU ANDRIANTO 21
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
(konsep, macam-macam, dan algoritma)
Anggota : Nama Nim Wahyu Septi Anjar Patria Adhyaksa Dian Restiani
Temu balik informasi Stemming dan stoplist
Sistem Temu Kembali Informasi
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Konsep Thesaurus Dalam Information Retrival dan Macam-Macam Thesaurus Beserta Algoritmanya TI 14 A STMIK AMIKOM PURWOKERTO 2017.
Nilai dan Tipe Data Nilai dan Tipe data
Temu Balik Informasi Materi Pertemuan Ke – 8 Konsep Thesaurus dalam Information Retrival dan Mengenal Macam Thesaurus Beserta Algoritma Anggota : Nama Nim.
ALGORITMA PEMROGRAMAN 2A
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Pengantar Common Gateway Interface (CGI) dan Perl
Anggota Kelompok : Kurniawan Novi Pambudi
PENGINDEKSAN.
MINI PAPE PROJ R PAPE PROJECT PORTER STEMMER INFORMATION RETRIEVAL.
Stoplist dan Stemming Anggota Kelompok :
STOPLIST DAN STEEMING Temu Balik Informasi.
Text Preprocessing.
FINAL PROJECT TEMU BALIK INFORMASI
TEMU KEMBALI INFORMASI
Achmad Yasid Struktur Data.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
TEMU BALIK INFORMASI Konsep Thesaurus Dalam Information Retrival dan Macam-Macam Thesaurus Beserta Algoritmanya TI 14 A STMIK AMIKOM PURWOKERTO 2017.
Array Tim PHKI Modul Dasar Pemrograman Fakultas Ilmu Komputer
Temu Balik Informasi Anggota Kelompok 1. Ikhsan Fauji Irna Oktaviasari Erip Marliana Egi Firmansyah
MANAJEMEN DATA DAN KONSEP DATABASE
Steamming & Stoplist Temu balik informasi.
Temu Balik Informasi Persentasi Final Project
Tipe Data, Operator dan Ekspresi
STOPWORDLIST dan STEMMING
UJIAN TERDIRI ATAS 50 SOAL
Pertemuan 8 : Thesaurus Anggota Kelompok :
Struktur Perulangan Yohana Nugraheni.
Stemming & Stoplist TI14D.
Tipe Data, Nama dan Nilai
STACK Yohana Nugraheni.
MANAJEMEN DATA DAN KONSEP DATABASE
STRUKTUR DATA STACK.
ARRAY.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Pengantar Common Gateway Interface (CGI) dan Perl
Pengantar Common Gateway Interface (CGI) dan Perl
Pencarian (searching)
TIPE-TIPE DATA PHP Bandung 2009, by hery dwi y.
M Ali Fauzi Indriati Sigit Adinugroho
Information Retrieval “Document Preprocessing”
Pengantar Common Gateway Interface (CGI) dan Perl
Memori dan Scope Variabel
Transcript presentasi:

Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming Ketua Kelompok Dian Restiani 14.11.0226 Anggota : Wahyu Septi Anjar 14.11.0224 Patria Adhyaksa 14.11.0225 Afiatur Rohmah 14.11.0231 Indah Dwi Prawitasari 14.11.0234 Faiz Al-Hamidi 14.11.0235 Bella Crista C L 14.11.0236 Ifal Pandu Kiat 14.11.0237 Nandya Tiara N 14.11.0311

Stoplist dan Stemming Stoplist adalah yaitu proses pembuangan kata buang, seperti: tetapi, yaitu, sedangkan, dan sebagainya. Stemming adalah proses penghilangan / pemotongan dari suatu kata menjadi bentuk dasar yang merupakan salah satu cara yang digunakan untuk meningkatkan performa IR (Information Retrival)

Konsep Stoplist Bagian dari informasi yang tidak bermakna seperti halnya imbuhan, sehingga harus dihilangkan untuk mempercepat proses pengindeksan dan proses query. Misalnya: tetapi, yaitu, adalah, sedangkan, yang, untuk, dari, ke,pada, jika, maka, dan, di. Proses pembuangan stopword dilakukan dengan acuan kamus/basis data. Stopword yang akan dibuang terlebih dahulu disimpan didalam basis data untuk selanjutnya setiap kata yang ada dalam basis data akan dibuang oleh sistem. Stoplist adalah kumpulan dari stopword

Jenis Stopword Stopword Statis: stopword yang telah ditentukan dari awal sebelum dilakukan proses indeks dan filtering pada suatu sistem temu kembali informasi. Kelebihan: 1. proses filtering stopword lebih singkat 2. kemudahan dalam pemakaian dengan data lain yang menggunakan bahasa yang sama Kekurangan: Pada domain-domain tertentu akan terdapat kata-kata yang bukan stopword, tetapi dianggap stopword oleh domain tertentu. Seperti kata “resep” pada domain masakan Indonesia.

Jenis Stopword, lanjutan.. Stopword Dinamis: stopword yang dihasilkan suatu proses tertentu, proses tersebut biasanya melibatkan korpus yang akan digunakan. Kelebihan: Kemampunnya dalam beradaptasi dengan korpus atau domain yang spesifik, akurasi temu kembali informasi akan lebih baik jika dibandig menggunakan stopword statik. Kekurangan: Dibutuhkan proses komputasi tambahan untuk menghasilkan stopword.

Algoritma yang digunakan untuk menghilangkan stopword Memasukkan daftar stopword dari database ke dalam array stoplist Menampung input kata kunci pencarian ke dalam variable Memecah variable string menggunakan fungsi string split ke dalam array kata kunci Inisialisasi variable ketemy berisi nilai Boolean false Apakah elemen pada array kata kunci sama dengan elemen pada stoplist ? jika iya, lakukan langkah 6, jika tidak terpenuhi lakukan langkah 7. Ubah nilai variable ketemu menjadi true. Lakukan langkah 8. Lakukan langkah 4-5 hingga seluruh elemen pada array stoplist habis

Algoritma yang digunakan untuk menghilangkan stopword lanjutan... Apakah variable ketemy bernilai false ? jika kondisi terpenuhi, lakukan langkah 9, jika tidak terpenuhi lakukan langkah 10 Masukkan elemen array kata kunci yang dipilih ke dalam array hasil Lakukan langkah 4-9 hingga seluruh elemen pada array kata kunci habis. Dari algoritma di atas, akan dihasilkan sebuah array yang berisi kata kunci pencarian yang dimasukkan oleh pengguna namun sudah terbebas dari stopword.

Konsep Stemming Stemming merupakan proses penghilangan / pemotongan dari suatu kata menjadi bentuk dasar. Proses stemming diawali dengan tahap pencarian root kata dari tiap kata hasil filtering. Dalam prosesnya stemming menggunakan beberapa algoritma.

Tahap Stemming Tahap Stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentuk kata ke dalam suatu representasi yang sama. Contoh mudahnya dapat dilihat pada gambar proses stemming di bawah ini: Stemming Bahasa Indonesia Misalnya: Berkata  kata Mengatakan  kata Perkataan  kata

Algoritma yang di gunakan untuk Stemming Bahasa Indonesia 1). Algoritma Stemming Porter digunakan sebagai stammer untuk bahasa inggris, porter stemmer dalam bahasa Indonesia akan menghasilkan keambiguan karena aturan morfologi bahasa Indonesia. Langkah-langkah algoritma ini : Hapus Particle Hapus Possesive Pronom Jika ada awalan pertama, hapus awalan pertama dilanjutkan dengan hapus akhiran (jika ada) / lanjutkan dengan hapus awalan kedua. Kata akhir = root Jika tidak ada awalan pertama, hapus awalan kedua dilanjutkan dengan hapus akhiran. Kata akhir = root

Algoritma yang di gunakan untuk Stemming Bahasa Indonesia 2). Algoritma Nazief & Adriani Stemmer Tahapannya : Cari kata yang akan distem dalam kamus (root word) Buang Inflection Suffixes (“lah”, “-kah”, “-ku”, “-mu”, atau “-nya”), particles (“-lah”, “-kah”, “-tah”, atau “-pun”), Possesive Pronous (“-ku”, “-mu”, atau “- nya”) Hapus Derivation Suffixes (“-i”, “-an”, atau “-kan”). Jika kata di temukan dalam kamus maka berhenti. Jika tidak maka....

Tabel-tabel aturan Tabel Aturan Untuk First Order Derivational Prefix Tabel Aturan Kombinasi Awalan Akhiran Yang Tidak Diijinkan Awalan Replacement Measure Condition Contoh Meng- NULL 2 Mengukur  ukur Meny- S Menyapu  sapu Men- Menduga  duga Mem- P Memaksa  paksa Membaca  baca Me- Merusak  rusak Peng- Pengukur  ukur Peny- Penyapu  sapu Pen- Penduga  duga Pem- Pemaksa  paksa Pembaca  baca di- Diukur  ukur Ter- Tersapu sapu Ke- Kekasih  kasih Awalan Akhiran yang tidak diijinkan Be- -i di- -an Ke- -i, -kan Me- Se-

Lanjutan tahapan Algoritma Nazief & Adriani Stemmer Jika kata tidak ditemukan dalam kamus maka langkah selanjutnya: Akhiran “-an” dihapus, dan huruf terakhir “k” maka “k” juga di hapus. Algoritma berhenti jika kata akhir ada dalam kamus Hapus prefik, jika pada langkah sebelumnya menghapus sufiks maka periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Algoritma berhenti Melakukan Recording Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai

Lanjutan... Algoritma Algoritma Nazief & Adriani Stemmer memiliki keterbatasan, untuk itu perlu di tambahkan aturan : Jika kata yang dihubungkan sama ( buku-buku) maka root word adalah bentuk tunggalnya yaitu (buku), contoh lain (berbalas-balasan ) maka pisahkan dulu (berbalas) dan ( balasan) sehingga root word pada kedua kata tersebut (balas). Berbeda dengan (bolak-balik) root word kedua kata ini berbeda maka kata akhirnya (bolak-balik) Tambahan bentuk awalan dan akhiran serta aturannya, untuk tipe awalan “mem”  “memp” hasilnya mem (mempertemukan  memertemukan) “meng” “mengk” hasilnya meng (mengkuak  menguak) Pebandingan Algoritma Stemming Porter dengan Algoritma Nazief & Adriani untuk stemming dokumen Bahasa Indonesia: pembanding Stemming Porter Nazief & Adriani Proses Lebih cepat Labih lambat Kekuratan (presisi) Lebih kecil Lebih besar Pengaruh kamus terhadap keakuratan Tidak terlalu memperhatikan Memperhatikan kamus yang di pakai

Daftar Pustaka 1. blog : https://ranuchi.wordpress.com/2010/05/18/information-retrieval- intro/ 2. Bab 2 : http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/6830/ Bab%202.pdf?sequence=11 3. queri ganda : http://repository.ui.ac.id/contents/koleksi/2/c737ea3ac21e7be11f286ce3a a0b1098d96fb350.pdf 4. https://yudiagusta.files.wordpress.com/2009/11/196-201-knsi09-036- perbandingan-algoritma-stemming-porter-dengan-algoritma-nazief- adriani-untuk-stemming-dokumen-teks-bahasa-indonesia.pdf 5. https://ti.ukdw.ac.id/ojs/index.php/eksis/article/download/363/133 6. http://download.portalgaruda.org/article.php?article=414302&val=8924&ti tle=Stopword%20Dinamis%20dengan%20Pendekatan%20Statistik