Stoplist dan Stemming Anggota Kelompok :

Slides:

Advertisements

Presentasi serupa

Pertemuan ke-1 Hukum Pemenggalan Kata

Advertisements

Praktikum Sistem Temu Balik Informasi

Penullisan kata dan penullisan unsur serapan

KONSEP DASAR INFORMASI

“ GEREJA BAGAI BAHTERA ”

KATA, FRASA, KALIMAT.

BENTUK DAN MAKNA FONEM bunyi terkecil yang dapat membedakan arti, sedangkan huruf adalah lambang bunyi atau lambang fonem. Apakah fonem sama.

“ DALAM ROH YESUS KRISTUS ”

Gambar Kerangka dari sistem temu-kembali informasi sederhana

Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project

Final Project Temu Balik Informasi

Text Pre-Processing M. Ali Fauzi.

MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )

Review Jurnal Nasional

ALGORITMA STEMMING DAN STOPLIST

METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )

Penyelesaian Masalah menggunakan Teknik Pencarian Heuristic Search

TEMU BALIK INFORMASI.

Pertemuan 7 : Latent Semantic Indexing

(konsep, macam-macam, dan algoritma)

Pertemuan 9 : Temu Balik Informasi Multimedia

Temu balik informasi Stemming dan stoplist

Sistem Temu Kembali Informasi

Metode Pencarian/Pelacakan

Natural Language Processing (NLP)

TEMU BALIK INFORMASI Konsep Thesaurus Dalam Information Retrival dan Macam-Macam Thesaurus Beserta Algoritmanya TI 14 A STMIK AMIKOM PURWOKERTO 2017.

MORFOLOGI BAHASA INDONESIA (PBIN4106)

Ragam dan Laras Bahasa Indonesia

IMPLEMENTASI ALGORITME DAMERAU-LEVENSHTEIN UNTUK KOREKSI EJAAN QUERY BAHASA INDONESIA PADA SEARCH ENGINE Oleh: Utis Sutisna G

Review Jurnal Internasional

Pencarian pada Array Tim PHKI Modul Dasar Pemrograman

EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI

DIAGRAM AKTIVITAS ACTIVITY DIAGRAM.

Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming

Anggota Kelompok : Kurniawan Novi Pambudi

Review Jurnal Temu Balik Informasi

MINI PAPE PROJ R PAPE PROJECT PORTER STEMMER INFORMATION RETRIEVAL.

STOPLIST DAN STEEMING Temu Balik Informasi.

Text Preprocessing.

TUGAS PENGENDALIAN KUALITAS

Temu balik informasi Anggota Kelompok Ikhsan Fauji

FINAL PROJECT TEMU BALIK INFORMASI

MORFOLOGI BAHASA INDONESIA (PBIN4106)

Khafiizh Hastuti TATA KATA Khafiizh Hastuti

TEMU KEMBALI INFORMASI

TEMU BALIK INFORMASI Konsep Thesaurus Dalam Information Retrival dan Macam-Macam Thesaurus Beserta Algoritmanya TI 14 A STMIK AMIKOM PURWOKERTO 2017.

StopList dan Stemming yasmi afrizal

Temu Balik Informasi Anggota Kelompok 1. Ikhsan Fauji Irna Oktaviasari Erip Marliana Egi Firmansyah

Steamming & Stoplist Temu balik informasi.

Temu Balik Informasi Persentasi Final Project

STOPWORDLIST dan STEMMING

Pertemuan 8 : Thesaurus Anggota Kelompok :

Stemming & Stoplist TI14D.

Pengelolaan Sistem Informasi

Penggunaan Aspek Kebahasaan dalam Penulisan Karya Ilmiah

Oleh : Rahmat Robi Waliyansyah, M.Kom.

Perancangan Fisik Basis Data

Temu Balik Informasi Anggota Kelomopok :

TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan

Morfologi adalah ilmu bahasa yang mempelajari tentang seluk beluk bentuk kata (stuktur kata) serta pengaruh perubahan bentuk kata terhadap golongan dan.

MORFEM DAN PROSEDUR PENGALAMANNYA

M Ali Fauzi Indriati Sigit Adinugroho

Nugraha Iman Santosa ( )

Pelatihan Audit Internal Mutu Akademik

Information Retrieval “Document Classification dengan Naive Bayes”

Information Retrieval “Document Preprocessing”

FEATURE SELECTION.

LOGO AFIKS (IMBUHAN) SMKN 1 KEDAWUNG. Company Logo NAMA KELOMPOK Sri Wulan Siti Aisyah Putri Febriyanti Nabila Novianti Eka Wulandari.

Transcript presentasi:

Stoplist dan Stemming Anggota Kelompok : Kurniawan Novi Pambudi 14.11.0161 Hijriah Fajar Muhammad Insan 14.11.0162 Raditya Tri Wibowo 14.11.0164 Mei Susanto 14.11.0165 Anggrean Yudistira 14.11.0167 Fanny Tri Pamungkas 14.11.0168 Agus Harianto 14.11.0169

Pengertian Stoplist dan Stemming Stoplist merupakan algoritma yang digunakan dalam tahap filtering yang berguna untuk membuang/menghilangkan kata-kata yang kurang penting yang terdapat dalam data hasil tokenizing. Stemming adalah tahap mencari kata dasar/root dari tiap kata hasil filltering. Pada tahap ini dilakukan proses pengembalian berbagai bentuk kata ke dalam suatu representasi ke dalam suatu representasi yang sama.

Stoplist Dalam stoplist/stopword kata-kata yang tidak deskriptif/kurang penting dapat dibuang. Contoh stoplist yaitu : yang, di, ke, dan, tetapi, sebagainya, yaitu, dia, dari, sedangkan, adalah, dll. Misal : manajemen manajemen pengetahuan pengetahuan adalah konsep konsep baru baru di dunia dunia bisnis bisnis Hasil tahap tokenisasi Hasil filter dengan algoritma stoplist

Stoplist Kata-kata seperti “dari”, “yang”, “di”, dan “ke” adalah beberapa contoh kata-kata yang berfrekuensi tinggi dan dapat ditemukan hampir dalam setiap dokumen (disebut sebagai stopword). Penghilangan stopword ini dapat mengurangi ukuran index dan waktu pemrosesan. Selain itu, juga dapat mengurangi level noise. Namun terkadang stopping tidak selalu meningkatkan nilai retrieval. Pembangunan daftar stopword yang kurang hati-hati dapat memperburuk kinerja sistem Information Retrieval (IR)

Stemming Stemming dapat dikatakan sebagai proses atau cara dalam menemukan kata dasar dari suatu kata. Misalnya : Ada banyak algoritma dalam proses stemming seperti : Nazief dan Adriani, Porter, Confix Stripping, Connected Component, Lovins, Paice/Husk, Tala, vega, dll. Membela Bela Dikatakan Kata Berjalan Jalan memperkecil Kecil

Stemming Meskipun ada banyak algoritma yang dapat digunakan untuk proses stemming, namun dalam stemming bahasa indonesia hanya ada 2 algoritma yang biasanya digunakan seperti : Algoritma Porter Stemmer, Algoritma Nazief & Adriani Stemmer. Teknik Stemming diperlukan selain untuk memperkecil jumlah indeks yang berbeda dari suatu dokumen, juga untuk melakukan pengelompokan kata-kata lain yang memiliki kata dasar dan arti yang serupa namun memiliki bentuk atau form yang berbeda karena mendapatkan imbuhan yang berbeda.

Algoritma Porter Stemmer Algoritma Porter ditemukan oleh Martin Porter 1980. Algoritma ini digunakan untuk stemming bahasa inggris, kemudian proses stemming bahasa inggris berbeda dengan bahasa indonesia maka dekembangkan algoritma khusus untuk bahasa indonesia yaitu Porter Stemmer for Bahasa Indonesia, yang dikembangkan oleh W.B. Frakes pada tahun 1992. Algoritma ini membutuhkan waktu yang lebih singkat dibandingkan dengan stemming algoritma lain. Namun presentase keakuratan algoritma ini lebih kecil dibandingkan algoritma Nazief & Adriani

Algoritma Porter Stemmer Langkah-langkah algoritma Stemming Porter adalah sebagai berikut: Periksa pada kata yang akan di Stemm jika terdapat partikel (“-kah”, “-lah”, “-pun”), maka hapus partikel yang melekat. Hapus kata ganti kepemilikan seperti “-ku”, “-mu”, “-nya”, jika ada. Hapus first order prefiks (awalan pertama) seperti “- meng”, “-meny”, “-men”, “-mem”, “-me”, “-peng”, “- peny”, “-pen”, “-pem”, “-di”, “-ter”, “-ke”. Hapus second order prefiks (awalan kedua) seperti “-ber”, “-per”. Hapus sufiks (akhiran) seperti “-kan”, “-i”, “-an”.

Algoritma Nazief & Adriani Stemmer. Adalah algoritma yang paling sering dibicarakan dalam stemming bahasa indonesia. Algoritma ini merupakan hasil penelitian internal Universitas Indonesia. Algoritma ini mempunyai dua masalah, yang pertama kemampuannya tergantung dari besarnya database kata dasar, dan yang kedua hasil stemming tidak selalu optimal untuk aplikasi information retrieval.

Kelebihan dan Kelemahan Algoritma Nazief dan Adriani Memperhatikan kemungkinan adanya partikel-partikel yang mungkin mengikuti suatu kata berimbuhan. Proses stemming dokumen teks berBahasa Indonesia menggunakan Algoritma Nazief dan Adriani memiliki prosentase keakuratan (presisi) lebih besar dibandingkan dengan stemming menggunakan Algoritma Porter. Kelemahan : Penyamarataan makna variasi kata Jumlah database kata dan kata dasarnya harus besar. Kesalahan terjadi bila kata tidak ditemukan di database dan kemudian dianggap kata dasar, padahal bukan Lamanya waktu yang diperlukan dalam proses pencarian kata di dalam kamus.

Algoritma Nazief & Adriani Stemmer. Langkah-langkah yang digunakan oleh algoritma Nazief dan Adriani yaitu sebagai berikut : Kata dicari di dalam daftar kamus. Bila kata tersebut ditemukan di dalam kamus maka dapat diasumsikan kata tersebut adalah kata dasar sehingga algoritma dihentikan. Bila kata di dalam langkah pertama tidak ditemukan di dalam kamus, maka diperiksa apakah surfiks tersebut yaitu sebuah partikel ("-lah" atau "-kah"). Bila ditemukan maka partikel tersebut dihilangkan. Pemerikasaan dilanjutkan pada kata ganti milik ("-ku","-mu","- nya"). Bila ditemukan maka kata ganti tersebut dihilangkan.

Algoritma Nazief & Adriani Stemmer. Memeriksa akhiran ("-i", "-an"). Bila ditemukan maka akhiran tersebut dihilangkan. Hingga langkah ke-4 dibutuhkan ketelitian untuk memeriksa apakah akhiran "-an" merupakan hanya bagian dari akgiran "-kan" dan memeriksa lagi apakah partikel ("-lah", "-kah") dan kata ganti milik ("-ku","-mu","-nya") yang telah dihilangkan pada langkah 2 dan 3 bukan merupakan bagian dari kata dasar. Memeriksa awalan ("se-","ke-","di-","te-","be-","pe-","me-"). Bila ditemukan, maka awalan tersebut dihilangkan. Pemerikasaan dilakukan dengan berulang mengingat adanya kemungkinan multi-prefix. Langkah ke-5 ini juga membutuhkan ketelitian untuk memeriksa kemungkinan peluluhan awalan, perubahan prefix yang disesuaikan dengan huruf awal kata dan aturan kombinasi prefix- suffix yang diperbolehkan. Setelah menyelesaikan semua langkah dengan sukses, maka algoritma akan mengembalikan kata dasar yang ditemukan.

Sumber Referensi https://informatikalogi.com/text-preprocessing/ http://repository.widyatama.ac.id/xmlui/bitstream/handle/123456789/6830/ Bab%202.pdf?sequence=11 https://www.academia.edu/7293613/ALGORITMA_STEMMING http://repository.usu.ac.id/bitstream/handle/123456789/53366/Chapter%20I I.pdf?sequence=4 https://yudiagusta.files.wordpress.com/2009/11/196-201-knsi09-036- perbandingan-algoritma-stemming-porter-dengan-algoritma-nazief- adriani-untuk-stemming-dokumen-teks-bahasa-indonesia.pdf\ http://agusdwi89.web.ugm.ac.id/ir/stemming.pdf