Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
1
Review Jurnal Internasional
Anggota Kelompok : Kurniawan Novi Pambudi Hijriah Fajar Muhammad Insan Raditya Tri Wibowo Mei Susanto Anggrean Yudistira Fanny Tri Pamungkas Agus Harianto
2
Judul : Implementation of an efficient Fuzzy Logic based Information Retrieval System
Tempat Penerbit : Bharati Vidyapeeth's College of Engineering/Computer Science, New Delhi, , INDIA Nama Penulis : Prabhjot Singh Sumit Dhawan Shubham Agarwal
3
Makalah ini mencontohkan penerapan Sistem Informasi Retrieval (IR) yang efisien untuk menghitung kemiripan antara dataset dan query menggunakan Fuzzy Logic. Dataset TREC telah digunakan untuk tujuan yang sama. Dataset diurai untuk menghasilkan indeks kata kunci yang digunakan untuk perbandingan kesamaan dengan query pengguna. Setiap query diberi nilai skor berdasarkan similarity fuzzy dengan kata kunci indeks. Dokumen yang relevan diambil berdasarkan nilai skor. Kinerja dan keakuratan model similarity fuzzy yang diusulkan dibandingkan dengan model Cosine similarity dengan kurva Precision-Recall. Hasilnya membuktikan dominasi sistem IR berbasis Fuzzy similarity.
4
Sistem pencarian informasi menyimpan dan mengindeks dokumen sehingga ketika pengguna mengekspresikan kebutuhan informasinya dalam kueri, sistem akan mengambil dokumen terkait yang menghubungkan skor ke masing-masing. Semakin tinggi nilai semakin besar pentingnya dokumen. Biasanya sistem pencarian informasi mengembalikan kumpulan hasil yang besar dan pengguna harus menghabiskan banyak waktu sampai mereka menemukan item yang benar-benar relevan. Selain itu, dokumen diambil saat berisi persyaratan indeks yang ditentukan dalam kueri. Namun, pendekatan ini akan mengabaikan dokumen lain yang relevan yang tidak mengandung persyaratan indeks yang ditentukan dalam kueri pengguna. Ketika bekerja dengan pengetahuan domain tertentu, masalah ini dapat diatasi dengan menggabungkan basis pengetahuan yang menggambarkan hubungan antara istilah indeks ke dalam sistem pencarian informasi yang ada [1].
5
Latar Belakang Masalah
Biasanya sistem pencarian informasi mengembalikan kumpulan hasil yang besar dan pengguna harus menghabiskan banyak waktu sampai mereka menemukan item yang benar-benar relevan dokumen / data yang diambil memiliki jumlah yang besar
6
Tujuan Penelitian Agar term yang diindeks dapat meningkatkan kualitas dokumen yang diambil sehingga membawa yang paling relevan dan lebih sistematis terkait dengan query awal. Pencarian teks lengkap masih merupakan bentuk pencarian yang paling populer dan sangat berguna untuk mengambil dokumen yang kita tahu kata kunci yang dicari. Memang pencarian teks lengkap tidak cocok untuknya Menemukan dokumen yang relevan tentang topik tertentu dalam konteks tugas yang diberikan
7
Dalam makalah ini, kami mengusulkan dan membahas rincian implementasi dan evaluasi kinerja dari sistem IR dengan ukuran kesamaan berbasis fuzzy. Percobaan telah dilakukan pada pengumpulan data TREC Ohsumed [5]. Ohsumed.87 ( ) berisi dokumen MEDLINE untuk tahun Koleksi uji ini dibuat untuk membantu penelitian pengambilan informasi. Relevansi dokumen menggunakan kesamaan fuzzy dibandingkan dengan QREL yang disediakan di situs Ohsumed [5]. Nilai Precision and Recall dihitung dengan menggunakan skrip trec_eval.
8
Fuzzy Logic Fuzzy Logic
Fuzzy Logic pada dasarnya adalah sebuah pendekatan logika yang kemungkinkan nilai kebenaran antara didefinisikan antara evaluasi konvensional yang benar dan yang salah. Gagasan seperti agak keras atau keren bisa dirumuskan secara matematis dan diolah oleh komputer
9
Fuzzy Sets Set fuzzy adalah set yang elemennya memiliki tingkat keanggotaan. Dalam teori himpunan klasik, sebuah elemen dimiliki atau tidak termasuk dalam himpunan. Namun, teori himpunan fuzzy memungkinkan penilaian bertahap terhadap unsur-unsur dalam satu set. Hal ini dijelaskan dengan bantuan fungsi keanggotaan yang dinilai dalam interval nyata. Lebih tepatnya, transisi dari keanggotaan menjadi nonanggota bisa bertahap dan tidak mendadak seperti pada teori Boolean.
10
Sistem pencarian informasi fuzzy menggunakan alat yang didefinisikan dalam logika fuzzy dan hubungan fuzzy untuk menyimpulkan hasil terbaik dari kueri pengguna. Tidak seperti sistem boolean, sistem fuzzy paling efektif saat berhadapan dengan data yang mungkin menampilkan tingkat keanggotaan. Dalam sistem fuzzy, objek yang dijelaskan dalam hal sifat-sifatnya yang menjadi ciri objek diberi nilai keanggotaan relasional untuk menunjukkan relevansi dari sifat ke objek atau sebaliknya.
11
Existing Techniques Masalah pencarian string fuzzy dapat dirumuskan sebagai berikut: "Temukan dalam teks atau kamus dengan ukuran n, semua kata yang sesuai dengan kata yang diberikan (atau mulailah dengan kata yang diberikan), dengan mempertimbangkan kemungkinan-kemungkinan perbedaan (kesalahan)." Misalnya, jika kita meminta 'machine' ada dua kemungkinan kesalahan, pertama kata ‘marine‘, ‘lachine', 'martine', dan sebagainya.
12
Sementara itu, dalam kebanyakan kasus, metrik dipahami sebagai konsep yang lebih umum yang tidak sesuai dengan kondisi di atas, konsep ini juga bisa disebut Distance. Di antara metrik yang paling terkenal adalah Distance Hamming, Levenshtein dan Damerau-Levenshtein. Distance Hamming adalah metrik hanya pada satu set kata dengan panjang yang sama, dan itu sangat membatasi ruang lingkup aplikasinya.
13
IMPLEMENTASI Parameter yang ditentukan adalah:
Istilah kueri: Kueri string yang ditentukan oleh pengguna diubah menjadi istilah kueri yang kemudian dicari di indeks hasil. Ketidakjelasan: Perbedaan yang diizinkan antara kata kunci dan istilah kueri yang akan diambil. Panjang Affix: Panjang karakter maksimum yang mungkin umum untuk kueri dan kata kunci.
14
EVALUASI KINERJA Meskipun implementasi jarak jauh Lucene's Levenshtein adalah keadaan yang canggih, dan cukup cepat, masih jauh lebih lambat daripada permintaan pertandingan biasa. Runtime query tumbuh dengan jumlah istilah unik dalam indeks. Artinya, saat melakukan pencarian fuzzy, kriteria utamanya bukanlah berapa banyak dokumen yang akan dikembalikan, tapi berapa banyak istilah unik di cluster yang ada untuk bidang yang dicari. Jika ada 100 dokumen dengan kata unik masing-masing, cari indeks akan lebih lambat daripada mencari dokumen tempat bidang yang dicari hanya memiliki 100 kata unik. Alasan utama untuk kelambatan ini adalah bahwa kueri pencocokan standar dapat dengan cepat memeriksa indeks persyaratan, struktur data internal yang digunakan oleh Lucene, untuk mencocokkan dan menemukan dokumen dengan sangat cepat menggunakan penelusuran biner. Proses ini cepat bahkan untuk kamus besar karena pencarian biner dengan baik. Query fuzzy, di sisi lain, menggunakan algoritma yang lebih maju yang melibatkan DFA yang harus memproses sejumlah besar istilah. Memproses jumlah istilah yang jauh lebih besar yang dibutuhkan untuk pencarian fuzzy selalu lebih lambat daripada pencarian biner sederhana.
15
Kesimpulan Dalam makalah ini, kami membahas rincian implementasi dan efisiensi sistem IR dengan ukuran kesamaan berbasis fuzzy. Percobaan yang dilakukan pada pengumpulan data TREC Ohsumed menggunakan Apache Lucene membuktikan keunggulan dari ukuran yang diusulkan. Ini adalah teknik baru yang memiliki kelebihan dibandingkan sistem Informasi Retrieval lainnya karena dapat menangani pertanyaan pengguna yang tidak jelas dan tidak tepat. Kinerja teknik yang diusulkan dibandingkan dengan pengukuran kemiripan berbasis kosinus pada dataset TREC. Hasil menunjukkan bahwa teknik pengukuran kesamaan yang diusulkan berdasarkan logika fuzzy, lebih baik daripada teknik pengukuran kesamaan berbasis kosinus untuk menangani pertanyaan yang samar, tidak pasti dan tidak tepat. Wawasan yang diberikan oleh model ini memperjelas bahwa gagasan kabur menggambarkan situasi yang diketahui melalui informasi yang tidak tepat, tidak pasti, dan samar dengan cara yang tidak menggantikan atau diganti, namun justru melengkapi pandangan yang dihasilkan oleh pendekatan lain.
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.