TEMU BALIK INFORMASI KONSEP TESAURUS PADA INFORMATION RETRIEVAL BESERTA MACAM DAN ALGORITMANYA TI 14 A STMIK AMIKOM PURWOKERTO JUNI 2017
Anggota Kelompok Achmad Amar Ramadhan [14.11.0074] Nurul Khusnah [14.11.0075] Ahmad Wildan Sumbogo [14.11.0076] Asqi Maulana Hidayat [14.11.0077] Mafrikha Nur Afitasari [14.11.0078] Dina Septiana [14.11.0084] Faishal Hanif [14.11.0197]
Overview Pengertian tesaurus Konsep tesaurus pada Information Retrieval / Temu Kembali Informasi. Ragam algoritma pada tesaurus. Ragam tesaurus.
Apa Itu Tesaurus ? Berasal dari bahasa Yunani yaitu “ Thesauros yang artinya kekayaan, harta ataupun gudang tempat menyimpan harta benda atau kekayaan”. (Sri Rohyanti Z.: 2002: 1) Menurut Unesco, tesaurus adalah kosakata istilah yang secara semantik dan generik bertautan, yang dinamis dan terkendali. Kosakata tersebut merupakan kumpulan deskriptor yang tersusun secara sistematis dan atau abjad sebagai indikator hubungan deskriptor. Deskriptor sama artinya dengan istilah, hanya saja untuk tesaurus tidak menggunakan kata istilah melainkan deskriptor.
Singkatan Pada Tesaurus UF (Use For) atau Gunakan Untuk. Digunakan untuk menunjukkan istilah sinonim. NT (Narrower Term) artinya istilah yang terletak di belakang NT adalah bagian dari deskriptor. BT (Broader Term) menunjukkan bahwa deskriptor merupakan bagian dari Networks (circuits). RT (Related Term) merupakan penunjuk istilah yang setara. SN (Scope Note) keterangan singkat untuk menggambarkan luasnya arti penerapan deskriptor itu. Tesaurus berbeda dengan kamus. Kamus memberikan definisi sebuah istilah, sedangkan tesaurus disamping memberikan definisi juga menunjukkan hubungan definisi tersebut dengan istilah lainnya. Misalnya istilah ayam, setara dengan itik, angsa; istilah sempit dari ayam adalah ayam ras, ayam bukan ras; istilah luas dari ayam adalah unggas.
Macam-macam Tesaurus UNESCO Thesaurus National Agricultural Library’s Agricultural Thesaurus.
ALGORITMA Pembentukan tesaurus secara otomatis dapat dilakukan dengan menggunakan metode pengelompokan term menggunakan asymmetric cluster function, yang mampu menghasilkan hubungan tesaurus diantara istilah dengan tingkat keberhasilan average recall 59.62% dan Average precision 66.78%. Penggunaan kamus di bidang komputer dan teknologi informasi secara keseluruhan di fase awal pembentukan tesaurus sangat berguna dalam menghilangkan intervensi manual dalam pembentukan tesaurus. Hal ini dapat mungkin dilakukan dengan adanya langkah seleksi kamus (term selection) yang menghapus secara otomatis istilah-istilah dalam komputer yang tidak pernah digunakan dalam dokumen.
Manikya Rao Muddamalle Natural Language versus Controlled Vocabulary in Information Retrieval: A Case Study in Soil Mechanics (Bahasa Alami vs Kosa Kata Terkendali pada Temu Kembali Informasi: Studi Kasus pada Mekanika Tanah) Jurnal : Journal of the American Society for Information Science ISSN : 0002-8231 Manikya Rao Muddamalle Central Water and Power Research Station, P.O. Khadakwasia R.S., Pune—411 024, India
Abstrak Efektivitas dua alat pencarian informasi, yaitu, thesaurus dan bahasa alami, dalam sebuah sistem temu kembali informasi telah dipelajari. Database SOILSC dibuat menggunakan minicomputer HP3000 / 58 series Dan perangkat lunak MINISIS. Rekaman jumlah artikel 17.918 diterbitkan di berbagai jurnal, dan diterima di Perpustakaan Stasiun Penelitian Air dan Tenaga Intan (CWPRS) yang berada di Pune, India sejak tahun 1988. Kebutuhan informasi dari sekelompok mekanik tanah telah diformulasikan dengan menggunakan thesaurus dan bahasa alami menjadi 81 strategi pencarian. Dalam konsultasi dengan pengguna, relevansi dari dokumen yang diambil dinilai dan Nilai recall (R) dan precision (P) dihitung. Baik thesaurus dan bahasa alami telah menunjukkan identik kinerja dalam pencarian informasi, kombinasi dari kedua hal tersebut disarankan untuk melakukan pencarian dan memberikan informasi yang relevan.
Methodology Metode eksperimen digunakan untuk mengumpulkan data yang dibutuhkan dan, untuk mengevaluasi sistem pencarian informasi, recall standar dan pengukuran presisi telah diterapkan.
Recall & Precision Recall (R) Adalah proporsi bahan yang relevan yang diambil dan Precision (P) adalah proporsi bahan yang diambil yang relevan (Salton, 1975). Nilai R dihitung dengan mengidentifikasi jumlah dokumen yang relevan dan yang diambil yang tersedia di database SOILSC, dan persamaan berikut diadopsi dalam rumus dibawah ini. Nilai P dihitung dengan berkonsultasi dengan pengguna. Pengguna telah diminta untuk menunjukkan dokumen yang tepat. Jumlah dokumen yang diambil oleh sistem telah dipresentasikan kepada pengguna dan mereka diminta untuk mengidentifikasi dokumen yang berguna.
Sistem Retrieval Informasi Berbasis Komputer Untuk Mekanika Tanah Dengan menggunakan perangkat mini komputer 3000/58 dan software MINISIS HP,database SOILSC dibuat untuk memenuhi kebutuhan informasi ilmuwan dan insinyur yang bekerja di bidang mekanika tanah. Database berisi bidang berikut: Database ini berisi 17.918 catatan di bidang mekanika tanah yang meliputi artikel jurnal yang diterbitkan di berbagai jurnal teknis dan diterima di Perpustakaan CWPRS sejak tahun 1988; Buku, standar, dan laporan yang tersedia.
Informasi yang Dibutuhkan Informasi yang dibutuhkan di CWPRS bervariasi dari peraturan hingga berbagai proyek sedang dilaksanakan. Untuk mempelajari topik spesifik yang dibahas dalam artikel ini, Laboratorium Ilmu Bumi Terapan dari CWPRS dipilih. Berdasarkan proyek yang ditangani, dan dengan berkonsultasi dengan pimpinan divisi, berikut daftar kebutuhan informasi telah disiapkan. Contoh berikut menunjukkan kebutuhan informasi dari divisi di atas. Kemudian, pertanyaan ini diformulasikan dalam strategi pencarian dengan menggunakan thesaurus dan bahasa alami : Soil investigation and foundation, Soil investigation and breakwater, Soil investigation and finite element studies, Soil investigation and stability analysis, Mathematical modeling and stability analysis, and Foundation investigation for breakwater.
Evaluasi Thesaurus Yang Ada Banyak alat telah dikembangkan dalam beberapa tahun terakhir untuk membantu peneliti dan orang lain dalam menghadapi hasil literatur ilmiah dan rekayasa yang evergrowing. Menurut Lancaster (1972), dalam mengevaluasi kelengkapan kosakata pengindeksan, disarankan untuk menggunakan prosedur "Snow Test" yang dikembangkan oleh D. C. Snow dari Kantor Paten Kerajaan Inggris. Prosedur Snow bertujuan untuk mengenali : Sifat dan tingkat aspek yang bersangkutan dari materi pokok yang telah ada diabaikan; Apakah kedalaman pengindeksan yang diberikan sepadan dengan keadaan seni; Apakah daftar istilah itu cukup seimbang, yaitu kebanyakan mengandung istilah yang memiliki probabilitas tinggi untuk berguna dan tidak kelebihan beban dengan persyaratan yang hanya memiliki probabilitas kegunaan yang rendah.
Ketentuan Microthesaurus of Soil Mechanics Persyaratan Mekanika Tanah Microthesaurus disiapkan oleh Stasiun Percobaan Angkatan Darat Angkatan Darat A.S., Vicksburg, Mississippi (1974). Tesaurus ini berisi daftar 4.000 istilah abjad di bidang subjek mekanika tanah. Karena tesaurus ini berhubungan langsung dengan bidang studi yang dilakukan, maka adopsi ini digunakan untuk proses pencarian informasi.
Retrieval Informasi Menggunakan Microthesaurus Modifikasi Mengingat kebutuhan informasi kelompok mekanik tanah dan untuk tujuan penelitian, 81 pertanyaan dan strategi pencarian yang sesuai diformulasikan dengan menggunakan Microthesaurus yang telah diperbaiki. Tesaurus digunakan untuk tujuan pengambilan informasi saja.
Information Retrieval Prosesor QUERY dari perangkat lunak MINISIS digunakan untuk melakukan pencarian di atas pada database SOILSC. Pencocokan permintaan dan profil dokumen dilakukan secara otomatis, dan sistem mengambil informasi yang relevan adalah dalam bentuk dokumen pengganti. Pada mendapatkan identifikasi dokumen yang relevan, recall (R) dan presisi (P) nilai dihitung dan disajikan pada Tabel 1 disamping. Tabel 1 menunjukkan angka penarikan yang tinggi sebesar 1,00 dengan enam kueri, dan presisi maksimum 1,00 dengan 20 kueri. Sistem telah mencatat recall minimum sebesar 0,40, dan presisi sebagai 0,03. Nilai mean recall dihitung sebagai 0,80, dan presisi sebesar 0,81. Sistem telah mengambil pengganti dokumen 80%. Keluar dari ini, 81% adalah relevan. Ini juga menunjukkan, bahwa ketika recall dicatat sebagai 1,00, nilai presisi yang tercatat adalah sebesar 0,03. Hal ini disebabkan recall yang tinggi dengan strategi pencarian yang lebih luas.Telah dicatat bahwa pencarian yang lebih luas menghasilkan recall yang tinggi dan tingkat presisi yang rendah.
Cont. & Kesimpulan Table 1 Dari 81 pencarian yang dilakukan, 22 pencarian telah menunjukkan nilai recall 100%, dan 21 pencarian menunjukkan presisi 100%. Penarikan terendah 0,33 ditunjukkan oleh dua kueri, dan satu kueri telah mencatat ketepatan terendah 0,47. Telah diamati bahwa sistem mampu mengambil antara 33 dan 100%. Terlihat juga bahwa sistem ini justru mengambil referensi yang relevan 47 sampai 100%.
Perbandingan antara Tesaurus dan Bahasa Alami pada Information Retrieval Antara tesaurus dan pencarian bahasa pengindeksan alami telah menunjukkan hasil pencarian yang efektif. Thesaurus, yang digunakan sebagai alat pencarian informasi, mencatat recall maksimal sebanyak 1,00, dan minimum sebagai 0,40. Artinya, rata-rata, thesaurus memiliki kisaran angka recall 40 sampai 100%, sedangkan pencarian bahasa alami menunjukkan recall maksimal 1.00 dengan menggunakan 22 kueri, dan minimum 0,33 menggunakan dua kueri. Penelusuran bahasa alami telah menunjukkan dengan jelas bahwa ia telah menemukan 100% dari dokumen menggunakan 22 kueri yang patut diperhatikan. Pencarian thesaurus juga bisa menampilkan 100% dokumen untuk enam pertanyaan. Pencarian thesaurus telah menunjukkan presisi maksimum 1,00 menggunakan 20 kueri, sedangkan pencarian bahasa alami menunjukkan 1,00 dengan menggunakan 21 pertanyaan. Presisi minimum yang dicatat dengan menggunakan pencarian thesaurus adalah 0,03, dan dengan menggunakan pencarian bahasa alami adalah 0,47. Nilai mean rata-rata thesaurus dan penelusuran bahasa alami masing-masing dihitung 0,81 dan 0,83. Jadi rata-rata itu berarti bahwa sistem tersebut justru menyediakan 81% dokumen dalam kasus pencarian thesaurus, dan 83% dalam kasus pencarian bahasa alami.
Secara keseluruhan, penelitian ini telah mengungkapkan bahwa bahasa alami dan tesaurus telah menunjukkan hasil pengambilan yang sangat efektif, dengan keterbatasan marjinal. Untuk mencapai pencarian optimal, kombinasi bahasa alami dan teknik pencarian thesaurus dapat diadopsi. Teknik ini diuji dan ditemukan bahwa peningkatan pengambilan 5% dihasilkan melalui teknik pengambilan yang terpisah. Dengan demikian, alternatif, bahasa alami atau kosakata terkontrol tidak dapat lagi diperlakukan sebagai teknik yang terpisah, namun harus selalu diperlakukan bersama sebagai kombinasi "ideal".
Daftar Pustaka Manikya Rao Muddamalle, Natural Language versus Controlled Vocabulary in Information Retrieval: A Case Study in Soil Mechanics, Journal of the American Society for Information Science ISSN : 0002-8231, Central Water and Power Research Station, P.O. Khadakwasia R.S., Pune—411 024, India http://lib.ugm.ac.id/ind/?page_id=410 diakses pada tanggal 4 Juni 2017 jam 04.16 WIB Chilifah, Yudhi Purwanto, Arif Bramantoro, Aplikasi information retrieval untuk pembentukan tesaurus berbahasa indonesia secara otomatis, SCAN VOL. II NOMOR 1 ISSN: 1978-0087