Konsep Thesaurus Dwi Ngafifudin (14.11.0241) Taufik Zulkarnaen (14.11.0244) Zaen Nurrohman (14.11.0249) Ulvah Windi Rahayu (14.11.0249) Deni Kurniawan (14.11.0240) Renita Isnaeni (14.11.0246) Nurhanif (14.11.0247) Fahrizal Fahmi (14.11.0245) Temu Balik Informasi
Pengertian Ditinjau dari sisi sistem temu kembali informasi, tesaurus adalah suatu daftar pengendali (authority list) istilah-istilah khusus yang digunakan dalam sistem temu kembali informasi. Akan tetapi bila ditinjau dari segi fungsinya tesaurus adalah sarana pengawasan istilah yang digunakan untuk penerjemahan bahasa alamiah dokumen ke bahasa yang lebih terkendali. Tesaurus berisi sejumlah istilah indeks dengan menggunakan bahasa yang terkendali, sehingga sering disebut juga dengan bahasa terkontrol (controlled language). Tujuan utama tesaurus adalah juga untuk memudahkan temu kembali dokumen, dan untuk mencapai konsistensi dalam pengindeksan dokumen pada sistem simpan dan temu kembali informasi. Dalam bahasa pengindeksan kosa kata terkontrol seperti tesaurus, istilah yang digunakan untuk menyatakan kandungan atau isi suatau dokumen telah dibakukan dalam suatu daftar indeks yang disusun secara alfabetis, misalnya Sears List of Subject Heading, Library of Congress Subject Heading, Macro Economics Thesaurus, DDC Index, dan sebagainya. PENGGUNAAN BAHASA ALAMIAH DAN KOSA KATA TERKONTROL DALAM SISTEM TEMU KEMBALI INFORMASI BERBASIS TEKS JONNER HASUGIAN Staf Pengajar pada Program Studi Ilmu Perpustakaan Fakultas Sastra USU
Konsep Thesaurus Tesaurus merupakan suatu kosakata terkontrol yang diatur secara terurut dimana relasi ekivalensi, hirarki dan asosiasi antar term ditampilkan secara eksplisit dan diidentifikasikan dengan indikator relasi standard (NISO Standard z39.19, 1999). Tesaurus memiliki fungsi berdasarkan fungsionalitas-nya yaitu: Tesaurus stand-alone Berfungsi untuk membantu pengguna memahami arti suatu term beserta relasinya, membantu mencari variasi term dan mencari translasi term. Tesaurus terintegrasi Memiliki dua fungsi utama yaitu pengambilan informasi dan pengindeksan. Tesaurus memiliki struktur yang berbentuk pohon. Struktur tesaurus secara umum (General Thesaurus Ontology) atau GTO dapat terlihat sebagai berikut ini. 2
Macam-macam Tesaurus Ada beberapa thesauruses hirarkis digunakan dalam sistem IR konvensional. Sebagai contoh, Medical Subject Heading (MeSH) digunakan dalam sistem MEDLINE (McCarn, 1980). MESH berisi sekitar 15.000 istilah pengindeksan diatur dalam struktur hirarki kedalaman sembilan. Jika sinonim terkait dianggap, ada lebih dari 100.000 istilah total. Struktur Computing Ulasan Klasifikasi (CRCS) adalah tesaurus hirarkis lain yang dikelola oleh Association for Computing Machinery untuk mengindeks publikasi (Sammet & Ralston, 1982). CRCS ketat hirarkis, dan tidak ada istilah memiliki lebih dari satu orang tua. CRCS memiliki sekitar 1.000 istilah dengan kedalaman lima. Kedua MESH dan CRCS mewakili 'adalah-a' atau hubungan 'generalisasi' antara istilah tesaurus. 2
Algoritma pada thesaurus Thesaurus-based ranking algorithms. Algoritma peringkat berdasarkan thesaurus berikut telah dikembangkan di masa lalu. Mereka menggunakan hubungan 'is-a' dari thesaurus untuk menghitung kedekatan konseptual atau jarak konseptual antara kuadran boolean dan dokumen. Relevansi Algoritma (Relevansi) (Rada, Humphrey, & Coccia, 1985; Rada, Humphrey, Suh, Brown, & Coccia, 1985) Algoritma Jarak Jauh (R-Distance) (McMath et al, 1989; Rada & Bicknell, 1989; Rada et al., 1989) Algoritma Jarak Jauh (K-Distance (Kim & Kim, 1990) Dalam algoritma Relevansi, R-Distance, dan K-Distance, sebuah query pada awalnya merupakan ekspresi logis yang terdiri dari istilah thesaurus dan operator logika AND, OR, dan NOT. Ungkapan tersebut kemudian diubah menjadi bentuk normal disejajarkan yang minimal (DNF) dengan, misalnya, algoritma Quine-McCluskey (McCluskey, 1956). Oleh karena itu, kueri dapat dipandang sebagai penghentian istilah konjungtif, di mana setiap konjungsi mungkin mengandung istilah yang dinegasikan. 2