MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )

Slides:



Advertisements
Presentasi serupa
Praktikum Sistem Temu Balik Informasi
Advertisements

StopList dan Stemming yasmi afrizal
Model Temu-Balik Informasi
Konsep Dasar Sistem Temu Kembali Informasi
Ranked Retrieval Pencarian Boolean Menghasilkan sekumpulan dokumen yang cocok dengan query, yang tidak cocok tidak muncul Pada kasus.
Text Mining.
Pertemuan ke-2 Model dalam sistem temu kembali informasi yasmi afrizal
FUZZY INFORMATION RETRIEVAL
Information Retrieval
oleh Rahmani Dwiastuti
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Latent Semantic Indexing
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
Text Pre-Processing M. Ali Fauzi.
KONSEP, MACAM, DAN ALGORITMA THESAURUS DALAM TEMU BALIK INFORMASI
Review Jurnal Nasional
ALGORITMA STEMMING DAN STOPLIST
METODE DAN MODEL TEMU BALIK INFORMASI Luthfi Nurrohman ( )
Temu Balik Informasi BY : Taufik Ari Arnandan ( )
Anggota Kelompok Dian Santosa (KETUA)
Konsep dan Prinsip Latent Semantic Indexing (LSI)
TEMU BALIK INFORMASI.
Pertemuan 7 : Latent Semantic Indexing
Temu Balik Informasi Materi Pertemuan Ke – 7 Konsep dan Prinsip Serta Algoritma Latent Semantic Indexing Anggota : Nama Nim Wahyu Septi Anjar
Anggota Kelompok Ikhsan Fauji Irna Oktaviasari Erip Marliana
SEARCH ENGINE.
Konsep dan Model-model Sistem Temu Balik Informasi
Anggota : Nama Nim Wahyu Septi Anjar Patria Adhyaksa Dian Restiani
Sistem Temu Kembali Informasi Multimedia
Temu balik informasi Stemming dan stoplist
Sistem Temu Kembali Informasi
Implementasi vector space model untuk pencarian dokumen
Natural Language Processing (NLP)
TEMU BALIK INFORMASI Multimedia Dalam Temu Balik Informasi.
Konsep, Metode dan Model Temu Kembali Informasi
Konsep, Metode dan Model dalam Temu Balik Informasi
Latent Semantic Indexing (LSI)
EFEKTIFITAS SELEKSI FITUR DALAM SISTEM TEMU-KEMBALI INFORMASI
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
Anggota Kelompok : Kurniawan Novi Pambudi
Stoplist dan Stemming Anggota Kelompok :
STOPLIST DAN STEEMING Temu Balik Informasi.
Text Preprocessing.
TEMU KEMBALI INFORMASI
VECTOR SPACE MODEL.
Temu balik informasi Anggota Kelompok Ikhsan Fauji
FINAL PROJECT TEMU BALIK INFORMASI
TEMU BALIK INFORMASI TI 14 A.
Ketua Kelompok Dian Restiani Anggota : Wahyu Septi Anjar
Sistem temu balik multimedia
StopList dan Stemming yasmi afrizal
Steamming & Stoplist Temu balik informasi.
Laten Semantic Indexing
TEMU BALIK INFORMASI CONCEPT, PRINCIPLE & ALGORITHMS OF
Temu Balik Informasi Persentasi Final Project
PENYIMPANAN DAN PENGAMBILAN DATA MULTIMEDIA (LANJUTAN) .
STOPWORDLIST dan STEMMING
Information Retrieval
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Aplikasi Teknologi Informasi bagian 2
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
SEARCH ENGINE Asep Taufik Muharram.
Web Search Engine (Mesin Pencari Web)
SEARCH ENGINE Asep Taufik Muharram.
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
SEARCH ENGINE.
Pembobotan Kata (Term Weighting)
Temu Kembali Informasi
Transcript presentasi:

MATERI PROJECT TI 2014 B Taufik Ari Arnandan (14.11.0110) Slamet Imam Fauzi (14.11.0112) Achmar Rizqi Pambudi (14.11.0101) Luthfi Nurrohman (14.11.0102) Sandi Pradana Yuwandani (14.11.0104) Amar Aditya Nugroho (14.11.0109) Ivan Ti Kuncoro (14.11.0111)

a. stoplist Stoplist atau Stopword adalah proses pembuangan kata yang dibuang seperti; tetapi, yaitu, sedangkan, dan sebagainya.Pada tahapan stopword tahapan disini akan mengambil kata- kata penting dari hasil token. Token tersebut merupakan tahapan untuk melakukan pengecekan dari karakter pertama sampai dengan karakter terakhir. http://jurnal.untan.ac.id/index.php/justin/article/download/1319/1288 Stopword Removal merupakan proses yang dilakukan untuk menghilangkan kata-kata “stopword” pada sebuah kalimat/paragraf. Stopword sendiri merupakan kata yang sering atau lazim digunakan dalam kalimat/paragraf. Sehingga pada tahap pertama yang harus kita lakukan adalah mengumpulkan daftar “stopword” atau Stopword List.

a. stoplist Contoh dari Stopword List dalam bahasa indonesia antara lain: Kata penghubung (sesudah,selesai,sebelum) Kata tugas (bagi, dari, dengan, pada) Kata keterangan (sangat, hanya, lebih) Kata bilangan ( beberapa, banyak, sedikit) Kata ganti ( kami, mereka, kita, itu) dan lain sebagainya.

a. stoplist Dalam implementasinya, kita dapat menyimpan daftar Stopword tersebut kedalam sebuah tabel sendiri di database. Kemudian melakukan pengecekan satu persatu kata-kata yang ada di dalam kalimat/paragraf dengan data yang ada di database Stopword tersebut. kita bisa melakukan replace (penghapusan) secara langsung jika Stopword tersebut ditemukan di database. Setelah proses Stopword Removal dilakukan, tahap selanjutnya adalah melakukan Stemming. Stemming yang dilakukan masih menggunakan algoritma porter untuk bahasa indonesia dengan PHP dan MYSQL. Stemming yang dilakukan tidak hanya satu kata, tapi bisa beberapa kata/kalimat/paragraf sekaligus. Sumber : http://kabulkurniawan.com/2012/04/06/information-retrieval-tutorial-stemming- porter-untuk-bahasa-indonesia-bagian-ii/

a. stoplist Tahapan proses stopword adalah sebagai berikut : kata hasil token stemming dibandingkan dengan tabel stopword. dilakukan pengecekan apakah token sama dengan tabel stopword atau tidak jika token sama dengan tabel stopword maka akan diremove jika token tidak sama dengan tabel stopword maka akan dtampilkan yaitu menghasilkan token hasil stopword yang termasuk dalam kata penting (keyword).  

a. stoplist Algotitma stoplist atau Stopword yaitu algotitma stop list (membuang kata-kata yang kurang penting) atau word list (menyimpan kata yang tidak penting). Sstem ini menggunakan metode stoplist yaitu menghilangkan kata-kata tidak penting (stopword) pada deskripsi melalui pengecekan kata-kata pada hasil token deskripsi apakah termasuk dalam daftar kata yang tidak penting (stoplist) atau tidak jika termasuk didalam stoplist maka kata-kata tersebut akan diremove dari deskripsi kata-kata yang tersisa didalam deskripsi dianggap sebagai kata-kata penting atau keyword (pattern). Stopword Removal / Filtering pada tahap Filtering adalah tahap mengambil kata-kata penting dari hasil token, bisa menggunakan algoritma stoplist (membuang kata yang dianggap kurang penting) atau wordlist (menyimpan kata penting)

b. stemming Stemming merupakan suatu proses yang terdapat dalam sistem information Retrival yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata yang akarnya (rootword) dengan menggunakan aturan-aturan tertentu, sebagai contoh kata bersama, kebersamaan, menyamai, akan disistem ke root wordnya sama. Pada stemming digunakan untuk mengurangi ukuran sebuah index file. Misalnya dalam suatu deskripsi terdapat variant kata memberikan, diberikan, memberi dan diberi, hanya memiliki akar kata (stem) yaitu beri. Ukuran file daftar index yang semula sejumlah lima reocrd akan direduce sehingga menjadi satu record saja. Sumber : Nurdiana Ogie, Jumadi, Nursantika Dian, 2016. “ Perabandingan Metode Cosine Similarity Dengan Metode Jaccard Similarity pada Aplikasi Pencarian Terjemah Alqur’an Dalam Bahasa Indonesia”. Volume 1 No. 1. Universitas Islam Negeri Sunan Gunung Djati Bandung. Link : http://join.if.uinsgd.ac.id/index.php/join/article/download/12/21

b. stemming Pada proses stemming merupakan pengelolaan keyword menjadi keywoard yang utuh yaitu dengan menghilangkan imbuhan seperti diantaranya “yang”, “di”,”ke”,”me”, “meng”, dan “kan”. Penguraian dari suatu kata menjadi bentuk kata dasarkan (stem). Tahapan pada proses stemming : Token hasil tokenizing diperiksa apakah mengandung imbuhan atau tidak Jika terdapat imbuhan maka akan dilakukan pembuangan imbuhan, terus berulang sampai tidak mengandung imbuhan. Jika tidak mengandung imbuhan maka akan ditampilkan Pada gambar dibawah ini menunjukan tahapan yang dilakukan sistem dalam mencari kata dasar dari sebuah file dokumen yang diinputkan.

c. Latent Semantic Indexing (LSI) Menurut SEMPO, latent semantic indexing menggunakan asosiasi kata untuk membantu search engine mengetahui apa yang ada di sebuah halaman web dengan lebih akurat. Pada dasarnya LSI adalah sebuah prinsip algoritma yang digunakan search engine untuk memproses persamaan kata atau sinonim dan memahami hubungan topik antar kata.

c. Latent Semantic Indexing (LSI) Latent Semantic Indexing (LSI) adalah metode pengindeksan dan pencarian yang menggunakan teknik matematika yang disebut Dekomposisi Nilai Singular (SVD) untuk mengidentifikasi pola hubungan antara istilah dan konsep-konsep yang terkandung dalam sebuah koleksi teks yang tidak terstruktur. LSI didasarkan pada prinsip bahwa kata-kata yang digunakan dalam konteks yang sama cenderung memiliki makna yang sama. Fitur utama dari LSI adalah kemampuannya untuk mengekstrak konten konseptual dari suatu tubuh teks dengan mendirikan asosiasi antara istilah-istilah yang terjadi dalam konteks yang serupa.

Kenapa LSI Penting? Kenapa LSI Penting? Dalam sebuah percakapan, mungkin kita menggunakan dua kata berbeda untuk menunjuk pada suatu hal yang sama. Misalnya, saat sedang berbicara mengenai pemasaran, mungkin kamu akan menggunakan kata kalender konten atau kalender editorial secara bergantian, namun kedua kata tersebut memiliki arti yang sama. Mungkin masih ada lagi kata-kata lain yang bisa digunakan untuk menggambarkan hal tersebut. Nah, kata-kata tersebut saling tentunya saling berhubungan dan merujuk pada satu topik yang sama, bukan? Namun, karena search engine bukanlah manusia yang bisa memahami hubungan antar kata-kata tersebut, search engine tidak bisa memproses persamaan arti dari kata-kata itu secara natural. Karena itulah, LSI digunakan untuk membantu search engine menginterpretasi hubungan antar kata-kata yang digunakan.

Apa Itu Keyword LSI? Keyword LSI adalah kata-kata atau frasa yang secara semantik berhubungan satu sama lain. Artinya, kata atau frasa tersebut merujuk kepada topik yang sama. Contohnya, “Tesla Motors” berhubungan secara semantik dengan “mobil elektrik”, karena Tesla memproduksi kendaraan elektrik. Cara mudah untuk memahami LSI adalah dengan menganggapnya sebagai keyword kedua yang berhubungan dengan keyword utamamu. Contohnya, jika kamu sedang menulis konten tentang “mobil elektrik”, pastikan juga kamu menyebutkan keyword kedua yang berhubungan seperti “Tesla”, “Chevrolet Spark”, dan lainnya.

Kelebihan Riset Dengan Menggunakan Konsep Keyword LSI Menggunakan konsep keyword LSI akan membuat kontenmu mendapatkan ranking di keyword pencarian yang lebih luas, bukan hanya sesuai kata-kata yang kamu gunakan. Artinya, kamu akan lebih sering muncul di hasil pencarian search engine, dan tentunya akan menghasilkan lebih banyak traffic. Riset dengan keyword LSI juga dapat membantumu memahami lebih dalam mengenai apa yang sebenarnya dicari oleh pengguna search engine.

5 Cara Menemukan Keyword LSI bagaimana cara menemukan keyword LSI sebelum menggunakannya. Untungnya, hal ini mudah untuk dilakukan. 1. Gunakan LSI Keyword Generator Salah satu cara mudah yang bisa dilakukan adalah dengan memanfaatkan LSI Keyword Generator. Kamu hanya tinggal memasukkan sebuah keyword atau topik, dan alat tersebut akan menampilkan kata-kata yang terkait dengan topik yang kamu pilih. Cara ini tidak hanya mudah, tapi juga gratis untuk dilakukan.  2. Perhatikan Pencarian Serupa di Google Di bagian bawah halaman hasil pencarian, Google akan menampilkan pencarian lain yang mirip dengan keyword yang digunakan pada awalnya. Gunakan pencarian serupa itu sebagai dasar bagi riset keyword-mu. 3. Gunakan Google Keyword Planner Akseslah Keyword Planner dan pilihlah opsi pertama, yaitu “Search for new keywords using a phrase, website or category”. Setelah memasukkan keyword-keyword, kamu bisa melihat keyword lainnya yang serupa di kolom “Ad group ideas”.

5 Cara Menemukan Keyword LSI 4. Gunakan Ubersuggest Kamu juga bisa menggunakan jasa Ubersuggest. Alat ini baru saja diperbarui menjadi jauh lebih baik. Video ini akan menjelaskan bagaimana cara menggunakan Ubersuggest. 5. Gunakan Keyword Database SERPs Keyword database ini sangat berguna untuk menemukan keyword terkait dengan cepat. Kamu hanya perlu memasukkan sebuah keyword, dan lakukan pencarian dengan tombol “Search”.

d. Pembobotan Pembobotan merupakan teknik pengambilan keputusan pada suatu proses yang melibatkan berbagai faktor secara bersama-sama dengan cara memberi bobot pada masing-masing faktor tersebut. Pembobotan dapat dilakukan secara objective dengan perhitungan statistic atau secara subyektif dengan menetapkannya berdasarkan pertimbagan tertentu.

d. Pembobotan Metode pembobotan yang digunakan dalam implementasi Giggle dapat berupa kombinasi dari TF (Term Frequency), IDF (Inverse Document Frequency), dan Normalisasi sesuai input dari user. 1. Pembobotan Tf-Idf Tf-Idf adalah perhitungan yang menggambarkan seberapa pentingnya kata (term) dalam sebuah dokumen dan korpus. Proses ini digunakan untuk menilai bobot relevansi term dari sebuah dokumen terhadap seluruh dokumen dalam korpus. Termfrequency adalah ukuran seringnya kemunculan sebuah term dalam sebuah dokumen dan juga dalam seluruh dokumen di dalam korpus. Term frequency ini dihitung menggunakan persamaan (1) dengan adalah term frequency ke-i dan adalah frekuensi kemunculan term ke-i dalam dokumen ke-j. Sedangkan inverse document frequency adalah logaritma dari rasio jumlah seluruh dokumen dalam korpus dengan jumlah dokumen yang memiliki term yang dimaksud seperti yang dituliskan secara matematis pada persamaan (2) [2]. Nilai didapatkan dengan mengalikan keduanya yang diformulasikan pada persamaan (3).

d. Pembobotan 2. Pembobotan LCS LCS digunakan untuk menghitung relasi berurutan yang paling panjang antara query dengan dokumen. Dalam penelitian Tasi dkk. [7], LCS diadopsi di dalam sistem temu kembali dokumen teks sebagai fitur bobot. Nilai LCS antara query q dengan dokumen ke-j yang telah didapatkan tersebut kemudian dinormalisasi dengan persamaan (4) dengan m adalah jumlah term dalam query dan n adalah jumlah term di dalam dokumen.

d. Pembobotan Nilai normalisasi LCS ini kemudian digunakan untuk penyesuaian disesuaikan dengan pembobotan sebelumnya yang sudah ada, yaitu dengan bobot yang didapatkan dari Tf-Idf. Nilai bobot akhir untuk dokumen yang memiliki urutan kata sesuai query lebih tinggi dibandingkan dokumen yang tidak memiliki urutan kata yang sesuai dengan query. Hal tersebut berdampak pula pada nilai kesamaan antara query dengan dokumen. Dokumen yang memiliki bobot urutan kata memiliki nilai kesamaan yang lebih tinggi.

e. Ruang vector (Vector space model) Implementasi Vector Space Model (VSM) dapat digunakan pada berbagai bidang keilmuan seperti Computational Linguistics (Erk, 2010), Expert Systems, Medical (Lopez dan Rebeiro, 2010), Knowledge-Based Systems, Data and Knowledge Engineering (Mao, 2007). Solusi untuk mengatasi masalah sistem temu kembali informasi dengan hasil recall tinggi dan tingkat akurasi rendah adalah dengan membuat sistem temu kembali informasi menggunakan metode VSM. Metode VSM dipilih karena cara kerja model ini efisien, mudah dalam representasi dan dapat diimplementasikan pada documentmatching. Pencarian informasi saat ini dilakukan dengan menggunakan mesin pencari atau Sistem Temu Kembali Informasi (STKI), user menuliskan query dan mesin pencari akan menampilkan hasil pencarian. Mesin pencari yang sudah ada dan banyak digunakan saat ini memberikan hasil perolehan pencarian yang banyak (banyak dokumen yang terambil), sehingga diperlukan waktu untuk menentukan hasil pencarian yang relevan. Menentukan hasil yang relevan sesuai dengan keinginan user dengan jumlah hasil pencarian yang banyak akan menyulitkan user. Hal ini terjadi karena dokumen yang terambil oleh system jumlahnya banyak, maka sistem berkemungkinan menampilkan hasil pencarian yang tidak relevan. Banyaknya dokumen hasil pencarian ini membuat waktu yang dibutuhkan dalam pencarian menjadi lebih banyak dari yang diharapkan.

f. Pencarian Semua metode pencarian yang telah diterbitkan didasarkan pada salah satu dari dua prinsip berikut: 1. Prinsip Temu Kembali Berorientasi Penyimpanan (Storage Oriented Retrieval Principle): Fokus utama dari prinsip ini adalah organisasi dari “tempat yang sesuai” dimana dokumen yang akhirnya disimpan, atau dimana referensi dokumen yang disimpan (misalnya kartu indeks). Pendekatan yang mengikuti hasil prinsip dalam struktur informasi berupa klasifikasi, dan thesaurus (Lancaster, 1986). 2. Prinsip Probabilitas Peringkat (Probability Ranking Principle): Jika respon sistem pengambil referensi untuk setiap permintaan adalah peringkat dokumen dalam koleksi dalam probabilitas kegunaan bagi pengguna yang mengajukan permintaan, dimana probabilitas diperkirakan seakurat mungkin atas dasar data apapun yang telah dibuat tersedia untuk sistem untuk tujuan ini, maka keseluruhan efektifitas sistem untuk penggunanya akan menjadi yang terbaik yang dapat diperoleh berdasarkan data (Robertson, 1977).