Text Preprocessing.

Slides:



Advertisements
Presentasi serupa
M.K. Pemrograman Web (AK )
Advertisements

Praktikum Sistem Temu Balik Informasi
PHP dalam HTML Statement Variabel
PHP: Hypertext Preprocessor
PENGENALAN JAVA SCRIPT PEMROGRAMAN INTERNET1-6/LINDA SUVI RAHMAWATI STMIK PPKIA Pradnya STMIK PPKIA PRADNYA PARAMITA /LINDA SUVI RAHMAWATI.
XML TREE Hari Rabu Programmer Makanan
PEMROGRAMAN BERBASIS WEB
Tim FT Elektro UHAMKA CSS (Cascading Style Sheet)
Text Mining.
Natural Language Processing (Pemroses Bahasa Alami)
Pemrograman Internet Mobile
Pengenalan XML Perbedaannya dengan HTML Kebutuhan akan XML.
ANALISIS LEKSIKAL.
Pengenalan XML Perbedaannya dengan HTML Kebutuhan akan XML.
Perancangan Web Pertemuan IV
Dasar-dasar Pemrograman PHP
Bahasa Pemrograman & Script untuk Web Materi Pertemuan ke-7.
Gambar Kerangka dari sistem temu-kembali informasi sederhana
Temu Balik Informasi Pertemuan Ke – 12 Presentasi Final Project
Final Project Temu Balik Informasi
Text Pre-Processing M. Ali Fauzi.
MATERI PROJECT TI 2014 B Taufik Ari Arnandan ( )
Review Jurnal Nasional
ALGORITMA STEMMING DAN STOPLIST
Pertemuan 7 : Latent Semantic Indexing
TEORI BAHASA DAN AUTOMATA
SEO (Search Engine Optimization)
Temu balik informasi Stemming dan stoplist
Sistem Temu Kembali Informasi
Natural Language Processing (NLP)
Algoritma dan Pemrograman 2A
Temu Balik Informasi Materi Pertemuan Ke – 3 Stoplist dan Stemming
Anggota Kelompok : Kurniawan Novi Pambudi
PENGINDEKSAN.
Stoplist dan Stemming Anggota Kelompok :
STOPLIST DAN STEEMING Temu Balik Informasi.
Document Indexing dan Term Weighting
Temu balik informasi Anggota Kelompok Ikhsan Fauji
FINAL PROJECT TEMU BALIK INFORMASI
CSS Cascading Style Sheets
Sindy Nova Algoritma dan Pemrograman 1A
Pengantar Teknik Kompilasi
StopList dan Stemming yasmi afrizal
Temu Balik Informasi Anggota Kelompok 1. Ikhsan Fauji Irna Oktaviasari Erip Marliana Egi Firmansyah
Steamming & Stoplist Temu balik informasi.
Temu Balik Informasi Persentasi Final Project
STOPWORDLIST dan STEMMING
ANALISIS LEKSIKAL.
Metode CGI dan Struktur bahasa PHP
ANALISIS LEKSIKAL (Scanner)
Analisis leksikal ( SCANNER )
Stemming & Stoplist TI14D.
Bahasa Pemrograman & Script untuk Web
BAB 1 PENGENALAN PASCAL.
Oleh : Rahmat Robi Waliyansyah, M.Kom.
ANALISIS LEKSIKAL.
TEXT OPERATION Muhammad Yusuf Teknik Multimedia dan Jaringan
Review Algoritma 1 Teks Algoritma terdiri dari tiga bagian :
Pengenalan PHP, Variabel & Operator
( Cascading style sheets)
Pengantar Common Gateway Interface (CGI) dan Perl
PRAKTIKUM PEMROGRAMAN WEB Pertemuan 3
PENGENALAN PEMROSESAN TRANSAKSI
PHP (Personal Home Page tools)
M Ali Fauzi Indriati Sigit Adinugroho
Nugraha Iman Santosa ( )
Pembobotan Kata (Term Weighting)
Information Retrieval “Document Preprocessing”
ANALISIS LEKSIKAL.
ANALISIS LEKSIKAL.
Transcript presentasi:

Text Preprocessing

Definisi Text Processing Definisi Pemrosesan Teks (Text Preprocessing) adalah suatu proses pengubahan bentuk data yang belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan, untuk proses mining yang lebih lanjut (sentiment analysis, peringkasan, clustering dokumen, etc.).

Singkatnya Preprocessing adalah merubah teks menjadi term index Tujuan: menghasilkan sebuah set term index yang bisa mewakili dokumen

Langkah langkah Text Preprocessing

Tahapan Text Preprocessing Parsing Tokenization Stopword Removal Stemming

Parsing Parsing Dokumen berurusan dengan pengenalan dan “pemecahan” struktur dokumen menjadi komponen-komponen terpisah. Pada langkah preprocessing ini, kita menentukan mana yang dijadikan satu unit dokumen; Contoh. Buku dengan 100 halaman bisa dipisah menjadi 100 dokumen; masing-masing halaman menjadi 1 dokumen Satu tweet bisa dijadikan sebagai 1 dokumen. Begitu juga dengan sebuah komentar pada forum atau review produk.

Lexical Analysis Dikenal juga Tokenization / Tokenisasi adalah proses pemotongan string input berdasarkan tiap kata penyusunnya. Pada prinsipnya proses ini adalah memisahkan setiap kata yang menyusun suatu dokumen.

Lexical Analysis Pada proses ini dilakukan penghilangan angka, tanda baca dan karakter selain huruf alfabet, karena karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap pemrosesan teks. Pada tahapan ini juga dilakukan proses case folding, dimana semua huruf diubah menjadi huruf kecil. Cleaning adalah proses membersihkan dokumen dari komponen- komponen yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag html, link, dan script, dsb.

Tokenization Yandi pergi ke sawah untuk mengantarkan makanan. Di sana dia bertemu pak bunyamin yang sedang menanam Padi Tokens: “yandi”, “pergi”, “ke”, “sawah”, “untuk”, “mengantarkan”, “makanan”, “di”, “sana”, “dia”, “bertemu”, “pak”, “bunyamin”, “yang”, “sedang”, “menanam”, “padi”

Stopword Removal Disebut juga Filtering Filtering adalah tahap pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen. Metode: menggunakan algoritma stopword. Stoplist atau stopword adalah kata-kata yang tidak deskriptif (tidak penting) yang dapat dibuang dengan pendekatan bag-of- words. Contoh: stopwords adalah ada, adalah adanya, adapun, agak agaknya, agar, dll

Stopword Removal Algoritma wordlist Wordlist adalah kata-kata yang deskriptif (penting) yang harus disimpan dan tidak dibuang dengan pendekatan bag-of- words. Kita memiliki database kumpulan kata-kata yang deskriptif (penting), kemudian kalau hasil tokenisasi itu ada yang merupakan kata penting dalam database tersebut, maka hasil tokenisasi itu disimpan.

Contoh Stopword Tokens: “yandi”, “pergi”, “ke”, “sawah”, “untuk”, “mengantarkan”, “makanan”, “di”, “sana”, “dia”, “bertemu”, “pak”, “bunyamin”, “yang”, “sedang”, “menanam”, “padi” Stopword removal: “yandi”, “pergi”, “sawah”, “mengantarkan”, “makanan”, “bertemu”, “bunyamin”, “menanam”, “padi”

Stemming Stemming adalah proses pengubahan bentuk kata menjadi kata dasar atau tahap mencari root kata dari tiap kata hasil filtering. Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian dapat lebih mengoptimalkan proses teks mining.

Algoritma Stemming Implementasi proses stemming sangat beragam, tergantung dengan bahasa dari dokumen. Beberapa metode untuk Stemming : Porter Stemmer (English & Indonesia) Stemming Arifin-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia) Khoja (Arabic)

Contoh Stemming Bahasa Tokens: “yandi”, “pergi”, “ke”, “sawah”, “untuk”, “mengantarkan”, “makanan”, “di”, “sana”, “dia”, “bertemu”, “pak”, “bunyamin”, “yang”, “sedang”, “menanam”, “padi” Stopword: “yandi”, “pergi”, “sawah”, “mengantarkan”, “makanan”, “bertemu”, “bunyamin”, “menanam”, “padi” Stemming: “yandi”,”pergi”,”sawah”, “antar”, “makan”, “temu”, “bunyamin”, “tanam”, “padi”