5 ~ SUMMARIZATION
LATAR BELAKANG
Motivasi : adanya tantangan … … letakkan sebuah buku pada scanner, scan ‘2 halaman’, dan baca hasilnya berupa ringkasan dari 2 halaman …
… download 1000 dokumen web, kirim ke alat pembuat ringkasan, dan pilih dokumen yang terbaik dengan membaca ringkasan dari cluster-nya … … forward email dalam bahasa Inggris ke alat pembuat ringkasan, baca ringkasan yang sudah diterjemahkan …
~ Perform Summarization ~ SOLUSI ???? ~ Perform Summarization ~
MANFAAT
Berita Utama – Memberikan Informasi
Acara TV – Pengambilan Keputusan
Abstrak Makalah : Mempersingkat waktu
CONTOH LAIN :
MILAN, Italy, April 18. A small airplane crashed into a government building in heart of Milan, setting the top floors on fire, Italian police reported. There were no immediate reports on casualties as rescue workers attempted to clear the area in the city's financial district. Few details of the crash were available, but news reports about it immediately set off fears that it might be a terrorist act akin to the Sept. 11 attacks in the United States. Those fears sent U.S. stocks tumbling to session lows in late morning trading. Witnesses reported hearing a loud explosion from the 30-story office building, which houses the administrative offices of the local Lombardy region and sits next to the city's central train station. Italian state television said the crash put a hole in the 25th floor of the Pirelli building. News reports said smoke poured from the opening. Police and ambulances rushed to the building in downtown Milan. No further details were immediately available.
MILAN, Italy, April 18. A small airplane crashed into a government building in heart of Milan, setting the top floors on fire, Italian police reported. There were no immediate reports on casualties as rescue workers attempted to clear the area in the city's financial district. Few details of the crash were available, but news reports about it immediately set off fears that it might be a terrorist act akin to the Sept. 11 attacks in the United States. Those fears sent U.S. stocks tumbling to session lows in late morning trading. Witnesses reported hearing a loud explosion from the 30-story office building, which houses the administrative offices of the local Lombardy region and sits next to the city's central train station. Italian state television said the crash put a hole in the 25th floor of the Pirelli building. News reports said smoke poured from the opening. Police and ambulances rushed to the building in downtown Milan. No further details were immediately available.
MILAN, Italy, April 18. A small airplane crashed into a government What happened? MILAN, Italy, April 18. A small airplane crashed into a government building in heart of Milan, setting the top floors on fire, Italian police reported. There were no immediate reports on casualties as rescue workers attempted to clear the area in the city's financial district. Few details of the crash were available, but news reports about it immediately set off fears that it might be a terrorist act akin to the Sept. 11 attacks in the United States. Those fears sent U.S. stocks tumbling to session lows in late morning trading. Witnesses reported hearing a loud explosion from the 30-story office building, which houses the administrative offices of the local Lombardy region and sits next to the city's central train station. Italian state television said the crash put a hole in the 25th floor of the Pirelli building. News reports said smoke poured from the opening. Police and ambulances rushed to the building in downtown Milan. No further details were immediately available. How many victims? When, where? Says who? Was it a terrorist act? What was the target?
JENIS RINGKASAN
Berbagai Jenis Ringkasan Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Indikatif Digunakan untuk kategorisasi secara cepat Informatif Pemrosesan isi
Berbagai Jenis Ringkasan Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Ekstrak Paragraf / kalimat / frase yang representatif Daftar fragmen teks Abstrak Suatu ringkasan yang padat dari topik permasalahan pada suatu dokumen Menyimpulkan kembali isi secara koheren
Berbagai Jenis Ringkasan Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Single-Dokumen Berdasarkan pada satu teks Multi-Dokumen Penggabungan beberapa teks
Berbagai Jenis Ringkasan Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Query-spesifik Merefleksikan minat dari user Query-independen Mengikuti pandangan penulis
Berbagai Jenis Ringkasan Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Background Asumsikan jika pengetahuan pembaca sebelumnya tidak banyak Just-the-News Asumsikan jika pembaca sangat mengikuti perkembangan
FUNGSI DARI RINGKASAN
Ringkasan yang indikatif Abstrak yang indikatif memberikan fungsi referensi untuk pemilihan dokumen yang dapat dipelajari lebih dalam Ringkasan yang informatif Ringkasan yang informatif berisi semua informasi penting pada semua sumber di semua level dan detil Ringkasan yang evaluatif Suatu abstrak kritikal yang mengevaluasi topik sumber, mengekspresikan pandangan penulis abstrak mengenai kualitas pekerjaan penulis
Indikatif Evaluatif Informatif
PENDEKATAN DAN PARADIGMA ~ Approach and Paradigm ~
Pendekatan (Approach) Fokus utama psycholinguistics, text linguistics, computational Paradigma (Paradigm) Preferensi metodologi IR, NLP, statistic, rule, AI, … Metode (Methods) Modul, algoritma word frequency, sentence position, concept generalization, …
Pembuatan Ringkasan Manual oleh Manusia Baca artikel asli Pahami apa yang disampaikan pada artikel tersebut Ringkas isi dari artikel tersebut tanpa kehilangan substansi atau maksud dari artikel tersebut
Cremmins 82, 96 American National Standard untuk menulis abstrak Sebutkan tujuan, metode, hasil, dan kesimpulan yang disampaikan pada dokumen aslinya, dengan urutan tsb. Atau dengan penekanan awal pada hasil dan kesimpulan. Buat abstrak yang menginformasikan isi dokumen, sehingga pembaca dapat memutuskan, secara cepat dan tepat, apakah mereka perlu membaca seluruh dokumen. Hindari penggunaan informasi yang memberikan latar belakang atau memuat pekerjaan orang lain pada abstrak, kecuali jika penelitian tsb. memang merupakan pengulangan dari pekerjaan mereka.
Jangan memasukkan informasi pada abstrak yang tidak ada pada teks yang dibuat abstraknya. Cocokkan semua informasi kualitatif dan kuantitatif yang digunakan pada abstrak sesuai dengan informasi yang ada pada dokumen. Gunakan bahasa yang standar dan kata-kata teknis yang tepat, dan mengikuti aturan tata bahasa dan tanda baca. Berikan kepanjangan dari akronim dan singkatan yang jarang dipakai, dan jelaskan arti simbol yang mungkin tidak dikenal user pada abstrak. Hindari kata, frase, dan kalimat yang tidak berguna
Contoh Cremmins 82, 96 Original version: There were significant positive associations between the concentrations of the substance administered and mortality in rats and mice of both sexes. There was no convincing evidence to indicate that endrin ingestion induced and of the different types of tumors which were found in the treated animals. Edited version: Mortality in rats and mice of both sexes was dose related. No treatment-related tumors were found in any of the animals.
Luhn 58 Hasil pertama dari ringkasan otomatis Menghitung ukuran dari signifikansi E FREQUENCY WORDS Resolving power of significant words
Luhn 58 Kalimat: Nilai batas digunakan pada eksperimen Konsentrasi pada kalimat yang nilainya tinggi Nilai batas digunakan pada eksperimen SENTENCE SIGNIFICANT WORDS * * * * 1 2 3 4 5 6 7 ALL WORDS SCORE = 42/7 2.3
Edmundson 69 Metode Cue : Metode Kunci : Metode Judul : Kata-kata stigma (“hardly”, “impossible”) Kata-kata bonus(“significant”) Metode Kunci : Sama dengan Luhn Metode Judul : Judul dan Bab Metode Lokasi : Kata di bawah Bab Kalimat yang terletak di dekat awal atau akhir dokumen dan/atau paragraf. [Baxendale 58])
Edmundson 69 Linear combination of four features: 1C + 2K + 3T + 4L Manually labelled training corpus Key not important! 1 C + T + L C + K + T + L LOCATION CUE TITLE KEY RANDOM 0 10 20 30 40 50 60 70 80 90 100 %
METODE PEMBUATAN RINGKASAN ~ SUMMARIZATION METHODS ~
Pendekatan untuk Pembuatan Ringkasan Shallower approach Hasilnya sentence extraction dimana kalimat yang diambil dapat tidak sesuai dengan konteksnya Transformasi : pemilihan unit yang penting Sintesis (termasuk smoothing) : memasukkan window kalimat sebelumnya, sesuaikan dengan referensi, mampatkan kalimat dan susun kembali Dapat dilatih menggunakan korpus
Pendekatan untuk Pembuatan Ringkasan Deeper approach Hasilnya abstrak Sintesis melibatkan NL Generation
Shallow Approach
Linear Feature Combination 𝑊𝑒𝑖𝑔ℎ𝑡 𝑈 =𝛼∗𝐿𝑜𝑐𝑎𝑡𝑖𝑜𝑛 𝑈 +𝛽∗𝐹𝑖𝑥𝑒𝑑𝑃ℎ𝑟𝑎𝑠𝑒 𝑈 +𝛾∗𝑇ℎ𝑒𝑚𝑎𝑡𝑖𝑐𝑇𝑒𝑟𝑚 𝑈 +𝛿∗𝐴𝑑𝑑𝑇𝑒𝑟𝑚 𝑈 Dimana : 𝑈 : unit dari teks seperti kalimat
Location : FixedPhrase: bobot diberikan pada suatu unit teks berdasarkan posisi munculnya di awal, tengah, atau akhir paragraf atau seluruh dokumen, atau pada bagian tertentu dari dokumen seperti pada bab pengenalan atau kesimpulan. Misal : judul, pendahuluan, kesimpulan. FixedPhrase: bobot diberikan pada suatu unit teks bila fixedphrases muncul (mis. singkatnya, penyelidikan kami menunjukkan, tujuan artikel ini adalah, … ), kata penekanan (penting, terutama, …) Sesuai genre-nya, seperti tulisan ilmiah, ringkasan film, headlines berita, dan lain-lain
ThematicTerm : bobot diberikan pada suatu unit teks karena adanya kata yang penting secara statistik pada unit tsb. misal kata tf.idf Sesuai dengan dokumennya AddTerm : bobot diberikan pada suatu unit teks untuk kata-katanya yang juga muncul di judul, berita utama, paragraf awal, atau query dari user.
Metode untuk Memperbaiki Kalimat Jika suatu ringkasan dibuat dengan metode shallow, maka kalimatnya dapat diperbaiki agar menjadi ringkasan yang koheren dan informatif Sentence Revisor Ada tiga metode : Shallow coherence smoothing Penghilangan Aggregation
Shallow Coherence Smoothing Lingkungan terstruktur Misal tabel Langkah : Kenali dan jangan dimasukkan Kenali dan diringkas Anafora Adalah perulangan kata yang sama pada kalimat yang berurutan atau pada awal alinea yang berurutan Jangan masukkan Masukkan beberapa kalimat sebelumnya
Gaps Masukkan kalimat dengan urutan yang rendah diantara dua kalimat yang terpilih. Tambahkan kalimat pertama dari paragraf jika yang kedua dan ketiga dipilih
Deep Approach Digunakan untuk pembentukan abstrak Abstrak : Ringkasan yang sebagian isinya tidak ada pada input Kesimpulan isi dari teks dapat mengacu pada konsep yang melatarbelakangi Ringkasan yang tingkat kompresinya lebih tinggi daripada extract Tidak boleh memuat sesuatu yang baru yang tidak ada di dalam teks (secara konsep)
Metode Deep Approach Template Extraction Concept Abstraction
Template Extraction Source Analysis Templates Transformation Synthesis Wall Street Journal, 06/15/88 MAXICARE HEALTH PLANS INC and UNIVERSAL HEALTH SERVICES INC have dissolved a joint venture which provided health services. Synthesis Analysis Templates Source Transformation
Contoh Template (Paice & Jones, 1983) Concept Definition SPECIES the crop species concerned CULTIVAR the varieties used HIGH-LEVEL PROPERTY the property being investigated, e.g., yield, growth rate PEST any pest which infests the crop AGENT chemical or biological agent applied INFLUENCE e.g., drought, cold, grazing, cultivation system LOCALITY where the study was performed TIME years when the study was conducted SOIL description of soil Canned Text Patterns “This paper studies the effect the pest PEST has on the PROPERTY of SPECIES.” “An experiment in TIME at LOCALITY was undertaken.” Output: This paper studies the effect the pest G. pallida has on the yield of potato. An experiment in 1985 and 1986 at York, Lincoln and Peterbourgh, England was undertaken.
Characteristics: Advantages: Limitations: Templates dapat bersifat sederhana, kompleks, atau bahkan terdiri atas sejumlah template. Templates (and sets of them) memanfaatkan operasi aggregation dan elimination untuk tepat mendapatkan informasi kunci dari ringkasan. Salience (istilah-istilah penting) ditentukan di awal berdasarkan slots. Advantages: Memberikan kemamapuan yang cukup baik dalam menyajikan ringkasan dalam bentuk abstrak Limitations: Memerlukan penyesuaian terhadap tipe-tipe spesifik dari input data Hanya mampu meringkas satu jenis tipe input data
Concept Abstraction Method Menangkap isi dokumen dalam hal kategori abstrak Kategori abstrak dapat merupakan: Suatu set kata dari dokumen Topik dari koleksi dokumen atau background knowledge (mis. Thesaurus) Untuk mendapatkan background knowledge: Dapatkan hirarki konsep yang tepat Tandai konsep-konsep pada hirarki dengan frekuensinya pada teks Temukan generalisasi yang paling spesifik dari konsep yang direferensikan pada teks. Gunakan generalisasi pada abstrak
Contoh Concept Abstraction The department is buying a Sun Workstation, a HP 3690, and a Toshiba machine. The IBM ThinkPad will not be bought from next year onwards. Sun Workstation IBM ThinkPad Salient (C) iff Counting Concept and Instance Links (Hahn & Reimer ‘99) Counting Concept and Subclass Links (Lin & Hovy ‘99) Most Specific Generalization: Traverse downwards until you find C whose children contribute equally to its weight
EVALUASI
Intrinsic and Extrinsic Methods Metode Intrinsic menguji sistem itu sendiri Kriteria: Coherence Informativeness Metode: Bandingkan dengan dokumen yg digunakan Bandingkan dengan hasil ringkasan yg ada Metode Extrinsic menguji sistem dalam hubungannya dengan tugas lain Waktu untuk melaksanakan tugas, ketepatan tugas, kemudahan dalam menggunakan Dinilai oleh ahli mengenai kegunaannya dalam suatu tugas
Coherence Coherence: mengukur bagaimana ringkasan dibaca? Prosedur: Pengguna dapat memberikan nilai ( mis. Skala 1-3) kriteria tertentu Kriteria baca yang umum: ejaan, tata bahasa, kejelasan, mudah dibaca, dimengerti dll. Kriteria khusus mengenai ekstrak (dangling anaphors, gaps, dll.) atau abstrak (kalimat tidak sempurna, kata yang tidak tepat dll.) Nilai yang diberikan oleh pengguna dibandingkan dengan nilai dari ringkasan acuan, dokumen sumber, sistem pembuat ringkasan yang lain.
Informativeness Informativeness: mengukur apakah isinya masih dipertahankan? Mengukur seberapa banyak ringkasan mempertahankan informasi dari sumber atau ringkasan yang menjadi referensi. Prosedur: Pengguna dapat memberikan nilai ( mis. Skala 1-3) kriteria tertentu Nilai yang diberikan oleh pengguna dibandingkan dengan nilai dari ringkasan acuan, dokumen sumber, sistem pembuat ringkasan yang lain.
Source Document Human Summary (Reference) Machine Compare Comparison method can be manual or automatic
Terima kasih