Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
1
5 ~ SUMMARIZATION
2
LATAR BELAKANG
3
Motivasi : adanya tantangan …
… letakkan sebuah buku pada scanner, scan ‘2 halaman’, dan baca hasilnya berupa ringkasan dari 2 halaman …
4
… download 1000 dokumen web, kirim ke alat pembuat ringkasan, dan pilih dokumen yang terbaik dengan membaca ringkasan dari cluster-nya … … forward dalam bahasa Inggris ke alat pembuat ringkasan, baca ringkasan yang sudah diterjemahkan …
5
~ Perform Summarization ~
SOLUSI ???? ~ Perform Summarization ~
6
MANFAAT
7
Berita Utama – Memberikan Informasi
8
Acara TV – Pengambilan Keputusan
9
Abstrak Makalah : Mempersingkat waktu
10
CONTOH LAIN :
12
MILAN, Italy, April 18. A small airplane crashed into a government
building in heart of Milan, setting the top floors on fire, Italian police reported. There were no immediate reports on casualties as rescue workers attempted to clear the area in the city's financial district. Few details of the crash were available, but news reports about it immediately set off fears that it might be a terrorist act akin to the Sept. 11 attacks in the United States. Those fears sent U.S. stocks tumbling to session lows in late morning trading. Witnesses reported hearing a loud explosion from the 30-story office building, which houses the administrative offices of the local Lombardy region and sits next to the city's central train station. Italian state television said the crash put a hole in the 25th floor of the Pirelli building. News reports said smoke poured from the opening. Police and ambulances rushed to the building in downtown Milan. No further details were immediately available.
13
MILAN, Italy, April 18. A small airplane crashed into a government
building in heart of Milan, setting the top floors on fire, Italian police reported. There were no immediate reports on casualties as rescue workers attempted to clear the area in the city's financial district. Few details of the crash were available, but news reports about it immediately set off fears that it might be a terrorist act akin to the Sept. 11 attacks in the United States. Those fears sent U.S. stocks tumbling to session lows in late morning trading. Witnesses reported hearing a loud explosion from the 30-story office building, which houses the administrative offices of the local Lombardy region and sits next to the city's central train station. Italian state television said the crash put a hole in the 25th floor of the Pirelli building. News reports said smoke poured from the opening. Police and ambulances rushed to the building in downtown Milan. No further details were immediately available.
14
MILAN, Italy, April 18. A small airplane crashed into a government
What happened? MILAN, Italy, April 18. A small airplane crashed into a government building in heart of Milan, setting the top floors on fire, Italian police reported. There were no immediate reports on casualties as rescue workers attempted to clear the area in the city's financial district. Few details of the crash were available, but news reports about it immediately set off fears that it might be a terrorist act akin to the Sept. 11 attacks in the United States. Those fears sent U.S. stocks tumbling to session lows in late morning trading. Witnesses reported hearing a loud explosion from the 30-story office building, which houses the administrative offices of the local Lombardy region and sits next to the city's central train station. Italian state television said the crash put a hole in the 25th floor of the Pirelli building. News reports said smoke poured from the opening. Police and ambulances rushed to the building in downtown Milan. No further details were immediately available. How many victims? When, where? Says who? Was it a terrorist act? What was the target?
15
JENIS RINGKASAN
16
Berbagai Jenis Ringkasan
Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Indikatif Digunakan untuk kategorisasi secara cepat Informatif Pemrosesan isi
17
Berbagai Jenis Ringkasan
Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Ekstrak Paragraf / kalimat / frase yang representatif Daftar fragmen teks Abstrak Suatu ringkasan yang padat dari topik permasalahan pada suatu dokumen Menyimpulkan kembali isi secara koheren
18
Berbagai Jenis Ringkasan
Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Single-Dokumen Berdasarkan pada satu teks Multi-Dokumen Penggabungan beberapa teks
19
Berbagai Jenis Ringkasan
Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Query-spesifik Merefleksikan minat dari user Query-independen Mengikuti pandangan penulis
20
Berbagai Jenis Ringkasan
Dilihat dari : Tujuan Bentuk Dimensi Konteks Pengetahuan Pembaca Background Asumsikan jika pengetahuan pembaca sebelumnya tidak banyak Just-the-News Asumsikan jika pembaca sangat mengikuti perkembangan
21
FUNGSI DARI RINGKASAN
22
Ringkasan yang indikatif
Abstrak yang indikatif memberikan fungsi referensi untuk pemilihan dokumen yang dapat dipelajari lebih dalam Ringkasan yang informatif Ringkasan yang informatif berisi semua informasi penting pada semua sumber di semua level dan detil Ringkasan yang evaluatif Suatu abstrak kritikal yang mengevaluasi topik sumber, mengekspresikan pandangan penulis abstrak mengenai kualitas pekerjaan penulis
23
Indikatif Evaluatif Informatif
24
PENDEKATAN DAN PARADIGMA
~ Approach and Paradigm ~
25
Pendekatan (Approach)
Fokus utama psycholinguistics, text linguistics, computational Paradigma (Paradigm) Preferensi metodologi IR, NLP, statistic, rule, AI, … Metode (Methods) Modul, algoritma word frequency, sentence position, concept generalization, …
26
Pembuatan Ringkasan Manual oleh Manusia
Baca artikel asli Pahami apa yang disampaikan pada artikel tersebut Ringkas isi dari artikel tersebut tanpa kehilangan substansi atau maksud dari artikel tersebut
27
Cremmins 82, 96 American National Standard untuk menulis abstrak
Sebutkan tujuan, metode, hasil, dan kesimpulan yang disampaikan pada dokumen aslinya, dengan urutan tsb. Atau dengan penekanan awal pada hasil dan kesimpulan. Buat abstrak yang menginformasikan isi dokumen, sehingga pembaca dapat memutuskan, secara cepat dan tepat, apakah mereka perlu membaca seluruh dokumen. Hindari penggunaan informasi yang memberikan latar belakang atau memuat pekerjaan orang lain pada abstrak, kecuali jika penelitian tsb. memang merupakan pengulangan dari pekerjaan mereka.
28
Jangan memasukkan informasi pada abstrak yang tidak ada pada teks yang dibuat abstraknya.
Cocokkan semua informasi kualitatif dan kuantitatif yang digunakan pada abstrak sesuai dengan informasi yang ada pada dokumen. Gunakan bahasa yang standar dan kata-kata teknis yang tepat, dan mengikuti aturan tata bahasa dan tanda baca. Berikan kepanjangan dari akronim dan singkatan yang jarang dipakai, dan jelaskan arti simbol yang mungkin tidak dikenal user pada abstrak. Hindari kata, frase, dan kalimat yang tidak berguna
29
Contoh Cremmins 82, 96 Original version: There were significant positive associations between the concentrations of the substance administered and mortality in rats and mice of both sexes. There was no convincing evidence to indicate that endrin ingestion induced and of the different types of tumors which were found in the treated animals. Edited version: Mortality in rats and mice of both sexes was dose related No treatment-related tumors were found in any of the animals.
30
Luhn 58 Hasil pertama dari ringkasan otomatis
Menghitung ukuran dari signifikansi E FREQUENCY WORDS Resolving power of significant words
31
Luhn 58 Kalimat: Nilai batas digunakan pada eksperimen
Konsentrasi pada kalimat yang nilainya tinggi Nilai batas digunakan pada eksperimen SENTENCE SIGNIFICANT WORDS * * * * ALL WORDS SCORE = 42/7 2.3
32
Edmundson 69 Metode Cue : Metode Kunci : Metode Judul :
Kata-kata stigma (“hardly”, “impossible”) Kata-kata bonus(“significant”) Metode Kunci : Sama dengan Luhn Metode Judul : Judul dan Bab Metode Lokasi : Kata di bawah Bab Kalimat yang terletak di dekat awal atau akhir dokumen dan/atau paragraf. [Baxendale 58])
33
Edmundson 69 Linear combination of four features: 1C + 2K + 3T + 4L Manually labelled training corpus Key not important! 1 C + T + L C + K + T + L LOCATION CUE TITLE KEY RANDOM %
34
METODE PEMBUATAN RINGKASAN
~ SUMMARIZATION METHODS ~
35
Pendekatan untuk Pembuatan Ringkasan
Shallower approach Hasilnya sentence extraction dimana kalimat yang diambil dapat tidak sesuai dengan konteksnya Transformasi : pemilihan unit yang penting Sintesis (termasuk smoothing) : memasukkan window kalimat sebelumnya, sesuaikan dengan referensi, mampatkan kalimat dan susun kembali Dapat dilatih menggunakan korpus
36
Pendekatan untuk Pembuatan Ringkasan
Deeper approach Hasilnya abstrak Sintesis melibatkan NL Generation
37
Shallow Approach
38
Linear Feature Combination
𝑊𝑒𝑖𝑔ℎ𝑡 𝑈 =𝛼∗𝐿𝑜𝑐𝑎𝑡𝑖𝑜𝑛 𝑈 +𝛽∗𝐹𝑖𝑥𝑒𝑑𝑃ℎ𝑟𝑎𝑠𝑒 𝑈 +𝛾∗𝑇ℎ𝑒𝑚𝑎𝑡𝑖𝑐𝑇𝑒𝑟𝑚 𝑈 +𝛿∗𝐴𝑑𝑑𝑇𝑒𝑟𝑚 𝑈 Dimana : 𝑈 : unit dari teks seperti kalimat
39
Location : FixedPhrase:
bobot diberikan pada suatu unit teks berdasarkan posisi munculnya di awal, tengah, atau akhir paragraf atau seluruh dokumen, atau pada bagian tertentu dari dokumen seperti pada bab pengenalan atau kesimpulan. Misal : judul, pendahuluan, kesimpulan. FixedPhrase: bobot diberikan pada suatu unit teks bila fixedphrases muncul (mis. singkatnya, penyelidikan kami menunjukkan, tujuan artikel ini adalah, … ), kata penekanan (penting, terutama, …) Sesuai genre-nya, seperti tulisan ilmiah, ringkasan film, headlines berita, dan lain-lain
40
ThematicTerm : bobot diberikan pada suatu unit teks karena adanya kata yang penting secara statistik pada unit tsb. misal kata tf.idf Sesuai dengan dokumennya AddTerm : bobot diberikan pada suatu unit teks untuk kata-katanya yang juga muncul di judul, berita utama, paragraf awal, atau query dari user.
41
Metode untuk Memperbaiki Kalimat
Jika suatu ringkasan dibuat dengan metode shallow, maka kalimatnya dapat diperbaiki agar menjadi ringkasan yang koheren dan informatif Sentence Revisor Ada tiga metode : Shallow coherence smoothing Penghilangan Aggregation
42
Shallow Coherence Smoothing
Lingkungan terstruktur Misal tabel Langkah : Kenali dan jangan dimasukkan Kenali dan diringkas Anafora Adalah perulangan kata yang sama pada kalimat yang berurutan atau pada awal alinea yang berurutan Jangan masukkan Masukkan beberapa kalimat sebelumnya
43
Gaps Masukkan kalimat dengan urutan yang rendah diantara dua kalimat yang terpilih. Tambahkan kalimat pertama dari paragraf jika yang kedua dan ketiga dipilih
44
Deep Approach Digunakan untuk pembentukan abstrak Abstrak :
Ringkasan yang sebagian isinya tidak ada pada input Kesimpulan isi dari teks dapat mengacu pada konsep yang melatarbelakangi Ringkasan yang tingkat kompresinya lebih tinggi daripada extract Tidak boleh memuat sesuatu yang baru yang tidak ada di dalam teks (secara konsep)
45
Metode Deep Approach Template Extraction Concept Abstraction
46
Template Extraction Source Analysis Templates Transformation Synthesis
Wall Street Journal, 06/15/88 MAXICARE HEALTH PLANS INC and UNIVERSAL HEALTH SERVICES INC have dissolved a joint venture which provided health services. Synthesis Analysis Templates Source Transformation
47
Contoh Template (Paice & Jones, 1983)
Concept Definition SPECIES the crop species concerned CULTIVAR the varieties used HIGH-LEVEL PROPERTY the property being investigated, e.g., yield, growth rate PEST any pest which infests the crop AGENT chemical or biological agent applied INFLUENCE e.g., drought, cold, grazing, cultivation system LOCALITY where the study was performed TIME years when the study was conducted SOIL description of soil Canned Text Patterns “This paper studies the effect the pest PEST has on the PROPERTY of SPECIES.” “An experiment in TIME at LOCALITY was undertaken.” Output: This paper studies the effect the pest G. pallida has on the yield of potato. An experiment in 1985 and 1986 at York, Lincoln and Peterbourgh, England was undertaken.
48
Characteristics: Advantages: Limitations:
Templates dapat bersifat sederhana, kompleks, atau bahkan terdiri atas sejumlah template. Templates (and sets of them) memanfaatkan operasi aggregation dan elimination untuk tepat mendapatkan informasi kunci dari ringkasan. Salience (istilah-istilah penting) ditentukan di awal berdasarkan slots. Advantages: Memberikan kemamapuan yang cukup baik dalam menyajikan ringkasan dalam bentuk abstrak Limitations: Memerlukan penyesuaian terhadap tipe-tipe spesifik dari input data Hanya mampu meringkas satu jenis tipe input data
49
Concept Abstraction Method
Menangkap isi dokumen dalam hal kategori abstrak Kategori abstrak dapat merupakan: Suatu set kata dari dokumen Topik dari koleksi dokumen atau background knowledge (mis. Thesaurus) Untuk mendapatkan background knowledge: Dapatkan hirarki konsep yang tepat Tandai konsep-konsep pada hirarki dengan frekuensinya pada teks Temukan generalisasi yang paling spesifik dari konsep yang direferensikan pada teks. Gunakan generalisasi pada abstrak
50
Contoh Concept Abstraction
The department is buying a Sun Workstation, a HP 3690, and a Toshiba machine. The IBM ThinkPad will not be bought from next year onwards. Sun Workstation IBM ThinkPad Salient (C) iff Counting Concept and Instance Links (Hahn & Reimer ‘99) Counting Concept and Subclass Links (Lin & Hovy ‘99) Most Specific Generalization: Traverse downwards until you find C whose children contribute equally to its weight
51
EVALUASI
52
Intrinsic and Extrinsic Methods
Metode Intrinsic menguji sistem itu sendiri Kriteria: Coherence Informativeness Metode: Bandingkan dengan dokumen yg digunakan Bandingkan dengan hasil ringkasan yg ada Metode Extrinsic menguji sistem dalam hubungannya dengan tugas lain Waktu untuk melaksanakan tugas, ketepatan tugas, kemudahan dalam menggunakan Dinilai oleh ahli mengenai kegunaannya dalam suatu tugas
53
Coherence Coherence: mengukur bagaimana ringkasan dibaca? Prosedur:
Pengguna dapat memberikan nilai ( mis. Skala 1-3) kriteria tertentu Kriteria baca yang umum: ejaan, tata bahasa, kejelasan, mudah dibaca, dimengerti dll. Kriteria khusus mengenai ekstrak (dangling anaphors, gaps, dll.) atau abstrak (kalimat tidak sempurna, kata yang tidak tepat dll.) Nilai yang diberikan oleh pengguna dibandingkan dengan nilai dari ringkasan acuan, dokumen sumber, sistem pembuat ringkasan yang lain.
54
Informativeness Informativeness: mengukur apakah isinya masih dipertahankan? Mengukur seberapa banyak ringkasan mempertahankan informasi dari sumber atau ringkasan yang menjadi referensi. Prosedur: Pengguna dapat memberikan nilai ( mis. Skala 1-3) kriteria tertentu Nilai yang diberikan oleh pengguna dibandingkan dengan nilai dari ringkasan acuan, dokumen sumber, sistem pembuat ringkasan yang lain.
55
Source Document Human Summary (Reference) Machine Compare
Comparison method can be manual or automatic
56
Terima kasih
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.