The RaiNewsbook: Browsing Worldwide Multimodal News Stories by Facts, Entities and Dates
Latar Belakang Riset Tantangan dalam pencarian cara yang efektif untuk pengumpulan dan penyajian konten yang heterogen. Kurangnya pengorganisasian yang baik dan presentasi data yang efisien dari teknologi saat ini
Teknologi/Istilah Penting Google news aggregator merupakan layanan kompilasi berita yang secara otomatis menampilkan berita dari berbagai media. Informedia News-on-Demand Library merupakan perpustakaan informedia yang menyediakan berita sesuai dengan permintaan (on demand) Fischlar news delivery system merupakan salah satu stasiun berita yang ada di Italia
Teknologi/Istilah Penting Apache solr engine adalah sebuah aplikasi open source dari proyek apache lucene,fitur utama meliputi include full-text search, hit highlighting, faceted search, dynamic clustering, database integration, and rich document (e.g., Word, PDF) handling. AJAX Solr javascript library adalah suatu fitur yang digunakan untuk membantu pembuatan user interfaces.
Permasalahan Riset Bagaimana cara mengambil berita dari Multiple-Input (klip video TV, kontent internet dari RSS feed berita dan blog pengguna) Single- Output.
Metode Pemecahan Masalah
Kontribusi Utama Riset Menyediakan antarmuka Web untuk mencari dan mengambil topik berita dan events berdasarkan pada named entities. Melakukan warehousing dan reporting pada cross-domain data memberikan seperangkat tool untuk manajemen dan monitoring data
Metode Pemecahan Masalah (con...)
Seperti yang ditunjukkan pada Gambar 1. Daftar entitas yang tersedia (yaitu yang telah diekstraksi oleh named entities recognition engine (mesin yang dapat mengenali named entities) ditampilkan pada panel kiri. Dengan memilih satu atau lebih entitas, sistem ini menunjukkan (pada panel sebelah kanan) daftar topik yang diambil.
Setiap topik dapat ditelusuri berdasarkan judul (secara otomatis diatur oleh algoritma agregasi di antara yang termasuk RSS feed item), timestamp yang paling update terakhir, dan isinya (yaitu daftar riwayat berita TV dan RSS feed item yang dilengkapi dengan teks dan tag cloud yang diekstrak, transkripsi pembicaraan dan gambar).
Topik-topiknya dapat dalam bentuk multibahasa (misalnya bahasa Inggris dan bahasa Italia), asalkan tool untuk speech-to-text dan tool tagging untuk POS tersedia sesuai dengan bahasa yang diinginkan (lihat Gambar 3). Juga, panel named entities secara otomatis di-update untuk menghasilkan tag cloud entitas baru yang memiliki hubungan dengan yang dipilih.
Misalnya, memilih entitas “person: Angela Merkel” akan menghasilkan daftar topik (yaitu berkas multimedia) yang Angela Merkel terlibat (misalnya krisis keuangan, rapat/pertemuan G20, pasar saham berita) dan daftar entitas yang terkait dengannya (misalnya Berlin, Frankfurt dan Wall Street untuk lokasi).
Antarmuka dikembangkan dengan menggunakan AJAX Solr javascript library untuk benar-benar menurunkan fasilitas Apache Solr ke dalam sistem aplikasi (penulis). Indeks Solr yang berbeda dapat diakses di saat yang sama, sehingga memberikan antarmuka akses terpadu untuk berbagai sumber data. Secara khusus, pengguna dapat memilih item dari katalog multimedia RAI, yaitu perpustakaan digital yang diwariskan dari arsip audiovisual RAI, dari arsip berita Eurovision serta dari Google.
Metode Pemecahan Masalah (con...)
Beberapa statistik topik pada kedua saluran televisi dan saluran informasi Internet dikumpulkan, dianalisis dan disajikan, untuk menghasilkan laporan yang dapat di-browsing tentang tren, popularitas dan user interest terhadap suatu topik dari waktu ke waktu.
Ide Pengembangan Riset Membuat aplikasi berbasis Geospasial yang cepat up-to- date
Evaluasi Sistem ini beroperasi 24 jam per hari dan 365 hari per tahun. Sekitar 550 RSS feed dari 70 provider web didaftarkan ke dan dikelola oleh sistem. Pengguna dapat setiap saat menambahkan feed baru. Aliran digital televisi (Digital Television Stream, DTT) diperoleh dari program harian dari 9 TV nasional, menghasilkan 21 program siaran tunggal per harinya. Indeks pencarian aset audiovisual dan indeks pencarian berita internasional diperbaharui setiap hari, dan saat ini, masing-masing indeks tersebut secara berturut-turut terdiri dari sekitar dan dokumen. Sejauh pengetahuan penulis, hal ini adalah percobaan pertama yang dilakukan untuk mengatasi masalah ini dalam skenario dunia nyata dalam skala besar.
Kesimpulan Paper ini menyajikan inovasi teknologi terbaru dalam pengumpulan dan penerbitan berita multimodal yang ditawarkan oleh RAI interaktif Newsbook. Sistem ini menyediakan pengindeksan, agregasi dan browsing skala besar terhadap konten berita yang berasal dari saluran distribusi yang berbeda. Semua layanan yang diberikan dapat diakses dengan antarmuka Web, sehingga membuat sistem yang dapat digunakan seluruh jenis platform dan device.
THANK YOU