TP 2433 Pembangunan Enjin Gelintar

Slides:



Advertisements
Presentasi serupa
PENULISAN JURNAL TAKLIMAT PRAKTIKUM 12/20/ /20/2017
Advertisements

GOOGLE CHROME NUR HANIZA BT AHMAD
3.5.1 PERKEMBANGAN TERKINI RANGKAIAN DAN KOMUNIKASI
TEKNOLOGI MAKLUMAT DAN KOMUNIKASI
PAF 3013 : Accounting Theory and Practices
Unit 2 : Konsep Multimedia dan Teknologi Maklumat
PENGURUSAN MESYUARAT MOHD. NOOR BIN JABAR DEWAN BAHASA DAN PUSTAKA
PENORMALAN.
E-mel Rasmi Jenis-jenis Emel Bentuk E-mel Rasmi Membina Pengenalan
PENYELIDIKAN TINDAKAN : PROSES
ANUGERAH INOVASI PEMBELANJARAN DAN PENGAJARAN NEGERI JOHOR
PENCERAPAN KLINIKAL.
TAKLIMAT PERMOHONAN PERJAWATAN DI LUAR ABM TAHUN 2015
E4161 SISTEM KOMPUTER & APLIKASI
1. Apakah itu Enjin Gelintar?
UNIT 5: KOMPUTER DALAM KEUSAHAWANAN
PENERBITAN ELEKTRONIK
MINGGU 11: PENERBITAN INTERNET
Pembelajaran Secara Kontekstual
DOKUMENTASI ASAS DALAM PENGURUSAN SISTEM DAN ALAT MENGESAN SISTEM
Pembelajaran tentang Teknologi Maklumat dan Komunikasi (ICT) dan
Prinsip asas papan cerita
PGA103.
Teori Keputusan.
Pengajaran Berasaskan Kajian Masa Depan
Persepsi Pelajar Terhadap Pendekatan Pembelajaran Berasaskan Projek Dalam Kursus E5124-Komunikasi Data Jabatan Kejuruteraan Elektrik, Politeknik Merlimau.
KPT 6044 Ulasan Jurnal KESEDIAAN PEMBELAJARAN BERASASKAN ELEKTRONIK (E-LEARNING) DI KALANGAN PELAJAR SARJANA MUDA KEJURUTERAAN ELEKTRIK DI INSTITUSI PENGAJIAN.
3. Reka Bentuk Kurikulum Konsep Reka Bentuk Kurikulum
Pusat Teknologi Maklumat Dan Komunikasi Universiti Teknologi Malaysia
Pembelajaran Secara Masteri dan Konstruktivisme
Komunikasi Data Pengesanan Pembetulan Ralat.
Latihan Microsoft® Office Excel® 2007
BAHAGIAN 3 : FUNGSI MESYUARAT MBJ
PERANCANGAN & PENGURUSAN PROJEK
Integrasi ICT Dalam Pengajaran Dan Pembelajaran Prasekolah
Tinjauan (Survey) 11/12/2018.
LAPORAN AKHIR PROJEK JELAJAH AMAL 2014
Perjumpaan Bersemuka Pertama MBMPJJ Semester Kedua Sesi 2010/2011
Latihan dan Pembangunan
KAJIAN TEMPATAN APA ITU KERJA KURSUS
MAKLUM BALAS, PENEGUHAN DAN MOTIVASI INTRINSIK
KONVENSYEN TEKNOLOGI PENDIDIKAN Universiti Sains Malaysia
Pengurusan Krisis Organisasi AUDIT KRISIS
PENGENDALIAN STOR DAN STOK
1. Apakah itu Enjin Gelintar?
Pembuatan Keputusan dan Penyelesaian Masalah
PENGURUSAN KUALITI MENYELURUH
Pengurusan Krisis Organisasi AUDIT KRISIS
MEMBERI FOKUS KEPADA PELANGGAN
Pembuatan Keputusan dan Penyelesaian Masalah
KITAR HAYAT PEMBANGUNAN PENGUJIAN PENYELENGGARAAN
PENAKSIRAN PEMBELAJARAN
Bab 2 Rekabentuk Interaktif Media: Rekabentuk Maklumat
TEKNOLOGI DALAM PENGAJARAN DAN PEMBELAJARAN
Mesyuarat Pengurusan Profesional IPGM KPM Bil 1/2015
KURSUS PEMBANGUNAN LAMAN WEB
PENGURUSAN PROSES BAB 5.
Pengurusan Krisis Organisasi AUDIT KRISIS
Proses-Proses Penerbitan Elektronik
Skop Perbincangan Fenomena perisian kursus bahasa Melayu.
Latihan dan Pembangunan
BAB 2 : KONSEP ASAS.
BAB 2 : KONSEP ASAS.
BAB 2 : KONSEP ASAS.
KUALITI GRADUAN IPTA DAN IPTS
NOOR HIDAYAH BT ABDUL KARIM M
GARIS PANDUAN MENGENAI TATACARA PENGGUNAAN INTERNET DAN MEL ELEKTRONIK
ETIKA PENGGUNAAN INTERNET
Unit 3 : Internet & Hubungannya Dengan Bahasa.
MOHAMAD RAFIUDDIN BIN JAMALI NAZATHUL EZMIRA BINTI BAHRI
Transcript presentasi:

TP 2433 Pembangunan Enjin Gelintar

Pengenalan Enjin gelintar bagi tujuan umum ( General-purpose search engine ) semakin menghadapi cabaran pada era ini kerana perkembangan pesat yang berlaku pada World-Wide Web. Oleh itu Focused Crawler diperlukan untuk mencapai laman yang relevan dengan lebih berkesan.

Matlamat Focused Crawler Untuk mencapai laman yang relevan dengan pre-defined set topik. Punca pencarian set topik tersebut tidak menggunakan keywords, tetapi menggunakan exemplary dokumen. Ia menganalisis Web dokumen yang dicapai untuk mencari rangkaian yang paling relevan kepada kehendak pencarian. Ia juga menapis Web dokumen yang tidak relevan.

Bagaimana Focused Crawler mencapai matlamat ? Focused Crawler mempunyai: Classifier – yang menetukan sama ada hypertext dokumen adalah relevan dengan fokus topik atau tidak. Distiller – yang menentukan hypertext nodes yang terdapat pada laman yang relevan dalam babarapa rangkaian.

Bagaimana Focused Crawler mencapai matlamat ? Focused Crawler mampu mengatasi kekeliruan yang berlaku pada set URL semasa permulaan pencarian dengan mengesan set sumber yang overlapping. Ia mampu mencapai laman yang berada pada rangkaian yang sangat jauh daripada set permulaan.

Bagaimana Focused Crawler mencapai matlamat ? Untuk mencari dan mencapai laman yang relevan, pengguna perlu memilih atau mengubahsuai topik nodes yang terkandung dalam taxonomy ( process of classifying ). Pengguna juga perlu memberikan contoh URL tambahan sebagai starting points kepada pencarian laman.

Sistem Operasi Focused Crawler 1. Rekabentuk taxonomy - Apabila sistem telah dibina, Classifier akan menguji taxonomy dan maklum balas taxonomy, iaitu URL terlebih dahulu. 2. Penyimpanan URL - Pengguna memilih semua URL yang relevan dan URL ini akan dihantar dan disimpan dalam sistem

Sistem Operasi Focused Crawler 3. Pemilihan dan pengubahsuaian taxonomy - Sistem akan mencadangkan classes yang paling sesuai dan popular kepada pengguna untuk membuat pilihan URL mana yang hendak dicapai. - Kadang kala pengguna akan mendapati bahawa kategori taxonomy masih terlalu luas dan pengubahsuaian perlu dibuat.

Sistem Operasi Focused Crawler 4. Semakan interaktif - Sistem mencadangkan URL tambahan yang merupakan jiran yang hampir sama dengan punca pencarian untuk pengguna. - Pengguna boleh menyemak dan memasukkan URL tambahan ini sebagai sumber yang hendak dicapai.

Sistem Operasi Focused Crawler 5. Latihan - Classifier menggabungkan pengubahsuaian yang telah dibuat oleh pengguna ke dalam model class yang statistik. 6. Pengumpulan sumber - Pada peringkat ini sistem bersiap sedia untuk menyenaraikan semua sumber pencarian yang telah dicari dan dikumpul.

Sistem Operasi Focused Crawler 7. Penapisan laman - Sistem menjanakan algoritma penapisan topik untuk menentukan laman mana yang mengandungi bilangan sumber link yang paling banyak, yang dipanggil hubs.

Sistem Operasi Focused Crawler 8. Maklum balas - Pengguna akan menyemak sistem yang melaporkan laman mana yang paling popular. - Pengguna boleh memberikan maklum balas dengan menentukan sama ada laman tersebut relevan atau tidak kepada Classifier dan Distiller.

Aplet di atas menunjukkan semua laman yang dicapai lawan masa Aplet di atas menunjukkan semua laman yang dicapai lawan masa. Setiap titik merah merupakan satu laman Web di mana pengguna boleh click titik merah untuk capai laman tersebut. Paksi-x menunjukkan masa, manakala paksi-y menunjukkan nilai relevan di antara 0 hingga 1. Garisan biru menunjukkan average semua laman Web yang dicapai.

Applet menunjukkan kategori pokok bagi topik “recreational bicycling” Applet menunjukkan kategori pokok bagi topik “recreational bicycling”. Dengan menggunakan menu Classify, pengguna boleh menyuruh Classifier mencapai laman dan yang dikehendaki dan beberapa nodes yang berpadanan dalam kategori pokok. Setelah browsing, semua nodes yang dipilih boleh dicapai oleh pengguna sebagai sumber untuk Focused Crawler nanti.

Daripada applet di atas, subpokok adalah /Recreation/Sport/Cycling Daripada applet di atas, subpokok adalah /Recreation/Sport/Cycling. Di sebelah kanan atas adalah Examples yang merupakan contoh topik berkaitan dengan Cycling, dan di bawah adalah Neighborhood yang merupakan jiran yang hampir sama dengan laman yang ingin dicapai.

Rekabentuk Sistem Focused Crawler Blok diagram memaparkan hubungan di antara Crawler, Classifier dan Distiller, yang merupakan komponen utama Focused Crawler.

Rekabentuk Sistem Focused Crawler Crawler mempunyai satu bebenang (thread) watchdog dan banyak bebenang worker. Watchdog bertanggungjawab menyemak kerja baru daripada frontier pencarian dan menghantar kerja baru itu kepada worker dengan menggunakan memori buffer kongsian. Worker akan menyimpannya dalam struktur disk worker persendirian. Selepas itu pada masa yang sama kerja worker akan berhenti dan keputusan mereka akan dikumpul dan digabung bersama dalam suatu tempat terpusat. Classifier akan digunakan oleh setiap bebenang setiap kali ia menemui laman baru.

Nilai harvesting Classifier perlu menentukan nilai harvesting laman yang relevan serta setakat mana laman Web yang tidak releven ditapis oleh Clawler. Nilai harvesting ini perlu tinggi, jika tidak Focused Crawler akan menggunakan banyak masa untuk menapis laman Web yang tidak relevan.

Nilai harvesting Untuk setiap topik, 3 jenis kaedah pencarian akan dilaksanakan pada set URL yang sama,iaitu: Unfocused Crawler Soft Crawler Hard Crawler

Dalam graf menunjukkan keputusan Unfocused Crawler untuk topik Bicycling. Untuk Unfocused Crawler,ia akan mencapai beberapa URL baru dalam random order.

Paksi-x menunjukkan bilangan laman yang dicapai, dan paksi-y menunjukkan average laman relevan yang dicapai. Kita mendapati pada permulaan nilai average adalah sederhana tinggi, tetapi turun sampai sifar dengan cepat, iaitu setelah beberapa ratus laman dicapai.

- Graf kedua ini menunjukkan keputusan Hard Crawler untuk topik Bicycling. - Nilai average yang didapati lebih konsisten, walaupun terdapat sedikit turun naik yang dijangka.

Graf ketiga menunjukkan keputusan Soft Crawler untuk topik Bicycling. Nilai average adalah lebih konsisten dan stabil.

Graf menunjukkan fraction lawan relevan bagi laman yang dicapai. Fraction laman yang paling tinggi adalah pada nilai relevan yang paling tinggi, iaitu 1. Didapati juga Unfocused Crawler mempunyai nilai relevan yang sangat rendah dan stabil.

Kesimpulan Focused Crawler dapat mencapai maklumat dengan lebih khusus dan terperinci berbanding dengan Standard Crawlers yang lain walaupun kedua-dua bermula dengan set pencarian yang sama. Focused Crawler dapat mencari laman yang berkaitan dengan sumber pencarian dengan mengabaikan laman yang tidak berkaitan. Focused Crawler dapat menjimatkan sumber network dan hardware kerana tidak memerlukan keperluan perisian komputer yang canggih.

Sekian, terima kasih… Disediakan oleh: Kok Lee Hooi (A97193) Norazia binti Abu Bakar (A96987) Fakrulnisa binti Pormi (A97162) Abdul Ain bin Idris (A96848) Sufian bin Yusof (A97278)