WebMining .
WEB World Wide Web atau singkatnya Web saja memiliki tempat penyimpanan data dan informasi yang sangat besar sekali yang bisa dibayangkan oleh seseorang tentang segala hal secara virtual. Web barangkali adalah tempat penyimpanan data dan teks terbesar di dunia, dan jumlah informasi di web terus menerus tumbuh setiap hari.
Kelemahan mesin pencari yang berbasis kata kunci Suatu topik yang sangat luas bisa berisi ratusan atau ribuan dokumen. Hal ini bisa mengakibatkan banyak sekali entri dokumen yang dihasilkan oleh mesin pencari, dimana sebagian besar tidak akan relevan dengan topic yang diinginkan. Banyak dokumen yang sangat relevan dengan suatu topik yang mungkin tidak berisi kata kunci yang tepat yang bisa membatasi pencarian.
Kelebihan Web Mining Dibandingkan dengan dengan pencarian web berbasis kata kunci, web mining (penambangan web) merupakan pendekatan yang menonjol (dan lebih menantang) yang bisa digunakan untuk meningkatkan secara substansial kemampuan mesin pencari web karena web mining bisa mengidentifikasi halaman-halaman web yang authoritative, mengklasifikasikan dokumen web, dan menyelesaikan berbagai ambiguitas dan seluk beluk lembut yang yang ada di search engine web berbasis kata kunci.
Definisi Web Mining Web mining (atau data mining web) adalah proses menemukan hubungan intrinsic (misalkan, informasi yang menarik dan bermanfaat) dari data web, yang disajikan dalam bentuk teks, link, atau informasi penggunaan. Istilah web mining pertama kali digunakaan oleh Etzioni pada tahun 1996 (pakar data mining); saat ini, banyak konferensi, jurnal, dan buku berfokus pada data mining web. Ini memang area teknologi dan praktik bisnis yang berevolusi secara kontinyu.
Penambangan penggunaan web (web usage mining) adalah proses mengekstral informasi yang berasal dari data yang dihasilkan dari kunjungan dan transaksi di halaman-halaman web.
Tiga area utama web mining:
Penambangan Konten Web (web content mining) Ekstraksi informasi yang memberi manfaat dari berbagai halaman web. Dokumen bisa diekstrak dalam suatu format yang bisa dibaca oleh mesin sehingga teknik-teknik yang ter-otomatisasi bisa menghasilkan suatu informasi tentang halaman-halaman web tersebut. Web crawler digunakan untuk membaca melalui konten suatu web secara otomatis. Informasi yang dikumpulkan mungkin memasukkan karakteristik dokumen yang mirip dengan apa yang digunakan dalam text mining, tetapi mungkin memasukkan konsep tambahan, seperti hirarki dokumen.
Han dan Kamber (pakar data mining), web juga memberikan tantangan besar untuk penemuan pengetahuan yang efisien dan efektif: Web terlalu besar untuk melakukan data mining yang efektif. Web sangat besar dan tumbuh dengan sangat cepat sehingga sangat sulit bahkan untuk sekedar diukur. Karena ukuran size nya yang unik, maka tidak lah layak untuk membuat data warehouse untuk me-replikasi,menyimpan, dan mengintegrasikan semua data yang ada di web, yang akhirnya membuat pengumpulan dan integrasi data menjadi suatu tantangan tersendiri.
Web sangatlah kompleks Web sangatlah kompleks. Kompleksitas halaman web jauh lebih besar disbanding dengan suatu halaman dalam koleksi dokumen teks tradisional. Halaman-halaman web kurang terpadu strukturnya. Halaman-halaman web mengandung gaya penulisian dan variasi konten yang jauh lebih banyak disbanding dengan buku, artikel atau dokumen teks tradisional lainnya.
Web terlalu dinamis. Web adalah sumber informasi yang sangat dinamis Web terlalu dinamis. Web adalah sumber informasi yang sangat dinamis. Tidak hanya tumbuh dengan cepat, tetapi kontennya juga terus di-update secara konstan. Blog, artikel berita, pasar saham, laporan cuaca, skor olah raga, harga, iklan-iklan perusahaan, dan banyak jenis informasi lainnya di-update secara regular di web.
Web tidaklah spesifik pada suatu domain tertentu Web tidaklah spesifik pada suatu domain tertentu. Web menyajikan keragaman komunitas yang sangat luas dan menghubungkan miliaran computer. Para pengguna web memiliki latar belakang yang berbeda-beda, minat yang berbeda, dan tujuan penggunaan web yang berbeda. Kebanyakan pengguna mungkin tidak memiliki mengetahuan yang baik mengenai struktur jaringan informasi dan mugngkin tidak sadar tentang biaya besar dalam pencarian tertentu yang mereka lakukan.
Web memiliki segalanya Web memiliki segalanya. Hanya sebagian kecil informasi di web yang benar-benar relevan atau bermanfaat bagi seseorang (atau untuk suatu tugas). Menurut laporan bahwa 99 persen informasi di web sama sekali tidak berguna bagi 99 persen pengguna web. Meskipun hal ini kelihatannya kurang jelas, memanng benar bahwa orang tertentu pada umumnya tertarik hanya pada sebagian kecil saja dari web, sedangkan sisanya di web berisi informasi yang tidak menarik
Masand (pakar web mining) mengatakan bahwa sedikitnya ada tiga jenis data yang dihasilkan dari kunjungan di web: Data yang secara otomatis dihasilkan dan disimpan dalam bentuk log akses ke server, log perujuk (link yang merujuk), log tentang agent (browser), dan cookie di komputer klien Profile user Metadata, seperti atribut halaman, atribut konten, dan data penggunaan web.
Analisa Clickstream Analisa terhadap informasi yang dikumpulkan oleh web server bisa untuk memahami perilaku pengguna. Analisa terhadap data ini seringkali disebut dengan analisa clickstream. Dengan menggunakan data dan teknik-teknik text mining, perusahaan bisa melihat pola-pola menarik yangberasal dari clickstream. Contohnya, bisa diketahui bahwa 60 persen pengunjung yang mencari “hotel di Maui” sebelumnya ternyata mencari “tiket pesawat ke Maui”. Informasi sepert itu bisa sangat bermanfaat untuk digunakan menentukan dimana iklan online ditempatkan.
Analisa clickstream juga bisa untuk mengetahui kapan pengunjung mengakses suatu situs. Contohnya, jika suatu perusahaan mengetahui bahwa 70 persen dari software yang didownload dari situsnya terjadi antara jam 7 dan 11 malam, informasi tersebut bisa digunakan untuk merencanakan support pelanggan dan bandwidth jaringan yang lebih baik selama jam-jam tersebut.
Proses mengekstrak knowledge dari data clickstream dan bagaimana knowledge yang dihasilkan tersebut digunakan untuk memperbaiki dan meningkatkan proses, meningkatkan situs, dan yang paling penting, meningkatkan nilai pelanggan
Penerapan Web Mining Nasraoui (peneliti web mining) membuat daftar terhadap penerapan web mining seperti berikut: Menentukan nilai dari klien seumur hidup Mendesain strategi cross-marketing terhadap produk Mengevaluasi campaign promosi Membuat target iklan online dank upon pada berbagai kelompok pengguna berdasarkan pola-pola akses pengguna Memprediksi perilaku pengguna berdasarkan berbagai aturan dan pola yang sudah dipelajari sebelumnya dan berdasarkan profil pengguna Menyajikan informasi dinamis kepada oengguna berdasarkan pada minat dan profil mereka
Contoh Amazon.com Amazon.com memberikan contoh yang baik tentang bagaimana riwayat penggunaan web bisa ditingkatkan secara dinamis. Pengguna yang terdaftar yang mengunjungi kembali amazon.com disapa dengan menggunakan nama mereka. Ini adalah hal yang sederhana yang menggunakan pengenalan terhadap pengunjung/pengguna dengan cara membaca cookie (misalnya, suatu file teks kecil yang ditulis oleh situs di komputer pengguna). Amazon.com juga menyajikan pengguna dengan suatu pilihan produk dalam toko online mereka yang sudah dipersonalisasikan, berdasarkan pembelian sebelumnya dan analisa asosiasi dari pengguna yang serupa. Hal seperti ini juga membuat penawaran “Gold Box” (diskon dalam waktu yang sangat singkat biasanya hanya 1 hari saja) khusus yang sangat baik untuk waktu yang singkat. Semua rekomendasi ini memerlukan analisa detil tentang pengunjung dan juga kelompok sesame pengguna yang dikembangkan melalui teknik-teknik clustering, sequence pattern discovery, association, dan teknik-teknik data dan text mining lainnya.
Nama Produk Deskripsi URL Angoss Knowledge WebMiner Menggabungkan Angoss Knowledge STUDIO dan analisa clickstream Angoss.com ClickTracks Pola-pola pengunjung bisa ditampilkan di web Clicktracks.com LiveStats dari DeepMetrix Analisa log real-time, live demo on site Deepmetrix.com Megaputer WebAnalyst Memiliki kemampuan data mining dan text mining Megaputer.com/products/wm.php3 SPSS Web Mining for Clementine Mengekstrak berbagai peristiwa/transaksi web Spss.com/web_mining_for_clementine WebTrends Data mining untuk informasi traffic web Webtrends.com XML Miner System dan library class untuk menambang data dan text yang disajikan dalam bentuk XML, dengan menggunakan logika samar (fuzzy logic) dan rules dari system pakar (expert system) Scientio.com