WEB MINING Disusun Oleh : Anre Waluyo (17109051) Baldwin Gabe (17109105) Eko Setiawan (17109041) Fariz Marliansyah (17109038) Konsep Data Mining , 5 KA 15 , Avinanta Tarigan
Latar Belakang World Wide Web atau WWW merupakan salah satu fenomena teknologi yang berkembang sangat pesat saat ini. WWW menyediakan berbagai layanan informasi mengenai berita, iklan, pendidikan, e-commerce dan sebagainya. Informasi yang tersedia dalam WWW tersebut memiliki ukuran yang sangat besar dan terdistribusi secara global di seluruh dunia.Web juga mengandung kekayaan informasi dilihat dari struktur dan penggunaannya (web usage). Web merupakan kumpulan data dan informasi yang sangat berpotensi untuk dilakukan penggalian (mining) agar menghasilkan pengetahuan (knowledge) yang dapat berguna bagi masyarakat maupun pihak-pihak tertentu.
Latar Belakang Data dan informasi yang tersimpan di dalam web memiliki karakteristik yang berbeda dengan data yang tersimpan dalam penyimpanan konvensional seperti DBMS. Dalam (Han, et al., 2006) disebutkan beberapa karakteristik web sebagai berikut: Web memiliki ukuran yang terlalu besar sehingga tidak terlalu efektif jika diterapkan dengan menggunakan data warehouse dan data mining biasa. Ukuran data dalam web mencapai ribuan terabyte dan akan terus berkembang. Saat ini begitu banyak perusahaan dan organisasi yang mempublikasikan berbagai informasi perusahaan di sebuah website. Dengan ukuran yang begitu besar, akan sangat sulit jika harus membangun sebuah data warehouse yang akan menyimpan data dan informasi tersebut. Tingkat komplektivitas dari halaman-halaman web jauh lebih tinggi dibanding dokumen dalam format teks biasa..Halaman web memiliki struktur yang sangat beragam. Apalagi jika dilihat dari isi atau content yang disajikan di halaman web, memiliki bahasa, gaya penulisan, struktur penulisan dan tampilan yang beragam. Informasi yang disajikan diweb bersifat dinamis. Informasi seperti berita, stock market, saham, dan sebagainya dapat berkembang dan berubah setiap saat.
Latar Belakang Web memiliki ragam pengguna yang tersebar di seluruh dunia. Berdasarkan survey dari Netcraft, internet hingga bulan November 2009 memiliki lebih dari 240 juta alamat situs, dan masih terus berkembang. Pengguna dari situs-situs tersebut memiliki latar belakang, demografi, minat, dan tujuan yang berbeda dalam mengakses web. Hanya sedikit dari informasi yang disajikan diweb benar-benar bermanfaat (sesuai) dengan pengguna. Fakta tersebut merupakan tantangan untuk menemukan suatu metode atau teknik menyajikan informasi yang tepat bagi user yang tepat. Untuk menggali informasi yang terdapat di dalam web, dapat digunakan mesin pencari (search- engine) seperti Google, Yahoo dan MSN. Namun penggunaan mesin pencari belum cukup efektif untuk mendapatkan informasi yang tepat di halaman web karena mesin pencari pada umumnya menampilkan hasil pencariannya berdasarkan keyword yang diberikan.
Latar Belakang Sebagai contoh pencarian dengan menggunakan keyword ‘data mining’, selain menampilkan informasi tentang data mining dalam konteks ilmu komputer, informasi mengenai istilah mining dalam disiplin ilmu lain juga ditampilkan. Karena keterbatasan kemampuan dari mesin pencari tersebut, muncul konsep baru mengenai web mining yang pertama kali dikenalkan oleh Etzioni Oren dalam (Oren, 1996). Menurut Etzioni Oren, web mining diartikan sebagai suatu usaha mengaplikasikan teknik data mining untuk menggali dan mengekstrak informasi yang berguna dari dokumen-dokumen yang tersimpan dalam halaman web secara otomatis. Meskipun memiliki akar terminologi yang sama dengan data mining, namun web mining memiliki perbedaan dari data mining, diantaranya berhubungan dengan sifat datanya yang tidak terstruktur dan sumber datanya yang tidak disimpan di sebuah data warehouse namun tersebar di berbagai sumber.
Tujuan Aplikasi Web Mining Berdasarkan target analisisnya, web mining dibagi menjadi 3 (tiga) bagian, yaitu: Web structure mining Web structure mining merupakan proses yang menggunakan teori graph untuk menganalisis simpul (node) dan keterhubungan struktur dari situs. Menurut tipe dari struktur web, web structure mining terbagi menjadi 2 (dua). Jenis pertama adalah mengekstrak dari pola hyperlink di web. Sebuah hyperlink atau lebih dikenal sebagai link merupakan suatu komponen dari web yang memungkinkan suatu halaman terhubung dengan halaman yang lainnya. Jenis kedua dari web structure mining adalah mining terhadap struktur dokumen. Yang dimaksud sebagai struktur dokumen adalah menganalisa struktur dari bahasa yang digunakan dalam web, yaitu bahasa HTML (Hyper Text Markup Language), atau XML (eXtensibel Markup Language) di dalam halaman. Web content mining Web content mining adalah proses untuk mendapatkan informasi yang berguna dari isi (content) di web. Isi (content) dapat berupatext, image, audio, dan video. Web content mining terkadang disebut sebagai web text mining, karena teks merupakan bagian dari web yang paling banyak tersedia. Teknologi yang umumnya digunakan dalam web content mining adalah NLP (Natural Language Processing), dan IR (Informational Retrieval). Secara umum web content mining akan berusaha mengubah kumpulan data diweb yang begitu besar menjadi pengetahuan (knowledge) yang berguna bagi banyak orang. Web usage mining Menurut Srivastava, web usage mining merupakan teknik data mining yang berusaha mengungkap pola penggunaan dari halaman web, dalam rangka coba untuk memahami dan meningkatkan pelayanan kebutuhan dari aplikasi berbasis web . Jadi web usage mining sedikit berbeda dengan kedua jenis sebelumnya. Pada jenis struktur dan content mining, yang dianalisa atau digali adalah data didalam web itu sendiri, namun pada web usage mining yang dianalisa adalah pengguna atau pengunjung dari halaman web. Sehingga karena yang coba dianalisa adalah tingkah laku dari pengunjung (pengguna) dari web maka hasil dari web usage mining banyak digunakan dalam e-marketing dan e-commerce. Hasil analisa dapat digunakan untuk meningkatkan layanan dari aplikasi web.
Tujuan Aplikasi Web Mining Hasil web usage mining antara lain informasi mengenai segmentasi pengunjung dari situs (aplikasi web). Segmentasi dapat dilihat berdasarkan lokasi (negara, kota atau wilayah), waktu akses (pagi, siang, sore atau malam), penggunaan browser dan sebagainya. Dalam situs e-commerce misalnya dapat digunakan untuk melihat pola pengunjung dalam pembelian produk seperti produk apa saja yang paling banyak dibeli (diakses), pengunjung dari mana saja yang banyak melakukan pembelian, dan sebagainya.
Tujuan Aplikasi Web Mining Berdasarkan tabel di atas, sumber data utama dari web usage mining adalah server logs dan browser logs. Server logs merupakan informasi yang dicatat di dalam server web setiap kali pengunjung mengakses suatu halaman web. Dari log server, didapat informasi aksesweb oleh pengunjung yang terdiri dari informasi antara lain: • Informasi nama domain dari aplikasi situs yang diakses, bisa juga berupa alamat IP • Waktu akses situs. • HTTP Request Field yang berisi jenis akses, halaman yang diakses dan jenis browser yang digunakan. • Status akses berisi informasi status akses, misalnya 404 jika akses halaman tidak ditemukan. • Ukuran (byte) dari halaman yang diakses.
TEHNIK & TEKNOLOGI YANG DIGUNAKAN Proses Web Usage Mining Secara garis besar, proses web usage mining terbagi menjadi 3 (tiga) fase, yaitu preprocessing, pattern discovery dan pattern analysis. Dapat digambarkan mengenai proses web usage mining seperti terlihat pada gambar berikut ini.
TEHNIK & TEKNOLOGI YANG DIGUNAKAN 1. Tahap Preprocessing Tahapan ini merupakan proses yang pertama kali dilakukan dari keseluruhan proses web usage mining. Tahapan ini penting dilakukan untuk melakukan standarisasi data dan juga menghilangkan bagian-bagian data tertentu yang tidak diperlukan dalam proses mining. Tahapan preprocessing dapat dibagi menjadi 3 (tiga) bagian yaitu content preprocessing, structure preprocessing dan usage preprocessing. Pembagian tersebut berdasarkan bentuk data yang akan diolah. Proses preprocessing dapat dibagi menjadi 5 tahap: - Data Cleaning. Tahap untuk membersihkan file log dari data yang tidak relevan dengan proses mining, seperti data multimedia dan script CSS maupun javascript. - User Identification. Karena beberapauser mungkin menggunakan komputer (host) yang sama, maka perlu dilakukan proses identifikasi user. -Session identification. Setelah user diidentifikasi, halaman yang diakses pun harus dibagi ke dalam sesi tertentu, umumnya berdasarkan waktu tertentu agar didapatkan sesi yang tunggal untuk setiap user. - Path Completion. Tahapan melengkapipath yang mungkin belum lengkap karena tidak tersimpan dalam file log. - Transaction Identification. Mengidentifikasi sejumlah sesi tertentu yang menghasilkan satu proses transaksi yang dilakukan oleh user.
TEHNIK & TEKNOLOGI YANG DIGUNAKAN 2. Pattern Discovery Fase yang kedua dari web usage mining adalah pencarian pola akses yang dilakukan oleh user. Fase ini merupakan fase yang sangat penting dan sangat menentukan keluaran dari proses usage mining. Pada fase ini dikenal beberapa algoritma dan teknik, antara lain : - Statistical analysis Teknik analisa statistik merupakan teknik yang paling banyak digunakan dalam mendapatkan knowledge dari pola akses user. Analisis statistik dapat disajikan dalam berbagai bentuk analisis dengan beragam variabel yang menjadi parameter analisis. Contoh analisis yang dapat dihasilkan adalah pola aksesuser yang dilihat dari waktu akses untuk setiap harinya. - Association rules Algoritma association rules dalam data mining pertama kali diusulkan oleh Agrawal, Imielinski dan Swami. Association rule juga dapat diterapkan dalam web usage mining. Contoh keluaran yang dapat dihasilkan yaitu mengenai pola akses terhadap halaman-halaman dalam web, dimana dapat diketahui halaman mana saja yang selalu diakses secara bersamaan oleh user. Hal tersebut dapat digunakan sebagai dasar untuk merancang atau menyusun kembali halaman web agar lebih efektif.
TEHNIK & TEKNOLOGI YANG DIGUNAKAN - Clustering Clustering merupakan proses mengelompokkan sekumpulan object fisik maupun abstrak ke dalam kelas tertentu berdasarkan kesamaannya. Dalam kaitannya dengan web usage mining, teknik clustering sering digunakan untuk menentukan segmentasi pasar pengunjung suatu situs e-commerce berdasarkan kesamaan pola akses maupun demografinya. - Classification Classification merupakan proses pengelompokan berdasarkan kelas yang sudah didefinisikan sebelumnya. Proses classification terbagi menjadi dua, yaitu proses membangun model sesuai dengan kelas yang sudah ditentukan dan proses menerapkan model untuk mengklasifikasikan sekumpulan data. - Sequential Pattern Sequential Pattern digunakan untuk menganalisa pola urutan akses halaman web oleh user. Tren urutan pola akses user dapat digunakan untuk memprediksikan tren di masa mendatang atau untuk mengatur penempatan iklan. - Dependency Modeling Dependency modeling berusaha mencari ketergantungan antara satu variabel dengan variabel yang lainnya dalamweb. Hal ini berguna untuk memprediksikan pola di masa mendatang.
TEHNIK & TEKNOLOGI YANG DIGUNAKAN 3. Pattern Analysis Pattern analysis merupakan fase terakhir dalam web usage mining. Pada fase ini, dilakukan proses visualisasi hasil analisis pola yang telah dilakukan pada langkah sebelumnya. Penyajiandata menjadi hal yang penting dalam langkah ini, dimana penyajian data tentunya tergantung pada kebutuhanuser dan bisnis. Dari hasil visualisasi tersebut, dapat dilakukan suatu keputusan(action) misalnya keputusan untuk mengubah tampilan suatuwebsite, melakukan optimasi navigasi website, meningkatkan kemampuan website dengan melakukan caching halaman-halaman tertentu yang sering dikunjungi.
KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING Dalam kaitannya dengan Web Usage Mining, saat ini banyak tool dan aplikasi yang tersedia mulai dari yang berbayar hingga yang gratis. Berdasarkan survey yang dilakukan oleh Srivastava, tool dan aplikasi web usage mining dapat dibagi menjadi beberapa kelompok penggunaan yang digambarkan dalam gambar 2. Kelompok yang pertama merupakan aplikasi yang bersifat umum dalam web usage mining. Contoh dari aplikasi dalam kelompok ini adalah WebSIFT, WUM atau Web Utilization Miner, SpeedTracer, Web Log Miner dan Shahabi. Sedangkan kelompok aplikasi yang kedua adalah aplikasi yang secara khusus ditujukan untuk menangani proses tertentu sesuai dengan manfaat penerapan web usage mining.
KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING Aplikasi WEB Usage Mining
KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING Adapun manfaat penerapan / penggunaan web usage mining tersebut, antara lain: 1. Personalization Personalisasi merupakan suatu usaha untuk menyajikan layanan web sesuai dengan preferensi atau kenyamanan tiap user atau pengunjung. Personalisasi yang dilakukan dalam situs e-commerce secara langsung akan meningkatkan penjualan maupun tingkat kepuasan pelanggan (user). Personalisasi dalam e-commerce antara lain dengan penerapan strategi cross-selling dan up-selling. Contoh aplikasi yang bertujuan melakukan personalisasi, adalah WebWatcher, SiteHelper, PWUM, Koinotites dan Letizia. 2. System Improvement Performa dari suatu website dan layanan di dalamnya merupakan hal yang utama untuk menjamin kenyamanan user (pengunjung). Berdasarkan pola akses user yang dihasilkan dari proses web usage mining, dapat diambil suatu keputusan terkait dengan peningkatan performa layanan web. Misalnya jika ternyata ditemukan pola bahwa layanan tertentu cukup sering diakses, maka dapat dilakukan mekanisme caching baik di web server maupun diproxy. Langkah peningkatan performa sistem lainnya seperti load balancing, network transmission, data distribution, fraud detection, intrussion detection juga dapat diambil berdasarkan hasil dari web usage mining.
KEUNTUNGAN / IMPLIKASI NYATA APLIKASI / IMPLEMENTASI WEB MINING 3. Site Modification Website yang adaptif sesuai dengan pola perilaku user tentu akan memberi kenyamanan lebih bagi user. Hasil analisis terhadap pola perilaku user dalam mengakses suatu halaman dapat digunakan untuk menentukan apakah halaman yang bersangkutan sudah disajikan dengan baik atau belum. 4. Bussiness Intelligence Berdasarkan hasil yang dikeluarkan oleh web usage mining beserta web mining yang lainnya selanjutnya dapat disusun sebuah business intelligence (BI). BI berbasis web mining dapat mempermudah pihak eksekutif dalam memonitor performa website bisnisnya. BI akan berisi rangkuman dari beberapa sumber laporan. Pemanfaatan web usage mining untuk membentuk suatu BI memang masih terus dikembangkan, salah satunya adalahframework yang diusulkan oleh Ajith Abraha. Contoh aplikasi web usage mining yang masuk kategori BI adalah SurfAid dan Buchner. 5. Usage Characterization Karakter user dalam menggunakanweb berbeda satu dengan yang lainnya. Berdasarkan hasil dari proses web usage mining, karakteruser dapat diidentifikasi. Informasi karakteruser dalam mengakses web dapat dijadikan dasar untuk meningkatkan performa dari website maupun aplikasi terkait lainnya seperti browser dan web server.