WEB USAGE MINING mulaab
Web usage mining process Bing Liu2
web usage mining adalah teknik data mining untuk menemukan pola-pola dari tingkah laku pengunjung sebuah website Setiap klik (clickstream) yang dilakukan oleh seorang pengguna web akan otomatis direkam oleh web server sebagai data log.
Data log IP Address dan user ID Tanggal dan jam akses Metode akses Halaman web yang sedang diakses Protokol dan versi yang digunakan Status Ukuran halaman web Referer User agent
LogFormat "%h %l %u %t "%r" %>s %b "%{Referer}i" "%{User-Agent}i"" combined Silahkan lihat di /etc/httpd/conf/httpd.conf
Contoh
Preprocessing content preprocessing, structure preprocessing dan usage preprocessing
Data Cleansing : Tahap untuk membersihkan file log dari data yang tidak relevan dengan prosesmining, seperti data multimedia dan script CSS maupun javascript User Identification : Karena beberapa user mungkin menggunakan komputer (host) yang sama,maka perlu dilakukan proses identifikasi user Session identification :Setelah user diidentifikasi, halaman yang diakses pun harus dibagi kedalam sesi tertentu, umumnya berdasarkan waktu tertentu agar didapatkan sesi yang tunggaluntuk setiap user Path Completion Tahapan melengkapi path yang mungkin belum lengkap karena tidak tersimpan dalam file log Transaction Identification : Mengidentifikasi sejumlah sesi tertentu yang menghasilkan satu proses transaksi yang dilakukan oleh user
Data web log dari web server yang berbentuk single file di ekstrak dan di konversi menjadi field -field database dengan melakukan pembersihan data Field -field yang tidak perlu, dihapus pada tahap ini, sehingga menghasilkan sebuah database web log
Contoh web log conversi ke database
Identifkasi session Bing Liu11
Identifikasi user: contoh Bing Liu12
Identifkasi Page views Pageviews adalah seberapa banyak halaman yang dilihat atau dibaca oleh pengunjung situs atau blog kita Pageview identification adalah proses dalam menentukan halaman web mana saja yang diakses dan siapa saja yang mengakses halaman web tersebut.
Dengan P adalah pageview dan p1,p2...pn merupakan jumlah halaman web
Identifasi transaksi
Identifkasi Transaksi
Pattern Step