Universitas Gunadarma KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar
Klasifikasi: Pohon Keputusan - Bias
Pengantar Tujuan akhir dari proses pengolahan data, baik itu data kecil maupun besar, adalah membantu bisnis membuat keputusan yang lebih baik Jika dikaitkan dengan ilmu Data Science, teknik analisa data memerlukan pemodelan atau pemetaan yang baik dari manusia sebagai operator teknologi ini. Sayangnya, manusia memiliki bias – kecenderungan untuk bergantung kepada persepsi dan pengalamannya sendiri – sehingga pertimbangan pada saat perancangan model yang dibutuhkan tidak banyak berdasarkan kenyataan
Confirmation Bias Berikut adalah tiga bias yang paling mudah diidentifikasi dan krusial. Confirmation Bias Confirmation bias adalah tipe bias dimana pengolahan data dilakukan untuk membenarkan suatu asumsi dan tindakan spekulasi dari pemegang keputusan. Sebagai contoh, asumsi bahwa pergerakan harga suatu komoditas akan naik karena tren di lapangan mencerminkan hal tersebut. Padahal dengan menganalisis kebutuhan data pasar dari berbagai sumber, tidak demikian halnya yang akan terjadi. Malah, kecenderungan untuk turun yang akan terjadi.
Confirmation Bias Karena keyakinan dan pengalaman di lapangan, tim data diminta untuk mencoba lagi berbagai model dan data yang relevan. Dengan melakukan banyak kompromi, data akhirnya keluar untuk mengkonfirmasi keyakinan beliau. Bias dari proses ini tentunya sangat membahayakan bisnis, seorang tandem yang dapat meng-counter profil decision maker seperti ini sangatlah diperlukan.
Selection Bias Selection Bias Selection bias adalah tipe bias dimana data-data dipilih secara subjektif dan tidak berdasarkan metode ilmiah. Sebagai contoh, dari banyaknya data lengkap profil pelanggan kita hanya memilih data alamat dan profesi. Data jenis kelamin dan tanggal lahir kita tidak masukkan, karena kita percaya bahwa umur dan masalah gender adalah hal sensitif. Walaupun secara etis benar, tetapi dari sisi objektivitas akan sangat merugikan. Survei, terutama ketika dirancang dengan jawaban yang dibatasi dan cenderung mengarahkan, dapat digolongkan kepada bias tipe ini.
Overfitting dan Underfitting Overfitting & Underfitting Tipe bias berikutnya adalah overfitting & underfitting. Dalam kasus overfitting, kesimpulan atau rumusan yang kita ambil ternyata valid untuk mayoritas data dan informasi yang berhasil dikumpulkan. Dengan persentase kesalahan yang sangat kecil, kita sangat yakin akan rumusan dan model kita. Sayangnya, model yang akurasinya sangat tinggi – apalagi tidak diukur dengan benchmark yang baik – biasanya tidak mencerminkan prinsip realita dengan baik; atau gagal dalam hal generalisasi. Ini akan berakibat kita akan salah memprediksi banyak hal ke depannya. Kondisi yang sebaliknya dari overfitting adalah underfitting, terlalu generalisir terhadap suatu populasi.
Overfitting dan Underfitting Berikut adalah contoh dari underfitting, Budi – seorang amatir – diminta melakukan observasi terhadap 1000 orang dan menyatakan seluruh orang tersebut bebas dari leukemia, satu jenis kanker darah. Jika persentase leukemia adalah 0.1%, maka akurasi si Budi adalah 99,9%. Dengan generalisir seperti ini, maka Budi tidak perlu pusing melakukan diagnosa lebih lanjut karena hanya berkepentingan terhadap akurasi. Beda halnya, jika si Budi memiliki tujuan untuk mencari potensi Leukemia diantara populasi tersebut dan memiliki informasi angka benchmark, yaitu 0.1%.
Model Overfitting Generalisasi - pengenalan pola Overfitting adalah suatu kondisi yang mungkin terjadi pada proses generalisasi. Generalisasi adalah suatu proses induksi yang berusaha mengenali suatu pola dari suatu kejadian pada masa lampau untuk memprediksi kejadian pada masa yang akan datang.
Model Overfitting Contoh Generalisasi Perlu prediksi apakah seorang mahasiswa baru akan mampu berprestasi atau tidak. Oleh karena itu dikumpulkan data dari mahasiswa-mahasiswa yang telah lalu untuk mengenali ciri-ciri mahasiwa yang akan berprestasi. Beberapa ciri atau atribut yang dimiliki oleh mahasiswa adalah: Usia, asal, Jenis kelamin, Agama, Golongan Darah, Pekerjaan Ayah, Pendidikan Ayah, Jurusan SMA, Prestasi (label yang ingin diprediksi)
Overfitting Oleh karena itu dilakukan proses generalisasi (istilah pada machine learning) pada data mahasiswa lama untuk menentukan apakah seorang mahasiswa baru akan berprestasi atau tidak. Hasil proses generalisasi berupa model. Prediksi prestasi mahasiswa baru dilakukan dengan memasukan ciri/atribut mahasiwa baru tersebut ke dalam model yang telah dibangun.
Overfitting Overfitting adalah suatu kondisi dimana model, dibangun dengan memperhitungkan seluruh ciri yang ada, termasuk noise Padahal, bisa jadi satu atau lebih ciri tidak berkontribusi atau lebih dikenal sebagai noise (dalam kasus ini, tidak semua ciri/atribut mahasiswa menentukan prestasi mahasiswa). Konsekuensinya, meskipun model yang dibangun sangat cocok pada data training (mahasiswa lama), namun salah dalam memprediksi prestasi mahasiswa baru.
Contoh Overfitting Sebetulnya yang mempengaruhi prestasi mahasiwa adalah usia, asal, pendidikan ayah, pekerjaan ayah, dan jurusan SMA. Maka noise di sini adalah jenis kelamin, agama, dan golongan darah. Sehingga jika kebetulan golongan darah pada semua mahasiswa lama semuanya A (dan ini dikenali sebagai pola), maka ketika ada mahasiswa baru yang memenuhi kriteria usia, asal, pendidikan ayah, pekerjaan ayah, dan jurusan SMA akan diprediksi tidak berprestasi hanya karena golongan darah B. Sementara pada kenyataannya ia berpretasi (prediksi salah).
Definisi Overfitting Overfitting adalah suatu keadaan dimana data yang digunakan untuk pelatihan itu adalah yang "terbaik". Sehingga apabila dilakukan tes dengan menggunakan data yang berbeda dapat mengurangi akurasi (hasil yang dibuat tidak sesuai yang diharapkan). Overfitting dapat terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan pada data. Selain itu duplikasi data minor yang berlebihan juga dapat mengakibatkan terjadinya overfitting.
Definisi Underfitting Underfitting adalah keadaan dimana model pelatihan data yang dibuat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalam pelatihan data. Underfitting terjadi karena model masih mempelajari struktur dari data. Hasilnya, tree bekerja dengan buruk pada masa pelatihan dan tes. Sebagaimana banyaknya node dalam pohon keputusan meningkat, tree memiliki galat pelatihan dan tes yang lebih kecil. Pada saat tree berukuran sangat besar, tingkat terjadinya galat tes mulai meningkat walaupun tingkat galat pelatihannya terus menurun.
Masalah Overfitting & Undefitting Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya : Prepruning: Hentikan pembuatan tree di awal. Tidak melakukan pemisahan node jika goodness measure di bawah threshold. Walaupun dapat menyebabkan sulitnya menentukan threshold. Postpruning: Buang cabang setelah tree jadi. Menggunakan data yang berbeda pada pelatihan untuk menentukan pruned tree yang terbaik.
Masalah Overfitting & Undefitting Untuk mengatasi masalah Overfitting atau Underfitting, terdapat beberapa cara yang bisa dicoba: Gunakan teknik sampel ulang untuk memperikirakan akurasi model. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda sampai menemukan akurasi yang cukup optimal. Cek kembali validitas dari set data.