Universitas Gunadarma

Slides:

Advertisements

Presentasi serupa

PENELITIAN EKSPERIMENTAL

Advertisements

Muhammad Taufik Syastra

Metode penelitian dan Perkembangan Anak Santi E. Purnamasari, M.Si.

PERENCANAAN DAN PEMBUATAN KEPUTUSAN

Bab 9 Pengembangan Produk Baru dan Strategi Siklus Hidup Produk

MENYUSUN RANCANGAN AWAL USAHA DAN EVALUASI PELUANG USAHA BARU

III. METODOLOGI PENELITIAN

MEMILIH METODE PENELITIAN

Marselina Silvia Suhartinah / 4IA05

PENGANTAR ILMU PENGETAHUAN SOSIAL

Proposisi, Dalil, Teori, dan Fakta

SISTEM PENUNJANG KEPUTUSAN (DECISION SUPPORT SYSTEM)

Sistem Pengambilan Keputusan, Pemodelan dan Pendukung

Oleh : Devie Rosa Anamisa

DATA MINING (Machine Learning)

DATA MINING 25 Januari 2008.

VARIABEL PENELITIAN.

Higher Order Thinking ( HOT )

Dr. Gatot Sugeng Purwono, M.S. NIP

Metode Penelitian.

Pengumpulan Kebutuhan dan Dokumentasi

PENGENALAN RANCANGAN PERCOBAAN (EXPERIMENTAL Design)

STUDI KASUS KLASIFIKASI Algoritma C 4.5

MANAJEMEN INVENTORY DAN LOGISTIK

Judul Penelitian, Perumusan Masalah dan Tujuan Penelitian

Pengantar Statistik dan Probabilitas

Pengambilan Keputusan Etis Dalam Perusahaan

MEMILIH METODE PENELITIAN

PENGENALAN RANCANGAN PERCOBAAN (EXPERIMENTAL Design)

Dasar – Dasar Pemasaran PTA Universitas Gunadarma

Oleh: Syaifurrahaman Hidayat, S.Kep.,Ns

INEL MASRAYANTI IB PRINSIP POKOK ASUHAN KEHAMILAN Prinsip-prinsip pokok asuhan antenatal konsisten dengan dan didukung oleh prinsip-prinsip.

JURUSAN MANAJEMEN 3EA11, 3EA02, 3EA07, 3EA01

CARA PENGUMPULAN DATA SENSUS DATA POPULASI ANALISIS NILAI PARAMETRIK

Pengantar By Serdiwansyah N. A..

Sistem Pengambilan Keputusan, Pemodelan dan Pendukung

Siklus Piutang Dagang Tingkat piutang perusahaan dalam suatu periode bisa dipecah ke dalam dua hal: (1) Besarnya piutang rata-rata, dan (2) Rata-rata periode.

PENGENALAN RANCANGAN PERCOBAAN (EXPERIMENTAL Design)

Merancang Penelitian Sesi – 1 Seminar Komunikasi

Aspek Pemasaran Menganalisis pemasaran secara komprehensif bertujuan untuk merinci pemasaran secara lebih jelas dimulai dari memahami dan mengerti betul.

Aplikasi Business Intelligence & Data Mining

III METODOLOGI PENELITIAN III. METODOLOGI PENELITIAN III - 1 SILABUS

Mencegah Kesalahan dengan Memperbaiki Proses Pengambilan Keputusan

III METODOLOGI PENELITIAN III. METODOLOGI PENELITIAN III - 1 SILABUS

PENGAMBILAN KEPUTUSAN MANAJEMEN

JENIS PENELITIAN, STRATEGI DAN METODENYA

PENELITIAN KUALITATIF

III METODOLOGI PENELITIAN III. METODOLOGI PENELITIAN III - 1 SILABUS

III METODOLOGI PENELITIAN III. METODOLOGI PENELITIAN III - 1 SILABUS

PENDAHULUAN KELOMPOK I: Norjanah Ervi Febrianti Eka Wahyu Syahdawaty

Aspek Pemasaran Menganalisis pemasaran secara komprehensif bertujuan untuk merinci pemasaran secara lebih jelas dimulai dari memahami dan mengerti betul.

STRUKTUR DATA Materi 1.

Lingkungan Pemasaran.

Chapter 08 POPULASI DAN SAMPLING Konten: Definisi populasi

MENGENAL RISET PEMASARAN

III METODOLOGI PENELITIAN III. METODOLOGI PENELITIAN III - 1 SILABUS

Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.

Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:

Pengumpulan DATA.

DATA PREPARATION Kompetensi

Lingkungan Pemasaran.

DATA PREPARATION.

Statistika Statistika adalah metode pengolahan data yang didapat dari suatu operasi yang dilakukan secara berulang-ulang. Operasi dilakukan melalui observasi.

Analisa Runtun Waktu.

Universitas Gunadarma

METODE RISET (Research Method)

Sistem Pengambilan Keputusan, Pemodelan dan Pendukung

SUPARJON POPULASI Populasi adalah wilayah generalisasi yang terdiri atas obyek/subyek peneliti untuk dipelajari dan kemudian ditarik.

Transcript presentasi:

Universitas Gunadarma KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

Klasifikasi: Pohon Keputusan - Bias

Pengantar Tujuan akhir dari proses pengolahan data, baik itu data kecil maupun besar, adalah membantu bisnis membuat keputusan yang lebih baik Jika dikaitkan dengan ilmu Data Science, teknik analisa data memerlukan pemodelan atau pemetaan yang baik dari manusia sebagai operator teknologi ini. Sayangnya, manusia memiliki bias – kecenderungan untuk bergantung kepada persepsi dan pengalamannya sendiri – sehingga pertimbangan pada saat perancangan model yang dibutuhkan tidak banyak berdasarkan kenyataan

Confirmation Bias Berikut adalah tiga bias yang paling mudah diidentifikasi dan krusial. Confirmation Bias Confirmation bias adalah tipe bias dimana pengolahan data dilakukan untuk membenarkan suatu asumsi dan tindakan spekulasi dari pemegang keputusan. Sebagai contoh, asumsi bahwa pergerakan harga suatu komoditas akan naik karena tren di lapangan mencerminkan hal tersebut. Padahal dengan menganalisis kebutuhan data pasar dari berbagai sumber, tidak demikian halnya yang akan terjadi. Malah, kecenderungan untuk turun yang akan terjadi.

Confirmation Bias Karena keyakinan dan pengalaman di lapangan, tim data diminta untuk mencoba lagi berbagai model dan data yang relevan. Dengan melakukan banyak kompromi, data akhirnya keluar untuk mengkonfirmasi keyakinan beliau. Bias dari proses ini tentunya sangat membahayakan bisnis, seorang tandem yang dapat meng-counter profil decision maker seperti ini sangatlah diperlukan.

Selection Bias Selection Bias Selection bias adalah tipe bias dimana data-data dipilih secara subjektif dan tidak berdasarkan metode ilmiah. Sebagai contoh, dari banyaknya data lengkap profil pelanggan kita hanya memilih data alamat dan profesi. Data jenis kelamin dan tanggal lahir kita tidak masukkan, karena kita percaya bahwa umur dan masalah gender adalah hal sensitif. Walaupun secara etis benar, tetapi dari sisi objektivitas akan sangat merugikan. Survei, terutama ketika dirancang dengan jawaban yang dibatasi dan cenderung mengarahkan, dapat digolongkan kepada bias tipe ini.

Overfitting dan Underfitting Overfitting & Underfitting Tipe bias berikutnya adalah overfitting & underfitting. Dalam kasus overfitting, kesimpulan atau rumusan yang kita ambil ternyata valid untuk mayoritas data dan informasi yang berhasil dikumpulkan. Dengan persentase kesalahan yang sangat kecil, kita sangat yakin akan rumusan dan model kita. Sayangnya, model yang akurasinya sangat tinggi – apalagi tidak diukur dengan benchmark yang baik – biasanya tidak mencerminkan prinsip realita dengan baik; atau gagal dalam hal generalisasi. Ini akan berakibat kita akan salah memprediksi banyak hal ke depannya. Kondisi yang sebaliknya dari overfitting adalah underfitting, terlalu generalisir terhadap suatu populasi.

Overfitting dan Underfitting Berikut adalah contoh dari underfitting, Budi – seorang amatir – diminta melakukan observasi terhadap 1000 orang dan menyatakan seluruh orang tersebut bebas dari leukemia, satu jenis kanker darah. Jika persentase leukemia adalah 0.1%, maka akurasi si Budi adalah 99,9%. Dengan generalisir seperti ini, maka Budi tidak perlu pusing melakukan diagnosa lebih lanjut karena hanya berkepentingan terhadap akurasi. Beda halnya, jika si Budi memiliki tujuan untuk mencari potensi Leukemia diantara populasi tersebut dan memiliki informasi angka benchmark, yaitu 0.1%.

Model Overfitting Generalisasi - pengenalan pola Overfitting adalah suatu kondisi yang mungkin terjadi pada proses generalisasi. Generalisasi adalah suatu proses induksi yang berusaha mengenali suatu pola dari suatu kejadian pada masa lampau untuk memprediksi kejadian pada masa yang akan datang.

Model Overfitting Contoh Generalisasi Perlu prediksi apakah seorang mahasiswa baru akan mampu berprestasi atau tidak. Oleh karena itu dikumpulkan data dari mahasiswa-mahasiswa yang telah lalu untuk mengenali ciri-ciri mahasiwa yang akan berprestasi. Beberapa ciri atau atribut yang dimiliki oleh mahasiswa adalah: Usia, asal, Jenis kelamin, Agama, Golongan Darah, Pekerjaan Ayah, Pendidikan Ayah, Jurusan SMA, Prestasi (label yang ingin diprediksi)

Overfitting Oleh karena itu dilakukan proses generalisasi (istilah pada machine learning) pada data mahasiswa lama untuk menentukan apakah seorang mahasiswa baru akan berprestasi atau tidak. Hasil proses generalisasi berupa model. Prediksi prestasi mahasiswa baru dilakukan dengan memasukan ciri/atribut mahasiwa baru tersebut ke dalam model yang telah dibangun.

Overfitting Overfitting adalah suatu kondisi dimana model, dibangun dengan memperhitungkan seluruh ciri yang ada, termasuk noise Padahal, bisa jadi satu atau lebih ciri tidak berkontribusi atau lebih dikenal sebagai noise (dalam kasus ini, tidak semua ciri/atribut mahasiswa menentukan prestasi mahasiswa). Konsekuensinya, meskipun model yang dibangun sangat cocok pada data training (mahasiswa lama), namun salah dalam memprediksi prestasi mahasiswa baru.

Contoh Overfitting Sebetulnya yang mempengaruhi prestasi mahasiwa adalah usia, asal, pendidikan ayah, pekerjaan ayah, dan jurusan SMA. Maka noise di sini adalah jenis kelamin, agama, dan golongan darah. Sehingga jika kebetulan golongan darah pada semua mahasiswa lama semuanya A (dan ini dikenali sebagai pola), maka ketika ada mahasiswa baru yang memenuhi kriteria usia, asal, pendidikan ayah, pekerjaan ayah, dan jurusan SMA akan diprediksi tidak berprestasi hanya karena golongan darah B. Sementara pada kenyataannya ia berpretasi (prediksi salah).

Definisi Overfitting Overfitting adalah suatu keadaan dimana data yang digunakan untuk pelatihan itu adalah yang "terbaik". Sehingga apabila dilakukan tes dengan menggunakan data yang berbeda dapat mengurangi akurasi (hasil yang dibuat tidak sesuai yang diharapkan). Overfitting dapat terjadi ketika beberapa batasan didasarkan pada sifat khusus yang tidak membuat perbedaan pada data. Selain itu duplikasi data minor yang berlebihan juga dapat mengakibatkan terjadinya overfitting.

Definisi Underfitting Underfitting adalah keadaan dimana model pelatihan data yang dibuat tidak mewakilkan keseluruhan data yang akan digunakan nantinya. Sehingga menghasilkan performa yang buruk dalam pelatihan data. Underfitting terjadi karena model masih mempelajari struktur dari data. Hasilnya, tree bekerja dengan buruk pada masa pelatihan dan tes. Sebagaimana banyaknya node dalam pohon keputusan meningkat, tree memiliki galat pelatihan dan tes yang lebih kecil. Pada saat tree berukuran sangat besar, tingkat terjadinya galat tes mulai meningkat walaupun tingkat galat pelatihannya terus menurun.

Masalah Overfitting & Undefitting Untuk menghindari masalah Overfitting atau Underfitting dapat dilakukan dengan dua pendekatan diantaranya : Prepruning: Hentikan pembuatan tree di awal. Tidak melakukan pemisahan node jika goodness measure di bawah threshold. Walaupun dapat menyebabkan sulitnya menentukan threshold. Postpruning: Buang cabang setelah tree jadi. Menggunakan data yang berbeda pada pelatihan untuk menentukan pruned tree yang terbaik.

Masalah Overfitting & Undefitting Untuk mengatasi masalah Overfitting atau Underfitting, terdapat beberapa cara yang bisa dicoba: Gunakan teknik sampel ulang untuk memperikirakan akurasi model. Dimana nantinya akan melakukan validasi beberapa kali dengan perbandingan data yang berbeda sampai menemukan akurasi yang cukup optimal. Cek kembali validitas dari set data.