Universitas Gunadarma

Universitas Gunadarma
KONSEP DATA MINING Disusun Oleh : Dr Lily Wulandari Universitas Gunadarma Logo Seminar

Klasifikasi: Pohon Keputusan

Konsep Dasar Diberikan koleksi record (set latih) Tugas:
Setiap record ditandai dengan tuple (x, y), di mana x adalah set atribut dan y adalah label kelas x: atribut, prediktor, variabel independen, input y: kelas, respons, variabel dependen, keluaran Tugas: Pelajari model yang memetakan setiap set atribut x ke salah satu label kelas y yang telah ditetapkan

Konsep Dasar Gambar 1. Ilustrasi skematis tugas klasifikasi Data untuk tugas klasifikasi terdiri dari kumpulan instance (record). Setiap instance tersebut ditandai dengan tuple (x, y), di mana x adalah himpunan nilai atribut yang menggambarkan instance dan y adalah label kelas dari instance. Set atribut x dapat berisi atribut jenis apa pun, sedangkan label kelas y harus merupakan kategorikal

Tabel 1. Contoh tugas klasifikasi
Konsep Dasar Tabel 1 menunjukkan contoh set atribut dan label kelas untuk berbagai tugas klasifikasi. Penyaringan spam dan identifikasi tumor adalah contoh masalah klasifikasi biner, di mana setiap instance data dapat dikategorikan ke dalam satu dari dua kelas. Jika jumlah kelas lebih besar dari 2, seperti dalam contoh klasifikasi galaksi, maka itu disebut masalah klasifikasi multi kelas. Tabel 1. Contoh tugas klasifikasi

Konsep Dasar Tabel 2. Sampel data untuk masalah klasifikasi vertebrata

Konsep Dasar Contoh 1. [Klasifikasi Vertebrata]. Tabel 2. menunjukkan kumpulan data sampel untuk mengklasifikasikan vertebrata menjadi mamalia, reptil, burung, ikan, dan amfibi. Set atribut mencakup karakteristik vertebrata seperti suhu tubuhnya, penutup kulit, dan kemampuan untuk terbang. Kumpulan data juga dapat digunakan untuk tugas klasifikasi biner seperti klasifikasi mamalia, dengan mengelompokkan reptil, burung, ikan, dan amfibi ke dalam satu kategori tunggal yang disebut nonmamalia.

Konsep Dasar Contoh 2. [Klasifikasi Peminjam Pinjaman]. Pertimbangkan masalah memprediksi apakah peminjam pinjaman akan membayar kembali pinjaman atau gagal bayar atas pembayaran pinjaman. Set data yang digunakan untuk membangun model klasifikasi ditunjukkan pada Tabel 3. Set atribut termasuk informasi pribadi peminjam seperti status perkawinan dan pendapatan tahunan, sementara label kelas menunjukkan apakah peminjam telah gagal bayar atas pembayaran pinjaman.

Konsep Dasar Tabel 3. Sampel data untuk masalah klasifikasi peminjam pinjaman

Konsep Dasar Model klasifikasi menyediakan dua peran penting dalam penambangan data. Pertama, sebagai model prediksi untuk mengklasifikasikan instance yang sebelumnya tidak berlabel. Model klasifikasi yang baik harus memberikan prediksi yang akurat dengan waktu respons yang cepat. Kedua, sebagai model deskriptif untuk mengidentifikasi karakteristik yang membedakan instance dari kelas yang berbeda. Ini sangat berguna untuk aplikasi kritis, seperti diagnosis medis, di mana tidak cukup untuk memiliki model yang membuat prediksi tanpa adanya fakta yang membenarkan cara mencapai keputusan seperti itu.

Konsep Dasar Tidak semua atribut mungkin relevan dengan tugas klasifikasi. Misalnya, panjang rata-rata atau berat vertebrata mungkin tidak berguna untuk mengklasifikasikan mamalia, karena atribut ini dapat menunjukkan nilai yang sama untuk mamalia dan non-mamalia. Atribut seperti itu biasanya dibuang selama preprocessing.

Konsep Dasar Ada atribut yang mungkin tidak dapat membedakan kelas sendiri, sehingga harus digunakan bersama dengan atribut lainnya. Misalnya, atribut Body temperature tidak cukup untuk membedakan mamalia dari vertebrata lainnya. Ketika digunakan bersama dengan Gives Birth, klasifikasi mamalia meningkat secara signifikan. Namun, ketika atribut tambahan, seperti Skin Cover disertakan, model menjadi terlalu spesifik dan tidak lagi mencakup semua mamalia. Menemukan kombinasi optimal dari atribut yang paling membedakan instance dari kelas yang berbeda adalah tantangan utama dalam membangun model klasifikasi.

Pendekatan Umum untuk Membangun Model Klasifikasi
Proses klasifikasi melibatkan dua langkah: menerapkan algoritma pembelajaran untuk melatih data untuk mempelajari model, dan kemudian menerapkan model untuk menetapkan label pada instance yang tidak berlabel. Gambar 2. mengilustrasikan kerangka kerja umum untuk klasifikasi.

Gambar 2. Kerangka umum untuk membangun model klasifikasi

Klasifikasi adalah tugas menentapkan label ke instance data yang tidak berlabel dan classifier/penggolong digunakan untuk melakukan tugas seperti itu. Pendekatan sistematis untuk mempelajari model klasifikasi yang diberikan satu set latih dikenal sebagai algoritma pembelajaran.

Proses menggunakan algoritma pembelajaran untuk membangun model klasifikasi dari data latih dikenal sebagai induksi. Proses ini juga sering digambarkan sebagai “mempelajari sebuah model" atau "membangun model." Proses penerapan model klasifikasi pada contoh uji yang tidak terlihat untuk memprediksi label kelas mereka dikenal sebagai deduksi.

Dalam kerangka umum yang ditunjukkan pada Gambar 2., langkah-langkah induksi dan deduksi harus dilakukan secara terpisah. Faktanya pelatihan dan set tes harus independen satu sama lain untuk memastikan bahwa model yang diinduksi dapat secara akurat memprediksi label kelas dari instance yang belum pernah ditemui sebelumnya. Model yang memberikan prediksi seperti itu dikatakan wawasannya memiliki kinerja generalisasi yang baik. Kinerja model (classifier) dapat dievaluasi dengan membandingkan label yang diprediksi dengan label yang sebenarnya dari instance. Informasi ini dapat diringkas dalam tabel yang disebut confusion matrix.

Tabel 4. menggambarkan confusion matrix untuk masalah klasifikasi biner. Setiap entri, fij menunjukkan jumlah instance dari kelas i yang diprediksi berasal dari kelas j. Misalnya, f01 adalah jumlah instance dari kelas 0 yang diprediksi secara keliru sebagai kelas 1. Jumlah prediksi yang benar yang dibuat oleh model adalah (f11 + f00) dan jumlah prediksi yang salah adalah (f10 + f01). Tabel 4. Confusion Matrix untuk masalah klasifikasi biner.

Meskipun confusion matrix memberikan informasi yang diperlukan untuk menentukan seberapa baik kinerja model klasifikasi, meringkas informasi ini menjadi satu membuatnya lebih mudah untuk membandingkan kinerja relatif dari model yang berbeda. Ini dapat dilakukan dengan menggunakan metrik evaluasi seperti akurasi, yang dihitung dengan cara berikut:

Untuk masalah klasifikasi biner, keakuratan model diberikan oleh Tingkat kesalahan adalah metrik terkait lainnya, yang didefinisikan sebagai berikut untuk masalah klasifikasi biner:

Klasifikasi dengan Decision Tree
Untuk menggambarkan bagaimana pohon keputusan bekerja, pertimbangkan masalah klasifikasi membedakan mamalia dari nonmamalia menggunakan set data vertebrata yang ditunjukkan pada Tabel 2. Misalkan spesies baru ditemukan oleh para ilmuwan. Bagaimana bisa diketahui apakah itu mamalia atau bukan mamalia?

Salah satu pendekatan adalah mengajukan serangkaian pertanyaan tentang karakteristik spesies. Pertanyaan pertama yang mungkin diajukan adalah apakah spesies tersebut berdarah dingin atau berdarah panas. Jika berdarah dingin, maka jelas bukan mamalia. Kalau tidak, itu bisa burung atau mamalia.

Dalam kasus terakhir, kita perlu mengajukan pertanyaan lanjutan: Apakah betina dari spesies tersebut melahirkan anak-anaknya? Yang melahirkan pasti mamalia, sedangkan yang tidak mungkin bukan mamalia (dengan pengecualian mamalia bertelur seperti platypus dan trenggiling berduri).

Gambar 3. menunjukkan contoh pohon keputusan untuk masalah klasifikasi mamalia. Pohon memiliki tiga jenis node: Simpul root, tanpa tautan masuk dan nol atau lebih tautan keluar. Node internal, yang masing-masing memiliki tepat satu tautan masuk dan dua tautan keluar atau lebih. Node daun atau terminal, yang masing-masing memiliki tepat satu tautan masuk dan tidak ada tautan keluar.

Setiap simpul daun di pohon keputusan dikaitkan dengan label kelas. Node non-terminal, yang mencakup root dan internal nodes, berisi kondisi uji atribut yang biasanya ditentukan menggunakan atribut tunggal. Setiap hasil yang mungkin dari kondisi uji atribut dikaitkan dengan tepat satu anak dari simpul ini. Sebagai contoh, simpul akar pohon yang ditunjukkan pada Gambar 3. menggunakan atribut Body Temperature untuk menentukan kondisi uji atribut yang memiliki dua hasil, hangat dan dingin, menghasilkan dua simpul anak.

Gambar 3. Pohon keputusan untuk masalah klasifikasi mamalia. Setelah simpul daun tercapai, tetapkan label kelas yang terkait dengan simpul tersebut ke instance uji. Sebagai ilustrasi, Gambar 4. melacak jalur yang digunakan untuk memprediksi label kelas flamingo. Jalur berakhir pada simpul daun yang berlabel Non-mamalia.

Gambar 4. Klasifikasi vertebrata yang tidak berlabel. Garis putus-putus mewakili hasil penerapan berbagai kondisi uji atribut pada vertebrata yang tidak berlabel. Vertebrata akhirnya mengarah pada kelas Non-mamalia.

Algoritma Dasar untuk Membangun Pohon Keputusan
Algoritma yang efisien telah dikembangkan untuk menghasilkan pohon keputusan yang cukup akurat, meskipun tidak optimal, dalam jumlah waktu yang wajar. Algoritma ini biasanya menggunakan strategi Greedy untuk menumbuhkan pohon keputusan dengan cara top-down dengan membuat serangkaian keputusan yang optimal tentang atribut mana yang akan digunakan ketika mempartisi data latih. Salah satu metode yang paling awal adalah algoritma Hunt, yang merupakan dasar bagi banyak implementasi pengklasifikasi pohon keputusan saat ini, termasuk ID3, C4.5, dan CART.

Algoritma Hunt Dalam algoritma Hunt, pohon keputusan tumbuh secara rekursif. Pohon awalnya berisi satu simpul akar yang dikaitkan dengan semua instance latih. Jika sebuah node dikaitkan dengan instance dari lebih dari satu kelas, ia diperluas menggunakan kondisi atribut uji yang ditentukan menggunakan kriteria pemisahan. Node daun / anak dibuat untuk setiap hasil dari kondisi atribut uji dan instance yang terkait dengan node induk didistribusikan kepada anak-anak berdasarkan hasil tes. Langkah ekspansi simpul ini kemudian dapat diterapkan secara rekursif ke setiap simpul anak, asalkan memiliki label lebih dari satu kelas. Jika semua instance yang terkait dengan simpul daun memiliki label kelas yang identik, maka simpul tersebut tidak diperluas lebih jauh. Setiap node daun diberi label kelas yang paling sering terjadi dalam instance latih yang terkait dengan node.

Algoritma Hunt Untuk mengilustrasikan bagaimana algoritma bekerja, pertimbangkan set latih yang ditunjukkan pada Tabel 3. untuk masalah klasifikasi peminjam pinjaman. Misalkan kita menerapkan algoritma Hunt agar sesuai dengan data latih. Pohon awalnya hanya berisi simpul daun tunggal seperti yang ditunjukkan pada gambar 5.(a). Node ini dilabeli sebagai Defaulted = No, karena mayoritas peminjam tidak default pada pembayaran pinjaman mereka. Kesalahan pelatihan pohon ini adalah 30% karena tiga dari sepuluh instance latih memiliki label kelas Defaulted = Yes. Karenanya leaf node dapat dikembangkan lebih lanjut karena mengandung instance latih lebih dari satu kelas.

Algoritma Hunt Home Owner menjadi atribut yang dipilih untuk membagi instance latih. Pembenaran untuk memilih atribut ini sebagai kondisi pengujian atribut akan dibahas nanti. Pemecahan biner yang dihasilkan pada atribut Home Owner ditunjukkan pada Gambar 5. (b). Semua instance latih yang Home Owner = Yes disebarkan ke anak kiri dari simpul akar dan sisanya disebarkan ke anak yang kanan. Algoritma Hunt kemudian diterapkan secara rekursif untuk setiap anak. Anak kiri menjadi simpul daun berlabel Defaulted = No, karena semua instance yang terkait dengan node ini memiliki label kelas identik Defaulted = No. Subpohon yang dihasilkan setelah memperluas anak kanan ditunjukkan pada Gambar 3.6 (c) dan (d).

Gambar 5. Algoritma Hunt untuk membangun pohon keputusan

Algoritma Hunt Algoritma Hunt membuat beberapa asumsi penyederhanaan yang seringkali tidak benar dalam praktiknya. Beberapa cara untuk menanganinya. Beberapa simpul anak yang dibuat dalam algoritme Hunt dapat kosong jika tidak ada instance latih yang memiliki nilai atribut tertentu. Salah satu cara untuk mengatasinya adalah dengan mendeklarasikan masing-masing sebagai simpul daun dengan label kelas yang paling sering terjadi di antara instance latih yang terkait dengan simpul induknya. Jika semua instance latih yang terkait dengan node memiliki nilai atribut yang identik tetapi label kelas yang berbeda, tidak mungkin untuk memperluas node ini lebih jauh. Salah satu cara untuk menangani kasus ini adalah dengan mendeklarasikannya sebagai simpul daun dan menetapkannya label kelas yang paling sering terjadi dalam instance latih yang terkait dengan simpul ini.

Masalah Desain Induksi Pohon Keputusan
Algoritma Hunt adalah prosedur umum untuk menumbuhkan pohon keputusan secara Greedy. Untuk mengimplementasikan algoritma, ada dua masalah desain utama yang harus diatasi. Apa kriteria pemisahan? Pada setiap langkah rekursif, atribut harus dipilih untuk mempartisi instance latih yang terkait dengan node ke dalam himpunan bagian yang lebih kecil yang terkait dengan node anaknya. Apa kriteria berhenti? Algoritma dasar berhenti mengembangkan node hanya ketika semua instance latih terkait dengan node memiliki label kelas yang sama atau memiliki nilai atribut yang identik. Meskipun kondisi ini cukup, ada alasan untuk berhenti mengembangkan simpul lebih awal bahkan jika simpul daun berisi instance latih dari lebih dari satu kelas. Proses ini disebut terminasi dini dan kondisi yang digunakan untuk menentukan kapan sebuah node harus berhenti berkembang disebut kriteria berhenti.

Metode Menyatakan Kondisi Uji Atribut
Algoritma induksi pohon keputusan harus menyediakan metode untuk menyatakan kondisi uji atribut dan hasil yang sesuai untuk berbagai jenis atribut. Atribut Biner Kondisi pengujian untuk atribut biner menghasilkan dua hasil potensial, seperti yang ditunjukkan pada Gambar 6. Gambar 6. Kondisi pengujian atribut untuk atribut biner.

Atribut Nominal Karena atribut nominal dapat memiliki banyak nilai, kondisi pengujian atributnya dapat dinyatakan dalam dua cara, sebagai multiway split atau binary split seperti yang ditunjukkan pada Gambar 7. Untuk multiway split (Gambar 7.(a)), jumlah hasil tergantung pada jumlah nilai yang berbeda untuk atribut yang sesuai. Misalnya, jika atribut seperti Marital Status memiliki tiga nilai berbeda — Single, Married, atau Divorce — kondisi pengujiannya akan menghasilkan pemisahan tiga arah.

Metode Menyatakan Kondisi Atribut Uji
Dimungkinkan juga untuk membuat pemisahan biner dengan mempartisi semua nilai yang diambil oleh atribut nominal menjadi dua kelompok. Sebagai contoh, beberapa algoritma pohon keputusan, seperti CART, hanya menghasilkan pemisahan biner dengan mempertimbangkan semua cara 2k−1 - 1 untuk membuat partisi biner dari nilai atribut k. Gambar 7.(b) menggambarkan tiga cara pengelompokan nilai atribut untuk Marital Status menjadi dua himpunan bagian.

Gambar 7. Atribut kondisi pengujian untuk atribut nominal.

Atribut Ordinal Atribut ordinal juga dapat menghasilkan pemisahan biner atau multiway. Nilai atribut ordinal dapat dikelompokkan selama pengelompokan tidak melanggar properti urutan dari nilai atribut. Gambar 8. mengilustrasikan berbagai cara pemisahan record latih berdasarkan atribut Ukuran Kaos. Pengelompokan yang ditunjukkan pada Gambar 8.(a) dan (b) mempertahankan urutan di antara nilai atribut, sedangkan pengelompokan yang ditunjukkan pada Gambar 8. (c) melanggar properti ini karena menggabungkan nilai atribut Small dan Large ke dalam partisi yang sama sedangkan Medium dan Extra Large digabungkan ke partisi lain.

Gambar 8. Berbagai cara pengelompokan nilai atribut ordinal.

Atribut kontinue Untuk atribut kontinu, kondisi pengujian atribut dapat dinyatakan sebagai tes perbandingan (misalnya, A < v) yang menghasilkan pemisahan biner, atau sebagai bentuk rentang vi ≤ A <vi + 1, untuk i = 1, , k, menghasilkan multiway split. Perbedaan antara pendekatan ini ditunjukkan pada Gambar 9. Untuk pemisahan biner, setiap nilai v yang mungkin antara nilai atribut minimum dan maksimum dalam data latih dapat digunakan untuk menyusun uji perbandingan A < v. Namun, cukup untuk hanya mempertimbangkan nilai atribut yang berbeda dalam pelatihan yang ditetapkan sebagai posisi pembagian kandidat.

Untuk pemisahan multiway, setiap koleksi yang mungkin dari rentang nilai atribut dapat digunakan, selama mereka saling eksklusif dan mencakup seluruh rentang nilai atribut antara nilai minimum dan maksimum yang diamati dalam set latih. Salah satu pendekatan untuk membangun pemisahan multiway adalah menerapkan strategi diskritisasi. Setelah diskritisasi, nilai ordinal baru ditetapkan untuk setiap interval yang ditentukan, dan kondisi uji atribut kemudian ditentukan menggunakan atribut ordinal yang baru dibangun ini.

Metode Menyatakan Kondisi Atribut Uji
Gambar 9. Kondisi pengujian untuk atribut kontinu.

Cara Menentukan Split Terbaik
Pendekatan Greedy: Node dengan distribusi kelas murni lebih disukai Perlu ukuran ketidakmurnian simpul: Tingkat ketidakmurnian yang tinggi Tingkat ketidakmurnian yang rendah

Ukuran Ketidakmurnian Node
di mana pi (t) adalah frekuensi relatif dari instance latih yang termasuk dalam kelas i pada simpul t, c adalah jumlah total kelas, dan 0 log2 0 = 0 dalam perhitungan entropi. Ketiga ukuran memberikan nilai kemurnian nol jika sebuah simpul berisi instance dari kelas tunggal dan kemurnian maksimum jika node memiliki proporsi instance yang sama dari beberapa kelas.

Gambar 10. membandingkan besaran relatif dari pengukuran ketidakmurnian ketika diterapkan pada masalah klasifikasi biner. Karena hanya ada dua kelas, p0 (t) + p1 (t) = 1. Sumbu horizontal p mengacu pada fraksi instance yang dimiliki salah satu dari dua kelas. Ketiga ukuran mencapai nilai maksimumnya ketika distribusi kelas seragam (yaitu, p0 (t) = p1 (t) = 0,5) dan nilai minimum ketika semua instance milik kelas tunggal (yaitu, baik p0 (t) atau p1 (t) sama dengan 1). Contoh-contoh berikut menggambarkan bagaimana nilai-nilai dari pengukuran ketidakmurnian bervariasi ketika kita mengubah distribusi kelas

Gambar 10. Perbandingan antara pengukuran ketidakmurnian untuk masalah klasifikasi biner.

Pertimbangkan kondisi pengujian atribut yang membagi simpul yang berisi instance latih N menjadi k children, {v1, v2, · · ·, vk}, di mana setiap simpul child mewakili partisi data yang dihasilkan dari salah satu hasil k dari pengujian kondisi atribut. Misalkan N (vj) adalah jumlah instance latih yang terkait dengan simpul child vj, yang nilai ketidakmurniannya adalah I (vj). Karena instance latih di simpul parent mencapai simpul vj untuk sebagian kecil dari N (vj) / N kali, ketidakmurnian kolektif simpul child dapat dihitung dengan mengambil jumlah bobot dari ketidakmurnian dari simpul child, sebagai berikut:

Contoh 3.3. [Weighted Entropy] Pertimbangkan tes kondisi atribut kandidat yang ditunjukkan pada Gambar 11.(a) dan (b) untuk masalah klasifikasi peminjam pinjaman. Membagi pada atribut Home Owner akan menghasilkan dua simpul anak Gambar 11. Contoh kondisi pengujian atribut kandidat

Bobot Entropi dapat dihitung sebagai berikut: Membagi Marital Status, di sisi lain, mengarah ke tiga simpul anak dengan bobot entropi yang diberikan oleh

Identifikasi Kondisi Uji Atribut Terbaik
Untuk menentukan kebaikan kondisi pengujian atribut, kita perlu membandingkan tingkat ketidakmurnian dari simpul induk (sebelum pemisahan) dengan tingkat ketidakmurnian dari simpul anak (setelah pemisahan). Semakin besar perbedaan mereka, semakin baik kondisi tes. Perbedaan ini, Δ, juga disebut sebagai perolehan kemurnian kondisi pengujian atribut, dapat didefinisikan sebagai berikut:

Gambar 12. Kriteria pemisahan untuk masalah klasifikasi peminjam pinjaman menggunakan indeks Gini.

I (parent) adalah ketidakmurnian sebuah node sebelum membelah dan I (children) adalah ukuran bobot ketidakmurnian setelah pemisahan. Dapat ditunjukkan bahwa selisih/gain tersebut tidak negatif karena I (parent) ≥ I (children) untuk setiap tindakan seperti yang disajikan di atas. Semakin tinggi gain, semakin murni kelas-kelas di simpul anak relatif terhadap simpul induk. Kriteria pemisahan dalam algoritma pembelajaran pohon keputusan memilih kondisi uji atribut yang menunjukkan perolehan maksimum.

Memaksimalkan perolehan pada simpul yang diberikan setara dengan meminimalkan ukuran bobot ketidakmurnian dari childrennya karena I (parent) adalah sama untuk semua kondisi uji atribut kandidat. Ketika entropi digunakan sebagai ukuran ketidakmurnian, perbedaan dalam entropi umumnya dikenal sebagai perolehan informasi, Δinfo.

Memisahkan Atribut Kualitatif
Pada gambar 11. terdapat dua kandidat perpecahan pertama yang melibatkan atribut kualitatif Home Owner dan Marital Status. Distribusi kelas awal pada simpul induk adalah (0,3, 0,7), karena ada 3 instance kelas Yes dan 7 instance kelas No dalam data latih. Perbedaan informasi untuk Home Owner dan Marital Status masing-masing diberikan oleh Dengan demikian, perolehan informasi untuk Marital Status lebih tinggi karena bobot entropinya lebih rendah, yang karenanya akan dipertimbangkan untuk dipecah/dipisah.

Latihan Perhatikan data yang ada pada tabel keputusan “Play Tennis”.
Buatlah pohon keputusan untuk data tersebut

Latihan Data Tabel Keputusan untuk “Play Tennis”

Universitas Gunadarma

Presentasi serupa

Presentasi berjudul: "Universitas Gunadarma"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Universitas Gunadarma

Presentasi serupa

Presentasi berjudul: "Universitas Gunadarma"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan