Learning Dr. Suyanto, S.T., M.Sc. HP/WA:

Slides:



Advertisements
Presentasi serupa
Diadaptasi dari slide Jiawei Han
Advertisements

Algoritma Genetika Kelompok 2 Ferry sandi cristian ( )
Genetic Algoritms.
ALGORITMA GENETIKA Disusun Oleh : Anjas Purnomo ( )
MASALAH, RUANG KEADAAN DAN PENCARIAN
Hill Climbing Best First Search A*
ALGORITMA GENETIKA.
KECERDASAN BUATAN (ARTIFICIAL INTELLIGENCE)
Informatics Theory & Programming (ITP) Informatics Eng. Dept. – IT Telkom.
Ruang Keadaan (state space)
Informatics Theory & Programming (ITP) Informatics Eng. Dept. – IT Telkom.
Penyelesaian Masalah Teknik Pencarian
Fuzzy Clustering Logika Fuzzy Materi Kuliah Prodi Teknik Informatika
Pendahuluan CS3243 Kecerdasan Mesin dan Artifisial
ALGORITMA GENETIKA Pertemuan 12.
Kuliah Sistem Fuzzy Pertemuan 12 “Algoritma Genetika”
Studi Kasus Dr. Suyanto, S.T., M.Sc. HP/WA:
DATA MINING (Machine Learning)
Evolution Strategies (ES)
Sistem Berbasis Fuzzy Materi 4
Decision Tree.
Pembimbing : Imas S. Sitanggang, S.Si, M.Kom Irman Hermadi, S.Kom, MS
Fuzzy EAs Dr. Suyanto, S.T., M.Sc. HP/WA:
Dasar-Dasar Algoritma Genetika
Representasi Pengetahuan
Imam Cholissodin | Algoritma Evolusi Teknik Optimasi Imam Cholissodin |
Evolutionary Computation
Teknik Pencarian (Searching)
Metode Pencarian/Pelacakan
STUDI KASUS KLASIFIKASI Algoritma C 4.5
Paralelisasi dan Distribusi
Evolutionary Programming (EP)
Differential Evolution (DE)
Evolutionary Algorithms (EAs)
Grammatical Evolution (GE)
Evolving ANN Dr. Suyanto, S.T., M.Sc. HP/WA:
Oleh : Yusuf Nurrachman, ST, MMSI
Konvergensi Prematur dan Pencegahannya
Planning CS3243 Kecerdasan Mesin dan Artifisial
Pendekatan Inferensi dalam Sistem Pakar
GENETICS ALGORITHM Nelly Indriani W. S.Si., M.T KECERDASAN BUATAN.
Pendahuluan Dr. Suyanto, S.T., M.Sc. HP/WA:
Neuro-Fuzzy Dr. Suyanto, S.T., M.Sc. HP/WA:
Pertemuan 14 Algoritma Genetika.
Algoritma kNN (k-Nearest Neighbor)
Pohon Keputusan (Decision Trees)
MASALAH, RUANG KEADAAN DAN PENCARIAN
Artificial Intelligence (AI)
TEKNIK PENCARIAN.
Algoritma AI 2.
Artificial Intelligence (AI)
ALGORITMA GENETIKA.
Informed (Heuristic) Search
Masalah, Ruang Keadaan dan Pencarian
Pertemuan 13 Algoritma Genetika.
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
ALGORITMA GENETIKA.
Algoritma kNN (k-Nearest Neighbor)
Pertemuan 15 ALGORITMA GENETIKA
Klasifikasi Nearest Neighbor
KLASIFIKASI.
Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.
Perancangan Sistem Klasifikasi Masa Studi Mahasiswa Menggunakan Data Mining Berbasis Algoritma ID3 (Studi Kasus:Jurusan Teknik Komputer –Unikom) Oleh:
CSH4313 Kecerdasan Kolektif (Swarm Intelligence) Pendahuluan
Teori Bahasa Otomata (1) 2. Searching
KECERDASAN BUATAN PERTEMUAN 4.
MASALAH, RUANG KEADAAN DAN PENCARIAN
Pertemuan 10.
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Algoritma kNN (k-Nearest Neighbor)
Transcript presentasi:

Learning Dr. Suyanto, S.T., M.Sc. HP/WA: 0812 845 12345 Intelligence Computing Multimedia (ICM) Informatics faculty – Telkom University

Outline Decision tree learning k-Nearest Neighbour Algoritma Genetika Kesimpulan

S, R, P, L? Searching

S, R, P, L? Searching

S, R, P, L? Reasoning 4 Stench Breeze Pit 3 Wumpus Breeze, Stench , Gold (glitter) 2 1 START Agent →

S, R, P, L? Reasoning

S, R, P, L? Planning

Bagaimana menemukan aturan? Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk Tidak P4 Rendah P5 Cukup P6 P7 P8 P9 Kurang P10 P11 P12

Wawancara Baik Buruk Ya Tidak

Bagaimana menemukan aturan? Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk P4 Rendah Tidak P5 Cukup P6 P7 P8 P9 Kurang P10 P11

Wawancara Baik Buruk Psikologi Ya Tinggi Sedang Rendah Tidak IPK Tidak Bagus Cukup Kurang Ya Ya Tidak

Rule

Masalah Data tidak lengkap Aturan yang men-generalisasi unseen data? IPK : 3 kemungkinan nilai Psikologi: 3 kemungkinan nilai Wawancara: 2 kemungkinan nilai Data lengkap = 3 x 3 x 2 = 18 records Aturan yang men-generalisasi unseen data?

Menangis ? Tertawa ?? Menentukan arah ??? Berbicara ???? Argumentasi ????? Membedakan kemiripan ??????

Learning Bagaimana untuk data yang sangat banyak? Bagaimana menemukan aturan? Bagaimana jika datanya tidak lengkap? Aturan yang general untuk data yang akan datang? Menemukan perbedaan dari dua hal yang mirip? Menemukan kesamaan dari dua hal yang berbeda?

Metode Learning Decision tree learning k-Nearest Neighbour Diskrit (integer) Sebagian metode bisa menangani masalah kontinyu k-Nearest Neighbour Diskrit Kontinyu Vektor Algoritma Genetika

Decision Tree Learning (DTL) Berusaha menemukan fungsi-fungsi pendekatan yang umumnya bernilai diskrit Tahan terhadap data-data yang terdapat kesalahan Mampu mempelajari ekspresi-skspresi disjunctive (ekspresi OR). Metode DTL: Interactive Dychotomizer version 3 (ID3) ASSISTANT C4.5 C5.0

Entropy parameter untuk mengukur heterogenitas (keberagaman) dari kumpulan sampel data. Jika kumpulan sampel data semakin heterogen, maka nilai entropy-nya semakin besar.

Entropy c : jumlah nilai yang ada pada atribut target (jumlah kelas klasifikasi). pi : porsi sampel untuk kelas i.

Untuk kumpulan data dengan 2 kelas (c = 2)

Untuk kumpulan data dengan 4 kelas (c = 4)

Data Penerimaan Pegawai Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk P4 Rendah Tidak P5 Cukup P6 P7 P8 P9 Kurang P10 P11

Data Penerimaan Pegawai Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk Tidak P4 Rendah P5 Cukup P6 P7 P8 P9 Kurang P10

Information Gain (IG) Efektivitas atribut dalam mengklasifikasikan data Dihitung berdasarkan entropy

Information Gain (IG) A : atribut V : menyatakan suatu nilai yang mungkin untuk atribut A Values(A) : himpunan nilai-nilai yang mungkin untuk atribut A |Sv| : jumlah sampel untuk nilai v |S| : jumlah seluruh sampel data Entropy(Sv) : entropy untuk sampel-sampel yang memiliki nilai v

Data Penerimaan Pegawai Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk P4 Rendah Tidak P5 Cukup P6 P7 P8 P9 Kurang P10 P11

Information Gain (IG) atribut Diterima = ’Ya’ dikatakan sebagai sampel positif (+), dan atribut Diterima = ’Tidak’ dikatakan sebagai sampel negatif (-). Values(IPK) = Bagus, Cukup, Kurang S = [8+, 3-], |S| = 11 SBagus = [3+, 1-], |SBagus| = 4 SCukup = [3+, 1-], |SCukup| = 4 SKurang = [2+, 1-], |SKurang| = 3

IG untuk IPK

Data Penerimaan Pegawai Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk P4 Rendah Tidak P5 Cukup P6 P7 P8 P9 Kurang P10 P11

Metode ID3 Membangkitkan Decision Tree secara otomatis Menggunakan perhitungan Entropy dan IG Prosedur Iteratif yang sangat Sederhana

Rekursi level 0 iterasi ke-1 Memanggil fungsi ID3 dengan masukan: KumpulanSampel = semua sampel data [8+,3-] AtributTarget = ’Diterima’ KumpulanAtribut = {IPK, Psikologi, Wawancara}

IG untuk IPK

IG untuk Psikologi Values(Psikologi) = Tinggi, Sedang, Rendah S = [8+, 3-], |S| = 11 STinggi = [3+, 0-], |STinggi| = 3, Entropy(STinggi) = 0 SSedang = [4+, 1-], |SSedang| = 5, Entropy(SSedang) = 0, 7219 SRendah = [1+, 2-], |SRendah| = 3, Entropy(SRendah) = 0,9183

IG untuk Psikologi

IG untuk Wawancara Values(Wawancara) = Baik, Buruk S = [8+, 3-], |S| = 11 SBaik = [6+, 0-], |SBaik| = 6, Entropy(SBaik) = 0 SBuruk = [2+, 3-], |SBuruk| = 5, Entropy(SBuruk) = 0,9710

IG untuk Wawancara

The Best Classifier Gain(S,IPK) = 0,0049 Gain(S,Psikologi) = 0,2668 Gain(S,Wawancara) = 0,4040

Wawancara

Rekursi level 1 iterasi ke-1 Memanggil fungsi ID3 dengan masukan: KumpulanSampel berupa SampleBaik = [6+,0-] AtributTarget = ’Diterima’ KumpulanAtribut = {IPK, Psikologi}. Karena semua sampel pada SampleBaik termasuk dalam kelas ’Ya’, maka fungsi ini akan berhenti dan mengembalikan satu simpul tunggal Root dengan label ’Ya’.

Wawancara Baik Ya

Rekursi level 0 iterasi ke-2 Lakukan pengecekan untuk atribut ’Wawancara’ dengan nilai ’Buruk’. Untuk nilai ’Buruk’, terdapat 5 sampel, berarti SampleBuruk tidak kosong. Sehingga, perlu memanggil fungsi ID3 dengan masukan: KumpulanSampel berupa SampleBuruk = [2+,3-] AtributTarget = ’Diterima’ KumpulanAtribut = {IPK, Psikologi}.

Wawancara Baik Buruk Psikologi Ya

Wawancara Baik Buruk Psikologi Ya Tinggi Sedang Rendah Tidak IPK Tidak Bagus Cukup Kurang Ya Ya Tidak

Rule

Diskusi Jika terdapat dua atribut dengan IG yang sama? Jika ada data yang sama tetapi kelasnya berbeda? Berapa jumlah learning data minimum? Imbalance Class?

Dua atribut dengan IG sama ? Gain(S,IPK) = 0,0049 Gain(S,Psikologi) = 0,4040 Gain(S,Wawancara) = 0,4040

Data sama, kelasnya beda? Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk P4 Rendah Tidak P5 Cukup P6 P7 P8 P9 Kurang P10 P11

Jumlah learning data ? Masalah Email Spam Filtering 200.000 kata Masing-masing kata muncul 0 – 100 kali Training data: 10.000 email

Imbalance Class? Fraud Detection Kecurangan pada Fixed Phone di PT Telkom Kecurangan pada Bank

Data 2  Decision Tree ??? Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk Tidak P4 Rendah P5 Cukup P6 P7 P8 P9 Kurang P10 P11 P12

Wawancara Baik Buruk Ya Tidak

Information Gain (IG) A : atribut V : menyatakan suatu nilai yang mungkin untuk atribut A Values(A) : himpunan nilai-nilai yang mungkin untuk atribut A |Sv| : jumlah sampel untuk nilai v |S| : jumlah seluruh sampel data Entropy(Sv) : entropy untuk sampel-sampel yang memiliki nilai v

IG untuk Wawancara

Wawancara Baik Buruk Ya Tidak

Unseen Data 1 Akurasi = 6/6 = 100% Pelamar IPK Psikologi Wawancara Diterima P13 Bagus Tinggi Baik Ya P14 Rendah Buruk Tidak P15 Cukup P16 P17 Kurang P18 Akurasi = 6/6 = 100%

Unseen Data 2 Akurasi = 3/6 = 50% Pelamar IPK Psikologi Wawancara Diterima P13 Bagus Tinggi Baik Ya P14 Rendah Buruk P15 Cukup P16 P17 Kurang Tidak P18 Akurasi = 3/6 = 50%

Terdapat 22 data yang lain Data 3  Decision Tree ??? Pelamar IPK Psikologi Wawancara Diterima G1 Bagus Tinggi Sangat Baik Ya G2 Sangat Buruk G3 Sedang Buruk G4 Rendah Tidak G5 Cukup G6 G7 G8 Baik G9 G10 Kurang G11 G12 G13 G14 Kombinasi = 3 x 3 x 4 = 36 Terdapat 22 data yang lain

Decision Tree (ID3) Untuk Data Latih, Akurasi = 14/14 = 100%

Untuk Data Uji, Akurasi = 15/22 = 68% Overfit Pelamar IPK Psikologi Wawancara Diterima G15 Bagus Tinggi Baik Ya G16 Buruk G17 Sedang Sangat Baik G18 G19 Sangat Buruk G20 Rendah G21 G22 G23 Cukup G24 G25 G26 G27 G28 Tidak G29 G30 Kurang G31 G32 G33 G34 G35 G36 Untuk Data Uji, Akurasi = 15/22 = 68% Overfit

Overfit Terlalu pas (ngepres) Sangat akurat untuk data latih Kurang akurat untuk data uji (unseen data)

Overfit Data Latih: 10.000 Data Uji: 1.000.000 Ukuran pohon Akurasi (Latih) Akurasi (Uji) 60 100% 70% 20 95% 90% Akurasi Total 710.000/1.010.000 = 70,29 909.500/1.010.000 = 90,04

Mengatasi Overfit Reduced Error Pruning (REP) Rule Post-Pruning (RPP) Data dibagi menjadi 3 bagian: Data Latih  membangun DT Data Validasi  validasi DT Data Uji Porsi untuk ketiga data? Misal: 30%, 20%, 50%

Reduced Error Pruning (REP) Train  97% Validation  97% Test  95 % Tree size: 40 Reduced Error Pruning (REP)

Rule Post-Pruning (RPP) Dengan menggunakan sampel-sampel data pada training set, bangun pohon keputusan. Biarkan overfitting terjadi. Ubah pohon keputusan yang dihasilkan menjadi sekumpulan aturan. Pangkas setiap aturan dengan cara menghilangkan setiap prekondisi yang membuat akurasi perkiraan dari aturan tersebut menjadi lebih baik. Urutkan aturan-aturan hasil pemangkasan berdasarkan akurasi perkiraannya. Pilih aturan-aturan hasil pemangkasan berdasarkan urutan tersebut.

Data 3  Decision Tree ??? Pelamar IPK Psikologi Wawancara Diterima G1 Bagus Tinggi Sangat Baik Ya G2 Sangat Buruk G3 Sedang Buruk G4 Rendah Tidak G5 Cukup G6 G7 G8 Baik G9 G10 Kurang G11 G12 G13 G14

Decision Tree (ID3)

(IPK=‘Bagus’)  (Psikologi=‘Tinggi’) Diterima=‘Ya’ (IPK=‘Bagus’)  (Psikologi=‘Sedang’) Diterima=‘Ya’ (IPK=‘Bagus’)  (Psikologi=‘Rendah’) Diterima=‘Tidak’ (IPK=‘Cukup’)  (Psikologi=‘Tinggi’) Diterima=‘Ya’ (IPK=‘Cukup’)  (Psikologi=‘Sedang’) Diterima=‘Ya’ (IPK=‘Cukup’)  (Psikologi=‘Rendah’)  (Wawancara=‘SangatBaik’)  Diterima=‘Ya’ (IPK=‘Cukup’)  (Psikologi=‘Rendah’)  (Wawancara=‘Baik’)  Diterima=‘Ya’ (IPK=‘Cukup’)  (Psikologi=‘Rendah’)  (Wawancara=‘Buruk’)  Diterima=‘Tidak’ (IPK=‘Cukup’)  (Psikologi=‘Rendah’)  (Wawancara=‘SangatBuruk’)Diterima=‘Ya’ (IPK=‘Kurang’)  (Psikologi=‘Tinggi’)  (Wawancara=‘SangatBaik’)  Diterima=‘Ya’ (IPK=‘Kurang’)  (Psikologi=‘Tinggi’)  (Wawancara=‘Baik’)  Diterima=‘Tidak’ (IPK=‘Kurang’)  (Psikologi=‘Tinggi’)  (Wawancara=‘Buruk’)  Diterima=‘Tidak’ (IPK=‘Kurang’)  (Psikologi=‘Tinggi’)  (Wawancara=‘SangatBuruk’)  Diterima=‘Tidak’ (IPK=‘Kurang’)  (Psikologi=‘Sedang’)  Diterima=‘Tidak’ (IPK=‘Kurang’)  (Psikologi=‘Rendah’)  Diterima=‘Tidak’

Akurasi Latih = 14/14 = 100% Akurasi Validasi = 15/22 = 68% Decision Tree (ID3) Akurasi Latih = 14/14 = 100% Akurasi Validasi = 15/22 = 68% Akurasi Total = 29/36 = 81%

Akurasi Latih = 13/14 = 93% Akurasi Validasi = 18/22 = 82% Decision Tree (ID3) Akurasi Latih = 13/14 = 93% Akurasi Validasi = 18/22 = 82% Akurasi Total = 31/36 = 86%

Akurasi Latih = 12/14 = 86% Akurasi Validasi = 20/22 = 92% Decision Tree (ID3) Akurasi Latih = 12/14 = 86% Akurasi Validasi = 20/22 = 92% Akurasi Total = 32/36 = 89%

Akurasi Latih = 11/14 = 78% Akurasi Validasi = 22/22 = 100% Decision Tree (ID3) Akurasi Latih = 11/14 = 78% Akurasi Validasi = 22/22 = 100% Akurasi Total = 33/36 = 92%

Overfit, Oversize (Underfit), Flexible

Terdapat 22 data yang lain Data 3  Decision Tree ??? Pelamar IPK Psikologi Wawancara Diterima G1 Bagus Tinggi Sangat Baik Ya G2 Sangat Buruk G3 Sedang Buruk G4 Rendah Tidak G5 Cukup G6 G7 G8 Baik G9 G10 Kurang G11 G12 G13 G14 Kombinasi = 3 x 3 x 4 = 36 Terdapat 22 data yang lain

Decision Tree (ID3) Untuk Data Latih, Akurasi = 14/14 = 100%

Untuk Data Uji, Akurasi = 15/22 = 68% Overfit Pelamar IPK Psikologi Wawancara Diterima G15 Bagus Tinggi Baik Ya G16 Buruk G17 Sedang Sangat Baik G18 G19 Sangat Buruk G20 Rendah G21 G22 G23 Cukup G24 G25 G26 G27 G28 Tidak G29 G30 Kurang G31 G32 G33 G34 G35 G36 Untuk Data Uji, Akurasi = 15/22 = 68% Overfit

Data 2  Decision Tree ??? Pelamar IPK Psikologi Wawancara Diterima P1 Bagus Tinggi Baik Ya P2 Sedang P3 Buruk Tidak P4 Rendah P5 Cukup P6 P7 P8 P9 Kurang P10 P11 P12

Wawancara Baik Buruk Ya Tidak

Unseen Data 2 Akurasi = 3/6 = 50% Oversize (Underfit) Pelamar IPK Psikologi Wawancara Diterima P13 Bagus Tinggi Baik Ya P14 Rendah Buruk P15 Cukup P16 P17 Kurang Tidak P18 Akurasi = 3/6 = 50% Oversize (Underfit)

Data 3  Decision Tree ??? Pelamar IPK Psikologi Wawancara Diterima G1 Bagus Tinggi Sangat Baik Ya G2 Sangat Buruk G3 Sedang Buruk G4 Rendah Tidak G5 Cukup G6 G7 G8 Baik G9 G10 Kurang G11 G12 G13 G14

Decision Tree (ID3) Untuk Data Latih, Akurasi = 14/14 = 100%

Untuk Data Uji, Akurasi = 15/22 = 68% Overfit Pelamar IPK Psikologi Wawancara Diterima G15 Bagus Tinggi Baik Ya G16 Buruk G17 Sedang Sangat Baik G18 G19 Sangat Buruk G20 Rendah G21 G22 G23 Cukup G24 G25 G26 G27 G28 Tidak G29 G30 Kurang G31 G32 G33 G34 G35 G36 Untuk Data Uji, Akurasi = 15/22 = 68% Overfit

Flexible (Latih & Validasi) Decision Tree (ID3) Akurasi Latih = 11/14 = 78% Akurasi Validasi = 22/22 = 100% Akurasi Total = 33/36 = 92% Flexible (Latih & Validasi)

Data Kontinyu Pelamar IPK Psikologi Wawancara Diterima P1 3,75 Tinggi Baik Ya P2 3,25 Sedang P3 3,93 Buruk P4 3,12 Rendah Tidak P5 2,85 P6 2,79 P7 2,98 P8 2,83 P9 2,21 P10 2,63 P11 2,50

Data Vektor ID3? ANN GA

Vektor  Diskrit 1

Vektor  Diskrit 1 2 3 4 5 6 7 8 9 10 1 1 11 12 13 14 15 16 17 18 19 20 1 … 91 92 93 94 95 96 97 98 99 100 1

Vektor  Diskrit ID3  Decision Tree? Pola Pix 1 2 3 4 5 … 100 E1 F1 F1 G1 O1 .. O5 ID3  Decision Tree?

Pix 48 1 Pix 20 E 1 Pix 85 Pix 12

Outline Decision tree learning k-Nearest Neighbour Algoritma Genetika Kesimpulan

k-Nearest Neighbour (kNN) Lazy learning Jika ada pola masukan, pilih sejumlah k pola dari data latih yang jaraknya paling dekat (tetangga) dengan pola masukan tersebut Jarak dihitung menggunakan Euclidean distance

k-Nearest Neighbour (kNN) kNN bisa untuk data Disktrit atau Kontinu kNN kurang sesuai jika terdapat data pencilan?

Algoritma kNN Untuk setiap pola dari data latih <x,f(x)>, tambahkan pola tersebut ke dalam Daftar Pola Latih Untuk sebuah pola masukan yang diberikan xq Misalkan x1, x2, ..., xk adalah k pola yang jaraknya paling dekat (tetangga) dengan xq Kembalikan kelas yang memiliki jumlah pola paling banyak di antara k pola tersebut

Berapa k yang optimal? Ada strategi menemukan k optimal Pahami data latih dengan baik Gunakan data latih dan data validasi untuk menghindari overfit

kNN untuk dua kelas

kNN untuk dua kelas

kNN untuk dua kelas

kNN untuk empat kelas Pola Pix 1 2 3 4 5 … 100 E1 F1 G1 O1 .. O5

Outline Decision tree learning k-Nearest Neighbour Algoritma Genetika Kesimpulan

Jumlah kambing = ? 7 x 5 = 35

Pilih presisi atau kecepatan? Presisi dan cepat !!! Jumlah kambing = ? Sulit?

Blind & Heuristic Search

Evolutionary Computation Meta Heuristic Search

Evolutionary Computation Meta Heuristic Search

Evolutionary Computation Meta Heuristic Search

Generational Replacement GA

Studi kasus: Minimasi fungsi Nilai minimum h = ?

Kromosom

Fitness Jika nilai minimum = 0, nilai maks f = ?

Generasi 1

Generasi 1

Generasi 10

Generasi 10

Generasi 100

Untuk presisi 10-9  Berapa bit? Bisa menggunakan kromosom Real?

AG untuk Learning AG bisa untuk learning? Representasi Kromosom? Fungsi Fitness? Kunci: “Satu individu menyatakan satu solusi”

Bagaimana menemukan aturan?

ID3 Cepat ! Akurasinya ??? Wawancara Baik Buruk Psikologi Ya Tinggi Tidak Sedang IPK Bagus Ya Cukup Kurang Rendah Cepat ! Akurasinya ???

Aturan yang dihasilkan

Pemisahan Aturan

Konversi 3 aturan IPK Psikologi Wawancara Diterima 111 111 10 1 9 bit 111 111 10 1 100 010 01 1 010 010 01 1 9 bit Tiga bit pada IPK menyatakan tiga buah nilai: ’Bagus’, ’Cukup’, ’Kurang’ Tiga bit pada Psikologi menyatakan ’Tinggi’, ’Sedang’, ’Rendah’ Dua bit pada Wawancara menyatakan ’Baik’ dan ’Buruk’.

Kromosom 9 bit 9 bit 9 bit

Fungsi Fitness f = akurasi aturan Tujuan learning? Aturan yang akurasinya tertinggi  Maksimasi f = akurasi aturan

Operator Evolusi Berapa panjang kromosom yg optimal? Seleksi orangtua Crossover Mutasi Replacement Berapa panjang kromosom yg optimal? Tidak bisa diketahui Operator evolusi  kromosom dinamis

Crossover (contoh) Posisi Sembarang {1,12} Terbatas pada: {1,3} {1,12} {10,12} Modulo jumlah bit per aturan (9)

Generational Replacement GA

Generasi 1 (random: populasi 8 krom) 2 3 4 5 6 7 8

1 2 . . . 8 3

Generasi 1 (random: populasi 8 krom) 2 3 4 5 6 7 8

Generasi 2 (Populasi 8 krom) 1 2 3 4 5 6 7 8

Generasi 10 (Populasi 8 krom) 2 3 4 5 6 7 8

Generasi 50 (Populasi 8 krom) 1 2 3 4 5 6 Kromosom terbaik 7 8

Kromosom terbaik Akurasi = 100% untuk training set Akurasi untuk data yang lain???

Kapan Menghentikan Learning? Untuk GA, grafiknya bagaimana? Untuk JST PB Berhenti !

Menghentikan evolusi GA Akurasi Total = (450+800)/1500 = 0.833 Berhenti !

Perhatian !!! Fitness dihitung dengan training set saja Validation set hanya untuk mem-validasi aturan Akurasi total dihitung berdasarkan porsi data pada training set dan validation set

Overfit, Oversize, Flexible

Diskusi GA lebih baik dibandingkan ID3? ID3 sekuensial GA paralel

Berapa jumlah pohon yg mungkin? Apakah pohon ini yang terbaik? ID3 Wawancara Baik Buruk Psikologi Ya Tinggi Tidak Sedang IPK Bagus Ya Cukup Kurang Rendah Berapa jumlah pohon yg mungkin? Apakah pohon ini yang terbaik?

Berapa jumlah pohon yg mungkin? GA 1 2 . . . 8 3 Berapa jumlah pohon yg mungkin?

Berapa jumlah kromosom yg mungkin?

ID3 Akurasi Iterasi

GA Akurasi Iterasi

GA Akurasi Iterasi

GA Akurasi Iterasi

Kesimpulan Decision tree learning sangat sesuai untuk permasalahan yang bernilai diskrit. Jika kita memaksakan diri untuk menyelesaikan permasalahan bernilai kontinyu dengan decision tree learning, maka kita harus mengubah nilai-nilai kontinyu tersebut menjadi nilai-nilai diskrit. Hal ini, tentu saja, akan menghilangkan sebagian informasi penting.

Kesimpulan kNN bisa digunakan untuk permasalahan yang bernilai diskrit, kontinyu, maupun vektor kNN merupakan metode learning yang sangat mudah diimplementasikan Metode learning lain yang juga mudah diimplementasikan adalah GA

Daftar Pustaka [SUY07] Suyanto. 2007. Artificial Intelligence: Searching, Reasoning, Planning and Learning. Informatika, Bandung Indonesia. ISBN: 979-1153-05-1. [SUY08a] Suyanto. 2008. Evolutionary Computation: Komputasi Berbasis “Evolusi” dan “Genetika”. Informatika, Bandung Indonesia. ISBN: 978-979-1153 38-6. [SUY08b] Suyanto. 2008. Soft Computing: Membangun Mesin Ber-IQ Tinggi. Informatika, Bandung Indonesia. ISBN: 978-979-1153-49-2. [MIT97] Mitchell M. Tom. 1997. Machine Learning. McGraw-Hill International Editions. Printed in Singapore. [SUY05] Suyanto. 2005. Algoritma Genetika dalam MATLAB. Andi Publisher, Yogyakarta, Indonesia. ISBN: 979-731-727-7.