Classification Supervised learning.

Slides:

Advertisements

Presentasi serupa

Analisis Outlier.

Advertisements

Jeff Howbert Introduction to Machine Learning Winter Classification Nearest Neighbor.

Diadaptasi dari slide Jiawei Han

Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:

Peran Utama Data Mining

Fachrul Reza ( ) Julpan ( ) M. Nur Cipta Hidayah Lubis ( ) Oleh:

Algoritma Data Mining Object-Oriented Programming Algoritma Data Mining

Chapter 9 ALGORITME Cluster dan WEKA

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.

JARINGAN SARAF TIRUAN LANJUTAN

Pengenalan Supervised dan Unsupervised Learning

Pertemuan 3 JARINGAN PERCEPTRON

1 Pertemuan 8 Klasifikasi dan Rekognisi Pola (2) Matakuliah: T0283 – Computer Vision Tahun: 2005 Versi: Revisi 1.

2-Pembelajaran Statistik 25 Agustus 2015 Data pelatihan dan pengujian Bias dan variansi Error rate & confidence interval Regresi Linear Praktikum: Data.

A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.

Naive Bayesian & Bayesian Network

DATA MINING (Machine Learning)

ANALISIS OUTLIER 1 Data Mining.

Sistem Berbasis Fuzzy Materi 4

2. Data & Proses Datamining

Data Mining Junta Zeniarja, M.Kom, M.CS

Klasifikasi Data Mining.

K-SUPPORT VECTOR NEAREST NEIGHBOR UNTUK KLASIFIKASI BERBASIS K-NN

Peran Utama Data Mining

Martin Budi G Di Bawah Bimbingan Rindang Karyadin, S.T., M.Kom.

MENENTUKAN GARIS LURUS TERBAIK

Pengaruh incomplete data terhadap

Konsep Data Mining Ana Kurniawati.

Klasifikasi Berdasarkan Teorema Bayes

Clustering Best Practice

Aplikasi Kecerdasan Komputasional

Disiplin Ilmu, Metode Penelitian, Computing Method

Data Mining: Klasifikasi Naive Bayesian & Bayesian Network

Algoritma kNN (k-Nearest Neighbor)

Naïve Bayes Classification.

Pohon Keputusan (Decision Trees)

Similarity/ Dissimilarity

MATERI PERKULIAHAN KECERDASAN BUATAN

Naïve Bayes Classification.

Oleh : Rahmat Robi Waliyansyah, M.Kom.

Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana

PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN

Algoritma kNN (k-Nearest Neighbor)

Self-Organizing Network Model (SOM) Pertemuan 10

Klasifikasi Nearest Neighbor

USING DATA MINING TO MODEL PLAYER EXPERIENCE

Metode Data Mining “ Self-Organizing Map [SOM] ” Taskum Setiadi ADVANCE MACHINE LEARNING STMIK Nusa Mandiri Jakarta2016 ADVANCE MACHINE LEARNING.

DATA MINING with W E K A.

Anggota Dwita Eprila ( ) Mayang Hermeiliza Eka Putri ( ) Nadiah Amelia ( ) Rafif Abdusalam ( ) Shofyan.

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . November 8, 2018.

Konsep Aplikasi Data Mining

Arsitektur dan Model Data Mining

K-Nearest Neighbourhood (KNN)

Pengetahuan Data Mining

Konsep Data Mining Ana Kurniawati.

IMPLEMENTASI ALGORITMA k-NN

By : Rahmat Robi Waliyansyah, M.Kom

DECISION SUPPORT SYSTEM [MKB3493]

Konsep Aplikasi Data Mining

Universitas Gunadarma

Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran data yang.

Universitas Gunadarma

Algoritma kNN (k-Nearest Neighbor)

Transcript presentasi:

Classification Supervised learning

Supervised vs Unsupervised Methods Data mining dapat dikategorikan sebagai supervised ataupun unsupervised. Dalam unsupervised method, tidak ada variabel tujuan yg diidentifikasikan. Kebanyakan metoda data mining adalah supervised method, yang berarti : Ada variabel target yg dispesifikasi sebelumnya Algoritma diberikan beberapa contoh di mana nilai dari variabel target disediakan sehingga algoritma dapat mempelajari yg mana nilai variabel target berhubungan dengan yg mana nilai variabel pemrediksi.

Methodology for Supervised Modelling Algoritma disediakan data training untuk membuat model yg diaplikasikan pada data test

Classification Task Beberapa contoh fungsi klasifikasi: Banking: Pemberian kredit  good or bad credit risk Transaksi kartu kredit  fraudulent or not Education: Penempatan student baru ke suatu jalur tertentu Medicine: Mendiagnosa apakah keberadaan jenis penyakit Law: Menentukan akan penulisan terhadap yg meninggal atau pemalsuan Homeland security: Mengidentifikasikan apakah seseotang yg berperilaku mendikasikan kemungkan ancaman teroris.

Contoh kutipan pengklasifikasian pendapatan. (sebagai data training) Maka berdasarkan klasifikasi dari data training, akan dapat mengassign rekord baru, misal seorang profesor wanita berusia 63 th mgkn diklasifikasikan ke high-income

Classification Techniques Nearest-neighbor (KNN) Naïve Bayes Decision Tree based Methods Rule-based Methods Support Vector Machines Neural Networks Boosting, Bagging, Random Forests

Nearest Neighbor Classifiers Basic idea: Jika dia berjalan seperti itik, maka dia itik Training Records Test Record Choose k of the “nearest” records

K-Nearest Neighbor K-nearest neighbors dari suatu record x: titik2 data yg memiliki k terkecil jarak ke x

Nearest Neighbor Classifiers Requires three things The set of stored records Distance Metric to compute distance between records The value of k, the number of nearest neighbors to retrieve To classify an unknown record: Compute distance to other training records Identify k nearest neighbors Use class labels of nearest neighbors to determine the class label of unknown record (e.g., by taking majority vote)

K-Nearest Neighbor (KNN) Algorithm K-NN merupakan instance-based learning, dimana data training disimpan sehingga klasifikasi untuk record baru yg belum diklasifikasi dpt ditemukan dengan membandingkan kemiripan yang paling banyak dalam data training.

Contoh: scatter plot untuk rasio sodium/ potasium thd umur 200 pasien Y light gray X dark gray (A) B, C  medium gray

Jika ada pasien baru, maka dilihat yg paling dekat (k=1)  pasien 2 (drug A)

Important issue in K-NN Berapa banyak neighbor yg seharusnya dipertimbangkan (k)? Bagaimana mengukur jarak? Bagaimana mengkombinasikan informasi dari lebih dari satu observasi? Haruskah seluruh titik sama bobotnya, atau beberapa titik memiliki informasi lebih dari yg lain

DISTANCE FUNCTION Fungsi jarak yang paling umum digunakan  Euclidean distance Dimana, x=x1,x2,…xm, dan y1,y2,…ym merepresentasikan nilai atribut m dari dua rekord

Untuk data kontinyu bisa juga digunakan rumusan normalisasi/ standarisasi sebelum dilakukan klasifikasi: Untuk variabel kategori:

Contoh: nilai variable untuk age & gender (k=1) Maka jarak antara pasien A & B  d(A,B)=√[(50-20)2 + 02]= 30; dan jarak antara A & C  d(A,C)= √[(50-50)2 + 12]=1 Hal ini berarti pasien A lebih similar ke C daripada ke B

Jika dilakukan normalisasi min-max, maka ditemukan: d(A,B)=0 Jika dilakukan normalisasi min-max, maka ditemukan: d(A,B)=0.6, d(A,C)=1 sehingga dihasilkan pasien B lebih mirip ke pasien A Dan juga bila dilakukan Z-score standarization, maka dihasilkan: d(A,B)=0.6, d(A,C)=1, sehingga didapatkan pasien C yg lebih mirip ke pasien A Sering terjadi penyimpangan yg dilakukan oleh normalisasi min-max

Combination Function Simple Unweighted Voting Menentukan k, jml rekord yg memiliki suara dalam pengklasifikasian rekord baru Membandingkan rekord baru ke k-nn, yakni k rekord yg berjarak minim dalam ukuran jarak Sekali k rekord dipilih, maka yg diperhatikan jaraknya. Satu record satu vote Maka bila terdapat k=3, dan terdapat 2 rekord yg lebih dekat ke suatu record (misal: medium gray), maka memiliki confidence 66.67%

Weighting Voting Diharapkan memperkecil kesalahan Merupakan kebalikan proporsi jarak dari rekord baru dengan klasifikasi. Vote dibobotkan dengan inverse square dari nilai jarak

Sehingga dipilih vote tertinggi yakni dark gray

Quantifying Attribute Relevance: Stretching the Axes Adanya kemungkinan suatu atribut memiliki informasi yg penting thd yg lain, maka dilakukan pengalian terhadap nilai tertentu. Misal adanya informasi Na/K ratio tiga kali lebih penting dari age, maka untuk pencarian jarak sbb:

Choosing k Pemilihan k yg terlalu kecil menyebabkan sensitive terhadap noise Namun k terlalu besar, neighborhood dapat mencangkup titik2 dari kelas lain Sehingga dilakukan pemilihan dengan meminimkan estimasi error pengklasifikasian