Data Mining.

Slides:



Advertisements
Presentasi serupa
KNOWLEGDE DISCOVERY in DATABASE (KDD)
Advertisements

Analisis Outlier.
Oleh: Achmad Zakki Falani Universitas Narotama Fakultas Ilmu Komputer
Diadaptasi dari slide Jiawei Han
Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:
BASIS DATA LANJUTAN.
Peran Utama Data Mining
Data Mining Definisi Data Mining Kemampuan Data Mining :
DATA MINING 1.
INTRODUCTION OF DATA WAREHOUSE
Data Warehouse, Data Mart, OLAP, dan Data Mining
Pengenalan Data Warehouse
Pengenalan Datawarehouse
Chapter 9 ALGORITME Cluster dan WEKA
The Knowledge Discovery Process
Data Mining.
SISTEM INFORMASI Pertemuan 5.
Pengenalan Datawarehouse
Mata Kuliah :Web Mining Dosen
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.
PENGANTAR DATA MINING.
Pengenalan Supervised dan Unsupervised Learning
A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.
DATA MINING (Machine Learning)
DATA MINING 25 Januari 2008.
INTRODUCTION OF DATA WAREHOUSE
ANALISIS OUTLIER 1 Data Mining.
Penambangan data Pertemuan 2.
KECERDASAN BISNIS Data Warehouse, Data Mart, OLAP, dan Data Mining
DATAWAREHOUSING & BUSINESS INTELLIGENT <<Pertemuan – 12>>
Peran Utama Data Mining
PEMBUATAN POHON KEPUTUSAN
Data Warehouse, Data Mart, OLAP, dan Data Mining
Data Mining.
Konsep Data Mining Ana Kurniawati.
Klasifikasi Berdasarkan Teorema Bayes
RESEARCH FIELDS BIDANG PENELITIAN.
Klasifikasi.
Naïve Bayes Classification.
KECERDASAN BISNIS (Data Warehouse, Data Mart, OLAP, dan Data Mining)
Aplikasi Business Intelligence & Data Mining
Klasifikasi dengan Naive Bayes
Business Intelligent Ramos Somya, S.Kom., M.Cs.
KELOMPOK 6 Nama Kelompok: Lulus Irmawati ( )
INTRODUCTION OF DATA WAREHOUSE
Classification Supervised learning.
INTRODUCTION OF DATA WAREHOUSE
Oleh : Rahmat Robi Waliyansyah, M.Kom.
Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana
PRODI MIK | FAKULTAS ILMU-ILMU KESEHATAN
EKSPLORASI DATA & DATA WAREHOUSE PERTEMUAN - 2 NOVIANDI
DATA MINING with W E K A.
KLASIFIKASI.
Konsep dan Teknik Data Mining
Data PreProcessing (Praproses Data)
Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . November 8, 2018.
Konsep Aplikasi Data Mining
DATA PREPARATION Kompetensi
Klasifikasi dengan Naive Bayes
Arsitektur dan Model Data Mining
Pengetahuan Data Mining
Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.
DATA PREPARATION.
CLUSTERING.
Konsep Data Mining Ana Kurniawati.
Information Retrieval “Document Classification dengan Naive Bayes”
DECISION SUPPORT SYSTEM [MKB3493]
Klasifikasi dengan Naive Bayes
Universitas Gunadarma
Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran  data yang.
Transcript presentasi:

Data Mining

Seputar Perkuliahan Dosen: Ariesta Damayanti Email: riestamaya@gmail.com Komunikasi: via email, wa Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan Sistem Penilaian: 30 % tugas+presentasi, 35% UTS, 35% UAS Batas Nilai: A:80, B:65, C:49, D:30 Buku: Data Mining: Concepts and Techiques, Jiawei Han dan beberapa referensi lain

Data Mining : menemukan pola-pola tersembunyi maupun hubungan-hubungan dalam basis data yang besar menghasilkan pengetahuan / aturan- aturan yang digunakan untuk memperkirakan perilaku di masa medatang

Contoh Perbedaan Data, Informasi, Pengetahuan Masuk Sekolah jam 07.00 Jarak dari rumah ke sekolah 30 menit Supaya tidak terlambat berangkat ke sekolah maksimal jam 06.30 Data Pelanggan, Data Produk, Data Transaksi Penjualan Daftar pelanggan, daftar produk, daftar produk yang paling laris - kelompok pelanggan yang menguntungkan (frekuensi pembelian sering atau jumlah pembelian sangat banyak) - pola pembelian produk

Contoh dataset

Pengetahuan/aturan yg diperoleh

Prediksi pada data uji…… Benarkah prediksi tersebut ? * gold-standar : pakar, alat

Knowledge Discovery Process Data mining: the core of knowledge discovery process. Knowledge Interpretation Data Mining Task-relevant Data Data transformations Selection Preprocessed Data Data Cleaning Data Integration Databases

Data Mining vs. KDD Knowledge Discovery in Databases (KDD): process of finding useful information and patterns in data. Data Mining: Use of algorithms to extract the information and patterns derived by the KDD process. © Prentice Hall

Preprocessing Data melakukan pembersihan data(cleaning), pengintegrasian data (integration), transformasi data (transformation), dan reduksi data (reduction).

Data Preprocessing Mengapa data di proses awal? Pembersihan data Integrasi dan transformasi data Reduksi data Diskritisasi dan pembuatan konsep hierarki

Mengapa Data Diproses Awal? Data dalam dunia nyata kotor Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasi Misal, pekerjaan=“” Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain) Misal, Salary=“-10”

Mengapa Data Diproses Awal? Tak-konsisten: memuat perbedaan dalam kode atau nama Misal, Age=“42” Birthday=“03/07/1997” Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C” Misal, perbedaan antara duplikasi record Data yang lebih baik akan menghasilkan data mining yang lebih baik Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.

Mengapa Data Kotor? Ketaklengkapan data datang dari Nilai data tidak tersedia saat dikumpulkan Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa. Masalah manusia, hardware, dan software Noisy data datang dari proses data Pengumpulan Pemasukan (entry) Transmisi

Mengapa Data Kotor? Ketak-konsistenan data datang dari Sumber data yang berbeda Pelanggaran kebergantungan fungsional

Pemrosesan Awal Data Penting? Mengapa Pemrosesan Awal Data Penting? Kualitas data tidak ada, kualitas hasil mining tidak ada! Kualitas keputusan harus didasarkan kepada kualitas data Misal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau bahkan statistik yang menyesatkan. Data warehouse memerlukan kualitas integrasi data yang konsisten

Bentuk-Bentuk Dari Pemrosesan Awal Data Pembersihan Data Integrasi Data Transformasi Data Reduksi Data

Data Hilang Data tidak selalu tersedia Hilangnya data bisa karena Misal, banyak tuple atau record tidak memiliki nilai yang tercatat untuk beberapa atribut, seperti customer income dalam data sales Hilangnya data bisa karena Kegagalan pemakaian peralatan Ketak-konsistenan dengan data tercatat lainnya dan karenanya dihapus Data tidak dimasukkan karena salah pengertian Data tertentu bisa tidak dipandang penting pada saat entry Tidak mencatat history atau tidak mencatat perubahan data Kehilangan data perlu disimpulkan

Bagaimana Menangani Data Hilang? Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhir Biasanya dilakukan saat label kelas hilang Tidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi. Mengisi nilai-nilai yang hilang secara manual: Paling baik Membosankan Paling mahal biayanya Tak mungkin dilakukan dalam banyak hal!

Bagaimana Menangani Data Hilang? Mengisi nilai-nilai yang hilang secara otomatis menggunakan: Suatu konstanta global: misal, “unknown”, “Null”, atau suatu kelas baru?! Suatu pola yang memuat “unknown” atau “Null” adalah buruk Gunakan rata-rata atribut Pengempisan data ke mean/median Rata-rata atribut untuk seluruh sampel yang masuk kedalam kelas yang sama Lebih cerdas, dan suatu metoda yang baik Gunakan informasi yang paling banyak dari data yang ada untuk memprediksi

Noisy Data Noise: error acak atau variansi dalam suatu variabel terukur Nilai-nilai atribut tak benar mungkin karena Kegagalan instrumen pengumpulan data Problem pemasukan data Problem transmisi data Keterbatasan teknologi Ketak-konsistenan dalam konvensi penamaan Problem data lainnya yang memerlukan pembersihan data Duplikasi record Data tak lengkap Data tidak konsisten

Transformasi Data: Normalisasi Normalisasi min-max Normalisasi z-score (saat Min, Max tak diketahui) Normalisasi dengan penskalaan desimal dimana j adalah integer terkecil sehingga Max(| |)<1

Transformasi Data Penghalusan: menghilangkan noise dari data Agregasi: ringkasan, konstruksi kubus data Generalisasi: konsep hierarchy climbing Normalisasi: diskalakan agar jatuh didalam suatu range kecil yang tertentu Normalisasi min-max Normalisasi z-score Normalisasi dengan penskalaan desimal Konstruksi atribut/fitur Atribut-atribut baru dibangun dari atribut-atribut yang ada

Prapemrosesan Data/Preprocessing Data Tujuan : Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik Meningkatkan efisiensi dan kemudahan proses penambangan data

Prapemrosesan data bisa dilakukan dengan Pembersihan Integrasi Reduksi Penambahan Transformasi

Pembersihan Data dikatakan tidak bersih jika masih mengandung nilai kosong dan atau derau dan atau pencilan/outlayer dan atau inkonsitensi. Cara membersihkan data : - Mengisi nilai yang kosong Menghaluskan data berderau Membuang pencilan/outlayer Memperbaiki inkosistensi

Membersihkan nilai kosong Abaikan tuple tersebut Isi atribut kosong secara manual Gunakan konstanta global Gunakan nila tendensi sentral (rata-rata atau median) Gunakan nilai dari regresi atau inferensi (Bayesian atau Decision Tree)

Menghaluskan data berderau Binning (pewadahan) Regresi Clustering

Membuang pencilan Data-data pencilan dapat ditemukan menggunakan tendensi sentral, boxplot dll

Memperbaiki inkosistensi Inkosistensi karena : -kurang bagusnya form data -kesalahan operator -data kadaluarsa -kesalahan pengisi data Memperbaiki : -Manual -Tools (ETL)

Proses (lebih ) detil Database(s) Dataset Dataset DL dan DV Latih dan validasi Hasil model

Pembagian dataset Data latih – 70% Dataset Data uji —30%

Examples: What is (not) Data Mining? Look up phone number in phone directory Query a Web search engine for information about “Amazon” What is Data Mining? Certain names are more prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area) Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)

Aplikasi Data Mining Bidang Contoh Pemasaran Mengidentifikasi pembelian yang dilakukan konsumen Menemukan hubungan di antara karakteristik demografi pelanggan Memperkirakan tanggapan penawaran melalui surat Bank Mendeteksi pola penyalahgunaan kartu kredit Mengidentifikasi tingkat loyalitas pelanggan Asuransi Analisis klaim Memperkirakan pelanggan yang akan membeli produk baru

Database Processing vs. Data Mining Processing Query Well defined SQL Query Poorly defined No precise query language Output Precise Subset of database Output Fuzzy Not a subset of database © Prentice Hall

Query Examples Find all credit applicants with last name of Smith. Database Data Mining Find all credit applicants with last name of Smith. Identify customers who have purchased more than $10,000 in the last month. Find all customers who have purchased milk Find all credit applicants who are poor credit risks. (classification) Identify customers with similar buying habits. (Clustering) Find all items which are frequently purchased with milk. (association rules) © Prentice Hall

Teknologi Untuk Data Mining Statistik Jaringan saraf (neural network) Logika kabur (fuzzy logic) Algoritma genetika SVM dll

Data Mining Models and Tasks © Prentice Hall

Data MINING dan Teknologi Databases Increasing potential to support business decisions End User Business Analyst Data DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP

Basic Data Mining Tasks Classification maps data into predefined groups or classes Supervised learning Pattern recognition Prediction Regression is used to map a data item to a real valued prediction variable. Clustering groups similar data together into clusters. Unsupervised learning Segmentation Partitioning © Prentice Hall

Basic Data Mining Tasks (cont’d) Summarization maps data into subsets with associated simple descriptions. Characterization Generalization Link Analysis uncovers relationships among data. Affinity Analysis Association Rules Sequential Analysis determines sequential patterns. © Prentice Hall

Ex: Time Series Analysis Example: Stock Market Predict future values Determine similar patterns over time Classify behavior © Prentice Hall

Supervised vs. Unsupervised Learning Supervised learning (classification) Supervision: Data pelatihan mengandung label kelas. Data diklasifikasikan menggunakan model. Unsupervised learning (clustering) Data pelatihan tidak mengandung label kelas Mencari kelas atau cluster di dalam data

Pembelajaran terawasi (supervised learning) Pada pembelajaran ini kumpulan input yang digunakan, output-outputnya telah diketahui. Perbedaan antara output-output aktual dengan output-output yang diinginkan digunakan untuk menghitung akurasi Contoh : KNN, Naïve Bayes, Decision Tree

Pembelajaran tak terawasi (unsupervised learning) / pembelajaran tanpa guru Pada pembelajaran ini, data2 mengorganisasi dirinya sendiri untuk membentuk vektor-vektor input yang serupa, tanpa menggunakan data atau contoh-contoh pelatihan. Contoh : Kmeans

Klasifikasi Diadaptasi dari slide Jiawei Han http://www.cs.uiuc.edu/~hanj/bk2/ yudi@upi.edu / Okt 2012

Pengantar Classification Prediction Aplikasi Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan data uji, digunakan untuk mengklasifikasi data. Prediction Memprediksi nilai yang belum diketahui Aplikasi Persetujuan kredit Diagnosis penyakit Target marketing Fraud detection

Contoh Kasus Input: data mahasiswa Output: dua kelas (lulus_tepat_waktu dan lulus_terlambat) Bagaimana kalau diberikan data input mahasiswa, sistem secara otomatis menentukan mhs tersebut akan lulus tepat waktu atau terlambat?

Pembuatan Model Algoritma Klasifikasi Data Pelatihan Classifier IF IPK > 3 OR MATDAS =A THEN tepat_waktu = ‘yes’

Proses Testing Model Classifier (MODEL) Testing Data Sejauh mana model tepat meramalkan?

Proses Klasifikasi Lulus tepat waktu? Classifier (MODEL) Data Baru (Tatang, 3.0, A) Lulus tepat waktu?

Proses pembuatan model Proses testing model Proses klasifikasi Data latihan  Model Klasifikasi Proses testing model Data testing  Apakah model sudah benar? Proses klasifikasi Data yang tidak diketahui kelasnya  kelas data

Sebelum Klasifikasi (utk data “besar”) Data cleaning Preprocess data untuk mengurangi noise dan missing value Relevance analysis (feature selection) Memilih atribut yang penting Membuang atribut yang tidak terkait atau duplikasi. Data transformation Generalize and/or normalize data

K-Nearest Neighbor Konsep dasar K-NN adalah mencari jarak terdekat antara data yg akan dievaluasi dengan K tetangga terdekatnya dalam data pelatihan Perhitungan jarak dilakukan dg konsep Euclidian  Jumlah kelas yg paling banyak dg jarak terdekat tsb akan menjadi kelas dimana data evaluasi tsb berada

K-Nearest Neighbor Tentukan parameter K= jml tetangga terdekat Algoritma : Tentukan parameter K= jml tetangga terdekat Hitung jarak antara data yg akan dievaluasi dg semua data pelatihan Urutkan jarak yg terbentuk (urut naik) dan tentukan jarak terdekat sampai urutan ke-K Pasangkan kelas (C) yang bersesuaian Cari jumlah kelas terbanyak dari tetangga terdekat tsb, dan tetapkan kelas tsb sbg kelas data yg dievaluasi

Contoh Perhitungan Numerik (manual) Tentukan banyaknya K = banyaknya jumlah tetangga terdekat. Misal K = 3 Hitung jarak antara data baru dan semua data yang ada di data training. Misalkan digunakan rumus euclidian distance. Data uji adalah (3,7) X1 X2 (daya tahan keasaman) (kekuatan) jarak 7 7  (7-3)2+(7-7)2=4 7 4  (7-3)2+(7-4)2=5 3 4  (3-3)2+(7-4)2=3 1 4  (3-1)2+(7-4)2=3,6

3. Urutkan jarak tersebut dari nilai terbesar dan tentukan tetangga terdekat sesuai dengan nilai K yang ditetapkan. X1 X2 (daya tahan keasaman) (kekuatan) jarak ranking apakah termasuk K = 3 7 7  (7-3)2+(7-7)2=4 2 YA 7 4  (7-3)2+(7-4)2=5 1 YA 3 4  (3-3)2+(7-4)2=3 4 TIDAK 1 4  (3-1)2+(7-4)2=3,6 3 YA

4. Tentukan kategori dari tetangga terdekat, sesuai dengan target dan nilai K yang ditetapkan. X1 X2 (daya tahan keasaman) (kekuatan) jarak ranking kategori 7 7  (7-3)2+(7-7)2=4 2 JELEK 7 4  (7-3)2+(7-4)2=5 1 JELEK 3 4  (3-3)2+(7-4)2=3 4 BAGUS 1 4  (3-1)2+(7-4)2=3,6 3 BAGUS

5. Gunakan nilai mayoritas yang muncul pada kategori sesuai dengan nilai K yang ditetapkan. Pada data uji (3,7) dan K = 3, maka kategori yang muncul adalah Jelek, Jelek dan Bagus Dipunyai 2 kategori Jelek dan 1 kategori Bagus sehingga dapat diambil kesimpulan dengan data uji (3,7) termasuk kategori Jelek, karena kategori Jelek lebih banyak dibanding kategori Bagus.

Bayesian Classification P( H | X ) Kemungkinan H benar jika X. X adalah kumpulah atribut. P(H) Kemungkinan H di data, independen terhadap X P (“Single” | “muka sayu”, “baju berantakan”, “jalan sendiri”)  nilainya besar P (“Non Single” | “muka ceria”, “baju rapi”, “jalan selalu berdua”)  nilainya besar P (“Single”) = jumlah single / jumlah mahasiwa

Kegiatan klasifikasi: kegiatan mencari P (H | X) yang paling maksimal Teorema Bayes:

Klasifikasi X = (“muka cerah”, “jalan sendiri”, “baju rapi”) Kelasnya Single atau Non Single? Cari P(H|X) yang paling besar: ( “Single” | “muka cerah”, “jalan sendiri”, “baju rapi”) Atau ( “Non Single” | “muka cerah”, “jalan sendiri”, “baju rapi”)

Harus memaksimalkan (Ci: kelas ke i) Karena P(X) konstan untuk setiap Ci maka bisa ditulis, pencarian max untuk:

Naïve Bayes Classifier Penyederhanaan masalah: Tidak ada kaitan antar atribut “jalan sendiri” tidak terakait dengan “muka sayu” X1: atribut ke-1 (“jalan sendiri”) Xn: atribut ke-n

Naïve Bayes Jika bentuknya kategori , P(xk|Ci) = jumlah kelas Ci yang memiliki xk dibagi | Ci | (jumlah anggota kelas Ci di data contoh)

Naïve Bayesian Classification Namun jika atribut ke-i bersifat kontinu, maka P(xi|C) diestimasi dg fungsi Gauss dengan μ = mean , dan σ= deviasi standar

Naïve Bayesian Classification Contoh: Untuk menetapkan suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan/data. Ada 4 atribut yang digunakan, yaitu: harga tanah per meter persegi (C1), jarak daerah tersebut dari pusat kota (C2), ada atau tidaknya angkutan umum di daerah tersebut (C3), dan keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4).

Naïve Bayesian Classification Tabel Aturan Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 Murah Dekat Tidak Ya 2 Sedang 3 Mahal 4 Jauh 5 6 Ada 7 8 9 10

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Harga tanah Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Murah 2 1 2/5 1/5 Sedang Mahal 3 3/5 Jumlah 5

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2) Jarak dari pusat kota Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Dekat 3 3/5 Sedang 2 1 2/5 1/5 Jauh 4 4/5 Jumlah 5

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Ada angkutan umum (C3) Angkutan umum Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Ada 1 3 1/5 3/5 4 2 4/5 2/5 Jumlah 5

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C4) Dipilih sebagai perumahan Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Jumlah 5 1/2

Naïve Bayesian Classification Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung: Likelihood Ya = 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008 Likelihood Tidak = 3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036

Naïve Bayesian Classification Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = Probabilitas Tidak = Karena nilai probabilitas Tidak lebih besar daripada probabilitas Ya, dan mendekati nilai 1, maka untuk harga tanah MAHAL, lokasi SEDANG terhadap pusat kota dan ADA angkutan umum dapat disimpulkan TIDAK dipilih sebagai lokasi perumahan

Latihan No Kelas Kulit Buah Warna Ukuran Bau 1 Aman Kasar Coklat Besar keras 2 Hijau 3 Berbahaya Halus Merah Lunak 4 5 Kecil Keras 6 7 8 9 10 11 12 13 14 15 16

Naïve Bayesian Classification Modifikasi data Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 100 2 Tidak Ya 200 3 500 4 600 20 5 550 8 6 250 25 Ada 7 75 15 80 10 9 700 18 180

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Ya Tidak 1 100 600 2 200 550 3 500 250 4 80 75 5 180 700 Mean () Deviasi standar () 212 168,8787 435 261,9637

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2) Ya Tidak 1 2 20 8 3 25 4 10 15 5 18 Mean () Deviasi standar () 4,8 3,9623 17,2 6,3008

Naïve Bayesian Classification Berdasarkan hasil penghitungan tersebut, apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

Naïve Bayesian Classification Sehingga: Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10 = 0,000000756. Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10 = 0,000016458. Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = Probabilitas Tidak =

Klastering Klastering – proses pengelompokkan obyek yg didasarkan pada kesamaan antar obyek Tidak seperti proses klasifikasi yg bersifat supervised learning, pada clustering proses pengelompokkan dilakukan atas dasar unsupervised learning Pada klasifikasi, akan ditentukan lokasi dari suatu kejadian pada kelas ttt dari bbrp klas yg telah teridentifikasi sebelumnya Sedangkan pada proses klastering, proses pengelompokkan kejadian dlm kelas akan dilakukan sec alami tanpa mengidentifiaksi klas-klas sebelumnya.

K-Means pemodelan tanpa supervisi (unsupervised) melakukan pengelompokan data dengan sistem partisi. k-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya.

Algoritma 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random dengan hitung jarak 3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster. 4. Alokasikan masing-masing data ke centroid/rata-rata terdekat 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan, di atas nilai threshold yang ditentukan

No Jml publikasi Jml pengabdian Jml seminar klasifikasi 1 6 4 Rajin 2 7 5 3 Malas 9 ???

Algoritma K-Means

Contoh KMeans

No Tes Bhs Inggris Tes Akademik 1 8 9 2 7 3 ( C1) 4 5 6 6 ( C2) 10