Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018.

Slides:

Advertisements

Presentasi serupa

Advertisements

Kesimpulan BUKU Data Mining

Pengantar Ver dok: 0.4 / Sept 2011

Model Datamining Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [10]:

BASIS DATA LANJUTAN.

BAYESIAN CLASSIFICATION

Data Warehouse, Data Mart, OLAP, dan Data Mining

Pengenalan Data Warehouse

M ANAJEMEN D ATA “Pengaksesan Data”. P ENDAHULUAN Selama beberapa waktu, teknologi informasi berkonsentrasi pada pembangunan sistem bermisi kritis,- sistem.

Ukuran Variasi atau Dispersi

BAB VI UKURAN VARIASI ATAU DISPERSI (Pengukuran Dispersi) (Pertemuan ke-8) Oleh: Andri Wijaya, S.Pd., S.Psi., M.T.I. Program Studi Sistem Informasi Sekolah.

Ukuran Penyimpangan (Dispersi)

Metode Penelitian Ilmiah

Mata Kuliah :Web Mining Dosen

Pertemuan X DATA MINING

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . April 13, 2017.

Pengenalan Supervised dan Unsupervised Learning

NIPRL 1.4 Probabilitas Bersyarat Definisi Probabilitas Bersyarat(1/2) Probabilitas Bersyarat Probabilitas bersyarat kejadian A pada kejadian B adalah.

METODOLOGI PENELITIAN

A rsitektur dan M odel D ata M ining. Arsitektur Data Mining.

DATA MINING (Machine Learning)

DATA MINING 25 Januari 2008.

Penambangan data Pertemuan 2.

Ukuran Penyebaran Data

Assalamu’alaikum Wr. Wb.

Oleh : Indah Manfaati Nur, S.Si.,M.Si

Metode Penelitian Ilmiah

Daftar Topik Skripsi (1)

UKURAN VARIASI ATAU DISPERSI (Pengukuran Dispersi)

Konsep Data Mining Ana Kurniawati.

Pengantar DATA MINING • Mengapa data mining? Apa data mining?

Klasifikasi Berdasarkan Teorema Bayes

DISTRIBUSI PROBABILITAS

Model Heuristik Dr. Sri Kusumadewi, S.Si., MT. Materi Kuliah [8]:

PROBABILITAS dan DISTRIBUSI

Naïve Bayes Classification.

Aplikasi Business Intelligence & Data Mining

Klasifikasi dengan Naive Bayes

Ukuran Variasi atau Dispersi

BUSINESS INTELLIGENCE

Ukuran Variasi atau Dispersi

UKURAN PENYEBARAN Ukuran Penyebaran

KELOMPOK 6 Nama Kelompok: Lulus Irmawati ( )

Ukuran Variasi atau Dispersi

Naïve Bayes Classification.

Oleh : Rahmat Robi Waliyansyah, M.Kom.

.:: NAive bayes ::. DSS - Wiji Setiyaningsih, M.Kom.

Analisis Klastering K-Means Model Datamining Kelompok 1 Eko Suryana

UKURAN VARIASI (DISPERSI) Sumber : J.Supranto, hal.127

PENGUKURAN DISPERSI (UKURAN PENYEBARAN) Sri Mulyati.

UKURAN VARIASI ATAU DISPERSI (Pengukuran Varians)

UKURAN LETAK & KERAGAMAN

Machine Learning Naïve Bayes

Ukuran Penyebaran Data

Data Mining: Klasifikasi dan Prediksi Naive Bayesian & Bayesian Network . November 8, 2018.

GUNAWAN Materi Kuliah [8]: (Sistem Pendukung Keputusan)

Klasifikasi dengan Naive Bayes

Pengetahuan Data Mining

Konsep Data Mining Ana Kurniawati.

DECISION SUPPORT SYSTEM [MKB3493]

Klasifikasi dengan Naive Bayes

OLEH : SITTI HAWA, ST, MPW.  Ukuran pemusatan atau disebut rata – rata adalah menunjukan dimana suatu data memusat atau suatu kumpulan pengamatan memusat.

Universitas Gunadarma

Intro Algoritma K-Nearest Neighbor (K- NN) adalah sebuah metode klasifikasi terhadap sekumpulan data maupun dokumen berdasarkan pembelajaran data yang.

Transcript presentasi:

Pertemuan 1 & 2 Pengantar Data Mining 12/6/2018

Definisi Definisi data mining Data mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Data mining adalah analisa otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaannya 12/6/2018

Contoh Aplikasi Perusahaan transportasi memining data customer untuk mengelompokan customer yang memiliki nilai tinggi yang perlu diprioritaskan. 12/6/2018

Datamining di DB vs Independen Oracle 9i MS SQL Server Keuntungan: meminimalisir perpindahan data, onestopshooping Kerugian: terbagas oleh vendor, aplikasi lain tidak dapat mengakses, transformasi tetap menjadi masalah 12/6/2018

Pengetahuan Data Mining 12/6/2018

Data Mining dan Business Intelligence Semakin mendukung pengambilan keputusan End User Pengambilan Keputusan Presentasi Data Business Analyst Teknik Visualiasi Data Mining Data Analyst Penemuan Informasi Eksplorasi Data Statistical Summary, Querying, and Reporting Data Preprocessing/Integrasi, Data Warehouses DBA Sumber Data Database, Web, Paper, Files, Web, eksperimen 12/6/2018 Diambil dari www.cs.uiuc.edu/~hanj

Data Mining: Multi Disiplin Ilmu Teknologi DB Statistik Data Mining Visualisasi Machine Learning Pattern Recognition Ilmu Lain Algoritma 12/6/2018

Mengapa tidak analisis data biasa? Jumlah data yang sangat besar Algoritma harus scalable untuk menangani data yang sangat besar (tera) Dimensi yang sangat besar: ribuan field Data Kompleks Aliran data dan sensor Data terstruktur, graph, social network, multi-linked data Database dari berbagai sumber, database lama Spasial (peta), multimedia, text, web Software Simulator 12/6/2018

Kategori dalam Data mining Classification Clustering Statistical Learning Association Analysis Link Mining Sequential Patterns Integrated Mining Graph Mining 12/6/2018

Classification Klasifikasi adalah suatu proses pengelom-pokan data dengan didasarkan pada ciri-ciri tertentu ke dalam kelas-kelas yang telah ditentukan pula. Dua metode yang cukup dikenal dalam klasifikasi, antara lain: Naive Bayes K Nearest Neighbours (kNN) 12/6/2018

Naïve Bayesian Classification Teorema Bayes: P(C|X) = P(X|C)*P(C) / P(X) P(X) bernilai konstan utk semua kelas P(C) merupakan frek relatif sample kelas C Dicari P(C|X) bernilai maksimum, sama halnya dengan P(X|C)*P(C) juga bernilai maksimum 12/6/2018

Naïve Bayesian Classification Apabila diberikan k atribut yang saling bebas (independence), nilai probabilitas dapat diberikan sebagai berikut. P(x1,…,xk|C) = P(x1|C) x … x P(xk|C) Jika atribut ke-i bersifat diskret, maka P(xi|C) diestimasi sebagai frekwensi relatif dari sampel yang memiliki nilai xi sebagai atribut ke i dalam kelas C. 12/6/2018

Naïve Bayesian Classification Namun jika atribut ke-i bersifat kontinu, maka P(xi|C) diestimasi dengan fungsi densitas Gauss. dengan  = mean, dan  = deviasi standar. 12/6/2018

Metode Naïve Bayesian Classification Contoh: Untuk menetapkan suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan. Ada 4 atribut yang digunakan, yaitu: harga tanah per meter persegi (C1), jarak daerah tersebut dari pusat kota (C2), Keberadaan angkutan umum di daerah tersebut (C3), dan keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4). 12/6/2018

Naïve Bayesian Classification Tabel Aturan Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 Murah Dekat Tidak Ya 2 Sedang 3 Mahal 4 Jauh 5 6 Ada 7 8 9 10 12/6/2018

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Harga tanah Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Murah 2 1 2/5 1/5 Sedang Mahal 3 3/5 Jumlah 5 12/6/2018

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2) Harga tanah Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Dekat 3 3/5 Sedang 2 1 2/5 1/5 Jauh 4 4/5 Jumlah 5 12/6/2018

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Ada angkutan umum (C3) Harga tanah Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Ada 1 3 1/5 3/5 4 2 4/5 2/5 Jumlah 5 12/6/2018

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C4) Harga tanah Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Jumlah 5 1/2 12/6/2018

Naïve Bayesian Classification Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung: Likelihood Ya = 1/5 x 2/5 x 1/5 x 5/10 = 1/125 = 0,008 0.2*0.4*0.2*0.5=0.008 Likelihood Tidak = 3/5 x 1/5 x 3/5 x 5/10 = 45/1250 = 0,036 0.6*0.2*0.6*0.5=0.036 12/6/2018

Naïve Bayesian Classification Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = Probabilitas Tidak = 12/6/2018

Varians Dan Standar Deviasi Varians dan Standar deviasi adalah sebuah ukuran penyebaran yang menunjukkan standar penyimpangan atau deviasi data terhadap penyimpangan rata-ratanya. Varians adalah rata-rata hitung deviasi kuadrat setiap data terhadap rata-rata hitungnya. Standar Deviasi adalah akar kuadrat dari varians dan menunjukkan standar penyimpangan data terhadap nilai rata-ratanya. a) Varians Dan Standar Deviasi Untuk Data Tidak Berkelomok 12/6/2018

Rumus Varians untuk data tidak berkelompok adalah sebagai berikut: Rumus Standar Deviasi untuk data tidak berkelompok adalah sebagai berikut: 12/6/2018

Naïve Bayesian Classification Modifikasi data Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 100 2 Tidak Ya 200 3 500 4 600 20 5 550 8 6 250 25 Ada 7 75 15 80 10 9 700 18 180 12/6/2018

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Ya Tidak 1 100 600 2 200 550 3 500 250 4 80 75 5 180 700 Mean () Deviasi standar () 212 168,8787 435 261,9637 12/6/2018

Naïve Bayesian Classification Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2) Ya Tidak 1 2 20 8 3 25 4 10 15 5 18 Mean () Deviasi standar () 4,8 3,9623 17,2 6,3008 12/6/2018

Naïve Bayesian Classification Berdasarkan hasil penghitungan tersebut, apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka: 12/6/2018

Naïve Bayesian Classification Sehingga: Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10 = 0,000000756. Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10 = 0,000016458. Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = Probabilitas Tidak = 12/6/2018

Tugas Individu & dikumpulkan 12/6/2018

Dari tabel 1 tersebut, gunakan metode Naïve Bayes untuk menghitung probabilitas dengan kemungkinan tepat waktu atau terlambat dalam menentukan prediksi kelulusan mahasiswa 12/6/2018

Selesai 12/6/2018