Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Data Mining.

Presentasi serupa


Presentasi berjudul: "Data Mining."— Transcript presentasi:

1 Data Mining

2 Seputar Perkuliahan Dosen: Ariesta Damayanti
Komunikasi: via , wa Keterlambatan tugas diakomodasi 1 minggu setelah pertemuan Sistem Penilaian: 30 % tugas+presentasi, 35% UTS, 35% UAS Batas Nilai: A:80, B:65, C:49, D:30 Buku: Data Mining: Concepts and Techiques, Jiawei Han dan beberapa referensi lain

3 Data Mining : menemukan pola-pola tersembunyi maupun hubungan-hubungan dalam basis data yang besar menghasilkan pengetahuan / aturan- aturan yang digunakan untuk memperkirakan perilaku di masa medatang

4 Contoh Perbedaan Data, Informasi, Pengetahuan
Masuk Sekolah jam 07.00 Jarak dari rumah ke sekolah 30 menit Supaya tidak terlambat berangkat ke sekolah maksimal jam 06.30 Data Pelanggan, Data Produk, Data Transaksi Penjualan Daftar pelanggan, daftar produk, daftar produk yang paling laris - kelompok pelanggan yang menguntungkan (frekuensi pembelian sering atau jumlah pembelian sangat banyak) - pola pembelian produk

5 Contoh dataset

6 Pengetahuan/aturan yg diperoleh

7 Prediksi pada data uji……
Benarkah prediksi tersebut ? * gold-standar : pakar, alat

8 Knowledge Discovery Process
Data mining: the core of knowledge discovery process. Knowledge Interpretation Data Mining Task-relevant Data Data transformations Selection Preprocessed Data Data Cleaning Data Integration Databases

9 Data Mining vs. KDD Knowledge Discovery in Databases (KDD): process of finding useful information and patterns in data. Data Mining: Use of algorithms to extract the information and patterns derived by the KDD process. © Prentice Hall

10 Preprocessing Data melakukan pembersihan data(cleaning),
pengintegrasian data (integration), transformasi data (transformation), dan reduksi data (reduction).

11 Data Preprocessing Mengapa data di proses awal? Pembersihan data
Integrasi dan transformasi data Reduksi data Diskritisasi dan pembuatan konsep hierarki

12 Mengapa Data Diproses Awal?
Data dalam dunia nyata kotor Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasi Misal, pekerjaan=“” Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain) Misal, Salary=“-10”

13 Mengapa Data Diproses Awal?
Tak-konsisten: memuat perbedaan dalam kode atau nama Misal, Age=“42” Birthday=“03/07/1997” Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C” Misal, perbedaan antara duplikasi record Data yang lebih baik akan menghasilkan data mining yang lebih baik Data preprocessing membantu didalam memperbaiki presisi dan kinerja data mining dan mencegah kesalahan didalam data mining.

14 Mengapa Data Kotor? Ketaklengkapan data datang dari
Nilai data tidak tersedia saat dikumpulkan Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa. Masalah manusia, hardware, dan software Noisy data datang dari proses data Pengumpulan Pemasukan (entry) Transmisi

15 Mengapa Data Kotor? Ketak-konsistenan data datang dari
Sumber data yang berbeda Pelanggaran kebergantungan fungsional

16 Pemrosesan Awal Data Penting?
Mengapa Pemrosesan Awal Data Penting? Kualitas data tidak ada, kualitas hasil mining tidak ada! Kualitas keputusan harus didasarkan kepada kualitas data Misal, duplikasi data atau data hilang bisa menyebabkan ketidak-benaran atau bahkan statistik yang menyesatkan. Data warehouse memerlukan kualitas integrasi data yang konsisten

17 Bentuk-Bentuk Dari Pemrosesan Awal Data
Pembersihan Data Integrasi Data Transformasi Data Reduksi Data

18 Data Hilang Data tidak selalu tersedia Hilangnya data bisa karena
Misal, banyak tuple atau record tidak memiliki nilai yang tercatat untuk beberapa atribut, seperti customer income dalam data sales Hilangnya data bisa karena Kegagalan pemakaian peralatan Ketak-konsistenan dengan data tercatat lainnya dan karenanya dihapus Data tidak dimasukkan karena salah pengertian Data tertentu bisa tidak dipandang penting pada saat entry Tidak mencatat history atau tidak mencatat perubahan data Kehilangan data perlu disimpulkan

19 Bagaimana Menangani Data Hilang?
Mengabaikan tuple atau record: mudah tetapi tidak efektif, dan merupakan metoda terakhir Biasanya dilakukan saat label kelas hilang Tidak efektif bila persentasi dari nilai-nilai yang hilang per atribut sungguh-sungguh bervariasi. Mengisi nilai-nilai yang hilang secara manual: Paling baik Membosankan Paling mahal biayanya Tak mungkin dilakukan dalam banyak hal!

20 Bagaimana Menangani Data Hilang?
Mengisi nilai-nilai yang hilang secara otomatis menggunakan: Suatu konstanta global: misal, “unknown”, “Null”, atau suatu kelas baru?! Suatu pola yang memuat “unknown” atau “Null” adalah buruk Gunakan rata-rata atribut Pengempisan data ke mean/median Rata-rata atribut untuk seluruh sampel yang masuk kedalam kelas yang sama Lebih cerdas, dan suatu metoda yang baik Gunakan informasi yang paling banyak dari data yang ada untuk memprediksi

21 Noisy Data Noise: error acak atau variansi dalam suatu variabel terukur Nilai-nilai atribut tak benar mungkin karena Kegagalan instrumen pengumpulan data Problem pemasukan data Problem transmisi data Keterbatasan teknologi Ketak-konsistenan dalam konvensi penamaan Problem data lainnya yang memerlukan pembersihan data Duplikasi record Data tak lengkap Data tidak konsisten

22 Transformasi Data: Normalisasi
Normalisasi min-max Normalisasi z-score (saat Min, Max tak diketahui) Normalisasi dengan penskalaan desimal dimana j adalah integer terkecil sehingga Max(| |)<1

23 Transformasi Data Penghalusan: menghilangkan noise dari data
Agregasi: ringkasan, konstruksi kubus data Generalisasi: konsep hierarchy climbing Normalisasi: diskalakan agar jatuh didalam suatu range kecil yang tertentu Normalisasi min-max Normalisasi z-score Normalisasi dengan penskalaan desimal Konstruksi atribut/fitur Atribut-atribut baru dibangun dari atribut-atribut yang ada

24 Prapemrosesan Data/Preprocessing Data
Tujuan : Mempermudah memahami data sehingga mempermudah pemilihan teknik dan metode data mining Meningkatkan kualitas data sehingga hasil data mining menjadi lebih baik Meningkatkan efisiensi dan kemudahan proses penambangan data

25 Prapemrosesan data bisa dilakukan dengan
Pembersihan Integrasi Reduksi Penambahan Transformasi

26 Pembersihan Data dikatakan tidak bersih jika masih mengandung nilai kosong dan atau derau dan atau pencilan/outlayer dan atau inkonsitensi. Cara membersihkan data : - Mengisi nilai yang kosong Menghaluskan data berderau Membuang pencilan/outlayer Memperbaiki inkosistensi

27 Membersihkan nilai kosong
Abaikan tuple tersebut Isi atribut kosong secara manual Gunakan konstanta global Gunakan nila tendensi sentral (rata-rata atau median) Gunakan nilai dari regresi atau inferensi (Bayesian atau Decision Tree)

28 Menghaluskan data berderau
Binning (pewadahan) Regresi Clustering

29 Membuang pencilan Data-data pencilan dapat ditemukan menggunakan tendensi sentral, boxplot dll

30 Memperbaiki inkosistensi
Inkosistensi karena : -kurang bagusnya form data -kesalahan operator -data kadaluarsa -kesalahan pengisi data Memperbaiki : -Manual -Tools (ETL)

31 Proses (lebih ) detil Database(s) Dataset Dataset DL dan DV
Latih dan validasi Hasil model

32 Pembagian dataset Data latih – 70% Dataset Data uji —30%

33 Examples: What is (not) Data Mining?
Look up phone number in phone directory Query a Web search engine for information about “Amazon” What is Data Mining? Certain names are more prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area) Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,)

34 Aplikasi Data Mining Bidang Contoh Pemasaran
Mengidentifikasi pembelian yang dilakukan konsumen Menemukan hubungan di antara karakteristik demografi pelanggan Memperkirakan tanggapan penawaran melalui surat Bank Mendeteksi pola penyalahgunaan kartu kredit Mengidentifikasi tingkat loyalitas pelanggan Asuransi Analisis klaim Memperkirakan pelanggan yang akan membeli produk baru

35 Database Processing vs. Data Mining Processing
Query Well defined SQL Query Poorly defined No precise query language Output Precise Subset of database Output Fuzzy Not a subset of database © Prentice Hall

36 Query Examples Find all credit applicants with last name of Smith.
Database Data Mining Find all credit applicants with last name of Smith. Identify customers who have purchased more than $10,000 in the last month. Find all customers who have purchased milk Find all credit applicants who are poor credit risks. (classification) Identify customers with similar buying habits. (Clustering) Find all items which are frequently purchased with milk. (association rules) © Prentice Hall

37 Teknologi Untuk Data Mining
Statistik Jaringan saraf (neural network) Logika kabur (fuzzy logic) Algoritma genetika SVM dll

38 Data Mining Models and Tasks
© Prentice Hall

39 Data MINING dan Teknologi Databases
Increasing potential to support business decisions End User Business Analyst Data DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP

40 Basic Data Mining Tasks
Classification maps data into predefined groups or classes Supervised learning Pattern recognition Prediction Regression is used to map a data item to a real valued prediction variable. Clustering groups similar data together into clusters. Unsupervised learning Segmentation Partitioning © Prentice Hall

41 Basic Data Mining Tasks (cont’d)
Summarization maps data into subsets with associated simple descriptions. Characterization Generalization Link Analysis uncovers relationships among data. Affinity Analysis Association Rules Sequential Analysis determines sequential patterns. © Prentice Hall

42 Ex: Time Series Analysis
Example: Stock Market Predict future values Determine similar patterns over time Classify behavior © Prentice Hall

43 Supervised vs. Unsupervised Learning
Supervised learning (classification) Supervision: Data pelatihan mengandung label kelas. Data diklasifikasikan menggunakan model. Unsupervised learning (clustering) Data pelatihan tidak mengandung label kelas Mencari kelas atau cluster di dalam data

44 Pembelajaran terawasi (supervised learning)
Pada pembelajaran ini kumpulan input yang digunakan, output-outputnya telah diketahui. Perbedaan antara output-output aktual dengan output-output yang diinginkan digunakan untuk menghitung akurasi Contoh : KNN, Naïve Bayes, Decision Tree

45 Pembelajaran tak terawasi (unsupervised learning) / pembelajaran tanpa guru
Pada pembelajaran ini, data2 mengorganisasi dirinya sendiri untuk membentuk vektor-vektor input yang serupa, tanpa menggunakan data atau contoh-contoh pelatihan. Contoh : Kmeans

46 Klasifikasi Diadaptasi dari slide Jiawei Han / Okt 2012

47 Pengantar Classification Prediction Aplikasi
Memprediksi kelas suatu item Membuat model berdasarkan data pelatihan dan data uji, digunakan untuk mengklasifikasi data. Prediction Memprediksi nilai yang belum diketahui Aplikasi Persetujuan kredit Diagnosis penyakit Target marketing Fraud detection

48 Contoh Kasus Input: data mahasiswa
Output: dua kelas (lulus_tepat_waktu dan lulus_terlambat) Bagaimana kalau diberikan data input mahasiswa, sistem secara otomatis menentukan mhs tersebut akan lulus tepat waktu atau terlambat?

49 Pembuatan Model Algoritma Klasifikasi Data Pelatihan Classifier
IF IPK > 3 OR MATDAS =A THEN tepat_waktu = ‘yes’

50 Proses Testing Model Classifier (MODEL) Testing Data Sejauh mana
model tepat meramalkan?

51 Proses Klasifikasi Lulus tepat waktu? Classifier (MODEL) Data Baru
(Tatang, 3.0, A) Lulus tepat waktu?

52 Proses pembuatan model Proses testing model Proses klasifikasi
Data latihan  Model Klasifikasi Proses testing model Data testing  Apakah model sudah benar? Proses klasifikasi Data yang tidak diketahui kelasnya  kelas data

53 Sebelum Klasifikasi (utk data “besar”)
Data cleaning Preprocess data untuk mengurangi noise dan missing value Relevance analysis (feature selection) Memilih atribut yang penting Membuang atribut yang tidak terkait atau duplikasi. Data transformation Generalize and/or normalize data

54

55

56

57

58

59

60 K-Nearest Neighbor Konsep dasar K-NN adalah mencari jarak terdekat antara data yg akan dievaluasi dengan K tetangga terdekatnya dalam data pelatihan Perhitungan jarak dilakukan dg konsep Euclidian  Jumlah kelas yg paling banyak dg jarak terdekat tsb akan menjadi kelas dimana data evaluasi tsb berada

61 K-Nearest Neighbor Tentukan parameter K= jml tetangga terdekat
Algoritma : Tentukan parameter K= jml tetangga terdekat Hitung jarak antara data yg akan dievaluasi dg semua data pelatihan Urutkan jarak yg terbentuk (urut naik) dan tentukan jarak terdekat sampai urutan ke-K Pasangkan kelas (C) yang bersesuaian Cari jumlah kelas terbanyak dari tetangga terdekat tsb, dan tetapkan kelas tsb sbg kelas data yg dievaluasi

62 Contoh Perhitungan Numerik (manual)
Tentukan banyaknya K = banyaknya jumlah tetangga terdekat. Misal K = 3 Hitung jarak antara data baru dan semua data yang ada di data training. Misalkan digunakan rumus euclidian distance. Data uji adalah (3,7) X1 X2 (daya tahan keasaman) (kekuatan) jarak  (7-3)2+(7-7)2=4  (7-3)2+(7-4)2=5  (3-3)2+(7-4)2=3  (3-1)2+(7-4)2=3,6

63 3. Urutkan jarak tersebut dari nilai terbesar dan tentukan tetangga terdekat sesuai dengan nilai K yang ditetapkan. X1 X2 (daya tahan keasaman) (kekuatan) jarak ranking apakah termasuk K = 3  (7-3)2+(7-7)2= YA  (7-3)2+(7-4)2= YA  (3-3)2+(7-4)2= TIDAK  (3-1)2+(7-4)2=3, YA

64 4. Tentukan kategori dari tetangga terdekat, sesuai dengan target dan nilai K yang ditetapkan.
X X2 (daya tahan keasaman) (kekuatan) jarak ranking kategori  (7-3)2+(7-7)2= JELEK  (7-3)2+(7-4)2= JELEK  (3-3)2+(7-4)2= BAGUS  (3-1)2+(7-4)2=3, BAGUS

65 5. Gunakan nilai mayoritas yang muncul pada kategori sesuai dengan nilai K yang ditetapkan. Pada data uji (3,7) dan K = 3, maka kategori yang muncul adalah Jelek, Jelek dan Bagus Dipunyai 2 kategori Jelek dan 1 kategori Bagus sehingga dapat diambil kesimpulan dengan data uji (3,7) termasuk kategori Jelek, karena kategori Jelek lebih banyak dibanding kategori Bagus.

66 Bayesian Classification
P( H | X ) Kemungkinan H benar jika X. X adalah kumpulah atribut. P(H) Kemungkinan H di data, independen terhadap X P (“Single” | “muka sayu”, “baju berantakan”, “jalan sendiri”)  nilainya besar P (“Non Single” | “muka ceria”, “baju rapi”, “jalan selalu berdua”)  nilainya besar P (“Single”) = jumlah single / jumlah mahasiwa

67 Kegiatan klasifikasi: kegiatan mencari
P (H | X) yang paling maksimal Teorema Bayes:

68 Klasifikasi X = (“muka cerah”, “jalan sendiri”, “baju rapi”) Kelasnya Single atau Non Single? Cari P(H|X) yang paling besar: ( “Single” | “muka cerah”, “jalan sendiri”, “baju rapi”) Atau ( “Non Single” | “muka cerah”, “jalan sendiri”, “baju rapi”)

69 Harus memaksimalkan (Ci: kelas ke i)
Karena P(X) konstan untuk setiap Ci maka bisa ditulis, pencarian max untuk:

70 Naïve Bayes Classifier
Penyederhanaan masalah: Tidak ada kaitan antar atribut “jalan sendiri” tidak terakait dengan “muka sayu” X1: atribut ke-1 (“jalan sendiri”) Xn: atribut ke-n

71 Naïve Bayes Jika bentuknya kategori ,
P(xk|Ci) = jumlah kelas Ci yang memiliki xk dibagi | Ci | (jumlah anggota kelas Ci di data contoh)

72 Naïve Bayesian Classification
Namun jika atribut ke-i bersifat kontinu, maka P(xi|C) diestimasi dg fungsi Gauss dengan μ = mean , dan σ= deviasi standar

73 Naïve Bayesian Classification
Contoh: Untuk menetapkan suatu daerah akan dipilih sebagai lokasi untuk mendirikan perumahan, telah dihimpun 10 aturan/data. Ada 4 atribut yang digunakan, yaitu: harga tanah per meter persegi (C1), jarak daerah tersebut dari pusat kota (C2), ada atau tidaknya angkutan umum di daerah tersebut (C3), dan keputusan untuk memilih daerah tersebut sebagai lokasi perumahan (C4).

74 Naïve Bayesian Classification
Tabel Aturan Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 Murah Dekat Tidak Ya 2 Sedang 3 Mahal 4 Jauh 5 6 Ada 7 8 9 10

75 Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Harga tanah Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Murah 2 1 2/5 1/5 Sedang Mahal 3 3/5 Jumlah 5

76 Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2) Jarak dari pusat kota Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Dekat 3 3/5 Sedang 2 1 2/5 1/5 Jauh 4 4/5 Jumlah 5

77 Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut Ada angkutan umum (C3) Angkutan umum Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Ada 1 3 1/5 3/5 4 2 4/5 2/5 Jumlah 5

78 Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut Dipilih untuk perumahan (C4) Dipilih sebagai perumahan Jumlah kejadian “Dipilih” Probabilitas Ya Tidak Jumlah 5 1/2

79 Naïve Bayesian Classification
Berdasarkan data tersebut, apabila diketahui suatu daerah dengan harga tanah MAHAL, jarak dari pusat kota SEDANG, dan ADA angkutan umum, maka dapat dihitung: Likelihood Ya = 1/5 x 2/5 x 1/5 x 5/10 = 2/125 = 0,008 Likelihood Tidak = 3/5 x 1/5 x 3/5 x 5/10 = 2/125 = 0,036

80 Naïve Bayesian Classification
Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = Probabilitas Tidak = Karena nilai probabilitas Tidak lebih besar daripada probabilitas Ya, dan mendekati nilai 1, maka untuk harga tanah MAHAL, lokasi SEDANG terhadap pusat kota dan ADA angkutan umum dapat disimpulkan TIDAK dipilih sebagai lokasi perumahan

81 Latihan No Kelas Kulit Buah Warna Ukuran Bau 1 Aman Kasar Coklat Besar
keras 2 Hijau 3 Berbahaya Halus Merah Lunak 4 5 Kecil Keras 6 7 8 9 10 11 12 13 14 15 16

82 Naïve Bayesian Classification
Modifikasi data Aturan ke- Harga tanah (C1) Jarak dari pusat kota (C2) Ada angkutan umum (C3) Dipilih untuk perumahan (C4) 1 100 2 Tidak Ya 200 3 500 4 600 20 5 550 8 6 250 25 Ada 7 75 15 80 10 9 700 18 180

83 Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut Harga Tanah (C1) Ya Tidak 1 100 600 2 200 550 3 500 250 4 80 75 5 180 700 Mean () Deviasi standar () 212 168,8787 435 261,9637

84 Naïve Bayesian Classification
Probabilitas kemunculan setiap nilai untuk atribut Jarak dari pusat kota (C2) Ya Tidak 1 2 20 8 3 25 4 10 15 5 18 Mean () Deviasi standar () 4,8 3,9623 17,2 6,3008

85 Naïve Bayesian Classification
Berdasarkan hasil penghitungan tersebut, apabila diberikan C1 = 300, C2 = 17, C3 = Tidak, maka:

86 Naïve Bayesian Classification
Sehingga: Likelihood Ya = (0,0021) x (0,0009) x 4/5 x 5/10 = 0, Likelihood Tidak = (0,0013) x (0,0633) x 2/5 x 5/10 = 0, Nilai probabilitas dapat dihitung dengan melakukan normalisasi terhadap likelihood tersebut sehingga jumlah nilai yang diperoleh = 1. Probabilitas Ya = Probabilitas Tidak =

87 Klastering Klastering – proses pengelompokkan obyek yg didasarkan pada kesamaan antar obyek Tidak seperti proses klasifikasi yg bersifat supervised learning, pada clustering proses pengelompokkan dilakukan atas dasar unsupervised learning Pada klasifikasi, akan ditentukan lokasi dari suatu kejadian pada kelas ttt dari bbrp klas yg telah teridentifikasi sebelumnya Sedangkan pada proses klastering, proses pengelompokkan kejadian dlm kelas akan dilakukan sec alami tanpa mengidentifiaksi klas-klas sebelumnya.

88 K-Means pemodelan tanpa supervisi (unsupervised)
melakukan pengelompokan data dengan sistem partisi. k-means berusaha mengelompokkan data yang ada ke dalam beberapa kelompok, dimana data dalam satu kelompok mempunyai karakteristik yang sama satu sama lainnya dan mempunyai karakteristik yang berbeda dengan data yang ada di dalam kelompok yang lain. Dengan kata lain, metode ini berusaha untuk meminimalkan variasi antar data yang ada di dalam suatu cluster dan memaksimalkan variasi dengan data yang ada di cluster lainnya.

89 Algoritma 1. Tentukan jumlah cluster 2. Alokasikan data ke dalam cluster secara random dengan hitung jarak 3. Hitung centroid/rata-rata dari data yang ada di masing-masing cluster. 4. Alokasikan masing-masing data ke centroid/rata-rata terdekat 5. Kembali ke Step 3, apabila masih ada data yang berpindah cluster atau apabila perubahan nilai centroid, ada yang di atas nilai threshold yang ditentukan atau apabila perubahan nilai pada objective function yang digunakan, di atas nilai threshold yang ditentukan

90

91 No Jml publikasi Jml pengabdian Jml seminar klasifikasi 1 6 4 Rajin 2 7 5 3 Malas 9 ???

92 Algoritma K-Means

93 Contoh KMeans

94

95

96

97

98

99

100

101

102

103

104

105 No Tes Bhs Inggris Tes Akademik 1 8 9 2 7 3 ( C1) 4 5 6 6 ( C2) 10


Download ppt "Data Mining."

Presentasi serupa


Iklan oleh Google