DATA MINING 1
Data Mining adalah usaha penemuan pengetahuan di intelejensia buatan (bidang machine learning) atau analisis statistik dengan mencari atau menemukan aturan-aturan, pola-pola dan struktur dari himpunan data yang besar.
Fungsi Data Mining 1. Fungsi Minor atau fungsi tambahan * Deskription (deskripsi) * Estimation (estimasi) * Prediction (prediksi) 2. Fungsi Mayor atau fungsi utama * Classification (klasifikasi) * Clustering (pengelompokan) * Association (asosiasi)
Desciption Deskripsi Grafis * Diagram Titik * Histogram Deskripsi Lokasi * Rata-rata * Median * Modus * Kuartil, Desil dan Persentil Deskripsi Keberagaman Range (rentang Varians dan Standar Deviasi
Estimation Rata-rata sampel sebagai estimasi rata-rata populasi Varians sampel sebagai estimasi varians populasi Standar Deviasi sampel sebagai standar deviasi populasi
Prediction Regresi Linier Sederhana Regresi Linier Berganda
Classification Dalam klasifikasi, terdapat target variabel kategori, misal penggolongan pendapatan dapat dipisahkan dalam beberapa kategori. Beberapa algoritma klasifikasi diantaranya adalah Mean Vector, K-Nearest Neighbour, C.45, dan Bayessian.
Data Historis Data historis disebut juga data latihan atau data pengalaman, karena dari data tersebut akan didapat latihan untuk mendapatkan pengetahuan. Data historis juga disebut data lampau yang merupakan data pengalaman bagi user. Algoritma klasifikasi akan menggunakan data latihan untuk pengetahuan yang hendak dihasilkan dalam klasifikasi data mining. Data terdiri atas dua jenis, yaitu predictor variable/pemrediksi dan target variable/tujuan.
Algoritma Klasfikasi, CART (Classification and Regression Tres) Langkah-langkah Algoritma CART: Susunlah calon cabang (candidate split) yang dilakukan terhadap seluruh variabel prediktor. Daftar yang berisi calon cabang disebut calon cabang mutakhir. Berikan penilaian keseluruhan calon cabang mutakhir dengan menghitung besaran (s|t) Tentukan cabang yang memiliki kesesuaian (s|t). Setelah noktah kepuusan tidak ada lagi, algoritma CART dihentikan.
Kesesuaian(goodness) (s|t) dari calon cabang s pada noktah keputusan t tL = cabang kiri dari noktah keputusan t tR = calon cabang kanan dari noktah keputusan t
Clustering Pengklusteran merupakan pengelompokan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Beberapa algoritma pengelompokkan diantaranya adalah EM dan Fuzzy C-Means
Algoritma Pengelompokan K-Means Langkah-langkah algoritma K-Means: Tentukan berapa kelompok yang akan dibuat sebanyak k kelompok. Secara sembarang pilih k buah catatan yang ada sebagai pusat-pusat keompok awal. Setiap catatan akan ditentukan pusat kelompok terdekatnya. Perbarui pusat-pusat kelompok. Pusat kelompok yang terdekat pada setiap catatan akan ditentukan, dan seterusnya sampai nilai rasio tidak membesar lagi.
Rumus Jarak dua titik: Between Cluster Variation (BCV): BCV=d(m1,m2)+d(m1,3)+d(m2,m3) Dalam hal ini, d(mi,j) menyatakan jarak mi ke mj Within Cluster Variation (WCV): WCV=(jarak pusat tiap cluster yang paling minimum)2
Assosiation Tugas asosiasi data mining adalah menemukan atribut yang muncul dalam satu waktu.
Algoritma Asosiasi MBA (Market Basket Analysis) Langkah-langkah algoritma MBA: Tetapkan besaran dari konsep itemset sering, nilai minimum besaran support dan besaran confidence yang diinginkan. Menetapkan semua itemset sering, yaitu itemset yang memiliki frekuensi itemset minimal sebesar bilangan sebelumnya. Dari semua itemset sering, hasilkan aturan asosiasi yang memenuhi nilai minimum support dan confidence
Support (AB) = P(AB) Confidence(AB) = P(B|A)