HEALTHCARE DATAMINING Junta zeniarja, m.kom, m.cs
Outline Pengenalan Data Mining Data Mining Peran Utama Data Mining Mengenal Rapidminer 6 Studio Algoritma Data Mining
Mengenal Rapidminer Studio 6.0.8 romi@romisatriawahono.net Object-Oriented Programming Mengenal Rapidminer Studio 6.0.8 http://romisatriawahono.net
Rapidminer Sebuah lingkungan untuk machine learning, data mining, text mining dan predictive analytics. Machine learning Salah satu disiplin ilmu dari Computer Science yang mempelajari bagaimana membuat komputer/mesin mempunyai suatu kecerdasan. Data mining Proses mengekstrak pola-pola dari data set yang besar dengan mengombinasikan metoda statistika, kecerdasan buatan dan database.
Rapidminer Text mining Mirip dengan text analytics, yaitu proses untuk mendapatkan informasi bermutu tinggi dari teks. Predictive analytics Teknik-teknik statistika yang menganalisa fakta masa kini dan masa lalu untuk memprediksi kejadian di masa depan.
Rapidminer Open source berlisensi AGPL (GNU Affero General Public License) versi 3. Dimulai pada 2001 oleh Ralf Klinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund. Di-host oleh SourceForge sejak 2004. Peringkat satu sebagai tool data mining untuk proyek nyata pada poll oleh KDnuggets, sebuah koran data-mining, pada 2010-2011.
Rapidminer Menyediakan prosedur data mining dan machine learning termasuk: ETL (extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi. Proses data mining tersusun atas operator-operator yang nestable, dideskripsikan dengan XML, dan dibuat dengan GUI. Ditulis dalam bahasa pemrograman Java. Mengintegrasikan proyek data mining Weka dan statistika R.
Instalasi Rapidminer : Rapidminer Studio Rapidminer Server Registrasi sebagai member / akun baru untuk mendownload : Yang belum registrasi => https://rapidminer.com/download-rapidminer/ Yang sudah registrasi => https://rapidminer.com/my-account/
Fitur Rapidminer Studio 6.0.8 Open and Extensible Advanced analytics for big data Runs on all major platforms and operating systems. Predictions with application templates
Terminologi Dasar Atribut dan atribut target Atribut: karakteristik atau fitur dari data yang menggambarkan sebuah proses atau situasi. ID, atribut biasa. Atribut target: atribut yang menjadi tujuan untuk diisi oleh proses data mining. Label, cluster, weight. Peran atribut (attribute role) Label, cluster, weight, ID, biasa
Terminologi Dasar Tipe nilai (value type) nominal: nilai secara kategori numeric: nilai numerik secara umum integer: bilangan bulat real: bilangan nyata text: teks bebas tanpa struktur binominal: nominal dua nilai polynominal: nominal lebih dari dua nilai date_time: tanggal dan waktu date: hanya tanggal time: hanya waktu
Terminologi Dasar Data dan metadata Data menyebutkan obyek-obyek dari sebuah konsep. Ditunjukkan sebagai baris dari tabel. Metadata menggambarkan karakteristik dari konsep tersebut. Ditunjukkan sebagai kolom dari tabel. Modelling Penggunaan metoda data mining terhadap data. Hasilnya disebut model.
Desain Proses Analisa Fleksibilitas dan fungsionalitas Sangat fleksibel untuk mendefinisikan proses analisa secara visual dengan GUI. Meliputi lebih dari 500 fungsionalitas data mining dalam bentuk operator- operator. Skalabilitas Mulai versi 4.6 ~ .. fokus utama pada skalabilitas untuk data ukuran besar. Konsep view untuk data mirip seperti database. Transformasi data on-the-fly tanpa copy. 100 juta data set bukanlah data yang besar.
Desain Proses Analisa Format data Terhubung sangat baik dengan berbagai sumber data: Oracle, IBM DB2, Microsoft SQL Server, MySQL, PostgreSQL, Ingres, Excel, Access, SPSS, CSV files dan berbagai format lain. Bersama-sama dengan operator-operator untuk data preprocessing, bisa digunakan juga sebagai tool ETL (extraction, transformation, loading) dengan hasil yang menakjubkan.
Perspektif dan View Sebuah perspektif berisi pilihan elemen-elemen GUI, yang disebut view, yang dapat dikonfigurasi secara bebas. Elemen-elemen ini dapat diatur bagaimanapun juga sesuka kita. Tiga perspektif: Perspektif selamat datang (welcome perspective). Perspektif desain (design perspective). Perspektif hasil (result perspective).
Perspektif dan View
romi@romisatriawahono.net Object-Oriented Programming Referensi Ian H. Witten, Frank Eibe, Mark A. Hall, Data mining: Practical Machine Learning Tools and Techniques 3rd Edition, Elsevier, 2011 Santosa Budi, Teknik Pemanfaatan Data Untuk Keperluan Bisnis, Graha Ilmu, 2007 Slide Materi Romi Satrio Wahono (www.ilmukomputer.com) http://romisatriawahono.net