Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

Seminar Ganang Mahendra B G64104040 19 Mei 2009.

Presentasi serupa


Presentasi berjudul: "Seminar Ganang Mahendra B G64104040 19 Mei 2009."— Transcript presentasi:

1 Seminar Ganang Mahendra B G 19 Mei 2009

2 Departemen Ilmu Komputer Institut Pertanian Bogor 2009
Penggunaan Praproses PCA pada Algoritme VFI5 Ganang Mahendra Bawono G dibawah bimbingan: Aziz Kustiyo, S.Si M.Kom Dr. Ir . Sri Nurdiati M.Sc Departemen Ilmu Komputer Institut Pertanian Bogor 2009

3 Materi Presentasi Materi Presentasi Hasil dan Pembahasan
Kesimpulan dan Saran Metode Penelitian Tinjauan Pustaka Pendahuluan Demo Daftar Pustaka

4 PENDAHULUAN

5 Latar Belakang Penggunaan data pada proses klasifikasi sering kali diperlukan praproses untuk menyeleksi fitur-fitur sehingga menjadi efisien pada proses pelatihan dan pengujian. Pada penelitian Sudarmanto (2006) : praproses yang digunakan hanya menyeleksi manual fitur yang tidak lengkap dalam proses identifikasi data, belum menerapkan teknik seleksi fitur tertentu,.. PCA merupakan salah satu teknik multivariate untuk mentransformasi peubah yang berkorelasi menjadi tidak berkorelasi (Jackson,1991)

6 lanjutan Teknik klasifikasi yang digunakan adalah VFI5, didasarkan pada VFI5 memiliki tingkat akurasi yang cukup tinggi pada data atribut yang tidak berkorelasi (Güvenir,1998) Pemilihan teknik klasifikasi tersebut juga, terkait dengan penelitian sebelumnya bahwa pada data DBD dengan model ANFIS akurasi diperoleh 86,67% sedangkan diterapkan pada teknik VFI5 diperoleh akurasi 100% (Apniasari,2007). Pada penelitian Sulistyo (2007) berjudul Pengaruh Incomplete Data terhadap Akurasi VFI5 diperoleh hasil 96,38%

7 lanjutan Berkaitan dengan latar belakang tersebut menimbulkan dugaan bahwa Kinerja Algoritme VFI5 dengan Praproses PCA akan memperoleh akurasi yang baik dengan fitur yang lebih efisien Algoritme VFI5 Pra-proses PCA

8 Team Organization Tujuan Tujuan Penelitian
Menerapkan algoritme klasifikasi VFI 5 dan PCA sebagai praproses untuk mereduksi fitur data

9 Team Organization Ruang Lingkup 1
Data yang dirujuk bersumber dari 2 3 Macam dataset yang digunakan yaitu Iris, Wine, New Thyroid 3 Algoritme Klasifikasi : VFI5 Teknik Praproses : PCA 4 Masukan pada proses klasifikasi digunakan 3 kali perulangan pada setiap data.

10 TINJAUAN PUSTAKA

11 Principal Component Analysis PCA
PCA digunakan untuk memproyeksikan fitur/ atribut sehingga menjadi bentuk representasi data yang efisien. PCA mampu mengubah dependable data previously menjadi irrelevant data. Data masukan PCA sebuah matrik X yang dihitung dengan menggunakan matriks kovarian S dengan persamaan : Vektor eigen (v) dan nilai eigen (b) juga dapat dicari menggunakan persamaan berikut : Selanjutnya ditentukan proporsi untuk menentukan besarnya komponen utama yang digunakan untuk input training klasifikasi

12 NORMALISASI Salah satu cara penskalaan input adalah dengan normalisasi, sehingga masukan data akan selalu berada dalam rentang tertentu. Normalisasi dapat dilakukan dengan cara mengurangi nilai data dengan rataannya dan dibagi dengan standar deviasi, mengikuti persamaan berikut : Hasil dari normalisasi adalah suatu data dengan nilai rataan nol dan standar deviasi sama dengan satu

13 KORELASI Koefisien korelasi adalah bilangan yang digunakan dalam mengukur kekuatan hubungan antara peubah satu dengan peubah lainnya. Koefisien korelasi dihitung dengan menggunakan persamaan berikut : Korelasi komponen utama dan fitur dapat dihitung dengan menggunkan pasangan nilai eigen dan vektor eigen pada matriks kovarian dengan persamaan berikut : Jika matriks kovarian (matriks inputan mengalami proses normalisasi) sehingga Cov (Z) = P. Maka korelasi dapat dihitung dengan menggunakan persamaan berikut :

14 K-Fold Cross Validation
Validasi silang (cross-validation) merupakan metode untuk memperkirakan error generalisasi berdasarkan “resampling” (Weiss & Kulikowski 1991; Efron & Tibshirani 1993; Hjorth 1994; Plutowski et al. 1994; Shao & Tu 1995, diacu dalam Sarle 2004). Dalam k-fold cross validation, data dibagi secara acak menjadi k himpunan bagian yang ukurannya hampir sama satu sama lain. Himpunan bagian yang dihasilkan yaitu S1,S2,...,Sk digunakan sebagai pelatihan dan pengujian.

15 Algoritme Voting Feature Interval 5 (VFI-5)
:: KLASIFIKASI :: Untuk setiap feature f, dicari interval i dimana nilai ef jatuh, dengan ef merupakan nilai feature f dari instance tes e. - Memberi nilai vote untuk setiap feature pada masing-masing kelas kemudian dijumlahkan. - Kelas dengan jumlah vote terbesar diprediksi sebagai kelas dari instance tes e. :: PELATIHAN :: menemukan nilai end point setiap feature f pada setiap kelas data c - mengurutkan nilai-nilai end point tersebut sehingga membentuk interval untuk setiap feature f. - menghitung jumlah instance pelatihan setiap kelas c dengan feature f yang nilainya jatuh pada interval i - dilakukan normalisasi

16 METODE PENELITIAN

17 Diagram Alir

18 Data Data yang diambil yang bersumber dari pada penelitian ini, memiliki karakteristik yang serupa yaitu multivariate dan untuk penggunaan klasifikasi. Adapun data tersebut memiliki karakteristik yang serupa yaitu multivariate dan untuk penggunaan klasifikasi dengan spesifikasi data sebagai berikut :

19 Data Latih & Data Uji Pembagian data dibagi kedalam data latih & data uji, dengan menggunakan metode 3-fold cross validation, seluruh data dibagi menjadi beberapa subset. Praproses PCA berperan untuk ekstrasi ciri fitur untuk mereduksi dimensi fitur untuk menjadi input bagi proses klasifikasi, setelah data latih & data uji terbentuk. Adapun susunan data latih dan data uji disajikan sebagai berikut :

20 Algoritme VFI-5 Pada tahap analisis diperoleh perhitungan akurasi. Akurasi didapatkan dengan rumusan Jumlah data uji benar diklasifikasi dibagi total data uji Algoritme klasifikasi VFI5 dengan bobot setiap feature diasumsikan sama, yaitu satu Tahap pelatihan algoritme VFI5 digunakan hasil praproses PCA selanjutnya ditentukan nilai end point tiap fitur, kemudian dibentuk interval dan dihitung jumlah instances tiap kelas Tahap Klasifikasi, tiap nilai fitur dari instances baru diperiksa interval.Vote-vote tiap kelas dari tiap fitur yang bersesuaian diambil lalu dijumlahkan. Kelas dengan vote tertinggi menjadi kelas prediksi instances baru tsb

21 Lingkungan Pengembangan Sistem
Perangkat Keras Prossesor Intel Celeron 1,76 GHz Memori 512 MB Harddisk 60 GB Monitor 14” Perangkat Lunak Sistem Operasi Windows XP Professional Matlab ver 7.01 Microsoft Office Excel 2003 Editor Notepad ++ Minitab 14

22 HASIL & PEMBAHASAN

23 Akurasi dengan praproses PCA Akurasi tanpa praproses PCA
Data Percobaan Ulangan 3 Ulangan 2 Ulangan 1 Akurasi dengan praproses PCA Akurasi tanpa praproses PCA * Pada penelitian ini disebutkan bahwa PC(n) merupakan jumlah (n) komponen utama pertama dari nilai total.

24 Data Iris

25 Korelasi Data Iris Perhitungan korelasi & p-values didapatkan bahwa antara fitur 1 dan fitur 2 tidak saling berkorelasi hal ini dibuktikan dengan p-values sebesar 0,183. Sedangkan kedua fitur lainnya diperoleh nilai kurang dari 5% yang berarti fitur tersebut memiliki korelasi.

26 Tabel Rataan Nilai Kontribusi dan Akurasi Data Iris
Ulangan ke- Rata-Rata Presentase Nilai Akurasi dan Rata-Rata Nilai Kontribusi (dalam %) Tanpa PCA PC (1) PC (2) PC (3) 1 91,95 88,48 (92,58) 87,91 (97,79) 85,25 (99,49) 2 93,33 92,67 (92,53) 88 (97,80) 86,67 (99,51) 3 96 88,67 (92,52) 84,67

27 Korelasi PC(n) dengan fitur
Perhitungan ini didasarkan pada pasangan nilai eigen & vektor eigen. Diketahui bahwa sebaran rataan nilai kontribusi PC(1) sebesar 92%, hal tersebut dimungkinkan terjadi karena pada korelasi PC(1) dengan fitur dihasilkan 3 nilai korelasi yang tinggi dari 4 fitur yang ada, yaitu sebesar (0,898), (0,998), (0,966) pada fitur 1, 3 dan 4. Nilai korelasi besar pada fitur 2 diketemukan pada PC(2)sebesar (0,828).

28 Data Wine

29 Korelasi Data Wine Perhitungan korelasi & p-values didapatkan bahwa hubungan antar fitur berkorelasi cukup kuat. Hal ini dibuktikan dengan p-values yang dihasilkan kurang dari 5% dengan selang kepercayaan 95% yang berarti fitur tersebut memiliki korelasi.

30 Tabel Rataan Nilai Kontribusi dan Akurasi Data Wine
Ulangan ke- Rata-Rata Presentase Nilai Akurasi dan Rata-Rata Nilai Kontribusi (dalam %) Tanpa PCA PC (1) PC (2) PC (3) PC(4) PC(5) PC(6) 1 92,75 67,05 (97,70) 70,44 (99,03) 71,63 (99,57) 60,79 (99,71) 71,56 (99,85) 72,09 (99,93) 2 93,00 67,28 (97,72) 71,30 (99,04) 70,21 (99,56) 69,07 68,49 69,60 3 93,22 66,45 70,35 68,15 67,07 68,10 (99,84) 67,56 (99, 93)

31 Korelasi PC(n) dengan fitur
Perhitungan ini didasarkan pada pasangan nilai eigen & vektor eigen. Diketahui bahwa sebaran rataan nilai kontribusi PC(1) sebesar 97%, hal tersebut dimungkinkan terjadi karena pada korelasi PC(1) dengan fitur, dihasilkan 12 nilai dari 13 fitur yang ada, yang memiliki nilai korelasi yang tinggi lebih dari (0,82). Hanya satu fitur yang bernilai kecil pada fitur pertama. Berkebalikan dengan PC(1), pada PC(2) hanya terdapat satu nilai yang memiliki korelasi besar pada fitur pertama yaitu sebesar (0,927).

32 Data New Thyroid

33 Korelasi Data New Thyroid
Perhitungan korelasi & p-values didapatkan bahwa antara fitur 1 dan fitur 2 tidak saling berkorelasi hal ini dibuktikan dengan p-values sebesar 0,583, sedangkan pada kedua fitur lainnya diperoleh nilai kurang dari 5% yang berarti fitur tersebut memiliki korelasi.

34 Tabel Rataan Nilai Kontribusi dan Akurasi Data New Thyroid
Ulangan ke- Rata-Rata Presentase Nilai Akurasi dan Rata-Rata Nilai Kontribusi (dalam %) Tanpa PCA PC (1) PC (2) PC (3) 1 86,18 89,65 (75,28) 91,55 (94,39) 89,25 (99,55) 2 88,33 90,78 (75,05) 91,72 88,30 3 86,96 89,29 (74,98) 91,16 (94,41) 84,61

35 Korelasi PC(n) dengan fitur
Perhitungan ini didasarkan pada pasangan nilai eigen & vektor eigen. Diketahui bahwa sebaran rataan nilai kontribusi PC(1) sebesar 74%, hal tersebut dimungkinkan terjadi karena pada korelasi PC(1) dengan fitur dihasilkan 3 nilai korelasi yang tinggi dari 5 fitur yang ada, yaitu sebesar (-0,849), (0,937), (0,837) pada fitur 2, 3 dan 5. Nilai korelasi besar pada fitur 1 diketemukan pada PC(2) sebesar (0,806).

36 Deskripsi ketiga data Dari ketiga data yang digunakan dalam penelitian ini hanya data New Thyroid yang memiliki sebaran nilai kontribusi yang terlihat menyebar, tidak berkumpul pada satu komponen utama. Dalam penerapan klasifikasi algoritme VFI5 dengan praproses PCA pada penelitian ini, memiliki akurasi yang lebih besar jika dibandingkan dengan klasifikasi tanpa praproses PCA.

37 KESIMPULAN & SARAN

38 KESIMPULAN Data Iris dengan tiga kali perulangan didapatkan rataan akurasi tertinggi sebesar 92,67% (pada ulangan 2, PC1), sedangkan akurasi terendah 84,67% (pada ulangan 3, PC3). Data Wine terjadi sedikit penurunan akurasi. Rataan akurasi tertinggi sebesar 72,09% (ulangan 1, PC 6), sedangkan akurasi terendah sebesar 66,45% (ulangan 3, PC1) Data New Thyroid rataan akurasi tertinggi yang diperoleh sebesar 91,72% (ulangan 2, PC2), sedangkan rataan akurasi terendah sebesar 84,61% (ulangan 3, PC3)

39 Lanjutan Perubahan tingkat akurasi terjadi, dimungkinkan karena perbedaan sebaran nilai kontribusi. Pada data Wine yang mengalami penurunan akurasi diakibatkan nilai kontribusi mengumpul pekat pada komponen utama pertama sebesar 97% Secara umum perubahan tingkat akurasi pada penelitian ini, dipengaruhi oleh sebaran nilai kontribusi pada komponen utama, sehingga kontribusi yang cendderung menyebar memiliki akurasi yang lebih baik dari pada kontribusi yang pekat pada komponen utama pertama.

40 Lanjutan Data Wine Data Iris Data New Thyroid Praproses PCA Pada kasus data New Thyroid hasil perbandingan menunjukkan bahwa justru data New Thyroid yang (nilai kontribusi yang cenderung menyebar) memiliki rataan akurasi lebih tinggi dibandingkan dengan tanpa proses PCA Tanpa Praproses Secara umum hasil perbandingan menunjukkan bahwa data tanpa Praproses PCA, dengan fitur lengkap memiliki rataan akurasi yang lebih baik, yakni pada data Iris dan Wine.

41 SARAN Saran Penelitian
Penelitian lanjutan yang terkait dapat dilakukan dengan menggunakan data yang memiliki fitur yang lebih besar seperti pada data citra Penelitian ini juga dapat dikembangkan dengan menggunkan bobot fitur yang berbeda

42 DAFTAR PUSTAKA

43 DAFTAR PUSTAKA Apniasari, A.I Diagnosis Penyakit Demam Berdarah dengan Menggunakan Voting Feature Intervals 5 [Skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor. Demiröz G dan Güvenir HA Classification by Voting Feature Intervals. Güvenir HA A Classification Learning Algorithm Robust to Irrelevant Features. 98/BU-CEIS-9810.pdf. Güvenir HA, Demiröz G, Ilter N Learning Differential Diagnosis of Erythemato-Squamous Diseases using Voting Feature Intevals. Artificial Intelligence in Medicine, 13(3), Jackson, J. E A User Guide to Principal Component, John Wiley and Sons, Inc. Johnson, Richard A. dan Dean W Wichern Applied Multivariate Statistical Analysis 3rd edition. Prentice-Hall, Inc. New Jersey Machine Lerning Repository homepage. archive.ics.uci.edu Sarle W What are cross-validation and bootstrapping?. Sudarmanto, Tri. P Pengaruh Ukuran Contoh Terhadap Kinerja Algoritme Voting Feature Intervals 5 (VFI5) [Skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor. Sulistyo, A.P Pengaruh Incomplete Data Terhadap Akurasi Voting Feature Intervals 5 [Skripsi]. Bogor: Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor. Walpole, Ronald E Pengantar Statistika Edisi ke-3. PT Gramedia Pustaka : Jakarta

44 Terima Kasih

45 Lampiran PC1 PC2 PC3 PC2 -0.109 0.183 PC3 0.872 -0.421 0.000 0.000
PC

46 Lampiran PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PC12 PC2 -0.275
0.000 PC PC PC PC PC PC PC PC PC PC PC

47 Lampiran PC1 PC2 PC3 PC4 PC2 0.038 0.583 PC3 0.627 0.647 0.000 0.000
PC PC


Download ppt "Seminar Ganang Mahendra B G64104040 19 Mei 2009."

Presentasi serupa


Iklan oleh Google