PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT MENGGUNAKAN FUZZY C-MEANS (FCM) UNTUK IDENTIFIKASI PEMBICARA Oleh : Vicky Zilvan G64103043 Pembimbing : Ir. Agus Buono, M.Si., M.Kom. Dr. Ir. Sri Nurdiati, M.Sc.
Materi Presentasi Pendahuluan Tinjauan Pustaka Metode Penelitian Hasil dan Pembahasan Kesimpulan dan Saran Daftar Pustaka Demo
PENDAHULUAN
Latar Belakang Pengenalan pola masih menjadi kajian yang menarik bagi para peneliti. Tidak hanya untuk keperluan penelitian maupun peningkatan produktifitas kerja saja, tetapi lebih mengarah pada kebutuhan di era high technology Speech processing memiliki beberapa cabang kajian, salah satunya adalah identifikasi pembicara.
Latar Belakang (lanjutan) Beberapa motode untuk melakukan identifikasi, antara lain: Dynamic Time Warping (DTW), Model Markov Tersembunyi, Vector Quantization (VQ), Bayesian classifiers, algoritma K-Means clustering jaringan syaraf tiruan, logika Fuzzy, gabungan dari beberapa metode.
Latar Belakang (lanjutan) Metode yang akan pakai untuk melakukan identifikasi pembicara : Fuzzy C-Means (FCM) Probabilistic Neural Network (PNN)
Tujuan Mengembangkan model Probabilistic Neural Network bertingkat menggunakan Fuzzy C-Means (FCM) untuk identifikasi pembicara. Membandingan tingkat akurasi model antara suara yang diberi tambahan noise dan yang tidak diberi tambahan noise. Membandingan tingkat akurasi model yang menggunakan threshold dan tingkat akurasi model yang tidak menggunakan threshold.
Manfaat Memberikan informasi mengenai tingkat akurasi Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM) untuk Identifikasi Pembicara. Model yang dihasilkan diharapkan dapat digunakan untuk mengembangkan sistem identifikasi yang bersifat tertutup dan bergantung pada teks.
Ruang Lingkup Pembahasan difokuskan pada tahap pemodelan pembicara dengan Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM), tidak pada pemrosesan sinyal analog sebagai praproses sistem. Pada penelitian ini, parameter FCM yang akan dicobakan adalah : Banyaknya cluster = 3, Error terkecil yang diharapkan = 1×10ˉ, Pengkat pembobot = 2, Maksimum iterasi = 100.
Ruang Lingkup (lanjutan) Ekstraksi ciri sinyal suara menggunakan Mel-Frequency Cepstrum Coefficients (MFCC). Identifikasi bersifat tertutup dan bergantung pada teks.
TINJAUAN PUSTAKA
Jenis Pengenalan Pembicara Berdasarkan jenis aplikasinya (Campbell 1997) : Identifikasi pembicara Proses mengenali seseorang berdasarkan suaranya. Verifikasi pembicara Proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.
Jenis Pengenalan Pembicara (lanjutan) Identifikasi pembicara dibagi dua, yaitu : Identifikasi tertutup suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui. Identifikasi terbuka suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar.
Jenis Pengenalan Pembicara (lanjutan) Berdasarkan aspek kebahasaan (Ganchev 2005) : Pengenalan pembicara bergantung teks pembicara harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Pengenalan pembicara bebas teks pembicara tidak harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian.
Dijitalisasi Gelombang Suara Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitasi suara. Proses dijitasi suara terdiri dari dua tahap Sampling, yaitu proses pengambilan nilai setiap jangka waktu tertentu. S = Fs * T Kuantisasi, yaitu menyimpan nilai amplitudo ini ke dalam representasi nilai 8 bit atau 16 bit.
Signal to Noise Ratio (SNR) Konsep yang mendefinisikan perbandingan antara kekuatan sinyal dengan kekuatan noise yang merusak sinyal. Secara umum, SNR didefinisikan sebagai: Pada desibel, SNR didefinisikan sebagai :
Mel Frequency Cepstrum Coefficients (MFCC) Digunakan sebagai praproses sekaligus untuk menganalisis fitur suara. Didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia dengan frekuensi. Tujuan utama MFCC adalah untuk meniru perilaku telinga manusia.
Mel Frequency Cepstrum Coefficients (MFCC) Diagram blok proses Mel Frequency Cepstrum Coefficients
Fuzzy C-Means (FCM) Menurut Jang et al. (1997), Fuzzy C-Means merupakan algoritma clustering data di mana setiap titik data masuk dalam sebuah cluster dengan ditandai oleh derajat keanggotaan. Teknik ini pertamakali diperkenalkan oleh Jim Bezdek pada tahun 1981.
Fuzzy C-Means (FCM) (Lanjutan) . Berikut tahapan clustering menggunakan algoritma FCM: Inisialisasi keanggotaan matriks U yang berisi derajat keanggotan terhadap cluster dengan nilai antara 0 dan 1, sehingga Penghitungan c sebagai pusat cluster, ci , i = 1, …, c dengan menggunakan
Fuzzy C-Means (FCM) (Lanjutan) . Penghitungan fungsi objektif (Ji): di mana: uij adalah elemen matriks U yang bernilai antara 0 dan 1, dij = ||ci - xj|| adalah jarak antara pusat cluster ke-i dan titik data ke-j, ci adalah pusat cluster ke-i, m [1,~ ] adalah parameter fuzzifikasi. Kemudian kondisi berhenti dicek : Jika (|Jt –Jt-1| < nilai toleransi terkecil yang diharapkan) atau (t > maksimal iterasi) maka proses berhenti. Jika tidak : t = t + 1, mengulangi langkah 3.
Fuzzy C-Means (FCM) (Lanjutan) . Penghitungan matriks U baru menggunakan formula berikut:
Probabilistic Neural Network Diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic Neural Network” yang merupakan Penyempurnaan ide-ide sebelumnya yang telah dilakukannya sejak 1966. Probabilistic Neural Network dirancang menggunakan ide dari teori probabilitas klasik yaitu pengklasifikasi Bayesian dan estimator pengklasifikasi Parzen untuk Probability Density Function.
Probabilistic Neural Network (lanjutan) Input layer vektor masukan. Pattern layer , dengan Summation layer Decision layer max(px)
METODE PENELITIAN
Blok Diagram Identifikasi Pembicara
Data Suara Data yang digunakan adalah gelombang suara yang telah direkam dan didijitasi dari 10 pembicara, 5 laki-laki dan 5 perempuan dengan rentang usia 20-25 tahun. Masing-masing pembicara diambil suaranya dalam jangka waktu yang sama dan tanpa pengarahan (unguided). Untuk melihat keakuratan model yang dibagun terhadap identifikasi tertutup, digunakan 30 data suara dari 6 pembicara lainnya.
Data Suara (lanjutan) Kombinasi pembagian data pengujian dan data pelatihan setiap pembicara untuk jumlah data yang sama Data pelatihan Data pengujian Jenis data 20 30 Data asli 40 10 Data dengan SNR 30 dB Data dengan SNR 20 dB
Data Suara (lanjutan) Kombinasi proporsi data pelatihan dengan jumlah data pengujian yang sama untuk setiap pembicara Data pelatihan Data pengujian Jenis data 20 Data asli 30 40 Data dengan SNR 30 dB Data dengan SNR 20 dB
Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada implementasi MFCC, kecuali tahap frame blocking, digunakan fungsi dari Auditory Toolbox yang dikembangkan oleh Slanley pada tahun 1998. Fungsi ini menggunakan lima parameter, yaitu : Input : masukan suara yang berasal dari setiap pembicara Sampling rate : banyaknya nilai yang diambil dalam satu detik. Dalam penelitian ini digunakan sampling rate sebesar 16000 Hz
Ekstraksi Ciri Sinyal Suara Dengan MFCC (lanjutan) Time frame : waktu yang diinginkan untuk satu frame (dalam milidetik). Time frame yang digunakan adalah 30 ms. Lap : overlaping yang diinginkan (harus kurang dari satu). Lap yang digunakan sebesar 0.5. Cepstral coefficient yaitu jumlah cepstrum yang diinginkan sebagai output. Cepstral coefficient yang digunakan sebanyak 13.
Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM) Input layer merupakan matriks berukuran 13 × 66 yang berasal dari suara pembicara yang akan diidentifikasi yang telah mengalami proses ekstraksi ciri sinyal suara. Pada model yang akan dikembangkan ini, data untuk pelatihan dari masing-masing pembicara di-cluster-kan menggunakan Fuzzy C-Means (FCM), dimana parameter FCM yang akan dicobakan adalah: Banyaknya cluster = 3, Error terkecil yang diharapkan = 1×10ˉ, Pangkat pembobot = 2, Maksimum iterasi = 100.
Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM) (lanjutan) Kemudian, data setiap cluster yang terbentuk akan digunakan oleh PNN sebagai data setiap kelas. Setiap keluaran dari pattern layer akan dijumlahkan dengan keluaran dari pattern layer lainnya yang satu kelas. Dari summation diperoleh nilai terbesar untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.
Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM) (lanjutan)
Hasil Identifikasi Hasil identifikasi merupakan bagian akhir dari identifikasi pembicara yang berupa identifikasi pemilik suara berdasarkan input suara yang diujikan. Identifikasi yang dimaksud adalah apakah suara yang diujikan diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau 10.
Penggunaan Threshold Threshold merupakan suatu nilai yang berguna untuk membatasi apakah suatu data uji dapat diidentifikasi sebagai pembicara yang memiliki suatu kelas atau tidak, apabila data uji tersebut mempunyai nilai terbesar di kelas tersebut dibandingkan dengan kelas lainnya.
Lingkungan Pengembangan Perangkat keras Prosesor AMD Duron 850 MHz, memori DDR 256 MB, harddisk 40 GB, keyboard dan mouse, monitor, backphone with mic. Perangkat Lunak Sistem operasi Windows XP Profesional dan Matlab 6.5
HASIL DAN PEMBAHASAN
Data Suara Data diambil menggunakan fungsi wavrecord pada Matlab, dan disimpan menjadi file berekstensi WAV dengan fungsi wavwrite. Setiap pembicara mengucapkan kata “komputer” sebanyak 60 kali sehingga didapat 600 data suara. Setiap suara diambil tanpa pengarahan (unguided) dengan sampling rate 16000 Hz Untuk mendapatkan data yang memiliki noise, data yang telah dikumpulkan sebelumnya disalin dua kali kemudian ditambahkan noise dengan SNR 30 dB dan 20 dB. Data non-model didapatkan dengan cara yang sama.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal suara dengan MFCC terdiri atas lima parameter, yaitu input, sampling rate, time frame, lap, dan cepstral coefficient. Pemilihan nilai time frame, lap, dan cepstral coefficient berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan pada penelitian sebelumnya yang dilakukan Mandasari(2005) dan Purnamasari(2006).
Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada tahap Frame Blocking, sinyal suara dibagi menjadi 66 frame dimana tiap frame terdiri atas 13 sample. Proses selanjutnya adalah Windowing, yaitu meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Window yang digunakan adalah hamming window dengan persamaan w(n)=0.54-0.46cos(2πn/12), 0 ≤ n ≤ 12.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Dilakukan konversi tiap frame dengan 13 sample dari time domain menjadi frequency domain. Dilakukan perhitungan mel-frequency untuk frekuensi f dalam Hz: Mel(f) = 2595*log10(1+f/700) Konversi log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Hasil dari analisis fitur suara MFCC ini adalah 13 koefisien mel cepstrum untuk masing-masing frame. Dengan demikian setiap data suara menjadi matriks berukuran 13 x 66.
Pemilihan Nilai Smoothing Parameter Data asli
Pemilihan Nilai Smoothing Parameter Data asli 20 data pelatihan dipilih nilai a sebesar 8.3 30 data pelatihan dipilih nilai a yang berada pada selang [7.8,8.1] atau atau pada selang [10.5,11] 40 data pelatihan dipilih nilai a yang berada pada selang [7.5,13.5]
Pemilihan Nilai Smoothing Parameter Data dengan SNR 30 dB
Pemilihan Nilai Smoothing Parameter Data dengan SNR 30 dB 20 data pelatihan dipilih nilai a yang berada pada selang [11.4,11.6] 30 data pelatihan dipilih nilai a yang berada pada selang [2.1,4.5] 40 data pelatihan dipilih nilai a a yang berada pada selang [2.1,5.2]
Pemilihan Nilai Smoothing Parameter Data dengan SNR 20 dB
Pemilihan Nilai Smoothing Parameter Data dengan SNR 20 dB 20 data pelatihan dipilih nilai a yang berada pada selang selang [12.7,12.9] atau pada selang [13.5,14.3] 30 data pelatihan dipilih nilai a sebesar 8.4 40 data pelatihan dipilih nilai a yang berada pada selang selang [6.1,6.9] atau pada selang [9.9,10.5].
Hasil Identifikasi dengan Menggunakan Nilai SmootihngParameter yang Telah Dipilih Tingkat akurasi setiap model dengan jumlah data yang sama Banyak Data Pelatihan Data Pengujian Tingkat Akurasi (%) Jenis Data 20 30 70 Data asli 82 40 10 96 76.67 Data dengan SNR 30 dB 80.5 89 58.33 Data dengan SNR 20 dB 60 59
Tingkat akurasi setiap model dengan jumlah data yang sama
Hasil Identifikasi dengan Menggunakan Nilai SmootihngParameter yang Telah Dipilih Tingkat akurasi setiap model dengan jumlah data yang sama Banyak Data Pelatihan Data Pengujian Tingkat Akurasi (%) Jenis Data 20 67 Data asli 30 82 40 96 73 Data dengan SNR 30 dB 77 85.5 48.5 Data dengan SNR 20 dB 49.5 60
Tingkat akurasi setiap model dengan jumlah data yang sama
Hasil Identifikasi Menggunakan Threshold Hasil identifikasi 40 data pelatihan untuk 10 data pengujian pada data asli dengan menggunakan threshold
Perbandingan tingkat akurasi model dengan menggunakan threshold dan dengan model yang tidak menggunakan threshold
Hasil Identifikasi Menggunakan Threshold (lanjutan) Hasil identifikasi 40 data pelatihan untuk 30 data pengujian non-model pada data asli dengan menggunakan threshold
KESIMPULAN DAN SARAN
Kesimpulan Diperoleh suatu model Probabilistic Neural Network Bertingkat Menggunakan Fuzzy C-Means (FCM) untuk identifikasi pembicara. Hasil identifikasi dengan menggunakan data asli, data dengan SNR sebesar 30 dB, atau data dengan SNR sebesar 20 dB berbeda. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan threshold akan memberikan hasil yang lebih akurat.
Saran Pada penelitian ini, model yang dikembangkan belum cukup mampu menangani identifikasi pembicara dengan suara yang ber-noise cukup tinggi. Oleh karena itu, untuk penelitian selanjutnya disarankan untuk mencoba suatu metode ekstraksi ciri suara yang telah terbukti mampu memisahkan antara suara asli dari seorang pembicara dan noise yang merusak suara tersebut.
Daftar Pustaka Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal 1437-1461, September 1997. Cox, E. 2005. Fuzzy Modelling and Genetic Algorithms for Data Mining and Exploration. USA: Academic Press.
Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland. http://lcavwww.epfl.ch/~minhdo/asr_project.pdf [12 Juli 2006]. Fausett L. 1994. Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall.
Ganchev, TD. 2005. Speaker Recognition [Tesis] Ganchev, TD. 2005. Speaker Recognition [Tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering, University of Patras. http://wcl.ee.upatras.gr/ai/papers/Ganchev_PhDThesis.PDF [16 November 2006]. Jang JSR, Sun CT, Mizutani Eiji. 1997. Neuro-Fuzzy and Soft Computing. London: Prentice-Hall International, Inc.
Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y. 2005. Pengembangan Model Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Purnamasari W. 2006. Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Sarimollaoglu et al. 2004. A Text-independent Speaker Identification System Using Probabilistic Neural Network. http://bayrak.ualr.edu/symsel/mustafa/docs/CCCT_2004.pdf [19 September 2006].
Terima Kasih