PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA Oleh Mohamad Nono Suhartono G64103044 Dibimbing oleh : Ir. Agus Buono, M.Si., M.Kom. Ir. Meuthia Rachmaniah, M.Sc.
Materi Presentasi Pendahuluan Tinjauan Pustaka Metode Penelitian Hasil dan Pembahasan Kesimpulan dan Saran Daftar Pustaka Penutup
PENDAHULUAN
Latar Belakang Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti layanan bank melalui telepon, belanja melalui telepon, layanan akses ke basisdata, dan akses jarak jauh ke komputer. Berbagai metode yang dapat digunakan untuk identifikasi pembicara, antara lain DTW, HMM, Vector Quantization, dan Jaringan Syaraf Tiruan seperti Multi Layer Perceptron dan Probabilistic Neural Network.
Latar Belakang (lanjutan) Pada penelitian ini, dilakukan identifikasi pembicara menggunakan Probabilistic Neural Network. Hal ini dikarenakan Probabilistic Neural Network telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96% (Sarimollaoglu et al. 2004).
Tujuan Penelitian ini bertujuan mengembangkan model Probabilistic Neural Network untuk identifikasi pembicara. Penelitian ini juga dilakukan untuk membandingkan hasil identifikasi tanpa threshold dan dengan threshold.
Ruang Lingkup Jenis identifikasi pembicara bersifat tertutup dan bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar dan kata yang digunakan dalam pelatihan dan pengujian adalah “komputer”. Ekstraksi ciri sinyal suara menggunakan Mel-Frequency Cepstrum Coefficients (MFCC).
Ruang Lingkup (lanjutan) Pembahasan difokuskan pada tahap pemodelan pembicara dengan Probabilistic Neural Network, tidak pada pemrosesan sinyal analog sebagai praproses sistem.
Manfaat Penelitian ini diharapkan dapat memberikan informasi mengenai tingkat akurasi Probabilistic Neural Network untuk identifikasi pembicara. Selain itu juga diharapkan model yang dihasilkan dapat digunakan untuk mengembangkan sistem identifikasi pembicara yang bersifat tertutup dan bergantung pada teks.
TINJAUAN PUSTAKA
Jenis Pengenalan Pembicara Berdasarkan jenis aplikasinya (Campbell 1997) : Identifikasi pembicara proses mengenali seseorang berdasarkan suaranya. Verifikasi pembicara proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.
Jenis Pengenalan Pembicara (lanjutan) Identifikasi pembicara dibagi dua, yaitu : Identifikasi tertutup suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui. Identifikasi terbuka suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar.
Jenis Pengenalan Pembicara (lanjutan) Berdasarkan aspek kebahasaan (Ganchev 2005) : Pengenalan pembicara bergantung teks pembicara harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Pengenalan pembicara bebas teks pembicara tidak harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian.
Dijitalisasi Gelombang Suara Gelombang suara merupakan sinyal analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitalisasi suara. Terdiri atas dua tahap, yaitu sampling dan kuantisasi.
Dijitalisasi Gelombang Suara (lanjutan) Sampling proses pengambilan nilai yang menyatakan amplitudo suara dalam jangka waktu tertentu. Hasilnya adalah sebuah vektor. Kuantisasi menyimpan nilai amplitudo ke dalam representasi nilai 8 bit atau 16 bit.
Ekstraksi Ciri Sinyal Suara Mengkarakterisasi sinyal suara. Beberapa fitur yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan Mel-Frequency Cepstrum Coefficients (MFCC). Pada penelitian ini, fitur yang digunakan adalah MFCC karena MFCC didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia terhadap frekuensi.
Mel Frequency Cepstrum Coefficients (MFCC) Diagram blok proses Mel Frequency Cepstrum Coefficients
Probabilistic Neural Network Diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic Neural Network” yang merupakan penyempurnaan ide-ide sebelumnya yang telah dilakukannya sejak 1966. Probabilistic Neural Network dirancang menggunakan ide dari teori probabilitas klasik yaitu pengklasifikasi Bayesian dan estimator pengklasifikasi Parzen untuk Probability Density Function.
Probabilistic Neural Network (lanjutan) Input layer vektor masukan. Pattern layer
Probabilistic Neural Network (lanjutan) Summation layer Decision layer max(px)
METODE PENELITIAN
Blok Diagram Sistem Identifikasi Pembicara
Data Suara Terdiri atas 20 pembicara yang dibagi menjadi dua, yaitu : Kelompok 1 terdiri atas lima pembicara laki-laki dan lima pembicara perempuan untuk data pelatihan, threshold, dan pengujian. Kelompok 2 terdiri lima pembicara laki-laki dan lima pembicara perempuan untuk data pengujian saja. Pengujian terdiri atas dua macam, yaitu tanpa threshold dan dengan threshold.
Data Suara (lanjutan) Suara direkam menggunakan fungsi wavrecord pada Matlab dengan sampling rate 16000 Hz selama satu detik dan disimpan menjadi file berekstensi WAV. Kata yang diucapkan baik untuk pelatihan maupun pengujian telah ditentukan yaitu “komputer” dan diucapkan sebanyak 60 kali untuk kelompok 1 dan lima kali untuk kelompok 2 sehingga terdapat 650 file data.
Data Suara (lanjutan) Struktur percobaan data suara setiap pembicara
Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada implementasi MFCC, kecuali tahap frame blocking, digunakan fungsi dari Auditory Toolbox yang dikembangkan oleh Slanley pada tahun 1998. Fungsi ini menggunakan lima parameter, yaitu : Input : masukan suara yang berasal dari setiap pembicara Sampling rate : banyaknya nilai yang diambil dalam satu detik. Dalam penelitian ini digunakan sampling rate sebesar 16000 Hz
Ekstraksi Ciri Sinyal Suara Dengan MFCC Time frame : waktu yang diinginkan untuk satu frame (dalam milidetik). Time frame yang digunakan adalah 30 ms. Lap : overlaping yang diinginkan (harus kurang dari satu). Lap yang digunakan sebesar 0.5. Cepstral coefficient yaitu jumlah cepstrum yang diinginkan sebagai output. Cepstral coefficient yang digunakan sebanyak 13.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Setiap data suara akan dibagi menjadi 66 frame di mana masing-masing frame berukuran 30 ms dengan overlap 50% dan tanpa noise. Hasil dari analisis fitur suara MFCC ini adalah 13 koefisien mel cepstrum untuk masing-masing frame. Dengan demikian setiap data suara menjadi matriks berukuran 13 x 66.
Probabilistic Neural Network Input layer merupakan matriks berukuran 13 × 66 yang berasal dari suara pembicara yang akan diidentifikasi yang telah mengalami proses ekstraksi ciri sinyal suara. Setiap keluaran dari pattern layer akan dijumlahkan dengan keluaran dari pattern layer lainnya yang satu kelas. Banyaknya kelas dalam penelitian ini adalah 10.
Probabilistic Neural Network (lanjutan) Nilai n pada summation layer untuk 20, 30, dan 40 data pelatihan didefinisikan berturut-turut sebesar 20, 30, dan 40. Dari summation diperoleh nilai terbesar untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.
Probabilistic Neural Network (lanjutan) Untuk pengujian dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan threshold kelas tersebut. Jika nilainya lebih besar dari threshold maka suara tersebut diidentifikasi sebagai pembicara kelas tersebut. Sebaliknya jika nilainya lebih kecil maka suara yang diujikan diidentifikasi sebagai pembicara yang tidak terdaftar. Proses ini termasuk dalam desicion layer.
Hasil Identifikasi Hasil identifikasi merupakan bagian akhir dari identifikasi pembicara yang berupa identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah suara yang diujikan diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti diatas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0.
Lingkungan Pengembangan Perangkat keras Prosesor AMD Sempron 3000+, memori DDR 512 MB, harddisk 120 GB, keyboard dan mouse, monitor, backphone with mic. Perangkat Lunak Sistem operasi Windows XP Profesional dan Matlab 6.5
HASIL DAN PEMBAHASAN
Data Suara Pembagian data suara menjadi dua kelompok, yaitu kelompok 1 dan 2 bertujuan membandingkan hasil identifikasi antara data pengujian yang berasal dari pembicara yang dikenal dan pembicara yang tidak dikenal. Kelompok 1 merupakan pembicara yang dikenal sedangkan kelompok 2 merupakan pembicara yang tidak dikenal.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal suara dengan MFCC terdiri atas lima parameter, yaitu input, sampling rate, time frame, lap, dan cepstral coefficient. Pemilihan nilai time frame, lap, dan cepstral coefficient berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan pada penelitian sebelumnya yang dilakukan Mandasari(2005) dan Purnamasari(2006).
Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada tahap Frame Blocking, sinyal suara dibagi menjadi 66 frame dimana tiap frame terdiri atas 13 sample. Proses selanjutnya adalah Windowing, yaitu meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Window yang digunakan adalah hamming window dengan persamaan w(n)=0.54-0.46cos(2πn/12), 0 ≤ n ≤ 12.
Ekstraksi Ciri Sinyal Suara Dengan MFCC Dilakukan konversi tiap frame dengan 13 sample dari time domain menjadi frequency domain. Dilakukan perhitungan mel-frequency untuk frekuensi f dalam Hz: Mel(f) = 2595*log10(1+f/700) Konversi log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients.
20 Pelatihan
20 Pelatihan (lanjutan)
30 Pelatihan
30 Pelatihan (lanjutan)
40 Pelatihan
40 Pelatihan (lanjutan)
Perbandingan Tingkat Akurasi
Perbandingan Tingkat Akurasi (lanjutan)
KESIMPULAN DAN SARAN
Kesimpulan Diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan threshold akan memberikan hasil yang lebih akurat.
Saran Penelitian ini masih memiliki banyak kekurangan yang memungkinkan dilakukan pengembangan lebih lanjut. Hal yang mungkin untuk dikembangkan adalah menambahkan noise dengan tujuan menyerupai kondisi sebenarnya.
DAFTAR PUSTAKA
Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal 1437-1461, September 1997. Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland. http://lcavwww.epfl.ch/~minhdo/asr_project.pdf [12 Juli 2006].
Fausett L. 1994. Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Ganchev, TD. 2005. Speaker Recognition[tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering, University of Patras. http://wcl.ee.upatras.gr/ai/papers/Ganchev_PhDThesis.PDF [16 November 2006].
Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y. 2005. Pengembangan Model Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.
Purnamasari W. 2006. Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Sarimollaoglu et al. 2004. A Text-independent Speaker Identification System Using Probabilistic Neural Network. http://bayrak.ualr.edu/symsel/mustafa/docs/CCCT_2004.pdf [19 September 2006].
TERIMA KASIH