PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA

PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA
Oleh Mohamad Nono Suhartono G Dibimbing oleh : Ir. Agus Buono, M.Si., M.Kom. Ir. Meuthia Rachmaniah, M.Sc.

Materi Presentasi Pendahuluan Tinjauan Pustaka Metode Penelitian
Hasil dan Pembahasan Kesimpulan dan Saran Daftar Pustaka Penutup

PENDAHULUAN

Latar Belakang Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti layanan bank melalui telepon, belanja melalui telepon, layanan akses ke basisdata, dan akses jarak jauh ke komputer. Berbagai metode yang dapat digunakan untuk identifikasi pembicara, antara lain DTW, HMM, Vector Quantization, dan Jaringan Syaraf Tiruan seperti Multi Layer Perceptron dan Probabilistic Neural Network.

Latar Belakang (lanjutan)
Pada penelitian ini, dilakukan identifikasi pembicara menggunakan Probabilistic Neural Network. Hal ini dikarenakan Probabilistic Neural Network telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96% (Sarimollaoglu et al. 2004).

Tujuan Penelitian ini bertujuan mengembangkan model Probabilistic Neural Network untuk identifikasi pembicara. Penelitian ini juga dilakukan untuk membandingkan hasil identifikasi tanpa threshold dan dengan threshold.

Ruang Lingkup Jenis identifikasi pembicara bersifat tertutup dan bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar dan kata yang digunakan dalam pelatihan dan pengujian adalah “komputer”. Ekstraksi ciri sinyal suara menggunakan Mel-Frequency Cepstrum Coefficients (MFCC).

Ruang Lingkup (lanjutan)
Pembahasan difokuskan pada tahap pemodelan pembicara dengan Probabilistic Neural Network, tidak pada pemrosesan sinyal analog sebagai praproses sistem.

Manfaat Penelitian ini diharapkan dapat memberikan informasi mengenai tingkat akurasi Probabilistic Neural Network untuk identifikasi pembicara. Selain itu juga diharapkan model yang dihasilkan dapat digunakan untuk mengembangkan sistem identifikasi pembicara yang bersifat tertutup dan bergantung pada teks.

TINJAUAN PUSTAKA

Jenis Pengenalan Pembicara
Berdasarkan jenis aplikasinya (Campbell 1997) : Identifikasi pembicara proses mengenali seseorang berdasarkan suaranya. Verifikasi pembicara proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.

Jenis Pengenalan Pembicara (lanjutan)
Identifikasi pembicara dibagi dua, yaitu : Identifikasi tertutup suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui. Identifikasi terbuka suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar.

Jenis Pengenalan Pembicara (lanjutan)
Berdasarkan aspek kebahasaan (Ganchev 2005) : Pengenalan pembicara bergantung teks pembicara harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Pengenalan pembicara bebas teks pembicara tidak harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian.

Dijitalisasi Gelombang Suara
Gelombang suara merupakan sinyal analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitalisasi suara. Terdiri atas dua tahap, yaitu sampling dan kuantisasi.

Dijitalisasi Gelombang Suara (lanjutan)
Sampling proses pengambilan nilai yang menyatakan amplitudo suara dalam jangka waktu tertentu. Hasilnya adalah sebuah vektor. Kuantisasi menyimpan nilai amplitudo ke dalam representasi nilai 8 bit atau 16 bit.

Ekstraksi Ciri Sinyal Suara
Mengkarakterisasi sinyal suara. Beberapa fitur yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan Mel-Frequency Cepstrum Coefficients (MFCC). Pada penelitian ini, fitur yang digunakan adalah MFCC karena MFCC didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia terhadap frekuensi.

Mel Frequency Cepstrum Coefficients (MFCC)
Diagram blok proses Mel Frequency Cepstrum Coefficients

Probabilistic Neural Network
Diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic Neural Network” yang merupakan penyempurnaan ide-ide sebelumnya yang telah dilakukannya sejak 1966. Probabilistic Neural Network dirancang menggunakan ide dari teori probabilitas klasik yaitu pengklasifikasi Bayesian dan estimator pengklasifikasi Parzen untuk Probability Density Function.

Probabilistic Neural Network (lanjutan)
Input layer vektor masukan. Pattern layer

Summation layer Decision layer max(px)

METODE PENELITIAN

Blok Diagram Sistem Identifikasi Pembicara

Data Suara Terdiri atas 20 pembicara yang dibagi menjadi dua, yaitu :
Kelompok 1 terdiri atas lima pembicara laki-laki dan lima pembicara perempuan untuk data pelatihan, threshold, dan pengujian. Kelompok 2 terdiri lima pembicara laki-laki dan lima pembicara perempuan untuk data pengujian saja. Pengujian terdiri atas dua macam, yaitu tanpa threshold dan dengan threshold.

Data Suara (lanjutan) Suara direkam menggunakan fungsi wavrecord pada Matlab dengan sampling rate Hz selama satu detik dan disimpan menjadi file berekstensi WAV. Kata yang diucapkan baik untuk pelatihan maupun pengujian telah ditentukan yaitu “komputer” dan diucapkan sebanyak 60 kali untuk kelompok 1 dan lima kali untuk kelompok 2 sehingga terdapat 650 file data.

Data Suara (lanjutan) Struktur percobaan data suara setiap pembicara

Ekstraksi Ciri Sinyal Suara Dengan MFCC
Pada implementasi MFCC, kecuali tahap frame blocking, digunakan fungsi dari Auditory Toolbox yang dikembangkan oleh Slanley pada tahun 1998. Fungsi ini menggunakan lima parameter, yaitu : Input : masukan suara yang berasal dari setiap pembicara Sampling rate : banyaknya nilai yang diambil dalam satu detik. Dalam penelitian ini digunakan sampling rate sebesar Hz

Time frame : waktu yang diinginkan untuk satu frame (dalam milidetik). Time frame yang digunakan adalah 30 ms. Lap : overlaping yang diinginkan (harus kurang dari satu). Lap yang digunakan sebesar 0.5. Cepstral coefficient yaitu jumlah cepstrum yang diinginkan sebagai output. Cepstral coefficient yang digunakan sebanyak 13.

Setiap data suara akan dibagi menjadi 66 frame di mana masing-masing frame berukuran 30 ms dengan overlap 50% dan tanpa noise. Hasil dari analisis fitur suara MFCC ini adalah 13 koefisien mel cepstrum untuk masing-masing frame. Dengan demikian setiap data suara menjadi matriks berukuran 13 x 66.

Probabilistic Neural Network
Input layer merupakan matriks berukuran 13 × 66 yang berasal dari suara pembicara yang akan diidentifikasi yang telah mengalami proses ekstraksi ciri sinyal suara. Setiap keluaran dari pattern layer akan dijumlahkan dengan keluaran dari pattern layer lainnya yang satu kelas. Banyaknya kelas dalam penelitian ini adalah 10.

Nilai n pada summation layer untuk 20, 30, dan 40 data pelatihan didefinisikan berturut-turut sebesar 20, 30, dan 40. Dari summation diperoleh nilai terbesar untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.

Untuk pengujian dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan threshold kelas tersebut. Jika nilainya lebih besar dari threshold maka suara tersebut diidentifikasi sebagai pembicara kelas tersebut. Sebaliknya jika nilainya lebih kecil maka suara yang diujikan diidentifikasi sebagai pembicara yang tidak terdaftar. Proses ini termasuk dalam desicion layer.

Hasil Identifikasi Hasil identifikasi merupakan bagian akhir dari identifikasi pembicara yang berupa identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah suara yang diujikan diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti diatas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0.

Lingkungan Pengembangan
Perangkat keras Prosesor AMD Sempron 3000+, memori DDR 512 MB, harddisk 120 GB, keyboard dan mouse, monitor, backphone with mic. Perangkat Lunak Sistem operasi Windows XP Profesional dan Matlab 6.5

HASIL DAN PEMBAHASAN

Data Suara Pembagian data suara menjadi dua kelompok, yaitu kelompok 1 dan 2 bertujuan membandingkan hasil identifikasi antara data pengujian yang berasal dari pembicara yang dikenal dan pembicara yang tidak dikenal. Kelompok 1 merupakan pembicara yang dikenal sedangkan kelompok 2 merupakan pembicara yang tidak dikenal.

Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal suara dengan MFCC terdiri atas lima parameter, yaitu input, sampling rate, time frame, lap, dan cepstral coefficient. Pemilihan nilai time frame, lap, dan cepstral coefficient berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan pada penelitian sebelumnya yang dilakukan Mandasari(2005) dan Purnamasari(2006).

Pada tahap Frame Blocking, sinyal suara dibagi menjadi 66 frame dimana tiap frame terdiri atas 13 sample. Proses selanjutnya adalah Windowing, yaitu meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Window yang digunakan adalah hamming window dengan persamaan w(n)= cos(2πn/12), 0 ≤ n ≤ 12.

Dilakukan konversi tiap frame dengan 13 sample dari time domain menjadi frequency domain. Dilakukan perhitungan mel-frequency untuk frekuensi f dalam Hz: Mel(f) = 2595*log10(1+f/700) Konversi log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients.

20 Pelatihan

20 Pelatihan (lanjutan)

30 Pelatihan

40 Pelatihan

Perbandingan Tingkat Akurasi

Perbandingan Tingkat Akurasi (lanjutan)

KESIMPULAN DAN SARAN

Kesimpulan Diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan threshold akan memberikan hasil yang lebih akurat.

Saran Penelitian ini masih memiliki banyak kekurangan yang memungkinkan dilakukan pengembangan lebih lanjut. Hal yang mungkin untuk dikembangkan adalah menambahkan noise dengan tujuan menyerupai kondisi sebenarnya.

DAFTAR PUSTAKA

Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial
Campbell,Jr JP Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal , September 1997. Do MN Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland. [12 Juli 2006].

Fausett L Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Ganchev, TD Speaker Recognition[tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering, University of Patras. [16 November 2006].

Jurafsky D, Martin JH Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y Pengembangan Model Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Purnamasari W Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Sarimollaoglu et al A Text-independent Speaker Identification System Using Probabilistic Neural Network. [19 September 2006].

TERIMA KASIH

PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA

Presentasi serupa

Presentasi berjudul: "PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA

Presentasi serupa

Presentasi berjudul: "PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan