PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA

Slides:



Advertisements
Presentasi serupa
Mata Kuliah– Pengenalan Aplikasi Komputer
Advertisements

Teknologi informasi sampai dengan saat ini berkembang sangat pesat seiring dengan penemuan dan pengembangan ilmu pengetahuan dalam bidang informasi dan.
PENGENALAN KOMPUTER Oleh: Amir Ar Razzaaq.
TINJAUAN UMUM SISTEM KOMPUTER
PENDAHULUAN.
Yanuar Nurdiansyah, ST., M.Cs
Jaringan Komputer.
Dalam Pembahansan Awal akan dibahas
PENGOLAHAN CITRA DIGITAL
APLIKASI TES IQ DENGAN MENGGUNAKAN JAVA 2 MICRO EDITION PADA PERANGKAT MOBILE 1. PENDAHULUAN.
Aplikasi pengenalan ucapan kata bahasa inggris menggunakan linear predictive coding (lpc) dan hidden markov model (hmm) OLEH : JUNIAR LESTARY.
Digital Signal Processing (DSP)
Konversi Sinyal Analog ke Sinyal digital dan sebaliknya
Pertemuan 1 Pendahuluan
DIGITAL AUDIO WORKSTATION
Jaringan Syaraf Tiruan (JST) stiki. ac
Konversi Data Analog Vs Digital
BIMBINGAN PERDANA Masa bimbingan sampai dengan 1 juli 2013
TEORI SINYAL DAN SISTEM
KOMPUTER ALAT PEMECAH MASALAH
JARINGAN KOMPUTER & KOMUNIKASI DATA
ALHURIYAH :Aplikasi Pengenalan Huruf Hijaiyah Berbasis speech recognition Menggunakan Mel Frequency Cepstral Coefficients (MFCC) Kelompok 10 Dian.
PERKIRAAN BIAYA PERANGKAT LUNAK MENGGUNAKAN LOGIKA FUZZY
Pertemuan 12 ARTIFICIAL NEURAL NETWORKS (ANN) - JARINGAN SYARAF TIRUAN - Betha Nurina Sari, M.Kom.
Rizki Pebuardi G Pembimbing : 1. Ir. Agus Buono, M.Si., M.Kom.
MANAJEMEN PEMANTAUAN PERANGKAT JARINGAN KOMPUTER KAMPUS IPB DARMAGA
SISTEM KOMPUTER Departement of Computer Science
Fernissa .F. (G ) Dosen Pembimbing : Shelvie Nidya Neyman S.Kom, M.Si
Identifikasi Jenis Suara pada Manusia
Oleh: Aditya Nugroho G Dibimbing Oleh: Ir. Agus Buono, M.Si., M.Kom.
Sistem Informasi Pemetaan Profil Kriminalitas Berbasis Web
Mohamad Fatchur Rochman
Oleh: Ineza Nur Oktabroni (G )
Penambahan Operasi OLAP dan Fungsi Agregat pada Temporal Data Warehouse Tanaman Pangan Kabupaten Karo Oleh : Karina Gusriani – G Pembimbing : Ibu.
MUHAMMAD RAFI MUTTAQIN G
SINYAL ANALOG DAN DIGITAL
PEMAMPATAN CITRA DENGAN SINGULAR VALUE DECOMPOSITION (SVD)
PENGEMBANGAN MODEL PROBABILISTIC NEURAL NETWORK BERTINGKAT MENGGUNAKAN FUZZY C-MEANS (FCM) UNTUK IDENTIFIKASI PEMBICARA Oleh : Vicky Zilvan G Pembimbing.
Materi 1 Pengantar Kecerdasan Buatan
PERANGKAT – PERANGKAT KOMPUTER
SINYAL ANALOG DAN DIGITAL
Dasar Audio Processing
Nama Anggota Kelompok: Erna Fatayati (G ) Dirman Hafiz (G )
SISTEM PENDUKUNG KEPUTUSAN
Pengertian Audio Digital
Dosen : Bella Hardiyana S. Kom
Aplikasi Kecerdasan Komputasional
Kelompok 6 SI-11 Fajar Rahmat Mustari Puji Nurahman Fitri
Speech Processing.
Pengenalan Jenis Kelamin Melalui Suara Menggunakan MFCC dan K-Means
Karakteristik sinyal statik dan dinamik
KECERDASAN BUATAN (ARTIFICIAL INTELGENCE-AI)
Sistem Identifikasi Dialek Seseorang Menggunakan Mel-Frequency Ceptrums Coefficients (MFCC) dan Self Organizing Map (SOM). SAMAD | .RAKHA M | BUNGA DEPARTEMEN.
Struktur Jaringan Syaraf Tiruan
Sistem Multimedia Materi : Audio/Suara.
KOMUNIKASI DATA.
TUGAS AKHIR PERANCANGAN PROGRAM PENJUALAN DAN PEMBELIAN BARANG ELEKTRONIK SECARA TUNAI PERANCANGAN PROGRAM PENJUALAN DAN PEMBELIAN BARANG ELEKTRONIK.
Pekembangan IT-2.
KOMPUTASI PEMROGRAMAN
TEKNIK KLASIFIKASI DAN PENGENALAN POLA
Modul ke: Fakultas Program Studi 01 MKCU Ida Farida, M.Kom APLIKASI KOMPUTER Pengenalan, Sejarah Komputer dan Sistem Komputer.
PEMBANGUNAN APLIKASI GAME KUIZ EDUKASI 2D MENGENAI BUDAYA INDONESIA MENGGUNAKAN SPEECH RECOGNITION Oleh : Derri Mahara Dilla Pembimbing : Tati.
Oleh : DENI ROMADONI (G ) Pembimbing : Dr. Ir. Sri Nurdiati, M.Sc
Jaringan Syaraf Tiruan
PENGOLAHAN CITRA DIGITAL : PENGENALAN POLA TEMPLATE MATCHING
JURUSAN TEKNIK KOMPUTER FAKULTAS TEKNIK DAN ILMU KOMPUTER
TEKNIK KLASIFIKASI DAN PENGENALAN POLA
PRINSIP DASAR SISTEM ISYARAT ELEKTRONIK OPERASI SINYAL DAN SISTEM
This presentation uses a free template provided by FPPT.com Pengenalan Pola Sinyal Suara Manusia Menggunakan Metode.
Teknologi Pengolahan signal pada kedokteran gigi Militer Dipresentasikan untuk IPADOGIMIL Bandung, 5 Juli 2019 Oleh : Ketua Peneliti : Dr. Ir. Bambang.
Transcript presentasi:

PENGEMBANGAN PROBABILISTIC NEURAL NETWORK UNTUK IDENTIFIKASI PEMBICARA Oleh Mohamad Nono Suhartono G64103044 Dibimbing oleh : Ir. Agus Buono, M.Si., M.Kom. Ir. Meuthia Rachmaniah, M.Sc.

Materi Presentasi Pendahuluan Tinjauan Pustaka Metode Penelitian Hasil dan Pembahasan Kesimpulan dan Saran Daftar Pustaka Penutup

PENDAHULUAN

Latar Belakang Teknologi identifikasi pembicara telah digunakan untuk berbagai kepentingan, seperti layanan bank melalui telepon, belanja melalui telepon, layanan akses ke basisdata, dan akses jarak jauh ke komputer. Berbagai metode yang dapat digunakan untuk identifikasi pembicara, antara lain DTW, HMM, Vector Quantization, dan Jaringan Syaraf Tiruan seperti Multi Layer Perceptron dan Probabilistic Neural Network.

Latar Belakang (lanjutan) Pada penelitian ini, dilakukan identifikasi pembicara menggunakan Probabilistic Neural Network. Hal ini dikarenakan Probabilistic Neural Network telah terbukti memiliki tingkat akurasi yang tinggi, yaitu 96% (Sarimollaoglu et al. 2004).

Tujuan Penelitian ini bertujuan mengembangkan model Probabilistic Neural Network untuk identifikasi pembicara. Penelitian ini juga dilakukan untuk membandingkan hasil identifikasi tanpa threshold dan dengan threshold.

Ruang Lingkup Jenis identifikasi pembicara bersifat tertutup dan bergantung pada teks yang mana suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar dan kata yang digunakan dalam pelatihan dan pengujian adalah “komputer”. Ekstraksi ciri sinyal suara menggunakan Mel-Frequency Cepstrum Coefficients (MFCC).

Ruang Lingkup (lanjutan) Pembahasan difokuskan pada tahap pemodelan pembicara dengan Probabilistic Neural Network, tidak pada pemrosesan sinyal analog sebagai praproses sistem.

Manfaat Penelitian ini diharapkan dapat memberikan informasi mengenai tingkat akurasi Probabilistic Neural Network untuk identifikasi pembicara. Selain itu juga diharapkan model yang dihasilkan dapat digunakan untuk mengembangkan sistem identifikasi pembicara yang bersifat tertutup dan bergantung pada teks.

TINJAUAN PUSTAKA

Jenis Pengenalan Pembicara Berdasarkan jenis aplikasinya (Campbell 1997) : Identifikasi pembicara proses mengenali seseorang berdasarkan suaranya. Verifikasi pembicara proses memeriksa identitas yang diklaimkan seseorang berdasarkan suaranya.

Jenis Pengenalan Pembicara (lanjutan) Identifikasi pembicara dibagi dua, yaitu : Identifikasi tertutup suara masukan yang akan dikenali merupakan bagian dari sekumpulan suara pembicara yang telah terdaftar atau diketahui. Identifikasi terbuka suara masukan boleh tidak ada pada kumpulan suara pembicara yang telah terdaftar.

Jenis Pengenalan Pembicara (lanjutan) Berdasarkan aspek kebahasaan (Ganchev 2005) : Pengenalan pembicara bergantung teks pembicara harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian. Pengenalan pembicara bebas teks pembicara tidak harus mengucapkan kata atau kalimat yang sama baik pada pelatihan maupun pengujian.

Dijitalisasi Gelombang Suara Gelombang suara merupakan sinyal analog, sehingga agar dapat diolah dengan peralatan elektronik, gelombang suara harus direpresentasikan dalam bentuk dijital. Proses mengubah masukan suara dari gelombang analog menjadi representasi data dijital disebut dijitalisasi suara. Terdiri atas dua tahap, yaitu sampling dan kuantisasi.

Dijitalisasi Gelombang Suara (lanjutan) Sampling proses pengambilan nilai yang menyatakan amplitudo suara dalam jangka waktu tertentu. Hasilnya adalah sebuah vektor. Kuantisasi menyimpan nilai amplitudo ke dalam representasi nilai 8 bit atau 16 bit.

Ekstraksi Ciri Sinyal Suara Mengkarakterisasi sinyal suara. Beberapa fitur yang biasa digunakan antara lain Linear Predictive Coding, Perceptual Linear Prediction, dan Mel-Frequency Cepstrum Coefficients (MFCC). Pada penelitian ini, fitur yang digunakan adalah MFCC karena MFCC didasarkan pada variasi yang telah diketahui dari jangkauan kritis telinga manusia terhadap frekuensi.

Mel Frequency Cepstrum Coefficients (MFCC) Diagram blok proses Mel Frequency Cepstrum Coefficients

Probabilistic Neural Network Diperkenalkan oleh Donald F. Specht tahun 1990 dalam tulisannya berjudul “Probabilistic Neural Network” yang merupakan penyempurnaan ide-ide sebelumnya yang telah dilakukannya sejak 1966. Probabilistic Neural Network dirancang menggunakan ide dari teori probabilitas klasik yaitu pengklasifikasi Bayesian dan estimator pengklasifikasi Parzen untuk Probability Density Function.

Probabilistic Neural Network (lanjutan) Input layer vektor masukan. Pattern layer

Probabilistic Neural Network (lanjutan) Summation layer Decision layer max(px)

METODE PENELITIAN

Blok Diagram Sistem Identifikasi Pembicara

Data Suara Terdiri atas 20 pembicara yang dibagi menjadi dua, yaitu : Kelompok 1 terdiri atas lima pembicara laki-laki dan lima pembicara perempuan untuk data pelatihan, threshold, dan pengujian. Kelompok 2 terdiri lima pembicara laki-laki dan lima pembicara perempuan untuk data pengujian saja. Pengujian terdiri atas dua macam, yaitu tanpa threshold dan dengan threshold.

Data Suara (lanjutan) Suara direkam menggunakan fungsi wavrecord pada Matlab dengan sampling rate 16000 Hz selama satu detik dan disimpan menjadi file berekstensi WAV. Kata yang diucapkan baik untuk pelatihan maupun pengujian telah ditentukan yaitu “komputer” dan diucapkan sebanyak 60 kali untuk kelompok 1 dan lima kali untuk kelompok 2 sehingga terdapat 650 file data.

Data Suara (lanjutan) Struktur percobaan data suara setiap pembicara

Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada implementasi MFCC, kecuali tahap frame blocking, digunakan fungsi dari Auditory Toolbox yang dikembangkan oleh Slanley pada tahun 1998. Fungsi ini menggunakan lima parameter, yaitu : Input : masukan suara yang berasal dari setiap pembicara Sampling rate : banyaknya nilai yang diambil dalam satu detik. Dalam penelitian ini digunakan sampling rate sebesar 16000 Hz

Ekstraksi Ciri Sinyal Suara Dengan MFCC Time frame : waktu yang diinginkan untuk satu frame (dalam milidetik). Time frame yang digunakan adalah 30 ms. Lap : overlaping yang diinginkan (harus kurang dari satu). Lap yang digunakan sebesar 0.5. Cepstral coefficient yaitu jumlah cepstrum yang diinginkan sebagai output. Cepstral coefficient yang digunakan sebanyak 13.

Ekstraksi Ciri Sinyal Suara Dengan MFCC Setiap data suara akan dibagi menjadi 66 frame di mana masing-masing frame berukuran 30 ms dengan overlap 50% dan tanpa noise. Hasil dari analisis fitur suara MFCC ini adalah 13 koefisien mel cepstrum untuk masing-masing frame. Dengan demikian setiap data suara menjadi matriks berukuran 13 x 66.

Probabilistic Neural Network Input layer merupakan matriks berukuran 13 × 66 yang berasal dari suara pembicara yang akan diidentifikasi yang telah mengalami proses ekstraksi ciri sinyal suara. Setiap keluaran dari pattern layer akan dijumlahkan dengan keluaran dari pattern layer lainnya yang satu kelas. Banyaknya kelas dalam penelitian ini adalah 10.

Probabilistic Neural Network (lanjutan) Nilai n pada summation layer untuk 20, 30, dan 40 data pelatihan didefinisikan berturut-turut sebesar 20, 30, dan 40. Dari summation diperoleh nilai terbesar untuk suatu kelas. Nilai terbesar ini mencerminkan bahwa suara yang diujikan diidentifikasi sebagai pembicara kelas tersebut.

Probabilistic Neural Network (lanjutan) Untuk pengujian dengan threshold, nilai tersebut akan dibandingkan terlebih dahulu dengan threshold kelas tersebut. Jika nilainya lebih besar dari threshold maka suara tersebut diidentifikasi sebagai pembicara kelas tersebut. Sebaliknya jika nilainya lebih kecil maka suara yang diujikan diidentifikasi sebagai pembicara yang tidak terdaftar. Proses ini termasuk dalam desicion layer.

Hasil Identifikasi Hasil identifikasi merupakan bagian akhir dari identifikasi pembicara yang berupa identitas pemilik suara yang diujikan. Identitas yang dimaksud adalah apakah suara yang diujikan diidentifikasi sebagai pembicara 1, 2, 3, 4, 5, 6, 7, 8, 9, atau pembicara 10. Untuk identifikasi dengan threshold, selain diidentifikasi seperti diatas, suara yang diujikan dapat diidentifikasi sebagai pembicara 0.

Lingkungan Pengembangan Perangkat keras Prosesor AMD Sempron 3000+, memori DDR 512 MB, harddisk 120 GB, keyboard dan mouse, monitor, backphone with mic. Perangkat Lunak Sistem operasi Windows XP Profesional dan Matlab 6.5

HASIL DAN PEMBAHASAN

Data Suara Pembagian data suara menjadi dua kelompok, yaitu kelompok 1 dan 2 bertujuan membandingkan hasil identifikasi antara data pengujian yang berasal dari pembicara yang dikenal dan pembicara yang tidak dikenal. Kelompok 1 merupakan pembicara yang dikenal sedangkan kelompok 2 merupakan pembicara yang tidak dikenal.

Ekstraksi Ciri Sinyal Suara Dengan MFCC Fungsi dari Auditory Toolbox untuk ekstraksi ciri sinyal suara dengan MFCC terdiri atas lima parameter, yaitu input, sampling rate, time frame, lap, dan cepstral coefficient. Pemilihan nilai time frame, lap, dan cepstral coefficient berturut-turut sebesar 30 ms, 0.5, dan 13 didasarkan pada penelitian sebelumnya yang dilakukan Mandasari(2005) dan Purnamasari(2006).

Ekstraksi Ciri Sinyal Suara Dengan MFCC Pada tahap Frame Blocking, sinyal suara dibagi menjadi 66 frame dimana tiap frame terdiri atas 13 sample. Proses selanjutnya adalah Windowing, yaitu meminimalkan diskontinuitas sinyal pada awal dan akhir tiap frame. Window yang digunakan adalah hamming window dengan persamaan w(n)=0.54-0.46cos(2πn/12), 0 ≤ n ≤ 12.

Ekstraksi Ciri Sinyal Suara Dengan MFCC Dilakukan konversi tiap frame dengan 13 sample dari time domain menjadi frequency domain. Dilakukan perhitungan mel-frequency untuk frekuensi f dalam Hz: Mel(f) = 2595*log10(1+f/700) Konversi log mel spectrum ke domain waktu. Hasilnya disebut mel frequency cepstrum coefficients.

20 Pelatihan

20 Pelatihan (lanjutan)

30 Pelatihan

30 Pelatihan (lanjutan)

40 Pelatihan

40 Pelatihan (lanjutan)

Perbandingan Tingkat Akurasi

Perbandingan Tingkat Akurasi (lanjutan)

KESIMPULAN DAN SARAN

Kesimpulan Diperoleh suatu model Probabilistic Neural Network untuk identifikasi pembicara. Hasil identifikasi tanpa threshold dan dengan threshold berbeda dimana dengan threshold akan memberikan hasil yang lebih akurat.

Saran Penelitian ini masih memiliki banyak kekurangan yang memungkinkan dilakukan pengembangan lebih lanjut. Hal yang mungkin untuk dikembangkan adalah menambahkan noise dengan tujuan menyerupai kondisi sebenarnya.

DAFTAR PUSTAKA

Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial Campbell,Jr JP. 1997. Speaker Recognition: A Tutorial. Proceeding IEEE, Vol 85 No.9, hal 1437-1461, September 1997. Do MN. 1994. Digital Signal Processing Mini-Project: An Automatic Speaker Recognition System. Audio Visual Communications Laboratory, Swiss Federal Institute of Technology, Laussanne,Switzerland. http://lcavwww.epfl.ch/~minhdo/asr_project.pdf [12 Juli 2006].

Fausett L. 1994. Fundamentals of Neural Networks Architectures, Algorithm, and Applications. New Jersey: Prentice Hall. Ganchev, TD. 2005. Speaker Recognition[tesis]. Greece: Wire Communication Laboratory, Department of Computer and Electrical Engineering, University of Patras. http://wcl.ee.upatras.gr/ai/papers/Ganchev_PhDThesis.PDF [16 November 2006].

Jurafsky D, Martin JH. 2000. Speech and Language Processing An Introduction to Natural Language Processing, Computational Linguistic, and Speech Recognition. New Jersey: Prentice Hall. Mandasari Y. 2005. Pengembangan Model Markov Tersembunyi untuk Pengenalan kata Berbahasa Indonesia [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor.

Purnamasari W. 2006. Pengembangan Model Markov Tersembunyi Untuk Identifikasi Pembicara. [Skripsi]. Bogor: Departemen Ilmu Komputer Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor. Sarimollaoglu et al. 2004. A Text-independent Speaker Identification System Using Probabilistic Neural Network. http://bayrak.ualr.edu/symsel/mustafa/docs/CCCT_2004.pdf [19 September 2006].

TERIMA KASIH