Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

1 LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA Oleh : Agus Buono PERTEMUAN 1 PEMROSESAN BAHASA ALAMI.

Presentasi serupa


Presentasi berjudul: "1 LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA Oleh : Agus Buono PERTEMUAN 1 PEMROSESAN BAHASA ALAMI."— Transcript presentasi:

1

2 1 LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA Oleh : Agus Buono PERTEMUAN 1 PEMROSESAN BAHASA ALAMI

3 2 1. PENDAHULUAN 1.1. Latar Belakang : 1. Aplikasi, [JM00] : Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, indexing and retrieval in textual databases, machine translation, automatic text production, automatic text checking, automatic content analysis, automatic tutoring, automatic dialog and information systems, serta interaksi menusia dg komputer lainnya melalui suara. Murah : investasi bersifat software Sounds of spoken language, the letters of handwritten or printed language, and the gesture of signed language

4 3 1. PENDAHULUAN 1.1. Latar Belakang : 1. Aplikasi, [JM00] : 2. Ciri Biometrik [Rey02] : Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, serta interaksi menusia dengan komputer lainnya melalui suara. Murah : investasi bersifat software alami, mudah diukur, tidak terlalu berubah dari waktu ke waktu atau kondisi phisik, tidak terlalu terganggu dengan adanya gangguan lingkungan, serta tidak mudah ditiru. Suara hampir memenuhi semua persyaratan biometrik tersebut 3. Permasalahan, [Cam97] : suara adalah multidimensi (linguistik, semantik, artikularis dan akustik, [Cam97]). Pemrosesan suara lebih berfokus pada analisis sinyal dengan dua subsistem yaitu ekstraksi ciri dan pengenalan pola

5 Latar Belakang 4. Permasalahan : sinyal suara dipengaruhi banyak hal, seperti dimensi artikularis pembicara, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemodelan sinyal suara merupakan hal yang menantang untuk diteliti lebih lanjut

6 Latar Belakang 1. Luasnya Bidang Terapan 2. Hampir semua syarat ciri Biometrik dipenuhi oleh Suara 3. Permasalahan : suara adalah besaran Multidimensi Linguistic dan semantik Artikulatoris Akustik dipengaruhi : artikularis, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemrosesan suara adalah hal yang menantang untuk diteliti lebih lanjut

7 Latar Belakang

8 7

9 8

10 Motivasi 1. sifat sinyal suara : lebih dinamis dibanding cirri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang robust terhadap noise dan Interspeakervariability A. Dari Aspek Data Suara

11 Motivasi 1. sifat sinyal suara : lebih dinamis dibanding ciri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang relatif lebih robust terhadap noise dan Intraspeakervariability A. Dari Aspek Data Suara

12 Motivasi Perbandingan bentuk sinyal asli dan yang diberi noise : Y=speech Noise signal 10 dB Noise signal 20 dB Y+noise 20dB Y+noise 10dB

13 Variasi Pengucapan

14 13 Input Output SPB

15 14 2. RANAH KAJIAN PEMROSESAN SUARA

16 15 RECOGNITION Goal : Automatically extract information transmitted in speech signal *) *) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory. Speech Signal

17 16 Speech Recognition Ideal systems must be : Speaker Independence, Continuous speech, Domain independence, realistic vocabulary, robustnes Todays : continuous speech systems can achieve speaker indpendence only at the domain dependence

18 17 Text to Speech Recognition

19 18 Language identification

20 19 Language Translation

21 20 Language Translation

22 21 Speech Understanding

23 22

24 23 Tipe-tipe Sistem Pengenalan Suara [Gan05] : Berdasar output sistem, menurut Gancev sistem pengenalan pembicara dikategorikan menjadi dua, yaitu Multiple-class problem dan Two-class problem [Fur97] : Pengenalan Pembicara (Speaker Recognition) merupakan suatu proses yang secara otomatis mengenali siapa pembicara (who is speaking) menggunakan informasi spesific yang ada dalam sinyal suara Speaker Identification Speaker Clustering Speaker Verification Speaker Tracking Speaker Segmentation/Diarization Multiple-class problemsTwo-class problems Speaker Recognition

25 24 SPEAKER RECOGNITION TASK, [Rey02] Segmentation /diaryzation Cluster 1 Cluster K Clustering ? Which cluster the speaker from ? Tracking

26 25 Verifikasi Pembicara

27 26 Tracking Pembicara

28 27 Identifikasi Pembicara

29 28 Klasifikasi Pembicara

30 29 Segmentasi/Diaryzation

31 30 Pengolahan koefisien cepstral berbasis power spektrum Sip : menentukan secara otomatis siapa pemilik dari suara yang diberikan ke dalam sistem.

32 31 Perkembangan Riset yang Sudah Ada Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel- Frequency Cepstrum Coefficients (MFCC) yang berbasis nilai power spektrum sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier [Rey02] : Secara umum ada 4 kelompok metode classifier : a. template matching : sistem mempunyai cetakan untuk setiap kata/pembicara, sehingga lebih sesuai untuk frase yang fixed dan kurang sesuai untuk engembangan lanjut model pengenalan suara. b. nearest neighboor : pengenalan didasarkan pada tetangga erdekat. Dalam hal ini sistem harus mempunyai memori yang besar untuk menyimpan data training. c. neural network : model yang dihasilkan seringkali tidak bersifat general, dan juga tidak dapat merepresentasikan sinyal suara secara alamiah. d. hidden markov model : sinyal suara dimodelkan secara statistik, dengan model stokastik, sehingga dapat merepresentasikan secara alamiah bagaimana suara dihasilkan. Oleh karena itu, model ini yang pertama kali dipergunakan pada sistem pengenalan pembicara yang modern,

33 32 Metode Pengenal Pola Studi Literatur Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier Metode classifier yang ada dikelompokkan seperti diagram berikut, [Gan05] :

34 33 3. Sinyal Analog  Digital  Vektor Feature Speech : peubah acak yang terkait dengan waktu yang merupakan barisan energi yang dihasilkan dari dari aliran udara dari paru-paru melalui beberapa transisi satu konfigurasi artikularis ke konfigurasi artikularis lainnya. t Frame Frequency Waktu Amplitudo

35 34 Transformasi Informasi pada Pemrosesan Suara :

36 35 Proses Ekstraksi Ciri dengan MFCC *) Slaney, 1998

37 36 Perkembangan Bidang Recognition *) *) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory.

38 37

39 38

40 39

41 40 Teknik-Teknik Classifier

42 41 Hidden Markov Model (HMM) b. HMM ini dapat dipakai sebagai representasi statistik bagaimana seorang pembicara menghasilkan suara a. HMM : proses markov stasioner orde 1 dengan nilai state tidak teramati, namun dapat diprediksi berdasar observable state yang muncul pada setiap periode waktu. Oleh karena itu mampu memodelkan perilaku temporal dari barisan outcome. Nasal Cavity Velum Spinal cord Trachea Tongue Epiglottis Lung Hidden state : merepresentasikan setiap konfigurasi vocal tract Transition matrix : merepresentasikan transisi dari satu konfigurasi vocal tract ke konfigurasi lainnya O1O1 sequence Observable/ observation state O2O2 O3O3 OTOT O= SO : model pertama pada sistem komersial

43 Hidden Markov Model (HMM) Beberapa permasalahan dengan HMM adalah : asumsi kebebasan antar observasi asumsi kebebasan antar kemunculan state pada periode t dengan observasi sebelum periode t asumsi BAHWA OBSERVASI BERDISTRIBUSI NORMAL dari aspek teori : jika observasi berdimensi sangat besar dibanding dengan banyaknya pengamatan, maka penghitungan peluang observasi dengan menggunakan asumsi kenormalan akan terbentur pada masalah singularitas matriks covariance, sehingga kebalikan matriks tersebut tidak dapat diperoleh.

44 43 Gaussian HMM S1S1 S2S2 S3S3 a 21 =0.4 a 22 =0.4 a 33 =0.3 a 31 =0.6 a 32 =0.1 a 13 =0.5 a 12 =0.4 a 11 =0.1 A= S1S1 S2S2 S3S3 S1S1 S2S2 S3S µ=10, σ=2 µ=12, σ=3 µ=8, σ=4 B= S2S2 10 ; 2 8 ; 4 S1S1 12; 3 S3S3 Π=Π= S2S S1S1 S3S3 a 23 =0.2

45 44 4. Studi kasus 1: MFCC power spektrum + HMM Block diagram Identifikasi Pembicara Menggunakan HMM :

46 45 TERIMA KASIH


Download ppt "1 LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA Oleh : Agus Buono PERTEMUAN 1 PEMROSESAN BAHASA ALAMI."

Presentasi serupa


Iklan oleh Google