Presentasi sedang didownload. Silahkan tunggu

Presentasi sedang didownload. Silahkan tunggu

LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA

Presentasi serupa


Presentasi berjudul: "LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA"— Transcript presentasi:

1 LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA
Oleh : Agus Buono PERTEMUAN 1 PEMROSESAN BAHASA ALAMI

2 1. PENDAHULUAN 1.1. Latar Belakang :
1. Aplikasi, [JM00] : Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, indexing and retrieval in textual databases, machine translation, automatic text production, automatic text checking, automatic content analysis, automatic tutoring, automatic dialog and information systems, serta interaksi menusia dg komputer lainnya melalui suara. Murah : investasi bersifat software Sounds of spoken language, the letters of handwritten or printed language, and the gesture of signed language

3 1. PENDAHULUAN 1.1. Latar Belakang : 1. Aplikasi, [JM00] :
Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, serta interaksi menusia dengan komputer lainnya melalui suara. Murah : investasi bersifat software 2. Ciri Biometrik [Rey02] : alami, mudah diukur, tidak terlalu berubah dari waktu ke waktu atau kondisi phisik, tidak terlalu terganggu dengan adanya gangguan lingkungan, serta tidak mudah ditiru. Suara hampir memenuhi semua persyaratan biometrik tersebut 3. Permasalahan, [Cam97] : suara adalah multidimensi (linguistik, semantik, artikularis dan akustik, [Cam97]). Pemrosesan suara lebih berfokus pada analisis sinyal dengan dua subsistem yaitu ekstraksi ciri dan pengenalan pola

4 1.1. Latar Belakang 4. Permasalahan : sinyal suara dipengaruhi banyak hal, seperti dimensi artikularis pembicara, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemodelan sinyal suara merupakan hal yang menantang untuk diteliti lebih lanjut

5 1.1. Latar Belakang 1. Luasnya Bidang Terapan
2. Hampir semua syarat ciri Biometrik dipenuhi oleh Suara 3. Permasalahan : suara adalah besaran Multidimensi Linguistic dan semantik Artikulatoris Akustik dipengaruhi : artikularis, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemrosesan suara adalah hal yang menantang untuk diteliti lebih lanjut

6 1.1. Latar Belakang

7 1.1. Latar Belakang

8 1.1. Latar Belakang

9 Pada real life situation : akurasi sistem akan drop [Car95].
1.2. Motivasi A. Dari Aspek Data Suara 1. sifat sinyal suara : lebih dinamis dibanding cirri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang robust terhadap noise dan Interspeakervariability

10 Pada real life situation : akurasi sistem akan drop [Car95].
1.2. Motivasi A. Dari Aspek Data Suara 1. sifat sinyal suara : lebih dinamis dibanding ciri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang relatif lebih robust terhadap noise dan Intraspeakervariability

11 1.2. Motivasi Perbandingan bentuk sinyal asli dan yang diberi noise :
Y=speech Y+noise 20dB Noise signal dB Y+noise 10dB Noise signal dB

12 1.2. Variasi Pengucapan

13 Input Output SPB

14 2. RANAH KAJIAN PEMROSESAN SUARA

15 RECOGNITION Goal : Automatically extract information transmitted in speech signal*) Speech Signal *) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory.

16 Speech Recognition Ideal systems must be : Speaker Independence, Continuous speech, Domain independence, realistic vocabulary, robustnes Todays : continuous speech systems can achieve speaker indpendence only at the domain dependence

17 Text to Speech Recognition

18 Language identification

19 Language Translation

20 Language Translation

21 Speech Understanding

22

23 Tipe-tipe Sistem Pengenalan Suara
[Fur97] : Pengenalan Pembicara (Speaker Recognition) merupakan suatu proses yang secara otomatis mengenali siapa pembicara (who is speaking) menggunakan informasi spesific yang ada dalam sinyal suara [Gan05] : Berdasar output sistem, menurut Gancev sistem pengenalan pembicara dikategorikan menjadi dua, yaitu Multiple-class problem dan Two-class problem Speaker Recognition Multiple-class problems Two-class problems Speaker Identification Speaker Verification Speaker Clustering Speaker Tracking Speaker Segmentation/Diarization

24 SPEAKER RECOGNITION TASK, [Rey02]
Cluster 1 Cluster K Clustering ? Which cluster the speaker from ? Segmentation/diaryzation Tracking

25 Verifikasi Pembicara

26 Tracking Pembicara

27 Identifikasi Pembicara

28 Klasifikasi Pembicara

29 Segmentasi/Diaryzation

30 Pengolahan koefisien cepstral berbasis power spektrum
Sip : menentukan secara otomatis siapa pemilik dari suara yang diberikan ke dalam sistem. Pengolahan koefisien cepstral berbasis power spektrum

31 Perkembangan Riset yang Sudah Ada
Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel-Frequency Cepstrum Coefficients (MFCC) yang berbasis nilai power spektrum sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier [Rey02] : Secara umum ada 4 kelompok metode classifier : a. template matching : sistem mempunyai cetakan untuk setiap kata/pembicara, sehingga lebih sesuai untuk frase yang fixed dan kurang sesuai untuk engembangan lanjut model pengenalan suara. b. nearest neighboor : pengenalan didasarkan pada tetangga erdekat. Dalam hal ini sistem harus mempunyai memori yang besar untuk menyimpan data training. c. neural network : model yang dihasilkan seringkali tidak bersifat general, dan juga tidak dapat merepresentasikan sinyal suara secara alamiah. d. hidden markov model : sinyal suara dimodelkan secara statistik, dengan model stokastik, sehingga dapat merepresentasikan secara alamiah bagaimana suara dihasilkan. Oleh karena itu, model ini yang pertama kali dipergunakan pada sistem pengenalan pembicara yang modern,

32 Metode Pengenal Pola Studi Literatur
Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier Metode classifier yang ada dikelompokkan seperti diagram berikut, [Gan05] :

33 3. Sinyal AnalogDigitalVektor Feature
Speech : peubah acak yang terkait dengan waktu yang merupakan barisan energi yang dihasilkan dari dari aliran udara dari paru-paru melalui beberapa transisi satu konfigurasi artikularis ke konfigurasi artikularis lainnya. Frequency Frame t Amplitudo Waktu

34 Transformasi Informasi pada Pemrosesan Suara :

35 Proses Ekstraksi Ciri dengan MFCC
*)Slaney, 1998

36 Perkembangan Bidang Recognition*)
*) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory.

37

38

39

40 Teknik-Teknik Classifier

41 Hidden Markov Model (HMM)
a. HMM : proses markov stasioner orde 1 dengan nilai state tidak teramati, namun dapat diprediksi berdasar observable state yang muncul pada setiap periode waktu. Oleh karena itu mampu memodelkan perilaku temporal dari barisan outcome. b. HMM ini dapat dipakai sebagai representasi statistik bagaimana seorang pembicara menghasilkan suara Hidden state : merepresentasikan setiap konfigurasi vocal tract Transition matrix : merepresentasikan transisi dari satu konfigurasi vocal tract ke konfigurasi lainnya Nasal Cavity Velum Tongue Epiglottis Spinal cord SO : model pertama pada sistem komersial Trachea O= O1 O2 O3 OT Lung sequence Observable/ observation state

42 4.3. Hidden Markov Model (HMM)
Beberapa permasalahan dengan HMM adalah : asumsi kebebasan antar observasi asumsi kebebasan antar kemunculan state pada periode t dengan observasi sebelum periode t asumsi BAHWA OBSERVASI BERDISTRIBUSI NORMAL dari aspek teori : jika observasi berdimensi sangat besar dibanding dengan banyaknya pengamatan, maka penghitungan peluang observasi dengan menggunakan asumsi kenormalan akan terbentur pada masalah singularitas matriks covariance, sehingga kebalikan matriks tersebut tidak dapat diperoleh.

43 Gaussian HMM S2 S1 S3 µ=10, σ=2 a22=0.4 µ=8, σ=4 A= S1 S2 S3 0.2 0.4
1.00 0.3 0.1 0.6 0.5 S2 a21=0.4 a12=0.4 S1 a23=0.2 B= S2 10 ; 2 8 ; 4 S1 12; 3 S3 a32=0.1 a31=0.6 µ=12, σ=3 a11=0.1 a13=0.5 S3 a33=0.3 Π= S2 0.4 0.3 S1 S3

44 4. Studi kasus 1: MFCC power spektrum + HMM
Block diagram Identifikasi Pembicara Menggunakan HMM :

45 TERIMA KASIH


Download ppt "LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA"

Presentasi serupa


Iklan oleh Google