Upload presentasi
Presentasi sedang didownload. Silahkan tunggu
Diterbitkan olehSuharto Muljana Telah diubah "7 tahun yang lalu
1
Mengenal Ekstraksi Fitur untuk Speech Recognition
Author: Hilman F. Pardede
2
Materi ini diadaptasi dari beberapa course tentang sistem pengenalan ucapan:
3
Materi Pengenalan tentang Sistem Pengenalan Ucapan (SPU)
Model Produksi Sinyal Ucapan Manusia Representasi Sinyal Ucapan (Fitur): Mel Frequency Cepstral Coefficients (MFCC)
4
Sistem Pengenalan Ucapan (SPU)
Konversi sinyal ucapan menjadi kata. Keluaran SPU dapat digunakan sebagai Keluaran akhir: sistem diktasi Input sistem berbasis ucapan: SIRI, pengendali alat elektronik berbasis ucapan, in-car dialogue systems, voice controlled house/apartment
5
Sistem berbasis ucapan
6
Mengapa menggunakan suara?
Natural: tidak memerlukan training Fleksibel: tangan dan mata bebas bergerak Efisient: rasio data tinggi Economis: dapat ditransmisikan secara mudah dan murah Tapi Sinyal Ucapan sulit: Abstrak Tergantung konteks: βKucing makan tikus mati di dapurβ
7
SPU merupakan bidang inter-disiplin
Pengolahan sinyal: Fourier transform, filtering Akustik: Fisika dari sinyal ucapan, model dari pita suara (vocal tract) Pengenalan pola: clustering and pattern matching methods Kecerdasan buatan: knowledge representation, natural language processing Ilmu Komputer: Sistem parallel, sistem embedded, teknik optimasi Statistik: Teori probabilitas, hidden markov model Linguistics: lexical representations, semantics, syntax, grammar
8
Cara Kerja SPU (1) Dengan set dari observasi (fitur)
Menemukan kata/urutan kata πΎ = π€ 1 π€ 2 β¦ π€ π Yang memaksimumkan posterior probability πΏ= π 1 π 2 β¦ π π π· πΎ πΏ
9
Cara Kerja SPU (2) Teorema Bayes Acoustic Model Language Model
πΎ = argmax πΎ π· πΎ πΏ = π· πΏ πΎ π· πΎ Acoustic Model Language Model
10
Komponen SPU 3 masalah utama SPU
Bagaimana merepresentasikan sinyal ucapan: Fitur terbaik Bagaimana memodelkan batasan akustik: Model terbaik Bagaimana mencari sekuens terbaik: Algorithma decoding
11
Model produksi sinyal ucapan
The Source-Filter model of Speech: Produksi sinyal ucapan terdiri dari komponen: sumber (source),dan filter (pita suara dan model radiasi) Asumsi: Model pita suara β Fungsi waktu Model radiasi β Kadangkala diasumsikan sebagai fungsi waktu Sumber suara β Independent terhadap pita suara An
12
Source-Filter model of Speech
Voiced speech π π =π π β π΄ π£ π£ π βπ π Unvoiced speech π π =π’ π β π΄ π’ π£ π βπ π
13
Fitur yang baik Menghilangkan informasi yang tak diperlukan
Memiliki informasi yang cukup dan dapat membedakan setiap fonem Informasi fonem terdapat pada filter (pita suara) source dan filter perlu dipisahkan ο mengabaikan source Robust terhadap pembicara Robust terhadap derau atau distorsi kanal Memiliki karakteristik fitur yang baikβ Berdimensi rendah independent
14
Homomorphic analysis Kita ingin mengekstrak filter
convolution π π ββ π Framing Kita ingin mengekstrak filter Filter (pita suara) berisi informasi posisi artikulator pada pita suara DFT multiplication πΈ π,π π» π,π Log addition DFT log πΈ π,π +log π» π,π π π,π +π π,π
15
Mel frequency cepstral coefficient (MFCC)
βStandardβ fitur untuk SPU Spectrum Speech signals Pre-emphasis Windowing DFT |.|2 energy Derivatives DCT Log Mel Filterbank MFCC: Static feature Delta feature Delta-delta feature MFCC static
16
Pre-Emphasis Boosting energy pada frekuensi tinggi Spectral tilt
Spektrum voiced speech memiliki energi yang lebih besar pada frekuensi rendah dibandingkan pada frekuensi tinggi. Boosting energi pada frekuensi tinggi memberi informasi lebih kepada model akustik Meningkatkan akurasi fonem
17
Contoh pre-emphasis Sesudah Sebelum vokal [aa]
18
Short-Time Speech Analysis
Sinyal ucapan tidak stationary, akan tetapi teknik pengolahan sinyal yang digunakan saat ini seperti Fourier Transform mengasumsikan kondisi stationary Piecewise stationarity: Sinyal ucapan dimodelkan sebagai sekuens frame (setiap frame diasumsikan stationary) Teknik windowing digunakan untuk mengurangi spectral leakage Setiap frame overlap terhadap frame sebelumnya
19
Trade-off in window size
Lebar frame kecil: wide-band, Resolusi waktu tinggi Resolusi frekuensi rendah Lebar frame besar: narrow-band, Resolusi waktu rendah Resolusi frekuensi tinggi
20
Windowing
21
Windowing yang umum digunakan
Rectangular window: Hamming window
22
Window di domain waktu <header> <date/time> <footer>
22
23
Window di domain frekuensi
<header> <date/time> <footer> 23
24
Discrete Fourier transform
Bertujuan untuk ekstraksi informasi dari setiap frame sehingga energy untuk tiap band frekuensi diperoleh Mengurai sinyal menjadi komponen sinusioidnya DFT: Fourier transform mengasumsikan sinyal time-invariant π π = π=0 πβ1 π₯ π π βπ 2π π ππ
25
Power/magnitude spectra
DFT menghasilkan sinyal complex Fasa memiliki pengaruh kecil pada SPU. Hanya magnitude/power yang digunakan Kegunaan fasa pada SPU masih menjadi perdebatan
26
Formants Peak pada spectra mengindikasikan frekuensi dominan sinyal ucapan, disebut formants. Formats and envelope = berisi βidentitasβ dari ucapan yang terkandung pada sinyal ucapan
27
Mel-scale Persepsi manusia terhadap suara pada frekuensi berbeda berbeda-beda. Manusia lebih sensitif pada suara difrekuensi rendah dibandingkan frekuensi tinggi Mel-scale adalah skala sensitifitas pendengaran manusia.
28
<header> <date/time> Mel-scale (2) Mel scale linear pada frekuensi dibawah 1 kHz dan logarithmik pada frekuensi diatas 1 kHz <footer> 28
29
Mel Filter Bank Processing
Implementasi mel-scale dengan Filter bank
30
Mel-filter Bank Processing (2)
Mel-weighted spectrum diperoleh dengan melakukan weighted average untuk spectra di area filterbank
31
Komputasi Logarithma Fungsi: kompresi rentang dinamis dari spectrum
Persepsi tingkat kenyaringan/kekerasan suara pada manusia adalah logaritmik Manusia manusia lebih sensitif pada perubahan amplitude pada frekuensi rendah dibandingkan pada frekuensi tinggi
32
Log membuat source dan filter menjadi linear
Spectrum Log X[k] Envelope Log H[k] Spectral details Log E[k] log X[k] = log H[k] + log E[k]
33
Cepstral analysis Sinyal ucapan terdiri dari: Glottal: sumber / source
Pita suara: berperan sebagai filter yang mengandung karakteristik/parameter tertentu yang menentukan karateristik ucapan Hasil dari Log spectrum: Source dan filter telah linear Source dan filter memiliki karakteristik berbeda Mengurai log spectra menjadi komponennya. Cepstra merupakan representasi dari sinyal di domain pseudo frequency
34
DFT digunakan memisahkan source dan filter
Spectrum Sinusoid dengan 4 cycles per βdetikβ Envelope FFT Sinusoid dengan 100 cycles per βdetikβ FFT Spectral Details/ source 4 100 Pseudo frequency/que
35
Kita hanya membutuhkan informasi filter
e[k] h[k] Pseudo frequency/que h[k] diperoleh dengan mengambil daerah βfrekuensiβ rendah dari x[k]. h[k] berisi informasi the spectral envelope dan karakteristik pita suara Pada MFCC, diambil 12 cepstral coefficients
36
Keuntungan lain dari cepstra
DCT menghasilkan fitur yang uncorrelated Karena karakteristik ini, pemodelan pada HMM menjadi lebih mudah dibandingkan memodelkan spektrum dimana ada korelasi antar spectrum Pemodelan pada model akustik dengan GMM dapat menggunakan matriks diagonal dari covariancenya
37
Energi Cepstral coefficients tidak beisi informasi energy
Umumnya energi digunakan sebagai fitur tambahan pada MFCC
38
Delta dan delta-delta Sinyal ucapan tidak stationary, berubah menurut waktu. Informasi βperubahanβ ini ingin ditambahkan ke MFCC: delta Umumnya perubahan ini sampai ke turunan kedua: delta-delta
39
Delta dan delta-delta <header> <date/time> <footer>
39
40
Konfigurasi MFCC Window size: 25ms Window shift: 10ms
Pre-emphasis coefficient: 0.97 MFCC: 12 MFCC (mel frequency cepstral coefficients) 1 energi 12 delta MFCC 12 double-delta MFCC 1 delta energi 1 double-delta energi Total 39-dimensi
41
Mengapa MFCC populer? Komputasi sederhana
Mengadopsi sistem pendengaran manusia: Mel frequency scale Dapat memisahkan source dan filter Penggunaan IDFT(DCT) membuat fitur terdekolerasi Penggunaan covariance diagonal pada HMM Alternatif: PLP (perceptual linear prediction)
42
Keterbatasan MFCC Short-time processing mengabaikan long-term correlations antara komponen spektra Phonemes/words biasanya memiliki durasi lebih panjang dari 20ms Fasa diabaikan: Pentingnya fasa pada SPU masih menjadi perdebatan Komputasi Log sangat sensitif pada energi rendah Performa pada keadaan noisy sangat rendah
43
Bagaimana Menyiasati keterbatasan MFCC
Penggunaan fungsi power menggatikan log: PLP dan PNCC Menggunakan informasi long term: Penggunaan window yang panjang, wavelet transform, etc Penambahan teknik menghilangkan derau atau gema sewaktu ekstraksi fitur Penggunaan multi-microphone
44
Performa MFCC Evaluasi berbagai proses dalam extraksi fitur
Sinyal ucapan Evaluasi berbagai proses dalam extraksi fitur Komparasi 3 jenis fitur MELSPEC FBANK MFCC FFT dan | |2 Mel FB MELSPEC : Log FBANK: DCT MFCC:
45
Setup Eksperimen Menggunakan Aurora-2 corpus
Biasa dipakai untuk evaluasi metode untuk meningkatkan ketahanan SPU terhadap derau Training: Bersih Testing: sinyal suara mengandung derau: -5 β 20 db SPU: standard digit model, 18 states HMM, 3 mixture GMM per state Features: MELSPEC, FBANK, MFCC Pengaruh Delta dan delta-delta Semua fitur ditambah energi
46
Perbandingan antar fitur
47
Pengaruh delta dan delta-delta
48
Kesimpulan MFCC memiliki komputasi sederhana, memodelkan sistem pendengaran manusia, dan mampu memisahkan source dan filter dengan baik MFCC terbukti efektif untuk SPU ketika beroperasi pada kondisi βtertentuβ: Keadaan bersih, dan read speech Kelemahan MFCC: sensitif terhadap noise, mengabaikan karakteristik komplek sinyal ucapan Keterbatasan MFCC membuka banyak peluang mencari fitur yang lebih baik
49
Puslit Informatika LIPI
Terbuka untuk kolaborasi riset Information system, artificial intelligence, control, signal processing, parallel computing, data mining, etc Fasilitas High Performance Computing (HPC) Kesempatan mengembangkan metode pattern recognition yang membutuhkan komputasi tinggi Contact:
50
Seeing is believing. Listening is understanding. Sharing is inspiring.
Β© 2015 Seeing is believing. Listening is understanding. Sharing is inspiring.
Presentasi serupa
© 2024 SlidePlayer.info Inc.
All rights reserved.