Mengenal Ekstraksi Fitur untuk Speech Recognition Author: Hilman F. Pardede 2015.12.09
Materi ini diadaptasi dari beberapa course tentang sistem pengenalan ucapan: http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/lecture-notes/ https://www.inf.ed.ac.uk/teaching/courses/asr/ http://www.cs.nyu.edu/~eugenew/asr13/
Materi Pengenalan tentang Sistem Pengenalan Ucapan (SPU) Model Produksi Sinyal Ucapan Manusia Representasi Sinyal Ucapan (Fitur): Mel Frequency Cepstral Coefficients (MFCC)
Sistem Pengenalan Ucapan (SPU) Konversi sinyal ucapan menjadi kata. Keluaran SPU dapat digunakan sebagai Keluaran akhir: sistem diktasi Input sistem berbasis ucapan: SIRI, pengendali alat elektronik berbasis ucapan, in-car dialogue systems, voice controlled house/apartment
Sistem berbasis ucapan
Mengapa menggunakan suara? Natural: tidak memerlukan training Fleksibel: tangan dan mata bebas bergerak Efisient: rasio data tinggi Economis: dapat ditransmisikan secara mudah dan murah Tapi Sinyal Ucapan sulit: Abstrak Tergantung konteks: “Kucing makan tikus mati di dapur”
SPU merupakan bidang inter-disiplin Pengolahan sinyal: Fourier transform, filtering Akustik: Fisika dari sinyal ucapan, model dari pita suara (vocal tract) Pengenalan pola: clustering and pattern matching methods Kecerdasan buatan: knowledge representation, natural language processing Ilmu Komputer: Sistem parallel, sistem embedded, teknik optimasi Statistik: Teori probabilitas, hidden markov model Linguistics: lexical representations, semantics, syntax, grammar
Cara Kerja SPU (1) Dengan set dari observasi (fitur) Menemukan kata/urutan kata 𝑾 = 𝑤 1 𝑤 2 … 𝑤 𝑚 Yang memaksimumkan posterior probability 𝑿= 𝑋 1 𝑋 2 … 𝑋 𝑛 𝑷 𝑾 𝑿
Cara Kerja SPU (2) Teorema Bayes Acoustic Model Language Model 𝑾 = argmax 𝑾 𝑷 𝑾 𝑿 = 𝑷 𝑿 𝑾 𝑷 𝑾 Acoustic Model Language Model
Komponen SPU 3 masalah utama SPU Bagaimana merepresentasikan sinyal ucapan: Fitur terbaik Bagaimana memodelkan batasan akustik: Model terbaik Bagaimana mencari sekuens terbaik: Algorithma decoding
Model produksi sinyal ucapan The Source-Filter model of Speech: Produksi sinyal ucapan terdiri dari komponen: sumber (source),dan filter (pita suara dan model radiasi) Asumsi: Model pita suara – Fungsi waktu Model radiasi – Kadangkala diasumsikan sebagai fungsi waktu Sumber suara – Independent terhadap pita suara An
Source-Filter model of Speech Voiced speech 𝑠 𝑛 =𝑝 𝑛 ∗ 𝐴 𝑣 𝑣 𝑛 ∗𝑟 𝑛 Unvoiced speech 𝑠 𝑛 =𝑢 𝑛 ∗ 𝐴 𝑢 𝑣 𝑛 ∗𝑟 𝑛
Fitur yang baik Menghilangkan informasi yang tak diperlukan Memiliki informasi yang cukup dan dapat membedakan setiap fonem Informasi fonem terdapat pada filter (pita suara) source dan filter perlu dipisahkan mengabaikan source Robust terhadap pembicara Robust terhadap derau atau distorsi kanal Memiliki karakteristik fitur yang baik” Berdimensi rendah independent
Homomorphic analysis Kita ingin mengekstrak filter convolution 𝑒 𝑛 ∗ℎ 𝑛 Framing Kita ingin mengekstrak filter Filter (pita suara) berisi informasi posisi artikulator pada pita suara DFT multiplication 𝐸 𝑚,𝑘 𝐻 𝑚,𝑘 Log addition DFT log 𝐸 𝑚,𝑘 +log 𝐻 𝑚,𝑘 𝒆 𝑚,𝑐 +𝒉 𝑚,𝑐
Mel frequency cepstral coefficient (MFCC) “Standard” fitur untuk SPU Spectrum Speech signals Pre-emphasis Windowing DFT |.|2 energy Derivatives DCT Log Mel Filterbank MFCC: Static feature Delta feature Delta-delta feature MFCC static
Pre-Emphasis Boosting energy pada frekuensi tinggi Spectral tilt Spektrum voiced speech memiliki energi yang lebih besar pada frekuensi rendah dibandingkan pada frekuensi tinggi. Boosting energi pada frekuensi tinggi memberi informasi lebih kepada model akustik Meningkatkan akurasi fonem
Contoh pre-emphasis Sesudah Sebelum vokal [aa]
Short-Time Speech Analysis Sinyal ucapan tidak stationary, akan tetapi teknik pengolahan sinyal yang digunakan saat ini seperti Fourier Transform mengasumsikan kondisi stationary Piecewise stationarity: Sinyal ucapan dimodelkan sebagai sekuens frame (setiap frame diasumsikan stationary) Teknik windowing digunakan untuk mengurangi spectral leakage Setiap frame overlap terhadap frame sebelumnya
Trade-off in window size Lebar frame kecil: wide-band, Resolusi waktu tinggi Resolusi frekuensi rendah Lebar frame besar: narrow-band, Resolusi waktu rendah Resolusi frekuensi tinggi
Windowing
Windowing yang umum digunakan Rectangular window: Hamming window
Window di domain waktu <header> <date/time> <footer> 22
Window di domain frekuensi <header> <date/time> <footer> 23
Discrete Fourier transform Bertujuan untuk ekstraksi informasi dari setiap frame sehingga energy untuk tiap band frekuensi diperoleh Mengurai sinyal menjadi komponen sinusioidnya DFT: Fourier transform mengasumsikan sinyal time-invariant 𝑋 𝑘 = 𝑛=0 𝑁−1 𝑥 𝑛 𝑒 −𝑗 2𝜋 𝑁 𝑘𝑛
Power/magnitude spectra DFT menghasilkan sinyal complex Fasa memiliki pengaruh kecil pada SPU. Hanya magnitude/power yang digunakan Kegunaan fasa pada SPU masih menjadi perdebatan
Formants Peak pada spectra mengindikasikan frekuensi dominan sinyal ucapan, disebut formants. Formats and envelope = berisi “identitas” dari ucapan yang terkandung pada sinyal ucapan
Mel-scale Persepsi manusia terhadap suara pada frekuensi berbeda berbeda-beda. Manusia lebih sensitif pada suara difrekuensi rendah dibandingkan frekuensi tinggi Mel-scale adalah skala sensitifitas pendengaran manusia.
<header> <date/time> Mel-scale (2) Mel scale linear pada frekuensi dibawah 1 kHz dan logarithmik pada frekuensi diatas 1 kHz <footer> 28
Mel Filter Bank Processing Implementasi mel-scale dengan Filter bank
Mel-filter Bank Processing (2) Mel-weighted spectrum diperoleh dengan melakukan weighted average untuk spectra di area filterbank
Komputasi Logarithma Fungsi: kompresi rentang dinamis dari spectrum Persepsi tingkat kenyaringan/kekerasan suara pada manusia adalah logaritmik Manusia manusia lebih sensitif pada perubahan amplitude pada frekuensi rendah dibandingkan pada frekuensi tinggi
Log membuat source dan filter menjadi linear Spectrum Log X[k] Envelope Log H[k] Spectral details Log E[k] log X[k] = log H[k] + log E[k]
Cepstral analysis Sinyal ucapan terdiri dari: Glottal: sumber / source Pita suara: berperan sebagai filter yang mengandung karakteristik/parameter tertentu yang menentukan karateristik ucapan Hasil dari Log spectrum: Source dan filter telah linear Source dan filter memiliki karakteristik berbeda Mengurai log spectra menjadi komponennya. Cepstra merupakan representasi dari sinyal di domain pseudo frequency
DFT digunakan memisahkan source dan filter Spectrum Sinusoid dengan 4 cycles per “detik” Envelope FFT Sinusoid dengan 100 cycles per “detik” FFT Spectral Details/ source 4 100 Pseudo frequency/que
Kita hanya membutuhkan informasi filter e[k] h[k] Pseudo frequency/que h[k] diperoleh dengan mengambil daerah “frekuensi” rendah dari x[k]. h[k] berisi informasi the spectral envelope dan karakteristik pita suara Pada MFCC, diambil 12 cepstral coefficients
Keuntungan lain dari cepstra DCT menghasilkan fitur yang uncorrelated Karena karakteristik ini, pemodelan pada HMM menjadi lebih mudah dibandingkan memodelkan spektrum dimana ada korelasi antar spectrum Pemodelan pada model akustik dengan GMM dapat menggunakan matriks diagonal dari covariancenya
Energi Cepstral coefficients tidak beisi informasi energy Umumnya energi digunakan sebagai fitur tambahan pada MFCC
Delta dan delta-delta Sinyal ucapan tidak stationary, berubah menurut waktu. Informasi “perubahan” ini ingin ditambahkan ke MFCC: delta Umumnya perubahan ini sampai ke turunan kedua: delta-delta
Delta dan delta-delta <header> <date/time> <footer> 39
Konfigurasi MFCC Window size: 25ms Window shift: 10ms Pre-emphasis coefficient: 0.97 MFCC: 12 MFCC (mel frequency cepstral coefficients) 1 energi 12 delta MFCC 12 double-delta MFCC 1 delta energi 1 double-delta energi Total 39-dimensi
Mengapa MFCC populer? Komputasi sederhana Mengadopsi sistem pendengaran manusia: Mel frequency scale Dapat memisahkan source dan filter Penggunaan IDFT(DCT) membuat fitur terdekolerasi Penggunaan covariance diagonal pada HMM Alternatif: PLP (perceptual linear prediction)
Keterbatasan MFCC Short-time processing mengabaikan long-term correlations antara komponen spektra Phonemes/words biasanya memiliki durasi lebih panjang dari 20ms Fasa diabaikan: Pentingnya fasa pada SPU masih menjadi perdebatan Komputasi Log sangat sensitif pada energi rendah Performa pada keadaan noisy sangat rendah
Bagaimana Menyiasati keterbatasan MFCC Penggunaan fungsi power menggatikan log: PLP dan PNCC Menggunakan informasi long term: Penggunaan window yang panjang, wavelet transform, etc Penambahan teknik menghilangkan derau atau gema sewaktu ekstraksi fitur Penggunaan multi-microphone
Performa MFCC Evaluasi berbagai proses dalam extraksi fitur Sinyal ucapan Evaluasi berbagai proses dalam extraksi fitur Komparasi 3 jenis fitur MELSPEC FBANK MFCC FFT dan | |2 Mel FB MELSPEC : 24+24+24 Log FBANK: 24+24+24 DCT MFCC: 13+13+13
Setup Eksperimen Menggunakan Aurora-2 corpus Biasa dipakai untuk evaluasi metode untuk meningkatkan ketahanan SPU terhadap derau Training: Bersih Testing: sinyal suara mengandung derau: -5 – 20 db SPU: standard digit model, 18 states HMM, 3 mixture GMM per state Features: MELSPEC, FBANK, MFCC Pengaruh Delta dan delta-delta Semua fitur ditambah energi
Perbandingan antar fitur
Pengaruh delta dan delta-delta
Kesimpulan MFCC memiliki komputasi sederhana, memodelkan sistem pendengaran manusia, dan mampu memisahkan source dan filter dengan baik MFCC terbukti efektif untuk SPU ketika beroperasi pada kondisi “tertentu”: Keadaan bersih, dan read speech Kelemahan MFCC: sensitif terhadap noise, mengabaikan karakteristik komplek sinyal ucapan Keterbatasan MFCC membuka banyak peluang mencari fitur yang lebih baik
Puslit Informatika LIPI Terbuka untuk kolaborasi riset Information system, artificial intelligence, control, signal processing, parallel computing, data mining, etc Fasilitas High Performance Computing (HPC) Kesempatan mengembangkan metode pattern recognition yang membutuhkan komputasi tinggi Contact: hilman.fp@gmail.com hilm001@lipi.go.id hilman.f.p@ieee.org
Seeing is believing. Listening is understanding. Sharing is inspiring. © 2015 Seeing is believing. Listening is understanding. Sharing is inspiring.