Mengenal Ekstraksi Fitur untuk Speech Recognition

Mengenal Ekstraksi Fitur untuk Speech Recognition
Author: Hilman F. Pardede

Materi ini diadaptasi dari beberapa course tentang sistem pengenalan ucapan:

Materi Pengenalan tentang Sistem Pengenalan Ucapan (SPU)
Model Produksi Sinyal Ucapan Manusia Representasi Sinyal Ucapan (Fitur): Mel Frequency Cepstral Coefficients (MFCC)

Sistem Pengenalan Ucapan (SPU)
Konversi sinyal ucapan menjadi kata. Keluaran SPU dapat digunakan sebagai Keluaran akhir: sistem diktasi Input sistem berbasis ucapan: SIRI, pengendali alat elektronik berbasis ucapan, in-car dialogue systems, voice controlled house/apartment

Sistem berbasis ucapan

Mengapa menggunakan suara?
Natural: tidak memerlukan training Fleksibel: tangan dan mata bebas bergerak Efisient: rasio data tinggi Economis: dapat ditransmisikan secara mudah dan murah Tapi Sinyal Ucapan sulit: Abstrak Tergantung konteks: “Kucing makan tikus mati di dapur”

SPU merupakan bidang inter-disiplin
Pengolahan sinyal: Fourier transform, filtering Akustik: Fisika dari sinyal ucapan, model dari pita suara (vocal tract) Pengenalan pola: clustering and pattern matching methods Kecerdasan buatan: knowledge representation, natural language processing Ilmu Komputer: Sistem parallel, sistem embedded, teknik optimasi Statistik: Teori probabilitas, hidden markov model Linguistics: lexical representations, semantics, syntax, grammar

Cara Kerja SPU (1) Dengan set dari observasi (fitur)
Menemukan kata/urutan kata 𝑾 = 𝑤 1 𝑤 2 … 𝑤 𝑚 Yang memaksimumkan posterior probability 𝑿= 𝑋 1 𝑋 2 … 𝑋 𝑛 𝑷 𝑾 𝑿

Cara Kerja SPU (2) Teorema Bayes Acoustic Model Language Model
𝑾 = argmax 𝑾 𝑷 𝑾 𝑿 = 𝑷 𝑿 𝑾 𝑷 𝑾 Acoustic Model Language Model

Komponen SPU 3 masalah utama SPU
Bagaimana merepresentasikan sinyal ucapan: Fitur terbaik Bagaimana memodelkan batasan akustik: Model terbaik Bagaimana mencari sekuens terbaik: Algorithma decoding

Model produksi sinyal ucapan
The Source-Filter model of Speech: Produksi sinyal ucapan terdiri dari komponen: sumber (source),dan filter (pita suara dan model radiasi) Asumsi: Model pita suara – Fungsi waktu Model radiasi – Kadangkala diasumsikan sebagai fungsi waktu Sumber suara – Independent terhadap pita suara An

Source-Filter model of Speech
Voiced speech 𝑠 𝑛 =𝑝 𝑛 ∗ 𝐴 𝑣 𝑣 𝑛 ∗𝑟 𝑛 Unvoiced speech 𝑠 𝑛 =𝑢 𝑛 ∗ 𝐴 𝑢 𝑣 𝑛 ∗𝑟 𝑛

Fitur yang baik Menghilangkan informasi yang tak diperlukan
Memiliki informasi yang cukup dan dapat membedakan setiap fonem Informasi fonem terdapat pada filter (pita suara) source dan filter perlu dipisahkan  mengabaikan source Robust terhadap pembicara Robust terhadap derau atau distorsi kanal Memiliki karakteristik fitur yang baik” Berdimensi rendah independent

Homomorphic analysis Kita ingin mengekstrak filter
convolution 𝑒 𝑛 ∗ℎ 𝑛 Framing Kita ingin mengekstrak filter Filter (pita suara) berisi informasi posisi artikulator pada pita suara DFT multiplication 𝐸 𝑚,𝑘 𝐻 𝑚,𝑘 Log addition DFT log 𝐸 𝑚,𝑘 +log 𝐻 𝑚,𝑘 𝒆 𝑚,𝑐 +𝒉 𝑚,𝑐

Mel frequency cepstral coefficient (MFCC)
“Standard” fitur untuk SPU Spectrum Speech signals Pre-emphasis Windowing DFT |.|2 energy Derivatives DCT Log Mel Filterbank MFCC: Static feature Delta feature Delta-delta feature MFCC static

Pre-Emphasis Boosting energy pada frekuensi tinggi Spectral tilt
Spektrum voiced speech memiliki energi yang lebih besar pada frekuensi rendah dibandingkan pada frekuensi tinggi. Boosting energi pada frekuensi tinggi memberi informasi lebih kepada model akustik Meningkatkan akurasi fonem

Contoh pre-emphasis Sesudah Sebelum vokal [aa]

Short-Time Speech Analysis
Sinyal ucapan tidak stationary, akan tetapi teknik pengolahan sinyal yang digunakan saat ini seperti Fourier Transform mengasumsikan kondisi stationary Piecewise stationarity: Sinyal ucapan dimodelkan sebagai sekuens frame (setiap frame diasumsikan stationary) Teknik windowing digunakan untuk mengurangi spectral leakage Setiap frame overlap terhadap frame sebelumnya

Trade-off in window size
Lebar frame kecil: wide-band, Resolusi waktu tinggi Resolusi frekuensi rendah Lebar frame besar: narrow-band, Resolusi waktu rendah Resolusi frekuensi tinggi

Windowing

Windowing yang umum digunakan
Rectangular window: Hamming window

Window di domain waktu <header> <date/time> <footer>
22

Window di domain frekuensi
<header> <date/time> <footer> 23

Discrete Fourier transform
Bertujuan untuk ekstraksi informasi dari setiap frame sehingga energy untuk tiap band frekuensi diperoleh Mengurai sinyal menjadi komponen sinusioidnya DFT: Fourier transform mengasumsikan sinyal time-invariant 𝑋 𝑘 = 𝑛=0 𝑁−1 𝑥 𝑛 𝑒 −𝑗 2𝜋 𝑁 𝑘𝑛

Power/magnitude spectra
DFT menghasilkan sinyal complex Fasa memiliki pengaruh kecil pada SPU. Hanya magnitude/power yang digunakan Kegunaan fasa pada SPU masih menjadi perdebatan

Formants Peak pada spectra mengindikasikan frekuensi dominan sinyal ucapan, disebut formants. Formats and envelope = berisi “identitas” dari ucapan yang terkandung pada sinyal ucapan

Mel-scale Persepsi manusia terhadap suara pada frekuensi berbeda berbeda-beda. Manusia lebih sensitif pada suara difrekuensi rendah dibandingkan frekuensi tinggi Mel-scale adalah skala sensitifitas pendengaran manusia.

<header> <date/time> Mel-scale (2) Mel scale linear pada frekuensi dibawah 1 kHz dan logarithmik pada frekuensi diatas 1 kHz <footer> 28

Mel Filter Bank Processing
Implementasi mel-scale dengan Filter bank

Mel-filter Bank Processing (2)
Mel-weighted spectrum diperoleh dengan melakukan weighted average untuk spectra di area filterbank

Komputasi Logarithma Fungsi: kompresi rentang dinamis dari spectrum
Persepsi tingkat kenyaringan/kekerasan suara pada manusia adalah logaritmik Manusia manusia lebih sensitif pada perubahan amplitude pada frekuensi rendah dibandingkan pada frekuensi tinggi

Log membuat source dan filter menjadi linear
Spectrum Log X[k] Envelope Log H[k] Spectral details Log E[k] log X[k] = log H[k] + log E[k]

Cepstral analysis Sinyal ucapan terdiri dari: Glottal: sumber / source
Pita suara: berperan sebagai filter yang mengandung karakteristik/parameter tertentu yang menentukan karateristik ucapan Hasil dari Log spectrum: Source dan filter telah linear Source dan filter memiliki karakteristik berbeda Mengurai log spectra menjadi komponennya. Cepstra merupakan representasi dari sinyal di domain pseudo frequency

DFT digunakan memisahkan source dan filter
Spectrum Sinusoid dengan 4 cycles per “detik” Envelope FFT Sinusoid dengan 100 cycles per “detik” FFT Spectral Details/ source 4 100 Pseudo frequency/que

Kita hanya membutuhkan informasi filter
e[k] h[k] Pseudo frequency/que h[k] diperoleh dengan mengambil daerah “frekuensi” rendah dari x[k]. h[k] berisi informasi the spectral envelope dan karakteristik pita suara Pada MFCC, diambil 12 cepstral coefficients

Keuntungan lain dari cepstra
DCT menghasilkan fitur yang uncorrelated Karena karakteristik ini, pemodelan pada HMM menjadi lebih mudah dibandingkan memodelkan spektrum dimana ada korelasi antar spectrum Pemodelan pada model akustik dengan GMM dapat menggunakan matriks diagonal dari covariancenya

Energi Cepstral coefficients tidak beisi informasi energy
Umumnya energi digunakan sebagai fitur tambahan pada MFCC

Delta dan delta-delta Sinyal ucapan tidak stationary, berubah menurut waktu. Informasi “perubahan” ini ingin ditambahkan ke MFCC: delta Umumnya perubahan ini sampai ke turunan kedua: delta-delta

Delta dan delta-delta <header> <date/time> <footer>
39

Konfigurasi MFCC Window size: 25ms Window shift: 10ms
Pre-emphasis coefficient: 0.97 MFCC: 12 MFCC (mel frequency cepstral coefficients) 1 energi 12 delta MFCC 12 double-delta MFCC 1 delta energi 1 double-delta energi Total 39-dimensi

Mengapa MFCC populer? Komputasi sederhana
Mengadopsi sistem pendengaran manusia: Mel frequency scale Dapat memisahkan source dan filter Penggunaan IDFT(DCT) membuat fitur terdekolerasi Penggunaan covariance diagonal pada HMM Alternatif: PLP (perceptual linear prediction)

Keterbatasan MFCC Short-time processing mengabaikan long-term correlations antara komponen spektra Phonemes/words biasanya memiliki durasi lebih panjang dari 20ms Fasa diabaikan: Pentingnya fasa pada SPU masih menjadi perdebatan Komputasi Log sangat sensitif pada energi rendah Performa pada keadaan noisy sangat rendah

Bagaimana Menyiasati keterbatasan MFCC
Penggunaan fungsi power menggatikan log: PLP dan PNCC Menggunakan informasi long term: Penggunaan window yang panjang, wavelet transform, etc Penambahan teknik menghilangkan derau atau gema sewaktu ekstraksi fitur Penggunaan multi-microphone

Performa MFCC Evaluasi berbagai proses dalam extraksi fitur
Sinyal ucapan Evaluasi berbagai proses dalam extraksi fitur Komparasi 3 jenis fitur MELSPEC FBANK MFCC FFT dan | |2 Mel FB MELSPEC : Log FBANK: DCT MFCC:

Setup Eksperimen Menggunakan Aurora-2 corpus
Biasa dipakai untuk evaluasi metode untuk meningkatkan ketahanan SPU terhadap derau Training: Bersih Testing: sinyal suara mengandung derau: -5 – 20 db SPU: standard digit model, 18 states HMM, 3 mixture GMM per state Features: MELSPEC, FBANK, MFCC Pengaruh Delta dan delta-delta Semua fitur ditambah energi

Perbandingan antar fitur

Pengaruh delta dan delta-delta

Kesimpulan MFCC memiliki komputasi sederhana, memodelkan sistem pendengaran manusia, dan mampu memisahkan source dan filter dengan baik MFCC terbukti efektif untuk SPU ketika beroperasi pada kondisi “tertentu”: Keadaan bersih, dan read speech Kelemahan MFCC: sensitif terhadap noise, mengabaikan karakteristik komplek sinyal ucapan Keterbatasan MFCC membuka banyak peluang mencari fitur yang lebih baik

Puslit Informatika LIPI
Terbuka untuk kolaborasi riset Information system, artificial intelligence, control, signal processing, parallel computing, data mining, etc Fasilitas High Performance Computing (HPC) Kesempatan mengembangkan metode pattern recognition yang membutuhkan komputasi tinggi Contact:

Seeing is believing. Listening is understanding. Sharing is inspiring.
© 2015 Seeing is believing. Listening is understanding. Sharing is inspiring.

Mengenal Ekstraksi Fitur untuk Speech Recognition

Presentasi serupa

Presentasi berjudul: "Mengenal Ekstraksi Fitur untuk Speech Recognition"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Mengenal Ekstraksi Fitur untuk Speech Recognition

Presentasi serupa

Presentasi berjudul: "Mengenal Ekstraksi Fitur untuk Speech Recognition"— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan