Mengenal Ekstraksi Fitur untuk Speech Recognition

Slides:



Advertisements
Presentasi serupa
Peserta mengerti tahap-tahap pada ADC
Advertisements

KIMIA UNSUR-UNSUR TRANSISI
PERTEMUAN 3 Algoritma & Pemrograman
Penyelidikan Operasi 1. Konsep Optimisasi.
KEBIJAKAN PEMERINTAH PROVINSI JAWA TIMUR
Penyusunan Data Baseline dan Perhitungan Capaian Kegiatan Peningkatan Kualitas Permukiman Kumuh Perkotaan DIREKTORAT PENGEMBANGAN KAWASAN PERMUKIMAN DIREKTORAT.
BALTHAZAR KREUTA, SE, M.SI
PENGEMBANGAN KARIR DOSEN Disarikan dari berbagai sumber oleh:
Identitas, persamaan dan pertidaksamaan trigonometri
ANGGOTA KELOMPOK WISNU WIDHU ( ) WILDAN ANUGERAH ( )
METODE PENDUGAAN ALTERNATIF
Dosen Pengampu: Muhammad Zidny Naf’an, M.Kom
GERAK SUGIYO, SPd.M.Kom.
Uji Hipotesis Luthfina Ariyani.
SOSIALISASI PEKAN IMUNISASI NASIONAL (PIN) POLIO 2016
PENGEMBANGAN BUTIR SOAL
Uji mana yang terbaik?.
Analisis Regresi linear berganda
PEERSIAPAN DAN PENERAPAN ISO/IEC 17025:2005 OLEH: YAYAN SETIAWAN
E Penilaian Proses dan Hasil Belajar
b. Kematian (mortalitas)
Ilmu Komputasi BAGUS ADHI KUSUMA
Uji Hipotesis dengan SPSS
OVERVIEW PERUBAHAN PSAK EFFEKTIF 2015
Pengolahan Citra Berwarna
Teori Produksi & Teori Biaya Produksi
Pembangunan Ekonomi dan Pertumbuhan Ekonomi
PERSIAPAN UN MATEMATIKA
Kriptografi.
1 Bab Pembangunan Ekonomi dan Pertumbuhan Ekonomi.
Ekonomi untuk SMA/MA kelas XI Oleh: Alam S..
ANALISIS PENDAPATAN NASIONAL DALAM PEREKONOMIAN TIGA SEKTOR
Dosen: Atina Ahdika, S.Si., M.Si.
Anggaran biaya konversi
Junaidi Fakultas Ekonomi dan Bisnis Universitas Jambi
Pemodelan dan Analisis
Bab 4 Multivibrator By : M. Ramdhani.
Analisis Regresi – (Lanjutan)
Perkembangan teknologi masa kini dalam kaitannya dengan logika fazi
DISTRIBUSI PELUANG KONTINU
FETAL PHASE Embryolgy II
Yusuf Enril Fathurrohman
3D Viewing & Projection.
Sampling Pekerjaan.
Gerbang Logika Dwi Indra Oktoviandy (A )
SUGIYO Fisika II UDINUS 2014
D10K-6C01 Pengolahan Citra PCD-04 Algoritma Pengolahan Citra 1
Perpajakan di Indonesia
Bab 2 Kinerja Perusahaan dan Analisis Laporan Keuangan
Penyusunan Anggaran Bahan Baku
MOMENTUM, IMPULS, HUKUM KEKEKALAN MOMENTUM DAN TUMBUKAN
Theory of Computation 3. Math Fundamental 2: Graph, String, Logic
Strategi Tata Letak.
Theory of Computation 2. Math Fundamental 1: Set, Sequence, Function
METODE PENELITIAN.
(Skewness dan kurtosis)
Departemen Teknik Mesin dan Biosistem INSTITUT PERTANIAN BOGOR
Dasar-dasar piranti photonik
Klasifikasi Dokumen Teks Berbahasa Indonesia
Mekflu_1 Rangkaian Pipa.
Digital to Analog Conversion dan Rekonstruksi Sinyal Tujuan Belajar 1
SEKSI NERACA WILAYAH DAN ANALISIS BPS KABUPATEN TEMANGGUNG
ASPEK KEPEGAWAIAN DALAM PENILAIAN ANGKA KREDIT
RANGKAIAN DIODA TK2092 Elektronika Dasar Semester Ganjil 2015/2016
Ruang Euclides dan Ruang Vektor 1.
Bab Anuitas Aritmetrik dan Geometrik
Penyelidikan Operasi Pemrograman Dinamik Deterministik.
Kesetimbangan Fase dalam sistem sederhana (Aturan fase)
ANALISIS STRUKTUR MODAL
Transcript presentasi:

Mengenal Ekstraksi Fitur untuk Speech Recognition Author: Hilman F. Pardede 2015.12.09

Materi ini diadaptasi dari beberapa course tentang sistem pengenalan ucapan: http://ocw.mit.edu/courses/electrical-engineering-and-computer-science/6-345-automatic-speech-recognition-spring-2003/lecture-notes/ https://www.inf.ed.ac.uk/teaching/courses/asr/ http://www.cs.nyu.edu/~eugenew/asr13/

Materi Pengenalan tentang Sistem Pengenalan Ucapan (SPU) Model Produksi Sinyal Ucapan Manusia Representasi Sinyal Ucapan (Fitur): Mel Frequency Cepstral Coefficients (MFCC)

Sistem Pengenalan Ucapan (SPU) Konversi sinyal ucapan menjadi kata. Keluaran SPU dapat digunakan sebagai Keluaran akhir: sistem diktasi Input sistem berbasis ucapan: SIRI, pengendali alat elektronik berbasis ucapan, in-car dialogue systems, voice controlled house/apartment

Sistem berbasis ucapan

Mengapa menggunakan suara? Natural: tidak memerlukan training Fleksibel: tangan dan mata bebas bergerak Efisient: rasio data tinggi Economis: dapat ditransmisikan secara mudah dan murah Tapi Sinyal Ucapan sulit: Abstrak Tergantung konteks: “Kucing makan tikus mati di dapur”

SPU merupakan bidang inter-disiplin Pengolahan sinyal: Fourier transform, filtering Akustik: Fisika dari sinyal ucapan, model dari pita suara (vocal tract) Pengenalan pola: clustering and pattern matching methods Kecerdasan buatan: knowledge representation, natural language processing Ilmu Komputer: Sistem parallel, sistem embedded, teknik optimasi Statistik: Teori probabilitas, hidden markov model Linguistics: lexical representations, semantics, syntax, grammar

Cara Kerja SPU (1) Dengan set dari observasi (fitur) Menemukan kata/urutan kata 𝑾 = 𝑤 1 𝑤 2 … 𝑤 𝑚 Yang memaksimumkan posterior probability 𝑿= 𝑋 1 𝑋 2 … 𝑋 𝑛 𝑷 𝑾 𝑿

Cara Kerja SPU (2) Teorema Bayes Acoustic Model Language Model 𝑾 = argmax 𝑾 𝑷 𝑾 𝑿 = 𝑷 𝑿 𝑾 𝑷 𝑾 Acoustic Model Language Model

Komponen SPU 3 masalah utama SPU Bagaimana merepresentasikan sinyal ucapan: Fitur terbaik Bagaimana memodelkan batasan akustik: Model terbaik Bagaimana mencari sekuens terbaik: Algorithma decoding

Model produksi sinyal ucapan The Source-Filter model of Speech: Produksi sinyal ucapan terdiri dari komponen: sumber (source),dan filter (pita suara dan model radiasi) Asumsi: Model pita suara – Fungsi waktu Model radiasi – Kadangkala diasumsikan sebagai fungsi waktu Sumber suara – Independent terhadap pita suara An

Source-Filter model of Speech Voiced speech 𝑠 𝑛 =𝑝 𝑛 ∗ 𝐴 𝑣 𝑣 𝑛 ∗𝑟 𝑛 Unvoiced speech 𝑠 𝑛 =𝑢 𝑛 ∗ 𝐴 𝑢 𝑣 𝑛 ∗𝑟 𝑛

Fitur yang baik Menghilangkan informasi yang tak diperlukan Memiliki informasi yang cukup dan dapat membedakan setiap fonem Informasi fonem terdapat pada filter (pita suara) source dan filter perlu dipisahkan  mengabaikan source Robust terhadap pembicara Robust terhadap derau atau distorsi kanal Memiliki karakteristik fitur yang baik” Berdimensi rendah independent

Homomorphic analysis Kita ingin mengekstrak filter convolution 𝑒 𝑛 ∗ℎ 𝑛 Framing Kita ingin mengekstrak filter Filter (pita suara) berisi informasi posisi artikulator pada pita suara DFT multiplication 𝐸 𝑚,𝑘 𝐻 𝑚,𝑘 Log addition DFT log 𝐸 𝑚,𝑘 +log 𝐻 𝑚,𝑘 𝒆 𝑚,𝑐 +𝒉 𝑚,𝑐

Mel frequency cepstral coefficient (MFCC) “Standard” fitur untuk SPU Spectrum Speech signals Pre-emphasis Windowing DFT |.|2 energy Derivatives DCT Log Mel Filterbank MFCC: Static feature Delta feature Delta-delta feature MFCC static

Pre-Emphasis Boosting energy pada frekuensi tinggi Spectral tilt Spektrum voiced speech memiliki energi yang lebih besar pada frekuensi rendah dibandingkan pada frekuensi tinggi. Boosting energi pada frekuensi tinggi memberi informasi lebih kepada model akustik Meningkatkan akurasi fonem

Contoh pre-emphasis Sesudah Sebelum vokal [aa]

Short-Time Speech Analysis Sinyal ucapan tidak stationary, akan tetapi teknik pengolahan sinyal yang digunakan saat ini seperti Fourier Transform mengasumsikan kondisi stationary Piecewise stationarity: Sinyal ucapan dimodelkan sebagai sekuens frame (setiap frame diasumsikan stationary) Teknik windowing digunakan untuk mengurangi spectral leakage Setiap frame overlap terhadap frame sebelumnya

Trade-off in window size Lebar frame kecil: wide-band, Resolusi waktu tinggi Resolusi frekuensi rendah Lebar frame besar: narrow-band, Resolusi waktu rendah Resolusi frekuensi tinggi

Windowing

Windowing yang umum digunakan Rectangular window: Hamming window

Window di domain waktu <header> <date/time> <footer> 22

Window di domain frekuensi <header> <date/time> <footer> 23

Discrete Fourier transform Bertujuan untuk ekstraksi informasi dari setiap frame sehingga energy untuk tiap band frekuensi diperoleh Mengurai sinyal menjadi komponen sinusioidnya DFT: Fourier transform mengasumsikan sinyal time-invariant 𝑋 𝑘 = 𝑛=0 𝑁−1 𝑥 𝑛 𝑒 −𝑗 2𝜋 𝑁 𝑘𝑛

Power/magnitude spectra DFT menghasilkan sinyal complex Fasa memiliki pengaruh kecil pada SPU. Hanya magnitude/power yang digunakan Kegunaan fasa pada SPU masih menjadi perdebatan

Formants Peak pada spectra mengindikasikan frekuensi dominan sinyal ucapan, disebut formants. Formats and envelope = berisi “identitas” dari ucapan yang terkandung pada sinyal ucapan

Mel-scale Persepsi manusia terhadap suara pada frekuensi berbeda berbeda-beda. Manusia lebih sensitif pada suara difrekuensi rendah dibandingkan frekuensi tinggi Mel-scale adalah skala sensitifitas pendengaran manusia.

<header> <date/time> Mel-scale (2) Mel scale linear pada frekuensi dibawah 1 kHz dan logarithmik pada frekuensi diatas 1 kHz <footer> 28

Mel Filter Bank Processing Implementasi mel-scale dengan Filter bank

Mel-filter Bank Processing (2) Mel-weighted spectrum diperoleh dengan melakukan weighted average untuk spectra di area filterbank

Komputasi Logarithma Fungsi: kompresi rentang dinamis dari spectrum Persepsi tingkat kenyaringan/kekerasan suara pada manusia adalah logaritmik Manusia manusia lebih sensitif pada perubahan amplitude pada frekuensi rendah dibandingkan pada frekuensi tinggi

Log membuat source dan filter menjadi linear Spectrum Log X[k] Envelope Log H[k] Spectral details Log E[k] log X[k] = log H[k] + log E[k]

Cepstral analysis Sinyal ucapan terdiri dari: Glottal: sumber / source Pita suara: berperan sebagai filter yang mengandung karakteristik/parameter tertentu yang menentukan karateristik ucapan Hasil dari Log spectrum: Source dan filter telah linear Source dan filter memiliki karakteristik berbeda Mengurai log spectra menjadi komponennya. Cepstra merupakan representasi dari sinyal di domain pseudo frequency

DFT digunakan memisahkan source dan filter Spectrum Sinusoid dengan 4 cycles per “detik” Envelope FFT Sinusoid dengan 100 cycles per “detik” FFT Spectral Details/ source 4 100 Pseudo frequency/que

Kita hanya membutuhkan informasi filter e[k] h[k] Pseudo frequency/que h[k] diperoleh dengan mengambil daerah “frekuensi” rendah dari x[k]. h[k] berisi informasi the spectral envelope dan karakteristik pita suara Pada MFCC, diambil 12 cepstral coefficients

Keuntungan lain dari cepstra DCT menghasilkan fitur yang uncorrelated Karena karakteristik ini, pemodelan pada HMM menjadi lebih mudah dibandingkan memodelkan spektrum dimana ada korelasi antar spectrum Pemodelan pada model akustik dengan GMM dapat menggunakan matriks diagonal dari covariancenya

Energi Cepstral coefficients tidak beisi informasi energy Umumnya energi digunakan sebagai fitur tambahan pada MFCC

Delta dan delta-delta Sinyal ucapan tidak stationary, berubah menurut waktu. Informasi “perubahan” ini ingin ditambahkan ke MFCC: delta Umumnya perubahan ini sampai ke turunan kedua: delta-delta

Delta dan delta-delta <header> <date/time> <footer> 39

Konfigurasi MFCC Window size: 25ms Window shift: 10ms Pre-emphasis coefficient: 0.97 MFCC: 12 MFCC (mel frequency cepstral coefficients) 1 energi 12 delta MFCC 12 double-delta MFCC 1 delta energi 1 double-delta energi Total 39-dimensi

Mengapa MFCC populer? Komputasi sederhana Mengadopsi sistem pendengaran manusia: Mel frequency scale Dapat memisahkan source dan filter Penggunaan IDFT(DCT) membuat fitur terdekolerasi Penggunaan covariance diagonal pada HMM Alternatif: PLP (perceptual linear prediction)

Keterbatasan MFCC Short-time processing mengabaikan long-term correlations antara komponen spektra Phonemes/words biasanya memiliki durasi lebih panjang dari 20ms Fasa diabaikan: Pentingnya fasa pada SPU masih menjadi perdebatan Komputasi Log sangat sensitif pada energi rendah Performa pada keadaan noisy sangat rendah

Bagaimana Menyiasati keterbatasan MFCC Penggunaan fungsi power menggatikan log: PLP dan PNCC Menggunakan informasi long term: Penggunaan window yang panjang, wavelet transform, etc Penambahan teknik menghilangkan derau atau gema sewaktu ekstraksi fitur Penggunaan multi-microphone

Performa MFCC Evaluasi berbagai proses dalam extraksi fitur Sinyal ucapan Evaluasi berbagai proses dalam extraksi fitur Komparasi 3 jenis fitur MELSPEC FBANK MFCC FFT dan | |2 Mel FB MELSPEC : 24+24+24 Log FBANK: 24+24+24 DCT MFCC: 13+13+13

Setup Eksperimen Menggunakan Aurora-2 corpus Biasa dipakai untuk evaluasi metode untuk meningkatkan ketahanan SPU terhadap derau Training: Bersih Testing: sinyal suara mengandung derau: -5 – 20 db SPU: standard digit model, 18 states HMM, 3 mixture GMM per state Features: MELSPEC, FBANK, MFCC Pengaruh Delta dan delta-delta Semua fitur ditambah energi

Perbandingan antar fitur

Pengaruh delta dan delta-delta

Kesimpulan MFCC memiliki komputasi sederhana, memodelkan sistem pendengaran manusia, dan mampu memisahkan source dan filter dengan baik MFCC terbukti efektif untuk SPU ketika beroperasi pada kondisi “tertentu”: Keadaan bersih, dan read speech Kelemahan MFCC: sensitif terhadap noise, mengabaikan karakteristik komplek sinyal ucapan Keterbatasan MFCC membuka banyak peluang mencari fitur yang lebih baik

Puslit Informatika LIPI Terbuka untuk kolaborasi riset Information system, artificial intelligence, control, signal processing, parallel computing, data mining, etc Fasilitas High Performance Computing (HPC) Kesempatan mengembangkan metode pattern recognition yang membutuhkan komputasi tinggi Contact: hilman.fp@gmail.com hilm001@lipi.go.id hilman.f.p@ieee.org

Seeing is believing. Listening is understanding. Sharing is inspiring. © 2015 Seeing is believing. Listening is understanding. Sharing is inspiring.