Disampaikan oleh: Dr. R. Rizal Isnanto, S.T., M.M., M.T.

Vokal, Diftong, Konsonan Nasal, Konsonan Frikatif, dan Komponen Stop (Pertemuan ke-4)
Disampaikan oleh: Dr. R. Rizal Isnanto, S.T., M.M., M.T. Program Studi Sistem Komputer Universitas Diponegoro

1. VOKAL Sinyal ucapan vokal memiliki bentuk kuasi periodik seperti terlihat pada Gambar 4.1. Setiap vokal mempunyai komponen frekuensi tertentu yang membedakan karakter satu fonem vokal dengan fonem vokal lainnya, seperti terlihat pada spektogram Gambar 4.2. Fonem vokal Bahasa Inggris mencakup fonem-fonem /IY/, /IH/, /EH/, /AE/, /AA/, /ER/, /AH/, /AX/, /AO/, /UW/, /UH/, dan /OW/. Dalam Bahasa Indonesia: vokal dasar: a, i, u, e, o; Vokal gabungan  diftong: au, ai, oi. Penelitian untuk mengidentifikasikan karakteristik fonem- fonem vokal Bahasa Indonesia pernah dilakukan dan dipublikasikan oleh Arry Akhmad Arman pada tahun 1999 [Arm99].

Gambar 4.1 Bentuk Sinyal Ucapan Vokal Bahasa Inggris

Gambar 4.2 Spektogram Sinyal Ucapan Vokal Bahasa Inggris

4.2 DIFTONG Diftong pada prinsipnya adalah dua fonem vokal yang berurutan dan diucapkan tanpa jeda. Fonem diftong Bahasa Inggris mencakup /AY/, /OY/, /AW/, dan /EY/. Karakteristik diftong mirip dengan karakteristik fonem-fonem vokal pembentuknya disertasi bentuk transisinya. Dalam Bahasa Indonesia, dikenal diftong- diftong: /ai/ pantai; /oi/  amboi; /au/  lampau; /ei/ eit!, sein (tidak baku)

Gambar 4.3 Spektogram Sinyal Ucapan Diftong Bahasa Inggris

4.3 Konsonan Nasal Konsonan nasal dibangkitkan dengan eksitasi glotal dan vocal tract mengerut total pada beberapa titik tertentu sepanjang lintasan pengucapan. Bagian belakang langit-langit merendah, sehingga udara mengalir melalui nasal tract dengan suara yang dipancarkan melalui lubang hidung. Konsonan nasal Bahasa Inggris adalah /M/, /N/, dan /NX/ = ‘ng’. Contoh bentuk sinyal ucapan serta spektogramnya dapat dilihat pada Gambar 4.4.

Gambar 4.4 Contoh Sinyal dan Spektogram Konsonan Nasal Bahasa Inggris

4.4 Konsonan Frikatif Konsonen frikatif pada prinsipnya dapat dibedakan menjadi frikatif unvoiced serta voiced. Fonem Bahasa Inggris yang termasuk frikatif unvoiced adalah /F/, /TH/, /S/, dan /SH/, sedangkan yang termasuk frikatif voiced adalah /V/, /Z/, = ‘zoo’ dan /ZH/ = ‘azure’. Frikatif unvoiced dibentuk dengan suatu eksitasi terhadap vocal tract dengan suatu aliran udara yang tetap, sehingga menyebabkan turbulensi di daerah yang mengkerut dalam vocal tract. Frikatif voiced agak berbeda dengan frikatif unvoiced. Pada frikatif voiced, suara dihasilkan oleh dua sumber eksitasi. Sumber eksitasi lainnya adalah glotis.

Gambar 4.5 Contoh Sinyal dan Spektogram Konsonan Frikatif Bahasa Inggris

4.5 Konsonan Stop Seperti konsonan frikatif, konsonen stop dapat dibedakan menjadi konsonan stop unvoiced serta voiced. Pada Unvoiced, pita suara dalam keadaan lemas, aliran udara akan melalui daerah yang sempit pada vocal tract dan menyebabkan terjadinya turbulensi. Konsonan stop memiliki bentuk yang berbeda dengan konsonan-konsonan lainnya. Konsonan ini memperlihatkan pola transient dan tidak kontinu. Konsonan ini dibentuk dengan cara memberikan tekanan pada kondisi pengerutan total di bagian rongga mulut tertentu, dan segera diikuti dengan pelemasan. Untuk fonem /B/ pengerutan terjadi di bibir, Untuk fonem /D/ pengerutan terjadi di belakang gigi depan, Sedangkan untuk fonem /G/ pengerutan terjadi di sekitar bagian belakang langit-langit. Selama periode total pengerutan terjadi, tidak ada suara yang dikeluarkan dari mulut, sehingga fonem ini selalu mengandung bagian yang menyerupai silence. Fonem Bahasa Inggris yang termasuk konsonan stop unvoiced adalah /P/, /T/, dan /K/, sedangkan yang termasuk konsonan stop voiced adalah /B/, /D/, dan /G/.

Gambar 4.6 Contoh Sinyal dan Spektogram Konsonan Stop Bahasa Inggris

PENUTUP Ada pertanyaan? Terima kasih

BIOMETRIKA SUARA (matakuliah Speech Recognition)
By R Rizal Isnanto

DASAR-DASAR (1) Metode pengenalan suara mulai dikembangkan oleh Lawrence Kersta pada Bell Labs tahun an. Suara manusia dihasilkan dari kombinasi antara pita suara, gigi, lidah, bibir, cara berbicara, dsb  menghasilkan suara yg unik Diagram suara yg unik  disebut “voiceprint” Voice scanner  mesin pemindai suara yg mampu membedakan suara manusia, sementara telinga sering tidak mampu

DASAR-DASAR (2) 5. Metode yg digunakan pada alat pemindai suara adalah: Voice recognition system  metode mengenali seseorang berdasarkan suaranya 6. Biometrika suara termasuk dalam biometrika perilaku (behavioral biometrics). 7. Voice recognition = speaker recognition = pengenalan pengucap = talker recognition speech recognition

DASAR-DASAR (3) 8. Dalam pengenalan pengucap, terdapat 2 tingkat informasi. a. Informasi tingkat tinggi: dialek, aksen, cara berbicara, dan tingkah laku berbicara. b. Informasi tingkat rendah: irama, nada, frekuensi dan periode berhenti bicara. 9. ASV = Automatic Speaker Verification 10. ASI = Automatic Speaker Identification

Pelatihan dan Pengujian
Istilah lain: Enrollment (pendaftaran) dan Scanning (pemindaian) Pelatihan = training, Pengujian = testing Pelatihan: data dilatihkan dan dimasukkan dalam basisdata Pengujian: data masukan dicocokkan dengan data di basisdata Data yang disimpan, dilatihkan, dan diuji biasanya bukan data asli (voiceprint), namun adalah data yang sudah diekstrak melalui proses Ekstraksi Ciri (feature extraction)

Cara Identifikasi Suara (1)
1. Text Dependent, ada 2 macam: a. Teks yang dibaca harus sama dengan sistem b. Pass-phrases (= password)  subjek dapat memilih sendiri kalimat yang diinginkannya. - Bisa dilakukan dg banyak frase saat pelatihan, saat pemindaian cukup satu saja - Atau multi-pass-phrase: model tanya jawab. Sistem menanyakan suatu pertanyaan dan subjek menjawabnya

2. Text Prompt Subjek diminta mengatakan suatu teks yang sudah disiapkan oleh sistem. Sistem menganalisis suara hasil pembacaan teks dan membandingkannya dengan model yang sudah ada di basisdata.

3. Text Independent Subjek boleh mengatakan teks apa saja (sembarang) ketika proses pemindaian berlangsung Sistem menganalisis suara hasil pembacaan teks dan membandingkannya dengan model yang sudah ada di basisdata. Cara ini lebih sulit karena harus menganalisis sembarang teks, namun cukup memudahkan subjek Tingkat akurasi lebih rendah.

Faktor-faktor yang menyebabkan kesalahan pengenalan (1)
Kesalahan pengucapan (misspoken) Kesalahan pembacaan frase (misread) Keadaan emosional yang ekstrim (misal: stress) Inkonsistensi akustik ruangan (misal: gema atau bising/noise) Perbedaan kualitas mikrofon yang digunakan saat pendaftaran (pelatihan) dengan yang digunakan saat pemindaian/pengujian (=channel mismatch)

Faktor-faktor yang menyebabkan kesalahan pengenalan (2)
6. Subjek dalam keadaan sakit (mis: flu berat  vokal berubah karena adanya radang pada pita suara) 7. Pengaruh umur pada subjek (aging). Pengaruh aging  lambat, satu tahun jarak antara pendaftaran dengan pemindaian tidak masalah

Teknik-teknik Pengolahan Cetak Suara (voiceprint) (1)
Teknik-teknik untuk menyimpan dan mengolah cetak suara antara lain: Frequency Estimation Hidden Markov Model (HMM) Dynamic Time Warping (DTW) Jaringan Saraf Tiruan (JST) Pohon Keputusan (Decission Tree) Dan lain-lain.

Teknik-teknik Pengolahan Cetak Suara (voiceprint) (2)
Text dependent: DTW atau HMM Text independent: average-spectrum-based, metode Vector Quantization Based (VQ based), dan model Multivariate Autoregression (MAR)

Contoh Peralatan: RecoMadeEasy
RecoMadeEasy: speaker recognition yang dikembangkan oleh Recognition Technologies Inc., SO Linux, dapat diintegrasikan dengan sistem telefoni, dapat dioperasikan secara mandiri, dan menggunakan metode text independent. Peralatan bersifat SIV (Speaker identification and Verification)

Enam (6) Kemampuan RecoMadeEasy
Speaker Identification Speaker Verification Speaker Classification (sex, age, etc) Speaker Detection: dapat mendeteksi suara seseorang meskipun banyak suara di sekitarnya.

Enam (6) Kemampuan RecoMadeEasy
Speaker Tracking: suara pembicara dapat dilacak melalui percakapan. Pelacakan dapat memastikan bahwa pembicara masih ada secara on-line dalam suatu pembicaraan. Speaker Segmentation: alat pemindai dapat digunakan untuk memisahkan materi pembicaraan ke dalam 2 atau lebih pembicara dalam suatu percakapan.

Evaluasi Kinerja Sistem Biometrika Suara (1)
Keuntungan: Memanfaatkan telepon yang sudah ada Bersifat automatis, dan dapat dipasang pada speech recognition system (mis: Speech API = Application Programming Interface) Tidak mengganggu subjek Hampir semua komputer sudah memiliki ataupun dapat dipasangi mikrofon Perangkat keras yg dibutuhkan cukup sederhana: komputer, soundcard, dan mikrofon

Kerugian: Tingkat ketidakcocokan tinggi Subjek harus sedang tidak mengalami gangguan pada pita suara. Komputasi relatif banyak sehingga membutuhkan prosesor yang kuat. Kurang cocok untuk aplikasi mobile (bergerak)

Aplikasi: Telephone Banking Sistem Presensi (kehadiran) Pelayanan reservasi Keamanan untuk informasi rahasia.

Perubahan suara: Bagaimana sistem menanggulangi pemalsuan dengan cara putar ulang hasil rekaman? Cara: subjek diminta mengulang password berkali- kali. Jika dari input hasil rekaman, kemiripan dengan data dalam basisdatanya adalah 100%  palsu

Pemanfaatan: 1. Akses rekening bank jarak jauh dengan verifikasi suara pemilik rekening. 2 . Dengan sistem telepon, dimungkinkan penggantian password (PIN) rekening jarak jauh. Untuk meningkatkan akurasi, biasanya template hasil rekaman pada waktu pendaftaran diulang beberapa kali. Hasil pemindaian dicocokkan sekaligus dengan beberapa template tersebut, sehingga akurasi pencocokan menjadi lebih teliti.

Disampaikan oleh: Dr. R. Rizal Isnanto, S.T., M.M., M.T.

Presentasi serupa

Presentasi berjudul: "Disampaikan oleh: Dr. R. Rizal Isnanto, S.T., M.M., M.T."— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan

Masuk

Otorisasi melalui jaringan sosial:

Disampaikan oleh: Dr. R. Rizal Isnanto, S.T., M.M., M.T.

Presentasi serupa

Presentasi berjudul: "Disampaikan oleh: Dr. R. Rizal Isnanto, S.T., M.M., M.T."— Transcript presentasi:

Presentasi serupa

Tentang proyek

Tanggapan