Pembangkitan prosodi pada Text-To-Speech Synthesis System untuk penutur berbahasa Indonesia

Text-To-Speech Synthesis System adalah sebuah konverter tulisan menjadi sebuah ucapan/audio(spoken language) yang bisa di dengar oleh user.
Proses untuk membuat Text-To-Speech Synthesis System ini terdapat tiga tahap, yaitu pre-text processing, prosody dan concatenation.
Pada proyek akhir “Pembangkitan Prosody Text-To-Speech Synthesis System untuk penutur berbahasa Indonesia”, khusus mengerjakan dalam proses prosody pada setiap ujung-ujung persambungan antar diphone nya. Di dalam proses prosody ini, terdapat beberapa tahap yang harus di lakukan. Yaitu the multi level data structure, diphone retrieval dan accouctic manipulation. Melalui proses prosody di setiap ujung-ujung persambungan akan dilakukan proses PSOLA untuk memperhalus transisi antar sinyal diphone.
Pada pengujiannya menggunakan pitch countour didapatkan hasil bahwa overlap 30% memiliki Pitch countour yang lebih bagus dengan jumlah lebih sedikit sinyal drop pada sambungannya bila di bandingan dengan penyambungan menggunakan overlap 50% dan 70%. Pengujian dengan survey kepada 20 responden , overlap 30%, mendapatkan nilai MOS 2.85 untuk overlap 30%, overlap 50% mendapatkan nilai MOS 2.81 dan overlap 70% mendapatkan nilai MOS 2.79. sehingga,penggunaan overlap 30% lebih bagus hasilnya bila dibandingkan dengan menggunakan overlap 50% dan 70%.

Pembangkitan prosodi pada Text-To-Speech Synthesis System untuk penutur berbahasa Indonesia

Berita Terbaru

Jalin Kerjasama dengan Republik Melon Blitar, PENS Kembangkan Teknologi IoT dan Dashboard Dalam Rangka Pemberdayaan Petani Melon Kecamatan Wates

Tumbuhkan Semangat Kepahlawanan pada Generasi Muda, PENS Gelar Upacara Peringatan Hari Pahlawan

PENS Mantapkan Laporan Akhir Tim PMW Melalui Monitoring dan Evaluasi Final

Kuatkan Kualitas Pengajaran Dosen Vokasi, PENS Selenggarakan Sertifikasi PEKERTI 2024 Batch II

Kenalkan Industri Game, PENS Jadi Kampus Pembuka Roadshow to Global Game Jam Surabaya 2025