Text-To-Speech Synthesis System adalah sebuah konverter tulisan menjadi sebuah ucapan/audio(spoken language) yang bisa di dengar oleh user.
Proses untuk membuat Text-To-Speech Synthesis System ini terdapat tiga tahap, yaitu pre-text processing, prosody dan concatenation.
Pada proyek akhir “Pembangkitan Prosody Text-To-Speech Synthesis System untuk penutur berbahasa Indonesia”, khusus mengerjakan dalam proses prosody pada setiap ujung-ujung persambungan antar diphone nya. Di dalam proses prosody ini, terdapat beberapa tahap yang harus di lakukan. Yaitu the multi level data structure, diphone retrieval dan accouctic manipulation. Melalui proses prosody di setiap ujung-ujung persambungan akan dilakukan proses PSOLA untuk memperhalus transisi antar sinyal diphone.
Pada pengujiannya menggunakan pitch countour didapatkan hasil bahwa overlap 30% memiliki Pitch countour yang lebih bagus dengan jumlah lebih sedikit sinyal drop pada sambungannya bila di bandingan dengan penyambungan menggunakan overlap 50% dan 70%. Pengujian dengan survey kepada 20 responden , overlap 30%, mendapatkan nilai MOS 2.85 untuk overlap 30%, overlap 50% mendapatkan nilai MOS 2.81 dan overlap 70% mendapatkan nilai MOS 2.79. sehingga,penggunaan overlap 30% lebih bagus hasilnya bila dibandingkan dengan menggunakan overlap 50% dan 70%.