Text to Speech (TTS) dan Speech to
Text (STT)
Text
to Speech adalah salah satu sistem aplikasi untuk membaca atau mengkonversikan
teks ke bentuk suara atau ucapan. Speech to Text adalah salah satu sistem
aplikasi untuk menulis, dan memerintah komputer.
Text
to speech pada prinsipnya terdiri dari dua sub sistem, yaitu bagian Konverter
Teks ke Fenom (Text to Phoneme) dan
Konverter Fonem ke Ucapan (Phoneme to
Speech). Bagian Konverter Fonem ke Ucapan akan menerima masukkan berupa
kode-kode fonem serta pitch dan durasi yang dihasilkan oleh bagian sebelumnya.
Berdasarkan kode-kode fonem, bagian Konverter Fonem ke Ucapan akan menghasilkan
bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin di ucapkan.
Ada
beberapa alternatif teknik yang dapat digunakan untuk implementasi. Dua teknik
yang banyak digunakan adalah Formant
synthesizer dan diphone concatenation.
Formant synthesizer bekerja
berdasarkan suatu model matematis yang akan melakukan komputasi untuk
menghasilkan sinyal ucapan yang diinginkan sedangkan diphone concatenation bekerja dengan cara menggabung-gabungkan
segmen-segmen bunyi yang telah direkam sebelumnya.
Salah
satu contoh Text to Speech (TTS) adalah dalam software android maupun IOS
phone. Sekarang ini yang banyak digunakan yaitu perkamusan yang bisa di
download dibanyak situs. Pada aplikasi perkamusan ada dua pilihan
text-to-speech. Kalau pada smartphone terdapat pilihan google text-to-speech.
Perbedaan pengucapan atau suara yang dihasilkan juga berbeda, sama layaknya dengan
perbedaan pengucapan pada English British
dan English American.