Baca berita dengan sedikit iklan, klik di sini
Wibowo merasa lega saat mengendarai mobilnya di jalan bebas hambatan dalam kota. "Syukurlah tak macet," gumamnya. Ia mengarah ke kantornya, sebuah firma konsultan pembangunan di kawasan Kuningan, Jakarta Selatan. Meski terlambat berangkat, pria lajang ini termasuk yang patuh aturan lalu-lintas. Tak pernah ia melampaui kecepatan 60 kilometer per jam. Wibowo juga selalu memakai headset yang tersambung ke telepon selulernya. Agar konsentrasi mengemudi tak terganggu jika terpaksa menjawab panggilan telepon, alasannya. Tapi, jika yang masuk adalah pesan instan atau SMS (short message service), Wibowo langsung mengabaikannya. "Terlalu riskan kalau harus membaca dan menekan-nekan tombol sambil mengemudi," katanya.
Kalau saja operator ponsel yang dilanggani Wibowo itu menerapkan teknologi pengubah tulisan ke ucapan seperti yang diciptakan Arry Akhmad Arman dari Institut Teknologi Bandung, persoalan Wibowo itu terselesaikan. Soalnya, dengan teknologi pengubah teks menjadi ucapan atau text to speech, pesan SMS yang biasa muncul di layar ponsel diubah bentuknya menjadi suara sehingga penerima pesan cukup mendengarkan begitu menerimanya.
Menurut Arry, peranti lunak yang dinamainya IndoTTS (Text to Speech Bahasa Indonesia) itu dikembangkan selama 10 tahun. Latarbelakangnya hanya kesukaan pada komputer. Arry, yang mengenal komputer sejak di SMP, mengaku sering terinspirasi oleh film-film fiksi ilmiah yang menggambarkan manusia berkomunikasi langsung dengan mesin secara interaktif. "Dari situ, saya bermimpi mengembangkan sesuatu yang unik," peneliti pada Laboratorium Sinyal dan Sistem di Departemen Teknik Elektro ITB itu menjelaskan.
Memang, Arry menjadi orang Indonesia pertama yang membuat pangkalan diphone bahasa Indonesia. Inilah komponen penting dalam teknologi IndoTTS. Diphone adalah gabungan dua fonem—unit terkecil dalam bahasa lisan—yang berurutan. Misalnya, "es" adalah bunyi ucapan untuk huruf "s" dan "aa" untuk huruf "a" dalam kata "saya".
Menurut Arry, perekaman diphone dipilih karena kalau merekam seluruh kata butuh ruang penyimpanan sangat besar. Selain itu, jumlah kata bersifat tak tetap karena selalu ada kosakata baru. Sedangkan kalau hanya merekam fonem, ternyata pengucapan yang dihasilkan tak bermutu baik karena bunyi peralihan antara fonem pertama dan berikutnya tak ikut terekam. Itulah sebabnya Arry merekam bunyi dua fonem yang berurutan.
Diphone dalam pangkalan yang direkam Arry berjumlah 1.296 buah. Angka itu merupakan hasil pengkuadratan jumlah fonem bahasa Indonesia yang 35 buah itu ditambah satu fonem spasi. Atas karyanya itu, Arry mendapatkan Anugerah Telematika 2003 dari Presiden pada Hari Teknologi Nasional, 11 Agustus lalu.
Arry merekam sendiri diphone-diphone itu di Belgia. Pada tahun 2000, pangkalan diphone-nya yang disebut id1 rampung dibuat.
Peranti lunak IndoTTS pada prinsipnya memiliki dua subsistem. Pertama, pengubah tulisan ke fonem. Kedua, pengubah fonem ke ucapan. Pada subsistem pengubah tulisan ke fonem, kalimat masukan diubah menjadi rangkaian kode-kode bunyi yang biasanya dilambangkan dengan kode fonem, durasi, dan pitch—tinggi nada—pengucapannya. Berdasarkan kode-kode inilah, subsistem pengubah fonem ke ucapan akan menghasilkan bunyi atau sinyal ucapan yang sesuai dengan kalimat yang ingin diucapkan. Teknik yang dipakai untuk menghasilkan ucapan ini adalah diphone concatenation—menggabungkan segmen-segmen bunyi yang telah terekam dalam pangkalan diphone. Subsistem ini telah tersedia, yakni MBROLA, yang dikembangkan oleh Project MBROLA di laboratorium Faculté Polytechnique de Mons, Belgia.
Untuk tujuan penelitian menghasilkan aplikasi yang tak berorientasi komersial dan militer, Arry membuka kode sumber IndoTTS dan pangkalan diphone-nya. Seperti yang dilakukan Gunarso dan timnya dari Pusat Teknologi Bahasa dan Informasi Terapan di Badan Pengkajian dan Penerapan Teknologi (BPPT). Gunarso memakai pangkalan diphone buatan Arry untuk mengembangkan WebTTS yang diperuntukkan bagi para tunanetra dan orang yang memiliki penglihatan buruk.
WebTTS adalah program komputer seperti browser—peranti lunak penjelajah Internet—yang membaca informasi yang tertulis di halaman web. Menurut Gunarso, WebTTS merupakan permintaan dari Yayasan Mitra Netra, organisasi yang peduli dengan para tunanetra.
Selain sebagai alat bantu bagi penyandang tunanetra, IndoTTS juga berguna sebagai alat bantu bagi kaum tunawicara dan dunia pendidikan. Kini, Arry tengah mengembangkan peranti lunak pembacaan Al-Quran berbasis teknologi IndoTTS sehingga Al-Quran dapat disimpan dalam memori yang jauh lebih kecil ketimbang dengan cara perekaman utuh seperti selama ini.
Untuk keperluan bisnis, menurut Arry, IndoTTS dapat diterapkan oleh operator telepon seluler atau operator radio panggil. "IndoTTS dapat juga ditanamkan dalam suatu sistem," kata Arry. Misalnya menjadi pesan peringatan dalam sistem keamanan mobil atau peringatan jika kecepatan mobil terlalu tinggi. Jika digabungkan dengan sistem penentu posisi global (GPS) dan peta, dapat menjadi pemandu perjalanan secara lisan.
IndoTTS juga sangat berguna jika teknologi pengenalan ucapan (speech recognition) telah benar-benar dikuasai. Jika kedua teknologi ini digabungkan, mesin penerjemah bahasa lisan dapat terwujud. Bukan mustahil kelak, sewaktu berbicara melalui telepon dengan mitra bisnis Anda di New York, misalnya, Anda tak perlu menggunakan bahasa yang sama dengan lawan bicara, tapi memakai bahasa ibu masing-masing.
Dody Hidayat
Cara Kerja IndoTTS
Program pengubah tulisan menjadi ucapan bersifat spesifik untuk suatu bahasa. IndoTTS merupakan program pengubah tulisan menjadi ucapan dalam bahasa Indonesia.
- Tulisan sumber: kalimat-kalimat dalam format file teks. Misalnya: "Bapak membeli 5 kerang seharga Rp 500."
- Normalisasi tulisan: mengubah semua kalimat yang ingin diucapkan menjadi tulisan yang secara lengkap memperlihatkan cara pengucapannya. Misalnya: "Bapak membeli lima kerang seharga lima ratus rupiah."
- Mengubah tulisan menjadi kode-kode fonem: misalnya /b//a//p//a//k/... dan seterusnya.
- Menghasilkan prosodi (durasi dan intonasi ucapan): misalnya fonem /b/ diucapkan sepanjang 40 milidetik dengan tinggi nada 90 hertz. Ditulis /b/, 40ms, 90hz, ... dan seterusnya.
- Analisis fonetik: melakukan perbaikan di tingkat bunyi. Misalnya fonem /k/ dalam "bapak" tak pernah diucapkan secara tegas.
- Menghasilkan parameter ucapan: masuk ke dalam subsistem pengubah fonem ke ucapan memakai modul MBROLA yang telah tersedia.
- Memproduksi gelombang suara ucapan: MBROLA menggunakan teknik penggabungan segmen-segmen bunyi berdasarkan pangkalan diphone (diphone concatenation).
- Ucapan
Baca berita dengan sedikit iklan, klik di sini
Baca berita dengan sedikit iklan, klik di sini
Baca berita dengan sedikit iklan, klik di sini
- Akses edisi mingguan dari Tahun 1971
- Akses penuh seluruh artikel Tempo+
- Baca dengan lebih sedikit gangguan iklan
- Fitur baca cepat di edisi Mingguan
- Anda Mendukung Independensi Jurnalisme Tempo