Baca berita dengan sedikit iklan, klik di sini

Sains

Bahasa Daerah Nuansa Kecerdasan Buatan

Badan Bahasa menggunakan kecerdasan buatan dalam menyelamatkan bahasa daerah yang terancam. Diawali pembuatan data raya korpus.

15 September 2024 | 00.00 WIB

Image of Tempo
Perbesar

Baca berita dengan sedikit iklan, klik di sini

MENDAPATKAN e-mail dari Chad de Guzman, reporter Time di Singapura, Endang Aminudin Aziz terkejut bercampur bingung. Kepala Badan Pengembangan dan Pembinaan Bahasa (Badan Bahasa) Kementerian Pendidikan, Kebudayaan, Riset, dan Teknologi itu mengaku tak pernah membayangkan hal tersebut. “Apalagi latar belakang saya bukan ahli kecerdasan buatan (AI),” kata Endang Aminudin Aziz ihwal kabar bahwa dia masuk TIME100 AI atau tokoh paling berpengaruh dalam AI tahun 2024.

Baca berita dengan sedikit iklan, klik di sini

Menurut pria yang lahir di Ciamis, Jawa Barat, 16 November 1967, dan akrab dipanggil Aminudin itu, dalam daftar TIME100 AI kategori Shapers yang berisi 36 tokoh tersebut banyak juga yang tidak berlatar belakang keahlian AI. “Seperti Scarlett Johansson, itu kan aktor. Rupanya dia ditawari mengisi suara chatbot OpenAI, ChatGPT-4o,” tutur doktor bidang linguistik dari Monash University, Australia, tersebut.

Baca berita dengan sedikit iklan, klik di sini

Adapun Time menyebutkan Aminudin berkolaborasi dengan universitas, pegiat bahasa, dan komunitas pegiat bahasa daerah mengumpulkan data untuk sebuah large language model (LLM). LLM adalah program yang dapat mengenali dan menghasilkan teks serta memproses bahasa. Kemampuan LLM ini membuatnya mampu berinteraksi dan berkomunikasi dengan pengguna menggunakan bahasa alami, seolah-olah pengguna sedang berbicara dengan sesama manusia. LLM adalah fondasi utama dalam AI generatif.

Aminudin membenarkan kabar ihwal pekerjaan yang tengah digeluti Badan Bahasa. Pada saat ini lembaganya sedang membuat data raya (big data) korpus bahasa daerah. “Korpus itu satuan bahasa. Jadi, sederhananya, satu korpus itu satu kata,” ujar Aminudin, yang sejak 2 Desember 2023 menjadi pelaksana tugas Kepala Perpustakaan Nasional. Data raya dan AI bekerja timbal balik dalam menyediakan proses komputasi.

Jika sudah ada data raya korpus, kata Aminudin, pemanfaatan bahasa daerah akan makin luas. Revitalisasi bahasa daerah, misalnya, bisa masif. Pada 2021, ketika Aminudin merintis revitalisasi bahasa daerah dengan menyasar lima bahasa daerah (Jawa, Sunda, Makassar, Bugis, dan Toraja) yang paling banyak penuturnya di tiga provinsi, hal tersebut ternyata mendapat sambutan dari 1,63 juta partisipan (1,58 juta adalah anak jenjang sekolah dasar dan sekolah menengah pertama). Sampai 2023, sudah 72 bahasa daerah yang direvitalisasi di 26 provinsi dengan 5 juta partisipan.

“Jadi total sudah 116 bahasa daerah direvitalisasi dengan jumlah partisipan 9,7 juta. Tahun ini bahasa daerah yang direvitalisasi berjumlah 97 di semua provinsi (38),” ucap Aminudin, yang juga guru besar Fakultas Pendidikan Bahasa dan Sastra Universitas Pendidikan Indonesia, Bandung. “Dari pemetaan Badan Bahasa, ada 718 bahasa daerah di Indonesia. Dari jumlah itu, banyak yang mengalami kemunduran. Bahkan 11 bahasa daerah sudah punah karena tidak digunakan lagi oleh penuturnya.”

Endang Aminudin Aziz berdiskusi dengan pegiat bahasa di kantor Badan Pengembangan dan Pembinaan Bahasa di Jakarta, Februari 2024. Dok. badanbahasa.kemdikbud.go.id

Untuk menghidupkan kembali bahasa daerah, program revitalisasi bahasa daerah itu dimasukkan sebagai muatan lokal pengajaran di sekolah. “Pada waktu 2021 itu kan zaman Covid-19. Mumpung orang-orang ada di rumah, kami bikin program yang menginteraksikan keluarga. Jadi anak dan orang tua berkomunikasi dengan bahasa daerah,” tuturnya. “Tapi kami wanti-wanti untuk tidak mengajarkan tata bahasa, tapi materi-materi yang bisa dipilih, yakni berpidato, menulis cerita pendek, menulis puisi, mendongeng, nembang, dan stand-up comedy.”

Bagi staf Balai Bahasa Provinsi Sumatera Barat, Fitria Dewi, program revitalisasi bahasa daerah diharapkan bisa mengembalikan minat masyarakat berkomunikasi rutin dengan bahasa lokal. Menurut dia, terjadi penurunan kualitas bahasa daerah, khususnya bahasa Minangkabau, karena penggunaannya sudah tidak intens. “Banyak generasi muda sekarang yang lebih senang berbahasa Indonesia atau berbahasa asing dibanding menggunakan bahasa daerah ketika berkomunikasi,” ujar Fitria melalui sambungan telepon, Kamis, 12 September 2024. 

Ia menyebutkan penurunan minat terjadi karena mayoritas generasi muda belum mengenal bahasa lokal dengan lebih baik. Melalui revitalisasi bahasa daerah, menurut Fitria, sekolah-sekolah diminta mendorong siswa membuat karya sastra berbahasa daerah baik secara lisan maupun tulisan. “Mengenalkan bahasa daerah dalam wadah yang mereka sukai. Yang punya hobi menulis silakan menulis dalam bahasa daerah. Yang suka berdendang silakan juga dalam bahasa daerah.”

Selain revitalisasi bahasa daerah, pemanfaatan data raya korpus bahasa daerah, kata Aminudin, adalah sebagai aplikasi penerjemah antar-bahasa daerah. Menurut dia, aplikasi ini seperti ChatGPT atau Google Translate, tapi spesialis bahasa daerah. “Yang sekarang itu kan orang bisa mengalihbahasakan antar-bahasa daerah tapi diterjemahkan dulu ke bahasa Indonesia. Nanti itu langsung saja,” tuturnya. “Mungkin ini yang kami pilih untuk pertama pengembangan aplikasinya karena menarik bagi orang banyak,” ujar Aminudin. “Kalau revitalisasi bahasa, pengujian bahasa itu lebih akademis.”

Kendala yang dihadapi Aminudin dalam membuat data raya korpus tidak kecil baik dari sisi anggaran maupun sumber daya manusia. Namun, menurut dia, pembangunan data raya korpus harus dimulai. “Tahap awal, Perpustakaan Nasional sudah berhasil mengidentifikasi 18.500-an sumber korpus. Jadi membayangkannya, kalau satu buku itu sekian ratus halaman, satu halaman ada berapa kata, tinggal dikalikan saja.”

Persoalannya, dari 718 bahasa daerah itu, hanya 13 yang memiliki aksara. Untuk bahasa daerah yang tidak memiliki aksara, Aminudin mengatakan, korpus dibuat dengan mengkonversikan rekaman audio menjadi teks. “Kami tidak bisa bekerja sendiri. Perlu bantuan komunitas dan masyarakat,” katanya. Aminudin menyebutkan salah satu komunitas yang sudah menjalin kerja sama dengan Badan Bahasa adalah komunitas pegiat bahasa Sunda, Yayasan Kebudayaan Rancagé.

Pada tahap awal, Aminudin tidak memasang target yang muluk-muluk untuk data raya korpus bahasa daerah. “Mungkin kami mulai dulu untuk 10-15 bahasa daerah yang paling banyak penutur dan sumber korpusnya,” ucapnya. “Bahasa daerah yang besar sumber korpusnya itu bahasa Jawa, Sunda, Melayu, Batak, Makassar, dan Bali,” tutur Aminudin, yang berharap akhir tahun ini data raya sudah tuntas dibuat.

Sekretaris Yayasan Kebudayaan Rancagé Dadan Sutisna mengatakan lembaganya ikut bermitra dengan Badan Bahasa mengumpulkan korpus bahasa daerah. Ia menyebutkan Perpustakaan Ajip Rosidi di Jalan Garut, Kota Bandung, menyimpan 500 ribu lebih halaman karya berbahasa Sunda. Menurut dia, data itu sudah siap diolah dan dikembangkan dalam bentuk lain yang lebih bermanfaat. 

Anak mempelajari teknik dalang wayang kulit dan gamelan di Sanggar Padaka Nusa, di Malang, Jawa Timur, Maret 2018. Dok. Tempo/Aris Novia Hidayat

“Ketika mulai muncul kecerdasan buatan, salah satu yang dikerjakan Rancagé beberapa tahun lalu adalah membuat korpus. Sebenarnya hal paling dasar dari AI adalah korpus. Apalagi yang berkaitan dengan GPT (generative pre-trained transformer) atau percakapan teks,” kata Dadan melalui sambungan telepon, Kamis, 12 September 2024.

Menurut Dadan, inovasi kecerdasan buatan untuk bahasa daerah bakal terbantu dengan posisi Aminudin sebagai Kepala Badan Bahasa dan pelaksana tugas Kepala Perpustakaan Nasional. “Saya bilang, jika dalam bahasa daerah, Badan Bahasa itu sebagai takhta kebahasaan, sedangkan harta ada di Perpustakaan Nasional,” ujarnya.

Harta yang dimaksud, menurut Dadan, adalah dokumen digitalisasi koleksi Perpustakaan Nasional dalam bentuk bahasa daerah. Selama ini, dia melanjutkan, dokumen tersebut hanya dimanfaatkan oleh para peneliti dan akademikus. “Itu belum dikembangkan,” ucapnya.

Aminudin mengamini Dadan. “(Koleksi) yang di Perpustakaan Nasional sudah didigitalkan. Tapi yang di balai-balai bahasa, kantor bahasa di seluruh Indonesia kan belum didigitalkan. Ini pekerjaan besar yang harus didigitalkan dulu, baru diolah jadi korpus. Nah, inilah sistem yang sedang kami bangun,” tutur Aminudin, yang menekankan kecepatan digitalisasi sangat bergantung pada mesin pemindai dokumen (scanner). “Kalau sering dipakai bisa rusak juga.”

Image of Tempo
Image of Tempo
Berlangganan Tempo+ untuk membaca cerita lengkapnyaSudah Berlangganan? Masuk di sini
  • Akses edisi mingguan dari Tahun 1971
  • Akses penuh seluruh artikel Tempo+
  • Baca dengan lebih sedikit gangguan iklan
  • Fitur baca cepat di edisi Mingguan
  • Anda Mendukung Independensi Jurnalisme Tempo
Lihat Benefit Lainnya
Irsyan Hasyim

Irsyan Hasyim

Menulis isu olahraga, lingkungan, perkotaan, dan hukum. Kini pengurus di Aliansi Jurnalis Independen (AJI) Jakarta, organisasi jurnalis Indonesia yang fokus memperjuangkan kebebasan pers.

Image of Tempo

Baca berita dengan sedikit iklan, klik di sini

Image of Tempo
Logo Tempo
Unduh aplikasi Tempo
download tempo from appstoredownload tempo from playstore
Ikuti Media Sosial Kami
© 2024 Tempo - Hak Cipta Dilindungi Hukum
Beranda Harian Mingguan Tempo Plus