Baca berita dengan sedikit iklan, klik di sini
Poin penting
Diperkirakan pada 2026, seluruh teks yang diproduksi oleh manusia di seluruh dunia akan habis dipakai untuk melatih AI.
Platform AI membutuhkan teks berkualitas yang telah dikurasi dan disunting secara profesional.
Media massa banyak menggunakan teknologi AI untuk memproduksi konten sintetis yang memperburuk kualitas teks dan informasi.
MARAKNYA penggunaan platform kecerdasan buatan (artificial intelligence/AI) oleh jurnalis dan perusahaan media melahirkan sebuah pertanyaan mengenai relevansi penerapan Peraturan Presiden Nomor 32 Tahun 2024 tentang Tanggung Jawab Perusahaan Platform Digital untuk Mendukung Jurnalisme Berkualitas.
Ketentuan yang juga disebut Perpres Publisher Rights ini mengatur tanggung jawab perusahaan platform digital dalam memberikan timbal balik terhadap konten berita yang dimuat di platform digital. Dengan demikian, pertanyaan penting lain adalah bagaimana menegosiasikan publisher rights ke perusahaan platform AI.
Sebelum membahas apa yang dapat kita negosiasikan soal publisher rights alias hak perusahaan penerbit atau media massa, mari kita pahami dulu apa kebutuhan perusahaan pengembang platform AI dari perusahaan media dan bagaimana posisi media kita saat ini.
Platform kecerdasan buatan membutuhkan data yang sangat besar dan beragam untuk melatih kinerjanya. Makin besar dan beragam data yang dipakai dalam melatihnya, makin besar potensi AI memberikan jawaban yang tepat serta sesuai dengan konteks pertanyaannya.
Setiap tahun, kebutuhan platform AI akan data makin besar, dan diperkirakan pada 2026, seluruh teks yang diproduksi oleh manusia di seluruh dunia akan habis digunakan untuk melatih AI. Rata-rata sebuah platform AI membutuhkan triliunan training data. Training data adalah data yang digunakan para insinyur untuk melatih teknologi AI agar dapat menghasilkan jawaban akurat.
Jika dirata-ratakan, kebutuhan platform AI naik hingga 2,5 kali lipat setiap tahun. Sebagai gambaran, pada 2019, saat ChatGPT 2 diliris, platform tersebut membutuhkan setidaknya 100 miliar token training data. Sedangkan, pada 2023, ChatGPT 3 membutuhkan 200 miliar token training data. Platform lain, seperti Gemma 7B dan StarCoder, membutuhkan masing-masing 4 triliun data. Jumlah tersebut setara dengan dua kali lipat jumlah kata yang terdapat dalam manuskrip yang tersimpan di Perpustakaan Bodleian, Oxford University, Inggris.
Kebutuhan data tersebut biasanya didapatkan dari teks yang hak ciptanya sudah menjadi milik publik, seperti buku dan artikel-artikel yang diproduksi oleh perusahaan media massa serta dipublikasikan secara daring. Satu hal yang pasti, platform AI membutuhkan teks berkualitas yang telah dikurasi dan disunting secara profesional.
Saat ini, pengembang platform AI telah kehabisan teks yang berasal dari bahasa Inggris. Selain itu, mereka kekurangan data dari negara-negara berkembang. Data dari teks non-bahasa Inggris dan dari negara berkembang itu sangat diperlukan untuk memperkaya konteks platform AI sehingga mengurangi bias dalam penyediaan jawaban.
Perlu diingat bahwa AI akan memberikan jawaban berdasarkan data yang digunakan untuk melatihnya. Jika sebuah platform hanya dilatih menggunakan bahasa Inggris dan informasi dari negara maju, platform itu belum tentu dapat diandalkan untuk menghasilkan jawaban sesuai dengan konteks lokal. Dampaknya, hasil AI akan sangat bias dan tidak bisa memenuhi prinsip inklusivitas—sebuah prinsip yang oleh banyak pemangku kepentingan selalu ditekankan ke pengembang AI.
Saking besarnya kebutuhan akan data ini, beberapa perusahaan pengembangan teknologi bahkan menjadi sangat haus akan data sehingga mereka melakukan berbagai cara, seperti mengembangkan informasi sintetis. Google, misalnya, melatih platform AI-nya menggunakan teks-teks yang didapatkan dari takarir video-video di YouTube. Adapun Meta mencoba membuat langkah agresif dengan mengintegrasikan platform AI-nya menggunakan miliaran teks, foto, dan video dari akun-akun publik di Instagram serta Facebook.
Sayangnya, strategi tersebut belum tentu berhasil menyediakan data berkualitas baik. Pasalnya, media sosial bukanlah tempat para penggunanya terbiasa menggunakan bahasa yang baik dan benar, sesuai dengan kaidah. Teks-teks di media sosial juga kebanyakan berupa pesan yang pendek ataupun video hasil penggabungan beberapa gambar dan video. Data seperti itu tentu akan menghasilkan model yang lebih buruk ketimbang teks yang didapatkan dari karya-karya literatur, artikel-artikel panjang di majalah, ataupun berita-berita di situs web berita.
Pengalaman kami di Monash Data & Democracy Research Hub saat menggunakan AI untuk melatih model dengan metode bahasa besar (large language model) menunjukkan, untuk memantau ujaran kebencian dalam pemilu presiden dan pemilihan kepala daerah, pemodelan akan makin baik jika melibatkan orang-orang dari komunitas lokal. Mereka diberdayakan untuk melakukan anotasi dan melatih model dengan bahasa-bahasa daerah, termasuk istilah-istilah bahasa Indonesia dalam konteks lokal.
Ujaran kebencian sangat ditentukan oleh konteks—budaya, bahasa, dan dinamika sosial politik lokal. Agar pemodelan untuk menentukan ujaran kebencian makin akurat, kami juga menggunakan teks dari bahasa lokal, termasuk menggandeng jurnalis-jurnalis lokal untuk memberikan konteks.
Baca berita dengan sedikit iklan, klik di sini
Saat ini teknologi AI umum digunakan oleh perusahaan media massa, dari mengumpulkan informasi, memproduksi, hingga mendiseminasikan berita. Adapun Asosiasi Media Siber Indonesia (AMSI) mencatat setidaknya ada 400 organisasi media yang menjadi anggotanya dan tersebar di berbagai daerah. Artinya, ada 400 perusahaan media yang setiap hari memproduksi jutaan konten berita dalam konteks lokal.
Sayangnya, media massa banyak menggunakan teknologi AI untuk memproduksi konten sintetis yang justru memperburuk kualitas teks dan informasi yang mereka hasilkan. Buruknya kualitas itu karena, pertama, informasi menjadi seragam antara satu dan lainnya. Kedua, karena media akan luput menuliskan berita-berita dan informasi lokal. Padahal, sebagaimana yang saya sampaikan di atas, teknologi AI justru membutuhkan data dalam konteks lokal dan utamanya yang orisinal—berbasiskan peliputan lapangan.
Lalu, apa yang mesti perusahaan media negosiasikan ke pengembang teknologi AI? Pertama, kita mesti menekankan bahwa informasi berbasiskan reportase dengan konteks lokal, terutama yang menggunakan bahasa lokal, adalah “emas” yang tidak seenaknya bisa ditambang oleh pengembang teknologi AI.
Pada saat yang sama, perusahaan media mesti menjaga kualitas kemurnian “emas”-nya agar laku dengan harga tinggi. Setelah itu, media perlu beramai-ramai memasang perangkat lunak untuk memblokir AI dalam mengumpulkan teks tanpa izin.
Baca berita dengan sedikit iklan, klik di sini
Kedua, mendorong akuntabilitas pengembang teknologi AI yang juga memiliki platform media sosial dan penyedia informasi. Bagaimanapun mereka turut bertanggung jawab atas kualitas informasi yang beredar di platform digital. Jika perusahaan platform digital tidak mendukung penguatan media melalui publisher rights, dapat terjadi kasus media beramai-ramai menarik konten mereka.
Di Kanada, misalnya, riset dari Centre for Media, Technology, and Democracy McGill University menunjukkan, ketika Meta menolak membayarkan publisher rights dan memblokir konten dari perusahaan media, informasi di Facebook menjadi lebih ramai dengan meme hasil tangkapan layar situs web media. Saat media sosial menjadi tempat pertama mencari informasi, akhirnya pengguna hanya akan terpapar informasi sampah dan disinformasi. Jangka panjangnya, hal tersebut akan berpengaruh ke kehidupan politik dan demokrasi sebuah negara.
Ketiga, adalah menegosiasikan renumerasi perusahaan media secara kolektif. Selama ini perusahaan pengembang teknologi AI lebih senang bernegosiasi dengan perusahaan media secara terpisah. Hal ini akan membuat media-media kecil dari negara dengan jumlah penduduk sedikit tidak menjadi prioritas karena konten yang mereka hasilkan pun terbatas. Di Denmark, misalnya, perusahaan media akhirnya bernegosiasi secara kolektif melalui asosiasi karena sebelumnya perusahaan pengembang hanya berfokus ke negara-negara seperti Jerman, Spanyol, ataupun Amerika Serikat.
Dengan ketiga poin tersebut, harapannya perusahaan media dan perusahaan pengembang teknologi AI dapat berkolaborasi erat dalam penerapan publisher rights. Hal ini sangatlah penting demi memastikan informasi akurat dan berkualitas tetap menjadi fondasi demokrasi serta pengetahuan global.
- Akses edisi mingguan dari Tahun 1971
- Akses penuh seluruh artikel Tempo+
- Baca dengan lebih sedikit gangguan iklan
- Fitur baca cepat di edisi Mingguan
- Anda Mendukung Independensi Jurnalisme Tempo
Redaksi menerima tulisan opini dari luar dengan syarat: panjang sekitar 5.000 karakter (termasuk spasi) atau 600 kata dan tidak sedang dikirim ke media lain. Sumber rujukan disebutkan lengkap pada tubuh tulisan. Kirim tulisan ke e-mail: [email protected] disertai dengan foto profil, nomor kontak, dan CV ringkas.