Baca berita dengan sedikit iklan, klik di sini

Digital

Audit NewsGuard: DeepSeek Hanya Capai Akurasi 17 Persen, Tertinggal dari Pesaing AI Lainnya

Chatbot milik startup AI asal Cina, DeepSeek, mencatatkan akurasi 17 persen berdasarkan audit NewsGuard.

30 Januari 2025 | 11.30 WIB

Image of Tempo
Perbesar
Ilustrasi deepseek. Reuters/Dado Ruvic

Baca berita dengan sedikit iklan, klik di sini

TEMPO.CO, Jakarta - Chatbot milik startup kecerdasan buatan (AI) asal Cina, DeepSeek, hanya mencatatkan akurasi sebesar 17 persen dalam menyampaikan berita dan informasi menurut audit NewsGuard. Menurut laporan Reuters, hasil ini menempatkannya di urutan kesepuluh dari sebelas dalam perbandingan dengan pesaing-pesaing AI lainnya, termasuk ChatGPT dari OpenAI dan Google Gemini.

Baca berita dengan sedikit iklan, klik di sini

Dalam laporan yang diterbitkan oleh layanan penilaian keandalan NewsGuard pada Rabu, 29 Januari 2025, chatbot DeepSeek dinilai mengulang klaim palsu 30 persen dari waktu dan memberikan jawaban yang samar atau tidak berguna 53 persen dari waktu saat merespons permintaan terkait berita, sehingga menghasilkan tingkat kegagalan sebesar 83 persen.

Baca berita dengan sedikit iklan, klik di sini

Audit NewsGuard menunjukkan bahwa kinerja DeepSeek lebih buruk dibandingkan dengan rata-rata tingkat kegagalan 62 persen dari pesaing-pesaingnya yang diproduksi negara Barat-nya. Ini menimbulkan keraguan terhadap klaim yang dibuat oleh DeepSeek mengenai kualitas teknologi AI-nya.

DeepSeek sebelumnya mengklaim bahwa teknologinya dapat berfungsi setara atau lebih baik dibandingkan dengan OpenAI yang didukung Microsoft, namun dengan biaya yang jauh lebih terjangkau.

Beberapa hari setelah peluncurannya, chatbot DeepSeek menjadi aplikasi yang paling banyak diunduh di App Store milik Apple, memicu kekhawatiran terkait posisi Amerika Serikat dalam perlombaan AI. Hal ini juga memicu reaksi pasar yang menghapus sekitar US$ 1 triliun dari saham teknologi AS.

NewsGuard menjelaskan bahwa mereka menggunakan 300 prompt yang sama pada DeepSeek yang sebelumnya digunakan untuk mengevaluasi pesaing-pesaingnya, termasuk 30 prompt berdasarkan 10 klaim palsu yang beredar di dunia maya. Klaim-klaim tersebut mencakup insiden seperti pembunuhan eksekutif UnitedHealthcare Brian Thompson dan jatuhnya pesawat Azerbaijan Airlines penerbangan 8243.

Audit tersebut juga menunjukkan bahwa dalam tiga dari sepuluh prompt, DeepSeek mengulang posisi pemerintah Cina mengenai topik tersebut tanpa diminta untuk membahas Cina. Ketika diberikan pertanyaan terkait kecelakaan pesawat Azerbaijan Airlines, yang tidak terkait dengan Cina, chatbot ini tetap merespons dengan posisi Beijing mengenai masalah tersebut.

“Pentingnya terobosan DeepSeek bukan pada kemampuannya untuk menjawab pertanyaan terkait berita Cina dengan akurat, melainkan pada fakta bahwa ia dapat menjawab pertanyaan apapun dengan biaya 1/30 dibandingkan model AI sebanding,” kata analis D.A. Davidson, Gil Luria, dikutip dari Reuters, Kamis, 30 Januari 2025. 

Seperti model AI lainnya, DeepSeek rentan mengulang klaim palsu ketika merespons prompt yang digunakan oleh orang-orang yang berusaha menciptakan dan menyebarkan klaim palsu, kata NewsGuard.

Image of Tempo

Baca berita dengan sedikit iklan, klik di sini

Image of Tempo
Logo Tempo
Unduh aplikasi Tempo
download tempo from appstoredownload tempo from playstore
Ikuti Media Sosial Kami
© 2024 Tempo - Hak Cipta Dilindungi Hukum
Beranda Harian Mingguan Tempo Plus