Audit NewsGuard: DeepSeek Hanya Capai Akurasi 17 Persen, Tertinggal dari Pesaing AI Lainnya

Perbesar

Ilustrasi deepseek. Reuters/Dado Ruvic

Baca berita dengan sedikit iklan, klik di sini

TEMPO.CO, Jakarta - Chatbot milik startup kecerdasan buatan (AI) asal Cina, DeepSeek, hanya mencatatkan akurasi sebesar 17 persen dalam menyampaikan berita dan informasi menurut audit NewsGuard. Menurut laporan Reuters, hasil ini menempatkannya di urutan kesepuluh dari sebelas dalam perbandingan dengan pesaing-pesaing AI lainnya, termasuk ChatGPT dari OpenAI dan Google Gemini.

Baca berita dengan sedikit iklan, klik di sini

Dalam laporan yang diterbitkan oleh layanan penilaian keandalan NewsGuard pada Rabu, 29 Januari 2025, chatbot DeepSeek dinilai mengulang klaim palsu 30 persen dari waktu dan memberikan jawaban yang samar atau tidak berguna 53 persen dari waktu saat merespons permintaan terkait berita, sehingga menghasilkan tingkat kegagalan sebesar 83 persen.

Baca berita dengan sedikit iklan, klik di sini

Audit NewsGuard menunjukkan bahwa kinerja DeepSeek lebih buruk dibandingkan dengan rata-rata tingkat kegagalan 62 persen dari pesaing-pesaingnya yang diproduksi negara Barat-nya. Ini menimbulkan keraguan terhadap klaim yang dibuat oleh DeepSeek mengenai kualitas teknologi AI-nya.

BACA JUGA

DeepSeek Saingi OpenAI, Nvidia Tegaskan Pasarnya Masih Kuat di Cina

Mengenal DeepSeek, AI Buatan Cina yang Siap Menyaingi ChatGPT

NewsGuard menjelaskan bahwa mereka menggunakan 300 prompt yang sama pada DeepSeek yang sebelumnya digunakan untuk mengevaluasi pesaing-pesaingnya, termasuk 30 prompt berdasarkan 10 klaim palsu yang beredar di dunia maya. Klaim-klaim tersebut mencakup insiden seperti pembunuhan eksekutif UnitedHealthcare Brian Thompson dan jatuhnya pesawat Azerbaijan Airlines penerbangan 8243.

Audit tersebut juga menunjukkan bahwa dalam tiga dari sepuluh prompt, DeepSeek mengulang posisi pemerintah Cina mengenai topik tersebut tanpa diminta untuk membahas Cina. Ketika diberikan pertanyaan terkait kecelakaan pesawat Azerbaijan Airlines, yang tidak terkait dengan Cina, chatbot ini tetap merespons dengan posisi Beijing mengenai masalah tersebut.

“Pentingnya terobosan DeepSeek bukan pada kemampuannya untuk menjawab pertanyaan terkait berita Cina dengan akurat, melainkan pada fakta bahwa ia dapat menjawab pertanyaan apapun dengan biaya 1/30 dibandingkan model AI sebanding,” kata analis D.A. Davidson, Gil Luria, dikutip dari Reuters, Kamis, 30 Januari 2025.

Seperti model AI lainnya, DeepSeek rentan mengulang klaim palsu ketika merespons prompt yang digunakan oleh orang-orang yang berusaha menciptakan dan menyebarkan klaim palsu, kata NewsGuard.

Pilihan Editor: Cara Menjadwalkan Postingan di Instagram

deepseek