
Google baru-baru ini mengeluarkan penilaian yang cukup menyentak mengenai tingkat akurasi chatbot AI yang beredar saat ini. Berdasarkan pengujian menggunakan FACTS Benchmark Suite, chatbot AI terbaik sekalipun hanya mampu mencapai akurasi faktual sekitar 69 persen.
Pengujian tersebut dilakukan untuk mengukur seberapa benar informasi yang diberikan oleh chatbot, bukan hanya apakah chatbot bisa menyelesaikan tugas. Hal ini sangat penting terutama bagi sektor yang membutuhkan keakuratan tinggi seperti finansial, kesehatan, dan hukum. Kesalahan informasi meski terdengar yakin dapat berakibat serius.
Metode Pengujian FACTS Benchmark Suite
Google bekerja sama dengan Kaggle untuk mengembangkan FACTS Benchmark Suite yang terdiri dari empat jenis pengujian. Pertama, pengujian parametrik yang mengukur kemampuan chatbot memberikan jawaban berdasarkan data pelatihan tanpa bantuan pencarian. Kedua, pengujian kemampuan pencarian untuk mendapatkan informasi dari internet dengan akurat.
Ketiga, pengujian “grounding” yang menguji apakah chatbot dapat berpegang pada dokumen acuan tanpa menambahkan informasi palsu. Keempat, pengujian multimodal yang menilai kemampuan chatbot memahami informasi dari gambar, diagram, dan grafik secara tepat.
Hasil Tes Akurasi Chatbot AI
Data Google menunjukkan hasil yang beragam. Gemini 3 Pro, model buatan Google, menjadi yang terbaik dengan tingkat akurasi 69 persen. Posisi berikutnya ditempati oleh Gemini 2.5 Pro dan ChatGPT-5 dari OpenAI yang mencapai sekitar 62 persen.
Model lain seperti Claude 4.5 Opus dan Grok 4 menunjukkan hasil di bawah 55 persen. Khusus untuk pengujian multimodal, semua chatbot menunjukkan performa yang paling lemah, sering kali dengan akurasi kurang dari 50 persen. Hal ini berisiko karena kesalahan dalam membaca grafik atau dokumen bisa sulit dideteksi dan diperbaiki.
Dampak dan Implikasi Akurasi yang Terbatas
Penemuan ini mengungkapkan bahwa chatbot AI masih sering memberikan jawaban yang salah atau menyesatkan. Meskipun kemampuan AI terus berkembang, pengujian Google menunjukkan bahwa sekitar satu dari tiga jawaban chatbot tidak tepat.
Ini menegaskan pentingnya adanya verifikasi dan pengawasan manusia saat menggunakan AI sebagai sumber informasi. Mengandalkan chatbot secara buta berpotensi membawa akibat buruk, terutama dalam pengambilan keputusan berbasis data yang kritis.
Mengapa Angka Akurasi Ini Penting?
Banyak pengujian AI selama ini mengukur kemampuan menyelesaikan tugas tanpa pertimbangan keakuratan informasi. Dengan standar baru dari Google, pengguna dapat menilai risiko potensi kesalahan yang mungkin muncul saat memakai chatbot AI.
Tingkat akurasi di bawah 70 persen masih dianggap rendah untuk keperluan profesional. Kesalahan yang terdengar meyakinkan dapat menyebabkan keputusan keliru yang berujung pada kerugian finansial atau dampak hukum.
Sebagai langkah ke depan, pengujian seperti FACTS Benchmark Suite dapat membantu meningkatkan standar kualitas AI. Selain itu, pengembangan mekanisme verifikasi real-time dan pelibatan manusia tetap krusial agar interpretasi dan penggunaan chatbot lebih aman dan andal.





