Gemini vs ChatGPT, Siapa Lebih Sering Melenceng?

Add on Google

Google Gemini dan ChatGPT sama-sama populer, tetapi keduanya masih bisa salah saat memberi jawaban. Dalam laporan yang dikutip Phone Arena dari Legal Guardian Digital, Gemini justru tercatat sebagai chatbot dengan tingkat halusinasi tertinggi, yaitu sekitar 32% respons yang keliru.

ChatGPT menyusul di bawahnya dengan tingkat kesalahan sekitar 30%. Data ini menunjukkan bahwa dua chatbot yang paling sering dipakai publik belum sepenuhnya bebas dari jawaban yang terdengar meyakinkan, tetapi tidak akurat.

Gemini dan ChatGPT Sama-sama Rentan Salah

Fenomena halusinasi pada AI muncul ketika sistem tetap menjawab meski tidak memiliki kepastian fakta. Model bahasa bekerja dengan memprediksi kata berikutnya berdasarkan pola data, sehingga jawaban yang tampil bisa terlihat logis walau isi akhirnya tidak tepat.

Kondisi ini membuat pengguna perlu lebih berhati-hati saat memakai chatbot untuk informasi sensitif. Verifikasi tetap penting, terutama untuk data seperti harga saham, nama, atau tanggal yang membutuhkan ketepatan tinggi.

Siapa yang Paling Sering Salah?

Berdasarkan data yang dikutip dari laporan tersebut, Gemini menempati posisi teratas sebagai chatbot dengan tingkat kesalahan paling tinggi di antara beberapa model populer. ChatGPT berada tidak jauh di bawahnya, tetapi tetap menunjukkan angka kesalahan yang cukup besar.

Di sisi lain, Perplexity AI mencatat tingkat halusinasi paling rendah, sekitar 13%. Setelah itu ada DeepSeek dengan 14% dan Grok dengan 15%, yang berarti ketiganya lebih jarang memberi jawaban keliru dalam pengujian tersebut.

Skor Kepuasan Tidak Selalu Sejalan dengan Akurasi

Menariknya, chatbot yang paling sering salah belum tentu paling buruk di mata pengguna. ChatGPT dan DeepSeek sama-sama mencatat skor kepuasan tertinggi, yaitu 4,7 dari 5, sementara Perplexity AI meraih 4,6.

Artinya, pengguna masih bisa merasa puas meski chatbot sesekali keliru. Hal ini menegaskan bahwa pengalaman memakai AI tidak hanya ditentukan oleh akurasi, tetapi juga oleh kenyamanan, kecepatan, dan kualitas jawaban secara umum.

Uptime Tinggi, Tetapi Bukan Jaminan Selalu Tepat

Dari sisi stabilitas layanan, Perplexity AI dan Grok disebut tidak mengalami gangguan selama periode pengujian. ChatGPT dan Gemini juga memiliki uptime tinggi, masing-masing di atas 99%.

Namun, stabilitas teknis tidak otomatis berarti isi jawabannya selalu benar. Sebuah chatbot bisa tetap aktif hampir sepanjang waktu, tetapi tetap berisiko memberikan respons yang salah ketika diminta menjelaskan sesuatu yang tidak didukung data kuat.

Posisi Akhir dalam Penilaian Keseluruhan

Jika dilihat dari index score keseluruhan, Perplexity AI berada di peringkat teratas dengan nilai 85. Grok menyusul dengan skor 79, lalu DeepSeek berada di bawahnya dalam daftar tersebut.

ChatGPT menempati posisi keenam dengan skor 50, sedangkan Gemini berada di posisi kedelapan dengan skor 41. Meta AI disebut memiliki skor terendah, yakni 37, sehingga hasil ini memperlihatkan bahwa peringkat popularitas tidak selalu sejalan dengan performa keseluruhan.

Perbandingan Gemini dan ChatGPT menunjukkan bahwa keduanya masih perlu diawasi saat digunakan untuk mencari informasi penting. Di antara berbagai chatbot yang diuji, Gemini tercatat paling sering salah, sementara ChatGPT berada sangat dekat di belakangnya, sehingga pengecekan ulang tetap menjadi langkah aman sebelum mempercayai jawaban AI sepenuhnya.