Studi Terbaru Ungkap Chatbot Makin Sering Keliru dan Berhalusinasi Saat Percakapan Diperpanjang

Studi terbaru mengungkapkan bahwa performa chatbot AI seperti ChatGPT, Gemini, dan model besar lainnya cenderung menurun ketika percakapan berlangsung lebih lama dan semakin kompleks. Data dari Microsoft Research dan Salesforce menunjukkan bahwa AI sangat akurat dalam menjawab pertanyaan sederhana satu kali, tetapi mulai tergelincir ketika dialog berkembang menjadi beberapa langkah atau topik yang berubah.

Pada awal interaksi, chatbot AI memiliki tingkat keberhasilan sekitar 90 persen untuk permintaan langsung. Namun, ketika percakapan berlanjut dan pengguna menambah pertanyaan lanjutan atau mengubah topik, tingkat akurasi terjun bebas menjadi sekitar 65 persen. Penurunan ini terjadi bahkan hanya pada percakapan dua giliran, menurut temuan para peneliti pada lebih dari 200.000 sesi chat di berbagai model besar seperti GPT-4.1, Gemini 2.5 Pro, Claude, hingga DeepSeek.

Mengapa Chatbot Menjadi Semakin Tidak Akurat dalam Percakapan Panjang

Penelitian itu menjelaskan bahwa model AI cenderung memberikan jawaban secepat mungkin sebelum pengguna selesai memberi penjelasan penuh. AI berusaha memuaskan pengguna dengan risiko mengorbankan akurasi. Fenomena ini berdampak pada kualitas dialog lanjutan di mana chatbot lebih berfokus pada memberi respons yang cepat, bukan yang benar.

Kesalahan semakin nyata ketika chatbot menggunakan jawaban awal sebagai dasar dalam menjawab pertanyaan berikutnya. Bahkan saat pengguna mengubah arah pembicaraan atau koreksi diberikan, model AI tetap terpaku pada respons pertama, sehingga kesalahan pun menular ke jawaban-jawaban berikutnya.

Fakta Penelitian Tentang Performa AI dalam Dialog Panjang

Penurunan performa tidak hanya terjadi pada model AI skala kecil, tapi juga pada model paling canggih yang tersedia secara komersial saat ini. Hasil penting yang diungkap dari penelitian ini meliputi:

  1. Pada percakapan satu giliran, tingkat keberhasilan rata-rata model AI mencapai 90 persen.
  2. Pada percakapan multi-giliran, performa turun hingga rata-rata 65 persen saja.
  3. Ketidakandalan AI meningkat sebesar 112 persen saat menangani permintaan yang lebih rumit.
  4. Jawaban AI dalam dialog panjang bisa 20 sampai 300 persen lebih panjang daripada jawaban di awal percakapan.
  5. Semua model besar—mulai dari Llama3.1-8B-Instruct yang open source hingga Gemini 2.5 Pro—mengalami pola penurunan performa serupa.

Tabel berikut merangkum data kunci dari hasil penelitian:

Jenis Pertanyaan Tingkat Keberhasilan Kenaikan Ketidakandalan Rata-rata Panjang Jawaban
Pertanyaan Satu Giliran 90% Singkat
Multi-Giliran/Kompleks 65% Hingga 112% 20–300% lebih panjang

Mekanisme di Balik Fenomena Penurunan Performa AI

Penyebab utama masalah ini berkaitan dengan cara AI memproses dan mengingat konteks percakapan. Model AI cenderung membangun pemahaman berdasarkan respons pertamanya, kemudian melanjutkan dari situ tanpa benar-benar "melupakan" pemahaman awal walaupun pengguna berganti arah. Akibatnya, jika jawaban awal keliru atau tidak relevan, kesalahan itu terus berlanjut hingga percakapan diakhiri.

Selain itu, kecenderungan AI untuk memperpanjang respons pada dialog yang makin rumit berkontribusi pada peningkatan tingkat halusinasi. Semakin panjang jawaban yang diberikan, semakin besar peluang munculnya informasi yang keliru, ambigu, hingga tidak masuk akal. Hal ini telah diperkuat oleh analisis lebih dari 200.000 sesi percakapan pada berbagai model.

Mengapa AI Sering Berhalusinasi di Tengah Percakapan

Dalam istilah teknis, "halusinasi" adalah ketika model AI menghasilkan jawaban yang salah atau tidak berdasar fakta. Penelitian ini menyorot bahwa semakin lama AI diajak berbicara, semakin besar tingkat halusinasi yang muncul. Sebab utamanya adalah AI mencoba mengikuti harapan pengguna meskipun faktanya tidak akurat. Dalam upaya memuaskan pengguna, AI lebih mengutamakan fluiditas percakapan daripada kebenaran isi.

AI juga cenderung terjebak pada pola sebelumnya dalam percakapan. Jika pada awalnya konteks yang diterima sudah tidak tepat, AI tetap melanjutkan pola tersebut hingga interaksi selesai, meskipun diarahkan ulang oleh pengguna untuk memperbaiki kesalahan.

Dampak Penemuan Ini Bagi Pengguna dan Pengembang

Temuan penelitian ini memiliki dampak signifikan untuk pengguna yang mengandalkan AI dalam tugas-tugas rumit dan percakapan panjang. Pengguna bisnis, akademisi, atau profesional yang memanfaatkan chatbot untuk diskusi mendetail harus ekstra waspada pada kemungkinan informasi keliru di tengah dialog, terlebih jika diskusi sudah melebar dari topik awal.

Bagi pengembang, hasil ini memberi sinyal jelas bahwa tantangan utama pengembangan AI selanjutnya adalah memperbaiki mekanisme pemahaman dan pengelolaan konteks dalam dialog panjang. Model AI masa depan perlu mampu menyesuaikan dengan cepat dalam situasi perubahan topik atau koreksi konteks agar tidak terus mengulang pola kesalahan yang sama.

Tips Agar Mendapat Jawaban Optimal dari Chatbot AI

Pengguna bisa mengambil beberapa langkah agar interaksi dengan chatbot tetap produktif dan akurat, di antaranya:

  1. Usahakan menyampaikan pertanyaan secara jelas dan langsung pada awal sesi chat.
  2. Hindari mengubah topik terlalu sering dalam satu sesi dialog.
  3. Jika ingin mengganti arah percakapan, sebaiknya mulai sesi baru.
  4. Selalu verifikasi jawaban terutama pada dialog yang berlangsung lama.
  5. Manfaatkan fitur ringkasan atau highlight jika tersedia pada platform chatbot.

Perkembangan Chatbot AI dan Ambisi Industri Teknologi

Meski tantangannya makin nyata, geliat industri teknologi untuk mengembangkan AI tetap masif. Para pelaku industri percaya bahwa investasi besar di bidang ini akan memberikan solusi di banyak bidang, meskipun hasil penelitian ini menggarisbawahi perlunya penyesuaian pada paradigma desain model dan ekspektasi publik.

Dengan tingkat adopsi yang masih perlu digenjot agar selaras dengan dana investasi yang digelontorkan, para peneliti dan pengembang dituntut menghadirkan model yang bukan hanya gesit, namun juga tahan uji dalam percakapan panjang dan kompleks. Dialog manusia tidak selalu linier, dan AI kini dipacu agar lebih lentur mengikuti dinamika komunikasi nyata.

Akhirnya, pemahaman tentang keterbatasan chatbot AI ini mendorong pengguna untuk tetap kritis dan tidak sepenuhnya bergantung pada satu sesi percakapan saja. Dibutuhkan kombinasi literasi digital, verifikasi mandiri, serta perbaikan berkelanjutan dari sisi pengembang agar teknologi AI bisa semakin bermanfaat dan minim kesalahan, terutama di percakapan panjang yang menuntut ketepatan tinggi.

Source: www.xda-developers.com

Berita Terkait

Back to top button