Penelitian terbaru dari Microsoft Research dan Salesforce mengungkap fenomena mengejutkan terkait performa chat AI canggih yang semakin menurun seiring interaksi berlangsung lama. Studi ini menganalisis lebih dari 200.000 percakapan dengan model bahasa besar (Large Language Models/LLMs) seperti GPT-4.1, Gemini 2.5 Pro, dan Claude 3.7 Sonnet. Hasilnya menunjukkan bahwa walaupun model tersebut memiliki tingkat keberhasilan sekitar 90% pada single-prompt (pertanyaan tunggal), performanya anjlok hingga sekitar 65% ketika berhadapan dengan percakapan multi-turun (multi-turn dialogue).
Penurunan Kinerja dalam Percakapan Multi-Turn
Penurunan performa ini bukan berarti model AI menjadi "bodoh" secara tiba-tiba. Microsoft dan Salesforce menjelaskan bahwa penurunan akurasi hanya sekitar 15%, tapi ketidakandalan atau kesalahan dalam jawaban meningkat lebih dari dua kali lipat (112%). Hal ini terutama disebabkan oleh fenomena "premature generation," yaitu model AI sering memberikan jawaban sebelum pengguna selesai menjelaskan konteks atau detail penting. Akibatnya, jawaban awal yang belum lengkap atau salah sering menjadi acuan untuk tanggapan berikutnya, membuat AI terus terjebak dalam kesalahan yang sama.
Fenomena "Answer Bloat" yang Memperparah
Selain itu, studi juga menemukan adanya "answer bloat", yaitu jawaban AI menjadi 20% hingga 300% lebih panjang saat percakapan berlangsung. Jawaban yang lebih panjang ini cenderung mengandung lebih banyak asumsi yang tidak tepat, juga halusinasi informasi yang tidak akurat namun tetap diperlakukan sebagai konteks tetap dalam dialog. Kondisi ini memperburuk ketidakakuratan dengan menumpuk kesalahan dalam percakapan, sehingga mengurangi kepercayaan pengguna terhadap hasil akhirnya.
Model AI dengan Token Pemikiran Tambahan Belum Memadai
Beberapa model seperti OpenAI o3 dan DeepSeek R1 sudah dilengkapi dengan token tambahan untuk proses “berpikir” lebih dalam, tapi sayangnya belum mampu mengeliminasi masalah penurunan kinerja ini. Masalah struktural dalam memahami dan mempertahankan konteks panjang selama multi-turn dialogue masih menjadi tantangan utama. Hal ini memperlihatkan bahwa kecanggihan AI saat ini masih memiliki batas serius dalam interaksi kompleks secara natural.
Dampak bagi Penggunaan AI dalam Kehidupan Sehari-hari
Perkembangan ini memberikan sinyal penting bagi pengguna yang mulai bergantung pada AI, khususnya dalam konteks pencarian informasi atau bantuan interaktif. Berpindah dari mesin pencari konvensional seperti Google ke platform AI berisiko membawa kesalahan informasi jika hasil AI terus mengandalkan konteks yang keliru. Oleh karena itu, pemahaman dan pengelolaan ekspektasi terhadap teknologi ini perlu terus diperkuat.
Faktor Penyebab dan Tantangan Pengembangan
Berikut ini beberapa faktor penyebab penurunan performa chatbot AI dalam dialog panjang:
- Premature Generation: Jawaban diberikan terlalu cepat tanpa menunggu input lengkap pengguna.
- Reliance on Initial Response: Jawaban lanjutan mengacu pada tanggapan awal yang belum tentu benar.
- Answer Bloat: Jawaban menjadi semakin panjang dan penuh asumsi yang merugikan.
- Kesulitan Mempertahankan Konteks: Model kesulitan mengingat dan memahami seluruh isi percakapan.
- Hambatan dalam Prompt Engineering: Pengguna kurang mengoptimalkan input atau pertanyaan yang diberikan.
Perjalanan Menuju AI yang Lebih Andal
Penelitian ini menegaskan bahwa masih diperlukan pengembangan signifikan agar AI chatbot dapat berfungsi dengan andal dalam percakapan panjang. Microsoft sendiri mengakui produk seperti ChatGPT tidak optimal tanpa prompt yang sangat terstruktur dan penggunaan yang tepat. Namun, kemajuan teknologi AI generatif terus menjadi fokus utama industri teknologi, dengan potensi besar di masa depan apabila tantangan-tantangan tersebut dapat diatasi.
Pengguna disarankan tetap waspada dan mengkritisi informasi yang dihasilkan oleh chatbot AI, terutama pada percakapan kompleks dan berkelanjutan. Kegunaan AI saat ini memang masih ideal untuk tugas-tugas sederhana atau singkat, sementara untuk diskusi panjang dan rumit, model-model ini perlu terus disempurnakan agar benar-benar dapat menjadi asisten yang dapat diandalkan dan akurat.





