Anthropic Buka Cetak Biru Penakluk Task Drift AI, Agen Cerdas Ternyata Mudah Kehilangan Arah

Author: Qoo Media

Anthropic merilis cetak biru baru untuk mengatasi salah satu masalah paling sulit dalam AI agent, yaitu task drift atau kondisi ketika sistem perlahan menyimpang dari tujuan awal saat mengerjakan tugas panjang. Fokus utamanya bukan hanya pada model AI, melainkan pada lapisan orkestrasi yang disebut harness agar agent tetap konsisten, terarah, dan andal.

Pendekatan ini penting karena banyak organisasi mulai memakai AI untuk pekerjaan berjam-jam, bahkan lintas tahapan, bukan lagi sekadar menjawab satu prompt. Dalam skenario seperti itu, masalah seperti context overload, evaluasi diri yang lemah, dan penurunan fokus dapat membuat hasil akhir meleset meski model dasarnya sangat kuat.

Apa yang dimaksud harness dalam sistem AI

Anthropic menggambarkan harness sebagai kerangka kerja yang menyalurkan kemampuan model ke tindakan yang terstruktur dan berorientasi tujuan. Dengan kata lain, harness berfungsi sebagai pengarah kerja AI, bukan sekadar antarmuka prompt.

Peran ini menjadi krusial saat agent harus menyelesaikan alur kerja kompleks dalam waktu lama. Tanpa struktur semacam ini, model cenderung kehilangan koherensi, salah memprioritaskan informasi, atau terus menghasilkan output yang tidak lagi sesuai brief awal.

The AI Automators, yang mengulas penjelasan Anthropic, menekankan bahwa harness membantu menjaga AI tetap selaras selama tugas berjalan panjang. Pendekatan ini menggabungkan teknik seperti context reset dan iterative refinement agar sistem lebih presisi sekaligus tetap adaptif.

Mengapa task drift menjadi masalah besar

Task drift terjadi ketika AI masih aktif bekerja, tetapi arah pekerjaannya sudah bergeser dari sasaran awal. Risiko ini meningkat saat konteks percakapan menumpuk, instruksi bertambah banyak, dan hasil sebelumnya ikut membebani memori kerja model.

Anthropic juga menyoroti context overload sebagai tantangan utama. Saat jendela konteks dipenuhi terlalu banyak data, model bisa kehilangan fokus pada informasi yang paling penting dan mulai menurunkan kualitas keputusan.

Masalah lain adalah keterbatasan self-evaluation. Banyak agent belum cukup baik dalam menilai apakah output mereka sudah kuat, relevan, atau hanya terlihat meyakinkan di permukaan.

Dalam tugas kreatif atau subjektif, kelemahan ini makin jelas. AI bisa menghasilkan sesuatu yang tampak rapi, tetapi tidak memenuhi tujuan proyek, gaya pengguna, atau standar kualitas yang sebenarnya.

Blueprint Anthropic untuk menjaga agent tetap di jalur

Anthropic menawarkan beberapa teknik kunci untuk menangani drift dalam operasi AI jangka panjang. Semuanya berangkat dari gagasan bahwa keandalan agent tidak hanya ditentukan model, tetapi juga cara sistem itu dipandu dan dievaluasi.

  1. Context reset
    Teknik ini membersihkan konteks secara berkala lalu memulai kembali tugas dengan input yang sudah disaring. Tujuannya adalah mengurangi penumpukan informasi yang tidak lagi relevan.

  2. Adversarial evaluation
    Metode ini memasangkan generator agent dengan evaluator agent. Generator membuat output, lalu evaluator mengkritik, menguji, dan mendorong perbaikan secara iteratif.

  3. Structured development frameworks
    Anthropic menyoroti pentingnya kerangka seperti BMAD dan SpecKit untuk mendefinisikan kebutuhan tugas dengan jelas. Struktur ini membantu mengurangi ambiguitas dan mencegah cakupan kerja yang terlalu sempit.

  4. Iterative refinement
    Komponen harness perlu terus diuji dan disempurnakan. Langkah ini penting karena model AI terus berkembang, sehingga aturan orkestrasi juga harus ikut menyesuaikan.

Contoh penerapan di proyek nyata

Nilai pendekatan ini terlihat dari beberapa implementasi yang disebut dalam pembahasan The AI Automators. Salah satunya adalah pembangunan mesin game retro 2D dengan kombinasi planner, generator, dan evaluator agent.

Proyek itu disebut selesai hanya dalam enam jam. Contoh ini menunjukkan bahwa harness yang dirancang baik dapat mempercepat pengembangan software tanpa mengorbankan struktur kerja.

Kasus lain adalah pembuatan digital audio workstation atau DAW menggunakan model Opus 4.6 dan harness yang lebih sederhana. Sistem itu dilaporkan bisa dibangun dalam waktu kurang dari empat jam.

Ada pula contoh pada desain front-end untuk situs museum seni di Belanda. Dalam kasus ini, loop umpan balik berulang membantu AI menangani aspek kreatif yang biasanya sulit dinilai secara objektif.

Prinsip desain yang mulai dianggap penting

Anthropic menekankan bahwa tujuan harus didefinisikan seterang mungkin sejak awal. Untuk tugas yang subjektif, kriteria penilaian tetap perlu dibuat objektif agar evaluator dapat bekerja konsisten.

Metrik evaluasi juga tidak boleh generik. Penilaian harus disesuaikan dengan kemampuan model dan kebutuhan tugas agar hasilnya tidak rata-rata atau sekadar aman.

Evaluator agent pun perlu dibekali alat yang memadai. Bukan hanya membaca output, tetapi juga menguji, memvalidasi, dan memberi umpan balik yang dapat ditindaklanjuti.

Pendekatan ini relevan untuk banyak sektor, mulai dari audit kepatuhan, analisis risiko, pipeline konten, hingga diagnostik kesehatan. Semakin panjang dan kompleks proses kerja AI, semakin besar kebutuhan pada harness yang mampu menjaga fokus, kualitas, dan arah keputusan tetap stabil.

Source: www.geeky-gadgets.com
Terbaru