AI Agent Gagal di Alur Kerja Panjang, Andrej Karpathy Ungkap Akar Masalahnya

Author: Qoo Media Senin, 23 Maret 2026 | 7:43 am

Andrej Karpathy menyoroti satu masalah besar dalam pengembangan AI modern, yakni kemampuan agen AI yang tampak pintar tetapi sering gagal saat harus menjalankan alur kerja panjang dan bertahap. Masalah ini menjadi penting karena banyak perusahaan mulai mendorong AI untuk menangani tugas yang menuntut akurasi tinggi, bukan sekadar menjawab pertanyaan singkat.

Dalam alur kerja yang panjang, kesalahan kecil dari model AI bisa merembet ke tahap berikutnya dan memicu hasil akhir yang keliru. Karena itu, gagasan bahwa “agent skills” saja cukup untuk mengelola tugas kompleks kini semakin banyak dipertanyakan oleh pelaku industri AI.

Mengapa kemampuan agen AI sering gagal

Analisis yang dirangkum oleh The AI Automators menjelaskan bahwa agent skills umumnya bertumpu pada model probabilistik. Model seperti ini memprediksi keluaran yang paling mungkin, tetapi tidak selalu menjamin setiap langkah dikerjakan lengkap, runtut, dan benar.

Kelemahan itu muncul dalam bentuk halusinasi, langkah yang terlewat, atau keluaran yang tidak konsisten. Pada tugas sederhana, risiko ini mungkin masih bisa ditoleransi, tetapi dalam pekerjaan panjang, peluang error akan menumpuk di setiap tahap.

Masalah ini makin serius pada sektor dengan konsekuensi tinggi. Contohnya ada pada kepatuhan regulasi, audit keuangan, diagnosis medis, dan telaah kontrak hukum yang semuanya menuntut presisi sangat tinggi.

Jika satu tahap salah, sistem dapat meneruskan kesalahan itu tanpa disadari. Inilah yang membuat AI berbasis agent skills dinilai belum cukup andal untuk menggantikan perangkat lunak tradisional dalam tugas penting.

Karpathy dan kebutuhan akan reliabilitas setara software

Poin utama dari pembahasan ini adalah reliabilitas. Untuk dipakai dalam operasi bisnis yang krusial, sistem AI harus mendekati standar keandalan software konvensional, bukan hanya terlihat impresif saat demo.

Dalam workflow multi-langkah, setiap tahap menambah titik kegagalan baru. Akibatnya, error kecil dapat berubah menjadi kegagalan sistem yang lebih besar ketika tidak ada mekanisme kontrol yang ketat.

Karena itu, fokus industri mulai bergeser dari sekadar membuat agen yang fleksibel ke membangun sistem yang terstruktur. Pendekatan ini bertujuan agar AI tidak hanya cerdas, tetapi juga bisa diaudit, dipantau, dan divalidasi secara konsisten.

Alternatif yang dinilai lebih aman: harness engineering

Sebagai solusi, muncul pendekatan deterministic harness engineering. Harness dapat dipahami sebagai kerangka kerja terstruktur yang memeriksa, membatasi, dan memvalidasi keluaran AI di setiap tahap proses.

Pendekatan ini berbeda dari agent skills yang memberi ruang lebih besar pada improvisasi model. Dalam harness, sistem menempatkan pagar pengaman agar kesalahan dapat ditemukan lebih cepat sebelum menyebar ke langkah berikutnya.

The AI Automators menyebut harness engineering sebagai cara untuk menjaga output tetap presisi dan dapat diandalkan. Metode ini relevan untuk tugas yang harus akurat dari awal hingga akhir, bukan hanya menghasilkan jawaban yang terdengar masuk akal.

Fitur utama dalam harness engineering

Beberapa komponen penting dalam harness engineering disebut menjadi pembeda utama dari agent skills biasa. Komponen ini dirancang untuk memastikan workflow tetap stabil ketika tugas makin panjang dan rumit.

State tracking
Sistem melacak progres setiap tugas agar tidak ada langkah yang hilang atau diulang. Mekanisme ini penting untuk pekerjaan bertahap seperti audit atau peninjauan dokumen.
Sub-agent delegation
Tugas besar dipecah menjadi tugas kecil lalu dibagikan ke sub-agen khusus. Cara ini membantu tiap agen tetap fokus pada konteks yang sempit dan relevan.
Parallel processing
Beberapa bagian pekerjaan bisa dijalankan bersamaan untuk menghemat waktu. Namun hasilnya tetap melewati kontrol terstruktur sebelum digabungkan.
Context isolation
Setiap tugas dijaga dalam konteks yang terpisah. Ini penting untuk mencegah “context pollution” atau tercampurnya informasi antarproses yang bisa menurunkan akurasi.
Validation loops
Setiap hasil diperiksa ulang secara iteratif. Jika ada output yang bermasalah, sistem dapat memperbaikinya sebelum melanjutkan ke tahap berikutnya.

Contoh penerapan di dunia nyata

Dalam referensi yang sama, Stripe disebut memakai sistem bernama “minions” untuk mengelola workflow tertentu. Anthropic juga dicontohkan melalui penggunaan plugin yang membantu mengontrol proses AI secara lebih deterministik.

Contoh ini menunjukkan bahwa perusahaan besar tidak hanya mengandalkan prompt atau kemampuan agen semata. Mereka juga membangun lapisan orkestrasi agar output AI lebih bisa diprediksi dan lebih aman digunakan.

Pendekatan seperti ini dinilai cocok untuk review kontrak, analisis data, pelaporan keuangan, hingga audit. Untuk pekerjaan semacam itu, kecepatan saja tidak cukup jika hasil akhirnya tidak konsisten.

Mengapa isu ini makin penting bagi bisnis

Perusahaan menginginkan otomatisasi AI yang bukan hanya inovatif, tetapi juga stabil. Jika sistem sering melewatkan langkah atau menghasilkan informasi keliru, maka manfaat otomatisasi akan tertutup oleh biaya koreksi dan risiko operasional.

Harness engineering juga membantu observabilitas sistem. Tim bisa melihat proses mana yang gagal, bagian mana yang perlu divalidasi, dan bagaimana status sebuah workflow dari awal hingga akhir.

Dalam konteks penggunaan enterprise, kombinasi perencanaan workflow, manajemen memori, sistem file, serta optimasi biaya model menjadi faktor penting. Model sederhana bisa dipakai untuk tugas rutin, sementara model yang lebih kuat difokuskan pada orkestrasi atau keputusan kompleks.

Perkembangan ini menandakan arah baru dalam desain AI. Fokusnya bukan lagi hanya membuat agen yang tampak otonom, melainkan membangun sistem yang mampu bekerja panjang dengan kontrol ketat, akurasi terjaga, dan jejak proses yang jelas untuk kebutuhan bisnis berisiko tinggi.