Eksperimen AI Cursor: Ratusan Bot Coding Browser Gagal Tembus Milestone, Bukti Keterbatasan AI Software

Add on Google

Pengembangan perangkat lunak dengan menggunakan kecerdasan buatan (AI) semakin menarik perhatian industri teknologi. Cursor, sebuah tim riset AI, melakukan eksperimen besar-besaran dengan melibatkan ratusan agen AI otonom yang diberi tugas membuat browser web fungsional dari nol. Namun, meskipun investasi yang sangat besar mencapai sekitar $5 juta, hasil eksperimen ini jauh dari harapan karena banyak kendala teknis serta koordinasi yang kurang efektif antar agen AI.

Tujuan utama eksperimen ini adalah menguji apakah sistem AI secara mandiri bisa menggantikan peran programmer manusia dalam mengembangkan software kompleks. Dalam waktu hanya satu minggu, agen-agen AI bertanggung jawab membangun komponen penting browser seperti HTML parser, CSS parser, dan rendering engine. Namun, kebebasan penuh yang diberikan kepada ratusan agen AI ini justru menimbulkan masalah signifikan dalam sinkronisasi dan pembagian tugas.

Masalah utama dalam koordinasi AI

Eksperimen mengungkap beberapa kendala besar seperti konflik file-locking, dimana beberapa agen mencoba mengakses dan memodifikasi file yang sama secara bersamaan, menyebabkan gangguan dan penundaan. Selain itu, terjadi duplikasi tugas karena agen-agen AI bekerja redundan pada pekerjaan yang sama. Bahkan, bagian-bagian kritis dari proyek seperti modul kompleks cenderung terlantar karena agen menghindari tugas yang ambigu atau sulit.

Masalah tersebut menyoroti kesulitan dalam pengelolaan kolaborasi agen AI secara otonom, terutama ketika menangani proyek perangkat lunak yang kompleks dan berskala besar seperti browser web.

Penerapan sistem manajemen tugas hirarkis

Guna mengatasi ketidakefisienan tersebut, tim Cursor memperkenalkan sistem manajemen tugas berbasis hirarki. Tugas-tugas proyek dibagi ke dalam tiga peran agen AI:

Planner (Perencana): Memecah proyek menjadi tugas-tugas kecil dan mengalokasikannya ke agen pekerja.
Worker (Pekerja): Menjalankan tugas yang telah ditugaskan oleh planner.
Judge (Penilai): Mengevaluasi kualitas dan keakuratan hasil kerja pekerja.

Sistem ini mampu meningkatkan koordinasi dan mengurangi duplikasi, tetapi tidak menyelesaikan seluruh permasalahan. Pada akhir proyek, AI telah menghasilkan lebih dari satu juta baris kode tersebar di sekitar 1.000 file, namun mayoritas kode tersebut penuh dengan error, inkonsistensi, dan tidak memenuhi standar fungsional dasar sebuah browser.

Ketergantungan pada pustaka open source

Salah satu kritik besar terhadap proyek ini adalah banyaknya ketergantungan pada pustaka open source yang sudah ada, semisal Servo dan QuickJS. Hal ini menimbulkan keraguan akan orisinalitas karya agen AI dalam membangun komponen inti browser. Selain itu, kualitas kode yang dihasilkan oleh AI dianggap buruk karena desainnya tidak modular dan sulit dikembangkan. Kode-kode tersebut juga tidak sesuai dengan standar industri, sehingga tidak kompatibel dengan kebutuhan nyata pengoperasian browser.

Biaya finansial dan sumber daya komputasi

Selain masalah teknis, eksperimen ini juga menelan biaya besar, dengan anggaran antara $3 juta hingga $5 juta hanya untuk infrastruktur komputasi dan pemrosesan data. Investasi tersebut membuktikan bahwa meskipun AI mampu memproduksi volume kode yang besar, biaya operasional dan kebutuhan pengawasan manusia masih sangat tinggi. Proyek ini menunjukkan bahwa AI mandiri saat ini belum efisien dan scalable untuk menggantikan sepenuhnya tenaga manusia dalam pengembangan software kompleks.

Pelajaran penting dari eksperimen AI agent Cursor

Cursor mengajarkan bahwa sebagai teknologi, AI masih menghadapi keterbatasan signifikan dalam skala pengembangan perangkat lunak. Beberapa poin penting yang bisa diambil dari eksperimen ini antara lain:

Meski AI dapat menghasilkan kode dalam jumlah besar, kualitas kode tersebut cenderung rendah tanpa pengawasan manusia.
Peran manusia tetap krusial dalam membimbing, mengawasi, dan mengintegrasikan pekerjaaan AI agar dapat mencapai hasil yang bermakna.
AI lebih efektif berfungsi sebagai alat bantu atau pelengkap bagi pengembang manusia, bukan sebagai pengganti total.

Eksperimen ambisius Cursor ini memperlihatkan kemajuan dan hambatan AI dalam bidang rekayasa perangkat lunak. Sementara AI terus berkembang, keterlibatan tenaga manusia tetap menjadi faktor kunci yang menentukan keberhasilan proyek teknologi yang kompleks seperti pembuatan browser web. Studi ini memberi gambaran nyata tentang batas kemampuan AI saat ini dan menegaskan pentingnya kolaborasi manusia-dan-mesin di masa depan.