Microsoft Ungkap Kelemahan AI, Tugas Panjang Masih Mudah Berantakan

Penelitian terbaru dari Microsoft menyoroti satu masalah besar pada kecerdasan buatan yang selama ini digadang-gadang bisa bekerja seperti karyawan digital. Saat tugasnya panjang dan melibatkan banyak langkah, AI masih kerap kehilangan akurasi, merusak dokumen, atau membuat hasil kerja berubah jauh dari tujuan awal.

Temuan ini penting karena banyak perusahaan teknologi sebelumnya menekankan kemampuan agen AI untuk mengerjakan riset, mengolah dokumen, dan menjalankan berbagai aplikasi secara mandiri. Namun, uji internal Microsoft menunjukkan bahwa kemampuan itu belum cukup stabil untuk pekerjaan profesional yang menuntut ketelitian dari awal hingga akhir.

Uji 52 bidang kerja menunjukkan batas AI

Tim peneliti Microsoft Research yang terdiri dari Philippe Laban, Tobias Schnabel, dan Jennifer Neville menguji model bahasa besar atau LLM lewat sistem bernama DELEGATE-52. Sistem ini dibuat untuk meniru pekerjaan profesional di 52 bidang, mulai dari pemrograman, akuntansi, kristalografi, hingga notasi musik.

Salah satu skenario yang diuji adalah tugas akuntansi yang menuntut AI memisahkan data keuangan ke dalam beberapa file. Setelah itu, AI harus menggabungkannya kembali menjadi satu dokumen yang rapi dan tersusun kronologis.

Dari pengujian tersebut, Microsoft menemukan bahwa model AI terbaik pun masih sering melakukan kesalahan serius ketika harus menuntaskan tugas yang berlangsung lama. Laporan peneliti menyebut model perbatasan seperti Gemini 3.1 Pro, Claude 4.6 Opus, dan GPT 5.4 kehilangan rata-rata 25% isi dokumen selama 20 interaksi yang didelegasikan.

Kesalahan makin besar seiring jumlah langkah

Penelitian itu juga menunjukkan pola yang konsisten: semakin panjang rangkaian kerja yang diberikan, semakin besar peluang isi dokumen berubah, hilang, atau rusak. Kondisi ini membuat AI belum bisa dianggap andal untuk pekerjaan yang membutuhkan ketekunan berlapis dan pengelolaan konteks yang stabil.

Para peneliti mencatat degradasi rata-rata di seluruh model mencapai 50%. Artinya, separuh dari hasil kerja bisa menurun kualitasnya ketika proses dibiarkan berjalan dalam banyak tahapan.

Microsoft menetapkan ambang yang tinggi untuk menilai apakah AI layak bekerja tanpa pengawasan manusia. Model harus mampu mempertahankan akurasi minimal 98% setelah 20 interaksi, tetapi dari 52 bidang yang diuji, hanya satu yang lolos standar itu.

Pemrograman masih jadi area terkuat

Satu-satunya bidang yang memenuhi standar Microsoft adalah pemrograman Python. Di luar itu, mayoritas tugas masih menunjukkan bahwa AI belum siap dipakai secara mandiri untuk pekerjaan yang menuntut konsistensi dan ketelitian tinggi.

Peneliti juga menemukan AI lebih kuat saat mengerjakan tugas pemrograman dibandingkan pekerjaan berbasis bahasa alami seperti pengolahan dokumen atau penulisan. Temuan ini memperlihatkan bahwa kemampuan AI belum merata di semua jenis pekerjaan, meski tampil meyakinkan pada beberapa skenario tertentu.

Dalam lebih dari 80% pengujian, muncul kondisi yang disebut kerusakan katastrofik. Istilah ini merujuk pada situasi ketika kualitas hasil kerja AI turun sangat drastis dan sulit dipulihkan.

Model yang lebih kuat belum tentu lebih aman

Salah satu hal yang paling menarik dari penelitian ini adalah fakta bahwa model yang lebih kuat tidak otomatis lebih stabil. Menurut temuan Microsoft, model besar hanya cenderung menunda kesalahan besar ke tahap yang lebih akhir.

Dengan kata lain, AI tidak selalu gagal secara bertahap. Hasilnya bisa terlihat baik pada banyak langkah awal, lalu mendadak berantakan saat proses sudah jauh berjalan dan konteks kerja mulai menumpuk.

Temuan tersebut memberi sinyal bahwa perusahaan yang ingin memakai AI untuk pekerjaan jangka panjang tetap perlu menempatkan manusia sebagai pengawas. Selama ketahanan terhadap rangkaian tugas panjang belum tercapai, AI masih lebih cocok diperlakukan sebagai alat bantu, bukan pengganti penuh untuk pekerjaan profesional yang kompleks.

Source: teknologi.bisnis.com
Exit mobile version