Kode Claude Bocor, Celah Pertama Ini Bisa Loloskan Aturan dan Curi Kredensial

Kebocoran kode sumber Claude Code membuka celah baru dalam pembahasan keamanan agen AI untuk coding. Peneliti menemukan kerentanan pertama yang dinilai serius, setelah sebagian besar kode di balik alat buatan Anthropic itu sempat terpublikasi secara tidak sengaja.

Insiden ini tidak membocorkan bobot model AI, tetapi tetap memberi gambaran rinci tentang cara kerja Claude Code. Dampaknya cukup besar karena pelaku dapat mempelajari alur izin, mencari titik lemah, atau bahkan membuat tiruan alat yang tampak meyakinkan untuk menyebarkan malware.

Apa yang bocor dari Claude Code

Claude Code adalah asisten berbasis terminal yang bekerja langsung di command line. Alat ini dapat mengedit file dan menjalankan perintah shell, sehingga sistem izin menjadi lapisan penting untuk mencegah tindakan berbahaya.

Menurut data dari artikel referensi, Anthropic tanpa sengaja mengunggah sebagian besar kode Claude Code pada akhir Maret. Setelah itu, perusahaan disebut berupaya menindak salinan kode yang beredar di internet.

Kebocoran ini menarik perhatian analis keamanan karena kode sumber dapat menunjukkan logika internal yang biasanya tidak terlihat publik. Salah satu temuan yang lebih dulu ramai dibahas adalah keberadaan protokol bernama YOLO.

Namun, fokus terbaru bergeser pada sistem permission atau perizinan Claude Code. Tim Adversa AI melaporkan adanya kelemahan kritis pada cara alat tersebut memeriksa rangkaian perintah yang kompleks.

Bagaimana celah ini bekerja

Dalam kondisi normal, pengguna Claude Code bisa menetapkan deny rules untuk memblokir perintah tertentu. Contohnya, perintah “curl” dapat dilarang karena biasa dipakai untuk memindahkan data melalui jaringan.

Sebaliknya, perintah seperti “git” dapat diizinkan secara eksplisit. Mekanisme ini dirancang agar alat tetap berguna untuk pengembangan perangkat lunak tanpa memberi akses bebas ke semua perintah sistem.

Masalah muncul saat Claude Code menangani command chain yang sangat panjang. Berdasarkan temuan peneliti, Anthropic membatasi analisis keamanan mendetail hanya sampai maksimal 50 subperintah untuk menghindari penurunan performa dan antarmuka yang macet.

Jika rantai perintah melewati batas itu, pemeriksaan individual dilewati. Sistem lalu hanya menampilkan prompt umum yang meminta pengguna menyetujui eksekusi perintah tersebut.

Peneliti menilai perilaku ini bisa dieksploitasi lewat prompt injection. Serangan semacam ini memanipulasi input yang dibaca AI agar filter keamanannya dapat dilewati.

Skenario serangan yang dikhawatirkan

Dalam contoh yang dijabarkan peneliti, penyerang bisa menaruh file bernama “CLAUDE.md” di repositori publik. File itu berisi instruksi yang akan dibaca agen AI ketika pengembang mengkloning proyek dan meminta Claude Code meninjau isinya.

Agen kemudian bisa diarahkan menjalankan lebih dari 50 perintah yang tampak sah. Setelah melewati perintah ke-50, aturan larangan yang ditetapkan pengguna disebut tidak lagi diterapkan secara rinci.

Artinya, perintah yang seharusnya diblokir dapat lolos jika disisipkan dalam rantai panjang. Menurut artikel referensi, hal ini berpotensi dipakai untuk mengirim data sensitif dari mesin lokal pengembang ke server eksternal secara diam-diam.

Data yang berisiko mencakup:

SSH keys.
Kredensial cloud.
Kunci kriptografi untuk akses jarak jauh.
Data sensitif lain yang tersimpan di lingkungan pengembangan.

Risiko utamanya bukan hanya pada eksekusi perintah, tetapi juga pada persepsi pengguna. Karena sistem hanya meminta persetujuan umum, pengguna bisa tidak menyadari bahwa kebijakan keamanan yang dibuat sebelumnya sebenarnya sudah terabaikan.

Fakta penting dari versi yang bocor

Temuan yang paling menonjol adalah adanya indikasi bahwa perbaikan sebenarnya sudah ada di kode sumber yang bocor. Artikel referensi menyebut versi 2.1.88 telah memuat parser yang lebih modern untuk memeriksa deny rules dengan benar, terlepas dari panjang rantai perintah.

Parser itu disebut mampu menganalisis struktur perintah secara lebih konsisten. Namun, mekanisme baru tersebut belum diterapkan pada versi publik, sehingga sistem lama yang cacat masih digunakan.

Hal ini penting karena menunjukkan masalahnya bukan semata absennya solusi teknis. Persoalannya juga menyangkut implementasi dan distribusi perbaikan ke pengguna akhir.

Status perbaikan dari Anthropic

Anthropic tampaknya telah menutup celah tersebut. Berdasarkan changelog versi 2.1.90, perusahaan memperbaiki masalah yang dijelaskan sebagai “parse-fail fallback deny-rule degradation”.

Deskripsi itu sejalan dengan pola kelemahan yang diungkap peneliti. Meski begitu, peneliti yang menemukan kerentanan ini menyebut masih ada pendekatan lain yang dapat dipakai untuk mengurangi risiko serupa.

Secara lebih luas, kasus Claude Code menambah daftar peringatan untuk ekosistem agen AI yang beroperasi di terminal. Saat alat AI diberi kemampuan menjalankan perintah sistem, batas antara produktivitas dan risiko keamanan menjadi jauh lebih tipis.

Bagi pengembang, insiden ini menunjukkan pentingnya meninjau ulang permission rules, memeriksa file instruksi di repositori pihak ketiga, dan selalu memasang versi terbaru alat yang digunakan. Kebocoran kode memang tidak menyentuh model AI secara langsung, tetapi blueprint internal seperti ini cukup untuk membantu peneliti maupun penyerang memahami bagaimana sebuah agen bisa dibujuk melampaui pagar pengamannya.