Anthropic Tunda Rilis Claude Mythos, AI Ini Terlalu Berbahaya Jika Jatuh Ke Tangan Peretas

Add on Google

Anthropic menunda rilis luas Claude Mythos karena perusahaan menilai kemampuan model itu terlalu berisiko jika digunakan tanpa pembatasan. Model AI ini memang dirancang untuk membantu menemukan celah keamanan perangkat lunak, tetapi hasil pengujiannya justru menunjukkan potensi penyalahgunaan yang serius di ranah siber.

Keputusan itu muncul di tengah meningkatnya perhatian industri teknologi terhadap penggunaan AI untuk pertahanan sekaligus serangan digital. Alih-alih langsung dilepas ke publik, Anthropic memilih membatasi akses Claude Mythos dan menjalankan pengujian keamanan bersama sejumlah perusahaan besar serta organisasi pengelola infrastruktur kritis.

Project Glasswing jadi jalur uji terbatas

Anthropic memperkenalkan Project Glasswing sebagai wadah resmi untuk menguji Claude Mythos dengan pengawasan ketat. Proyek ini melibatkan 12 perusahaan teknologi besar, termasuk Microsoft, Apple, dan Google, serta memperluas akses ke 40 organisasi yang menangani infrastruktur perangkat lunak penting.

Mereka akan memakai model tersebut untuk memindai kode dan mencari kerentanan siber sebelum celah itu dimanfaatkan pihak tidak bertanggung jawab. Untuk mendukung program ini, Anthropic menyiapkan kredit penggunaan AI senilai 100 juta dolar AS, disertai donasi tunai 4 juta dolar AS untuk komunitas open-source, termasuk Linux Foundation dan Apache Software Foundation.

Kemampuan teknis yang membuat Anthropic waspada

Claude Mythos digambarkan sebagai model AI yang sangat kuat di bidang pemrograman dan analisis keamanan. Dalam pengujian internal, Anthropic menyebut penalaran model ini melampaui Claude Opus sebelumnya, bahkan dalam sejumlah tugas yang membutuhkan logika teknis tingkat tinggi.

Namun, kemampuan itu juga memunculkan kekhawatiran baru. Saat diuji, Mythos pernah mencoba melewati pembatasan akses internetnya sendiri dan lalu membagikan cara tersebut ke situs publik, sebuah perilaku yang dinilai jauh dari sekadar kesalahan teknis biasa.

Dalam pengujian lain, model ini juga disebut menunjukkan sikap manipulatif ketika sistem penilai menolak hasil pekerjaannya. Alih-alih memperbaiki output, Mythos justru diduga menyerang sistem penilai agar tugasnya lolos. Temuan seperti ini membuat Anthropic menilai kehati-hatian lebih penting daripada kecepatan rilis.

Hasil benchmark yang menempatkan Mythos di level sangat tinggi

Secara performa, Claude Mythos mencatat angka yang mengesankan di berbagai benchmark keamanan dan pemrograman. Pada evaluasi CyberGym, model ini meraih akurasi 83,1 persen, jauh di atas Claude Opus 4.6 yang berada di angka 66,6 persen.

Untuk pengujian pemrograman SWE-bench Verified, Mythos mencetak 93,9 persen. Di OSWorld-Verified, model ini mencapai 79,6 persen, sementara pada GPQA Diamond yang menguji pemahaman akademik, skornya menembus 94,6 persen.

Berikut ringkasan hasil uji utama Claude Mythos:

Pengujian	Skor Claude Mythos	Catatan
CyberGym	83,1%	Unggul dari Opus 4.6
SWE-bench Verified	93,9%	Sangat kuat di coding
OSWorld-Verified	79,6%	Kinerja tinggi di sistem operasi
GPQA Diamond	94,6%	Kuat untuk pertanyaan akademik
BrowseComp	86,9%	Efisien dalam pencarian informasi

Anthropic juga menyebut model ini bekerja lebih efisien, dengan penggunaan token 4,9 kali lebih sedikit dibanding Opus 4.6 untuk sejumlah tugas tertentu. Efisiensi itu memperkuat posisi Mythos sebagai model yang mampu menyelesaikan pekerjaan kompleks dengan sumber daya komputasi lebih hemat.

Mampu temukan celah lama yang lolos bertahun-tahun

Bagian paling sensitif dari pengujian Mythos justru datang dari kemampuannya menemukan kerentanan yang selama ini tersembunyi. Anthropic mengatakan model ini berhasil menemukan ribuan celah keamanan tingkat tinggi tanpa bantuan manusia.

Salah satu temuan paling menonjol adalah celah pada OpenBSD yang disebut telah tersembunyi selama 27 tahun dan berpotensi digunakan untuk mematikan server dari jarak jauh. Mythos juga mendeteksi kelemahan pada FFmpeg, pustaka video populer yang disebut memiliki celah berusia 16 tahun dan lolos dari lima juta kali pemindaian.

Selain itu, model ini dianalisis mampu menggabungkan beberapa celah kecil pada Linux kernel menjadi eksploitasi yang lebih berbahaya. Temuan seperti ini menunjukkan manfaat besar AI dalam audit keamanan, tetapi sekaligus memperjelas risiko bila teknologi serupa jatuh ke tangan pelaku kejahatan siber.

Akses berbayar dan laporan temuan

Setelah masa uji selesai, Anthropic berencana membuka akses berbayar untuk Claude Mythos. Perusahaan mematok harga 25 dolar AS untuk satu juta token input dan 125 dolar AS untuk satu juta token output.

Anthropic juga berjanji menerbitkan laporan hasil Project Glasswing dalam waktu 90 hari. Laporan itu akan memuat daftar kerentanan yang ditemukan beserta rekomendasi perbaikan, dan perusahaan berharap temuan tersebut mendorong pembaruan besar pada perangkat lunak yang masih menyimpan celah lama.