AI Google Pecahkan Soal Matematika 56 Tahun Sendiri, Bos DeepMind Tegaskan Ini Bukan AGI

Google DeepMind mengklaim sistem AI bernama AlphaProof Nexus mampu menyelesaikan sembilan masalah terbuka milik Paul Erdős secara otonom. Beberapa di antaranya disebut sudah belum terpecahkan hingga 56 tahun, dengan biaya komputasi per masalah hanya beberapa ratus dolar.

Klaim itu langsung menarik perhatian karena datang hanya beberapa hari setelah OpenAI mengatakan salah satu modelnya berhasil memecahkan planar unit distance problem yang pertama kali diajukan Erdős pada 1946. Namun, DeepMind menekankan bahwa terobosan ini bukan berarti AI sudah mendekati artificial general intelligence, atau AGI.

Demis Hassabis, CEO Google DeepMind, menyatakan kemampuan seperti ini masih jauh dari AGI sejati. Dalam Big Technology Podcast, ia mengatakan sistem AI saat ini masih “nowhere near” true AGI meski mampu menyelesaikan persoalan matematika yang sangat sulit.

Menurut Hassabis, ukuran AGI bukan sekadar jumlah soal Erdős yang bisa diselesaikan. Ia menilai AGI harus memiliki kemampuan penemuan yang benar-benar orisinal dan kecerdasan luas di banyak bidang, bukan hanya unggul pada tugas matematika yang sangat spesifik.

Bukan hanya sembilan masalah Erdős

Selain sembilan masalah terbuka Erdős, Google menyebut AlphaProof Nexus juga membuktikan 44 konjektur terbuka di OEIS. Sistem yang sama juga disebut menyelesaikan pertanyaan berusia 15 tahun di geometri aljabar.

Google juga mengklaim AI ini menemukan parameter algoritmik baru dalam teori optimisasi. Temuan itu disebut belum pernah ditemukan manusia sebelumnya, sehingga memperluas diskusi dari sekadar pembuktian menuju potensi penemuan matematika baru.

Yang membuat klaim ini menonjol adalah cara kerjanya yang disebut otonom. Sistem tidak hanya membantu matematikawan manusia, tetapi menghasilkan upaya pembuktian sendiri lalu memeriksanya dengan alat verifikasi formal tingkat komputer.

Pendekatan itu berbeda dari banyak sistem pembuktian AI sebelumnya yang masih sangat bergantung pada pemeriksaan manusia. Dalam kasus ini, verifikasi tidak diserahkan sepenuhnya kepada penilaian informal para ahli setelah hasil keluar.

Sorotan pada risiko “halusinasi”

Google menempatkan isu halusinasi sebagai titik penting dalam matematika berbasis AI. Menurut para peneliti, model AI bisa menghasilkan pembuktian yang terdengar meyakinkan tetapi sebenarnya memuat kesalahan logika serius.

Salah satu bentuk kesalahannya adalah ketika AI menciptakan pernyataan matematika baru, atau lemma, lalu menyajikannya seolah-olah sudah terbukti sebelumnya. Kesalahan lain muncul saat bagian tersulit dari sebuah masalah hanya diganti nama menjadi “helper lemma”, sehingga pembuktian tampak selesai padahal inti persoalannya belum disentuh.

Masalah seperti ini bisa lolos saat ditinjau secara informal oleh manusia. Alasannya, argumen teknis yang salah tetap dapat terdengar masuk akal bagi pembaca yang tidak memeriksa setiap langkah secara ketat.

Dalam konteks itu, perbedaan pendekatan menjadi penting. Ketika OpenAI sebelumnya mengklaim AI-nya memecahkan masalah Erdős, perusahaan tersebut mengatakan pembuktiannya kemudian ditinjau dan diverifikasi oleh matematikawan eksternal.

Google memilih pendekatan yang menempatkan verifikasi formal di jantung sistem. Dengan begitu, masalah seperti klaim tanpa dasar, lemma palsu, dan celah logika diharapkan bisa ditolak sejak awal oleh sistem itu sendiri.

Lean jadi penjaga setiap langkah logika

Untuk menjalankan pendekatan itu, DeepMind menggabungkan penalaran model bahasa besar dengan sistem verifikasi formal bernama Lean. Penalaran model disebut ditenagai Gemini 3.1 Pro, sementara Lean memeriksa setiap langkah logika berdasarkan aturan matematika yang ketat.

Skema kerjanya sederhana tetapi signifikan. AI menghasilkan berbagai upaya pembuktian, lalu Lean memvalidasi atau menolak tiap langkah secara otomatis tanpa harus menunggu koreksi manual dari manusia.

Google menilai kombinasi antara penalaran AI dan verifikasi formal bisa mengubah cara kerja matematikawan di masa depan. Bukan karena mesin mengambil alih seluruh proses, melainkan karena para peneliti manusia dapat fokus pada bagian yang belum terpecahkan tanpa harus mengulang pemeriksaan dari nol.

Para peneliti mengatakan hasil mereka mendukung visi tersebut. Mereka juga menyebut kolaborator matematikawan merasa upaya pembuktian yang dihasilkan agen AI membantu memperdalam pemahaman terhadap masalah, bahkan ketika agen itu belum berhasil membuktikan klaim yang sedang diuji.

Keuntungan lain dari pembuktian formal adalah efisiensi dalam peninjauan. Karena sketsa pembuktian sudah diverifikasi secara formal, ahli manusia dapat langsung masuk ke bagian yang masih terbuka dan belum terselesaikan.

Prestasi besar, tetapi belum setara kecerdasan umum

Perdebatan soal AGI muncul hampir otomatis setiap kali AI menembus wilayah yang lama dianggap sangat manusiawi, termasuk matematika murni. Namun justru dari internal DeepMind sendiri muncul penegasan bahwa kemampuan seperti ini belum cukup untuk disebut kecerdasan umum.

Hassabis menyinggung bahwa sistem saat ini masih belum mendekati kedalaman orisinalitas tokoh seperti Srinivasa Ramanujan. Pernyataan itu menunjukkan bahwa keberhasilan memecahkan soal sulit belum sama dengan kreativitas matematis tingkat tertinggi yang lahir dari intuisi dan penemuan baru yang luas.

Karena itu, posisi DeepMind saat ini terkesan ganda tetapi konsisten. Di satu sisi, perusahaan mengeklaim lompatan penting dalam pembuktian matematika otonom yang terverifikasi secara formal.

Di sisi lain, perusahaan tidak menjual capaian itu sebagai bukti bahwa AGI sudah dekat. Untuk saat ini, AI tampak bergerak menjadi asisten matematika yang sangat kuat, tetapi bahkan menurut CEO DeepMind sendiri, sistem tersebut masih jauh dari menyamai kejeniusaan manusia.

Source: www.indiatoday.in
Exit mobile version