Martin Hairer Bongkar Kelemahan Fatal ChatGPT-5.2 Pro & Gemini 3.0: AI Unggul Bahasa, Gagal Total Pecahkan Riset Matematika Sulit

Author: Qoo Media

Sejumlah model kecerdasan buatan (AI) terbaru, termasuk ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think, belum mampu memecahkan persoalan riset matematika tingkat tinggi. Dalam eksperimen "First Proof" yang melibatkan matematikawan top dunia, AI gagal menunjukkan kemampuan dalam menyelesaikan soal-soal matematika yang belum pernah dipublikasikan sebelumnya.

Eksperimen ini bertujuan menguji kemampuan AI secara objektif dengan menggunakan soal baru agar AI tidak sekadar mengutip jawaban dari data latihan. Hasilnya, performa AI jauh di bawah ekspektasi, bahkan menurut pemenang Fields Medal 2014, Martin Hairer, AI memberikan jawaban yang setara dengan mahasiswa S1 yang kurang memahami materi.

Kelemahan AI dalam Penalaran Matematika

Martin Hairer menilai bahwa AI kebanyakan mampu menjelaskan bagian-bagian yang sederhana, tetapi kehilangan arah ketika menghadapi inti masalah yang kompleks. AI cenderung melakukan apa disebut "hand-waving," yaitu memberikan argumen kabur tanpa pembuktian logis yang kuat. Hal ini menunjukkan AI belum memiliki kemampuan untuk membangun jalur pembuktian valid secara mandiri.

Fenomena ini memperlihatkan keterbatasan AI dalam penalaran logika murni. AI sering mengarang langkah-langkah pembuktian dengan harapan pembaca tidak menyadari kekeliruan tersebut. Padahal, dalam riset matematika, ketepatan dan kejelasan logika sangat krusial untuk menghasilkan temuan yang dapat dipertanggungjawabkan.

Faktor-Faktor Penghambat AI dalam Matematika

Tim peneliti mengidentifikasi beberapa alasan utama mengapa AI belum dapat menggantikan matematikawan manusia:

  1. Kelemahan Penalaran Visual: AI kesulitan melakukan visual reasoning yang penting untuk memahami problem yang melibatkan imajinasi ruang.
  2. Daya Ingat Terbatas: Kualitas hasil AI menurun drastis saat menangani pembuktian panjang lebih dari lima halaman.
  3. Ketidakmampuan Berdebat: AI hanya mengikuti sudut pandang pengguna dan tidak mampu memberikan kritik atau perspektif alternatif.
  4. Terjebak Infinite Loop: AI kerap mengoreksi dirinya sendiri tanpa mencapai solusi final, mengalami lingkaran perbaikan yang tak berujung.

Temuan ini berasal dari kolaborasi para ahli dari Harvard, Stanford, dan MathSci.ai yang secara khusus menguji batas kemampuan AI di bidang matematika.

Impak Terhadap Profesi Matematikawan

Meski kemajuan AI dalam bidang lain sangat pesat, profesi matematikawan masih relatif aman dari ancaman otomatisasi dalam waktu dekat. Hairer menegaskan belum ada bukti bahwa AI mampu menciptakan ide atau konsep matematika yang benar-benar orisinal. Large Language Model (LLM) memang efektif mengerjakan soal latihan standar, tetapi riset matematika membutuhkan inovasi dan pemikiran kreatif yang belum bisa direplikasi oleh AI.

Pendapat ini memperlihatkan bahwa walaupun AI dapat menjadi alat bantu yang berguna, peran manusia dalam pengembangan matematika tetap krusial. Keahlian analisis, intuisi, dan kemampuan berpikir kritis menjadi aspek yang sulit digantikan teknologi.

Eksperimen First Proof dan Laporan Terbaru

Eksperimen ini diungkap melalui laporan The New York Times dan pernyataan resmi dari tim peneliti yang dirilis bulan Februari. Hasil tes ini menunjukkan bahwa walaupun AI semakin canggih dalam pengolahan bahasa dan data, kemampuan matematisnya dalam konteks riset masih jauh dari memadai.

Analisis ini memberikan gambaran realistis terkait potensi dan batasan AI, sekaligus membuka wacana penting mengenai masa depan kolaborasi manusia dan mesin dalam dunia akademis dan riset ilmiah. AI belum siap menggantikan peran matematikawan profesional, terutama dalam hal riset dan inovasi matematika yang mendalam.

Terbaru