Martin Hairer, peraih Fields Medal 2014, bersama tim matematikawan dari Harvard, Stanford, dan MathSci.ai melakukan eksperimen pengujian kecerdasan buatan (AI) di bidang matematika tingkat lanjut. Eksperimen berjudul “First Proof” ini bertujuan menguji apakah AI mampu menghasilkan ide orisinal dalam menyelesaikan soal riset yang belum dipublikasikan.
Tim peneliti menggunakan model AI terkini termasuk ChatGPT-5.2 Pro dan Google Gemini 3.0 Deep Think. Soal-soal yang diberikan sengaja belum pernah muncul di data latihan untuk menghindari AI hanya menyalin jawaban dari internet.
Ketidakmampuan AI Menghasilkan Ide Orisinal
Martin Hairer menyatakan bahwa Large Language Model (LLM) seperti ChatGPT dan Gemini memang piawai dalam menyelesaikan soal latihan standar. Namun, AI gagal total saat dihadapkan pada persoalan konsep baru yang membutuhkan pemikiran asli. Hairer mengatakan, “Saya belum melihat contoh yang masuk akal di mana LLM menghasilkan ide atau konsep baru yang benar-benar orisinal.”
Hal ini memperlihatkan bahwa AI saat ini masih mengandalkan pengolahan data yang sudah ada dan belum mampu berinovasi layaknya manusia dalam riset matematika. Kegagalan ini menunjukkan batas kemampuan AI dalam ranah kreativitas ilmiah yang kompleks.
Jawaban AI yang Bertele-tele dan Kurang Akurat
Hasil eksperimen menunjukkan jawaban AI sering kali bertele-tele dan tidak tepat. Martin Hairer membandingkan argumen AI dengan mahasiswa sarjana yang kurang cerdas. AI cenderung memberikan penjelasan panjang di bagian yang seharusnya sederhana, tetapi minim penjelasan di bagian inti yang sulit.
AI juga kerap melakukan "hand-waving", yakni memberikan argumen yang kabur di tengah-tengah pembuktian agar pembaca kurang memperhatikan kekurangan tersebut. Ini mengindikasikan AI memang mengetahui titik awal dan tujuan akhir, tapi tidak memahami langkah logis secara mendalam.
Fenomena Infinite Loop dan Kelemahan Teknis AI
Profesor matematika dari Harvard, Lauren Williams, memaparkan fenomena unik berupa infinite loop pada AI. Model-model AI seperti ChatGPT-5.2 Pro dan Gemini 3.0 sering terjebak dalam siklus koreksi berulang tanpa sampai pada solusi final yang tepat.
Selain itu, ada beberapa kelemahan mendasar AI dalam riset matematika:
- Kelemahan Visual: AI kurang mampu melakukan penalaran visual yang dibutuhkan dalam soal dengan dimensi ruang atau visualisasi kompleks.
- Daya Ingat Terbatas: Kinerja AI menurun saat pembuktian harus dijelaskan secara panjang lebih dari lima halaman.
- Sifat Yes Man: AI cenderung menyetujui argumen pengguna tanpa menguji atau menentang pendapat, sehingga kurang mampu memberikan perspektif kritis.
Dampak Ketergantungan pada AI bagi Ilmu Pengetahuan
Tamara Kolda dari MathSci.ai memperingatkan risiko ketergantungan pada AI dalam kemajuan sains. Menurutnya, kemajuan ilmiah bergantung pada perdebatan ide dan sudut pandang baru yang menantang. AI yang hanya mengulang instruksi tanpa kemampuan berdebat dapat memperlambat inovasi.
Eksperimen ini mengirimkan pesan penting bahwa meskipun AI telah mengalami kemajuan signifikan, peran matematikawan profesional masih sangat vital. AI belum mampu menggantikan proses kreatif dan kritis yang diperlukan dalam pengembangan ilmu pengetahuan tingkat lanjut.
Informasi ini dirilis dari laporan resmi The New York Times dan pernyataan tim peneliti pada bulan Februari. Eksperimen yang dilakukan oleh para ahli matematika ternama ini menjadi acuan penting dalam memahami sejauh mana AI dapat diandalkan dalam ranah riset ilmiah dan matematika tingkat lanjut.







