Tes Koding Android Google Bongkar Kelemahan Gemini 3.5 Flash, Lebih Mahal tapi Tertinggal

Add on Google

Hasil uji coding Android milik Google memunculkan temuan yang tidak biasa untuk model AI terbarunya. Gemini 3.5 Flash justru tertinggal dari model lama, sekaligus menjadi opsi paling mahal dalam daftar yang sama.

Temuan ini penting karena nama Flash selama ini lekat dengan citra cepat dan lebih murah. Namun pada Android Bench, model baru itu gagal menembus lima besar dan kalah dari sejumlah pesaing serta pendahulunya sendiri.

Android Bench merupakan leaderboard yang menguji kemampuan berbagai model AI dalam menangani tugas pengembangan Android. Dalam pemeringkatan terbaru, OpenAI GPT 5.5 berada di posisi pertama dengan skor 74.

Posisi berikutnya ditempati GPT 5.4 dan Gemini 3.1 Pro Preview yang sama-sama mencetak skor 72,4. Model Claude Opus terbaru juga masih berada di atas Gemini 3.5 Flash.

Gemini 3.5 Flash mencatat skor 63,7 dan finis di posisi keenam. Hasil ini membuat model tersebut tertinggal cukup jauh dari kelompok teratas, meski diposisikan sebagai model premium baru dari Google.

Yang lebih mengejutkan bukan hanya nilainya, tetapi juga efisiensinya. Berdasarkan data benchmark Google, Gemini 3.5 Flash rata-rata memakai 355,9 total token.

Penggunaan token itu mendorong biaya rata-rata menjadi $147.1 per run. Angka tersebut menjadikannya model termahal di seluruh peringkat, meski performanya masih kalah dari beberapa rival.

Kondisi ini menimbulkan pertanyaan baru bagi pengembang yang mempertimbangkan rasio harga dan hasil. Model yang lebih mahal biasanya diharapkan memberi lompatan kemampuan, tetapi angka pada Android Bench menunjukkan kebalikan untuk skenario pengembangan Android.

Berlawanan dengan citra Flash

Google sebelumnya memperkenalkan Gemini 3.5 Flash di Google I/O 2026. Saat itu, perusahaan menyebutnya sebagai model Flash paling bertenaga yang pernah dibuat.

Google juga mengklaim model ini memiliki kemampuan coding yang lebih kuat. Selain itu, dukungan untuk AI agent dan alur kerja kompleks disebut lebih baik dibanding generasi sebelumnya.

Dalam paparan yang sama, Google mengatakan Gemini 3.5 Flash mengungguli Gemini 3.1 Pro pada sejumlah benchmark internal. Perusahaan juga menyebut output model itu bisa hingga empat kali lebih cepat dibanding model frontier pesaing.

Namun hasil Android Bench memperlihatkan gambaran berbeda. Setidaknya untuk tugas pengembangan Android yang diuji pada leaderboard itu, Gemini 3.5 Flash belum menunjukkan keunggulan yang sejalan dengan klaim posisi dan harganya.

Perbedaan antara benchmark internal dan pengujian berbasis tugas nyata bukan hal baru di industri AI. Meski begitu, ketika pengujian datang dari leaderboard Android milik Google sendiri, hasilnya menjadi sorotan lebih besar.

Model lama justru lebih menarik

Salah satu perbandingan yang paling menonjol datang dari Gemini 3.1 Pro Preview. Model lama Google itu bukan hanya mendapat skor lebih tinggi, tetapi juga disebut 9to5Google memerlukan biaya sekitar sepertiga dari Gemini 3.5 Flash.

Fakta ini membuat posisi Gemini 3.5 Flash menjadi sulit dijelaskan dari sudut pandang nilai guna. Bagi pengembang, model lama tampak memberi kombinasi hasil dan biaya yang lebih masuk akal untuk tugas Android.

Kekalahan dari model internal sendiri juga memperkuat kesan bahwa pembaruan generasi tidak otomatis berarti peningkatan pada semua kasus penggunaan. Dalam konteks ini, “lebih baru” belum tentu “lebih baik” untuk coding Android.

Dominasi GPT 5.5 di puncak leaderboard menambah tekanan kompetitif bagi Google. Apalagi GPT 5.4 juga menyamai skor tinggi Gemini 3.1 Pro Preview, sehingga persaingan tidak hanya datang dari satu model saja.

Masuknya model Claude Opus di atas Gemini 3.5 Flash memperlihatkan bahwa pasar model coding makin padat. Untuk pengembang, keputusan memilih model kini makin dipengaruhi oleh performa nyata dan efisiensi biaya, bukan sekadar branding.

Apa artinya bagi ekosistem Android

Bagi pengembang Android, hasil ini bisa memengaruhi pilihan alat kerja harian. Jika sebuah model menawarkan biaya lebih tinggi tetapi hasil benchmark lebih rendah, adopsinya berpotensi melambat sampai ada perbaikan yang jelas.

Di sisi lain, hasil ini tidak serta-merta berarti Gemini 3.5 Flash lemah di semua bidang. Data yang tersedia hanya menunjukkan bahwa performanya pada tugas pengembangan Android di leaderboard tersebut belum sekuat ekspektasi.

Masih terbuka kemungkinan Google meningkatkan model ini lewat pembaruan berikutnya. Sorotan juga kini mengarah pada Gemini 3.5 Pro, yang diharapkan bisa lebih sesuai dengan janji performa Google.

Untuk saat ini, data Android Bench justru mengirim pesan yang sederhana bagi pasar. Dalam pengujian coding Android, model terbaru Google belum menjadi pilihan paling unggul, dan justru hadir dengan biaya tertinggi di daftar.