Google memperkenalkan Gemini 3.5 di ajang Google I/O 2026 sebagai lompatan baru dalam keluarga model AI-nya. Fokus utamanya bukan lagi sekadar chatbot, melainkan sistem yang dirancang untuk menjalankan alur kerja agentic secara mandiri.
Perubahan ini penting karena Gemini 3.5 diposisikan untuk menangani tugas kompleks yang biasanya memerlukan banyak langkah, konteks panjang, dan akses ke alat eksternal. Google juga menampilkan versi Pro, yang menjadi bagian dari pengembangan bertahun-tahun dalam penalaran multimodal, kemampuan agentic, desain infrastruktur, dan penggunaan alat di dunia nyata.
Fokus baru pada agentic coding
Salah satu sorotan terbesar Gemini 3.5 adalah kemampuannya untuk coding berbasis agen. Model ini dirancang untuk memecah tugas rumit menjadi rencana multi-langkah, menugaskan sub-agent, memakai konteks sebelumnya, lalu memanfaatkan alat yang tersedia untuk menyelesaikan pekerjaan secara otonom.
Arah ini membuat Gemini 3.5 berbeda dari chatbot tradisional yang umumnya hanya merespons satu per satu perintah pengguna. Dalam skenario pengembangan perangkat lunak, pendekatan seperti ini memberi ruang bagi AI untuk bekerja lebih dekat dengan pola kerja tim teknis yang nyata.
Google juga menyiapkan platform pengembangan bernama Antigravity untuk mendukung pendekatan agent-first tersebut. Platform ini mencakup aplikasi desktop, SDK, CLI, dan dukungan suara untuk prototyping langsung, penanganan tugas kompleks, serta orkestrasi workflow multi-agent.
Konteks panjang jadi nilai jual utama
Gemini 3.5 mendukung context window hingga 1 juta token dan output hingga 65.000 token. Kapasitas ini ditujukan untuk menangani percakapan panjang, codebase besar, dan dokumen berukuran masif tanpa cepat kehilangan konteks.
Bagi pengembang dan pengguna enterprise, angka ini relevan karena banyak pekerjaan AI terhambat saat model tidak mampu mempertahankan detail dari input panjang. Dengan konteks sebesar itu, Gemini 3.5 diarahkan untuk memproses pekerjaan yang lebih dekat dengan kebutuhan produksi.
Google juga menyebut Gemini 3.5 memakai model thinking atau reasoning dengan beberapa tingkat kemampuan berpikir, dari minimal hingga tinggi. Setiap tingkat memiliki biaya tersendiri, sehingga pengguna bisa menyeimbangkan kualitas respons dan efisiensi biaya sesuai skenario.
Multimodal bukan sekadar tambahan
Gemini 3.5 dilatih dengan pemahaman native terhadap beragam input. Model ini dapat memproses teks, gambar, video, audio, grafik, dan format lain dalam satu kerangka penalaran.
Kemampuan ini didukung angka benchmark yang cukup kuat. Gemini 3.5 mencetak 84,2 persen pada benchmark CharXiv untuk penalaran dan interpretasi, serta 83,6 persen pada MMMU-Pro untuk pemahaman multimodal tingkat lanjut.
Hasil itu memperlihatkan bahwa Google ingin menempatkan multimodal sebagai fondasi utama, bukan fitur pelengkap. Artinya, model diharapkan mampu bekerja lintas format data secara lebih natural dalam tugas analisis maupun pembuatan konten.
Eksekusi lebih cepat dan integrasi lebih luas
Google juga menyoroti Gemini 3.5 Flash sebagai model yang menawarkan kecerdasan mendekati versi Pro, tetapi dengan biaya yang jauh lebih rendah. Meski lebih efisien, model ini tetap membawa kemampuan multimodal, kesadaran konteks, dan integrasi platform.
Efisiensi ini penting untuk penggunaan skala besar, terutama ketika AI dipakai dalam aplikasi yang butuh respons cepat. Kombinasi performa dan biaya yang lebih rendah memberi ruang bagi adopsi yang lebih luas di lingkungan bisnis.
Dari sisi konektivitas, Gemini 3.5 terhubung dengan berbagai alat Google seperti Google Search grounding, Google Maps, eksekusi kode, dan URL context. Integrasi ini ditujukan agar respons yang dihasilkan lebih lengkap dan lebih akurat.
Google juga membuka koneksi ke platform pihak ketiga seperti Shopify, Box, dan Databricks. Dukungan ini memperluas potensi otomasi untuk kebutuhan bisnis dan enterprise, terutama pada alur kerja yang melibatkan data, dokumen, toko online, dan analitik.
Dari terjemahan langsung sampai video generatif
Di luar coding dan enterprise, Google memamerkan kemampuan terjemahan suara langsung secara real time dalam lebih dari 70 bahasa. Menurut demonstrasi di I/O 2026, sistem ini juga berupaya mempertahankan nada, tempo, dan pitch pembicara secara natural.
Fitur ini menunjukkan bahwa Gemini 3.5 juga diarahkan untuk pengalaman komunikasi yang lebih cair. Terjemahan tidak hanya berfokus pada akurasi bahasa, tetapi juga pada nuansa penyampaian suara.
Google turut memperkenalkan model pembuatan video bernama Omni di dalam ekosistem Gemini 3.5. Model ini disebut dapat mengubah prompt sederhana maupun kompleks menjadi keluaran video bergaya sinematik.
Dengan rangkaian kemampuan itu, Gemini 3.5 tampil sebagai paket yang menonjolkan otonomi kerja, pemahaman konteks panjang, dan kecakapan multimodal dalam satu lini produk. Google juga menyatakan daftar fitur ini masih akan bertambah seiring pengumuman lanjutan.
Source: tech.sportskeeda.com






