India kini menorehkan prestasi signifikan dalam dunia kecerdasan buatan (AI) dengan hadirnya Sarvam AI, startup berbasis di Bengaluru yang berhasil mengembangkan model AI dasar secara mandiri. Sarvam AI memperkenalkan dua produk unggulan, Sarvam Vision dan Bulbul, yang berhasil menarik perhatian global karena kemampuannya menyaingi bahkan melampaui model AI besar seperti Google Gemini dan ChatGPT dalam bidang tertentu.
Sarvam Vision, fokus pada pengenalan karakter optik (OCR), mencatatkan pencapaian luar biasa dengan skor akurasi sebesar 84,3 persen pada benchmark olmOCR-Bench. Angka ini mengungguli Google Gemini 3 Pro dan model OCR lain seperti DeepSeek OCR v2, sementara ChatGPT berada di posisi jauh di bawahnya. Selain itu, Sarvam Vision juga menunjukkan performa unggul pada OmniDocBench v1.5, dengan skor keseluruhan mencapai 93,28 persen. Kekuatan utamanya terletak pada kemampuannya membaca dan memahami dokumen berformat kompleks, termasuk tabel teknis dan rumus matematika yang biasanya menimbulkan masalah bagi sistem OCR tradisional.
Keunggulan Sarvam Vision pada Pengujian OCR
- Skor Akurasi Tinggi: Meraih 84,3 persen pada olmOCR-Bench, lebih baik dari pesaing besar.
- Kemampuan Membaca Dokumen Kompleks: Skor 93,28 persen di OmniDocBench v1.5, unggul di layout rumit dan isi padat.
- Fokus pada Bahasa dan Dokumen India: Memberikan solusi untuk kebutuhan AI lokal yang selama ini kurang diperhatikan.
Kinerja Sarvam Vision mendapat pengakuan dan pujian dari para ahli teknologi dan pengguna di seluruh dunia. Deedy Das, seorang pengamat teknologi yang sebelumnya skeptis terhadap pengembangan model AI bahasa lokal, mengakui bahwa Sarvam telah membalikkan pandangannya. Ia menilai Sarvam telah berhasil mengisi kekosongan yang selama ini diabaikan oleh laboratorium AI global besar dengan model text-to-speech, speech-to-text, dan OCR untuk bahasa-bahasa India yang sangat berkualitas dan harga yang masuk akal.
Bulbul: Model Suara AI untuk Bahasa India
Selain itu, Sarvam juga meluncurkan Bulbul V3, model text-to-speech (TTS) yang mampu menghasilkan suara natural dan ekspresif dalam bahasa-bahasa India. Saat ini, Bulbul mendukung lebih dari 35 suara dalam 11 bahasa India, dengan rencana ekspansi hingga 22 bahasa guna memperluas jangkauan dan kegunaannya. Model ini dirancang khusus untuk meminimalkan kesalahan dan memberikan keluaran suara yang stabil serta akurat sesuai konteks penggunaan di India.
Bulbul sudah digunakan di berbagai aplikasi, termasuk KissanAI, di mana model ini menjadi pilihan utama untuk kebutuhan TTS. Pengguna mengungkapkan bahwa Bulbul mengalami peningkatan kualitas berkelanjutan, dan harganya jauh lebih terjangkau dibandingkan dengan alternatif internasional seperti ElevenLabs, yang dinilai tidak cocok dari segi harga dan bahasa untuk pasar India.
Alasan Bulbul Mendapat Pujian
- Suara Alami dan Ekspresif: Menyasar kebutuhan produksi suara yang alami dan siap pakai.
- Dukungan Bahasa Luas: Meliputi 11 bahasa dengan rencana perluasan ke 22 bahasa.
- Harga Terjangkau: Lebih sesuai untuk pasar lokal dibandingkan teknologi asing sejenis.
Keberhasilan Sarvam AI menjadi bukti nyata potensi dan kapasitas inovasi teknologi buatan India di panggung AI dunia. Dengan pendekatan “sovereign AI” yang membangun model dari nol secara lokal, Sarvam tidak hanya mengisi kekosongan pada layanan AI untuk bahasa dan konteks India, tapi juga mampu bersaing dengan para raksasa teknologi internasional secara global. Pencapaian ini menandai sebuah perubahan paradigma di mana India tidak lagi dianggap sekadar sebagai konsumen teknologi, tapi juga sebagai inovator utama di bidang kecerdasan buatan.
Kedepannya, langkah Sarvam diharapkan dapat menggugah lebih banyak perusahaan dan pengembang di India untuk berinovasi secara mandiri, sekaligus memacu perkembangan AI yang lebih inklusif dan berorientasi pada kebutuhan lokal. Model-model seperti Sarvam Vision dan Bulbul menjadi contoh konkrit bagaimana inovasi berbasis konteks budaya dan bahasa dapat membawa dampak besar secara global. Hal ini juga menguatkan posisi India dalam persaingan teknologi AI yang selama ini didominasi oleh Amerika Serikat dan China.







