Xiaomi Tak Lagi Cuma Jago Ponsel, Serbuan AI-Nya Kini Terlalu Besar untuk Diabaikan

Add on Google

Xiaomi kini tidak lagi hanya dikenal lewat ponsel murah dan perangkat rumah pintar. Dalam sekitar satu setengah tahun terakhir, perusahaan ini bergerak cepat membangun portofolio AI yang mencakup model bahasa besar, suara, visi, hingga agen otonom yang bisa menjalankan tugas di ponsel.

Perubahan itu penting karena Xiaomi tidak sekadar menambahkan fitur AI ke produk lama. Perusahaan ini sudah menyiapkan tumpukan teknologi yang lengkap, dari model open-source untuk pengembang sampai fitur konsumen di HyperOS dan asisten yang terhubung ke ekosistem rumah pintar serta mobil.

Dari model kecil ke arsitektur raksasa

Langkah awal Xiaomi di balapan LLM dimulai pada April 2025 lewat MiMo-7B. Nama MiMo sendiri merupakan singkatan dari Xiaomi Model, dan sejak awal fokusnya diarahkan ke penalaran serta coding, bukan hanya percakapan umum.

Meski hanya memiliki 7 miliar parameter, Xiaomi mengklaim model ini tampil jauh di atas kelasnya. Pada benchmark matematika seperti MATH-500, versi reinforcement learning dilaporkan meraih 95,8% dan disebut melampaui OpenAI o1-mini serta Alibaba Qwen-32B-Preview di kompetisi AIME 2024 dan 2025.

MiMo-7B dilatih dengan 200 miliar token penalaran yang dikurasi khusus. Total proses latihannya mencakup 25 triliun token dalam tiga fase, lalu dirilis dengan lisensi MIT dan tersedia di Hugging Face.

Tim pengembang model ini dipimpin Luo Fuli, yang bergabung ke Xiaomi dari DeepSeek. Detail itu memberi gambaran bahwa Xiaomi tidak masuk ke AI sebagai proyek sampingan, melainkan lewat rekrutmen dan pengembangan yang terarah.

Lompatan performa dan efisiensi

Pada Desember 2025, Xiaomi memperkenalkan MiMo-V2-Flash. Model ini memiliki 309 miliar parameter, tetapi hanya sekitar 15 miliar parameter yang aktif setiap kali digunakan berkat desain Mixture-of-Experts.

Model tersebut menonjol karena menggabungkan performa dan kecepatan. Xiaomi menyebutnya masuk dua besar model open-source pada benchmark penalaran, menyamai GPT-5 dan Claude 4.5 Sonnet di SWE-Bench Verified, serta mampu menghasilkan 150 token per detik.

Biaya inferensinya juga diklaim hanya 2,5% dari harga Claude. Xiaomi memasang tarif API $0.1 per juta token input dan sempat memberi akses gratis dalam periode peluncuran terbatas.

MiMo-V2-Flash juga membawa teknik Multi-Token Prediction atau MTP. Teknik ini memungkinkan model menghasilkan dan memverifikasi beberapa token sekaligus untuk meningkatkan efisiensi.

Menuju model agen dan multimodal

Ambisi Xiaomi makin jelas pada Maret 2026 saat meluncurkan MiMo-V2-Pro. Model ini memiliki lebih dari 1 triliun parameter total, dengan 42 miliar parameter aktif per pass dan jendela konteks 1 juta token.

Xiaomi menyebut MiMo-V2-Pro dirancang khusus untuk tugas agentic. Artinya, model itu ditujukan untuk pekerjaan kompleks dan bertahap yang membutuhkan perencanaan serta eksekusi tanpa arahan manusia terus-menerus.

Sebelum diumumkan resmi, model ini sempat muncul anonim di OpenRouter dengan nama Hunter Alpha. Model itu cepat naik ke puncak leaderboard dan memproses lebih dari 1,5 triliun token sebelum akhirnya diakui sebagai milik Xiaomi.

Bersamaan dengan itu, Xiaomi juga merilis MiMo-V2-Omni dan MiMo-V2-TTS. Keduanya memperluas cakupan AI Xiaomi ke teks, gambar, audio, video, dan suara sintetis untuk kebutuhan pipeline agen.

Pada akhir April 2026, Xiaomi kembali menyatukan kemampuan terbaik seri V2 ke dalam MiMo-V2.5 dan MiMo-V2.5-Pro. Varian Pro memiliki 1,02 triliun parameter dan menangani teks, gambar, audio, serta video dalam satu arsitektur.

Untuk tugas kompleks, MiMo-V2.5-Pro berjalan di kisaran 60 hingga 80 token per detik. Sementara MiMo-V2.5 yang lebih ringan ditujukan untuk penggunaan harian dengan kecepatan 100 hingga 150 token per detik.

Menurut Artificial Analysis, MiMo-V2.5-Pro sempat menjadi model open-source nomor satu dunia untuk kemampuan agentic saat diluncurkan. Xiaomi juga menghapus biaya tambahan untuk konteks penuh 1 juta token dan mereset kredit pengguna agar lebih ramah bagi pengembang.

Awal Juni 2026, Xiaomi memperkenalkan MiMo Code. Agen coding berbasis terminal ini dibangun di atas MiMo-V2.5 dan memiliki sistem memori persisten yang menjaga keputusan tetap terlacak dalam proyek jangka panjang.

AI suara, visi, dan rumah pintar

Di sisi visual, Xiaomi merilis MiMo-VL dan varian khusus rumah MiMo-VL-Miloco-7B. Model Miloco dirancang untuk memahami lingkungan rumah, termasuk mengenali gestur seperti jempol, tanda OK, peace sign, dan telapak tangan terbuka.

Model itu juga dapat mengidentifikasi aktivitas rumah tangga umum seperti menonton TV, berolahraga, atau membaca. Xiaomi menyusunnya dengan kombinasi supervised fine-tuning dan reinforcement learning agar tetap “cerdas rumah” tanpa kehilangan kemampuan umum.

Untuk audio, Xiaomi merilis MiDashengLM-7B pada Agustus 2025. Model ini dilatih dengan dataset 38.662 jam dan memakai pendekatan general audio caption sehingga tidak hanya memahami kata, tetapi juga musik, suara lingkungan, emosi pembicara, dan konteks akustik.

MiDashengLM-7B dibangun di atas Qwen2.5-Omni-7B dari Alibaba. Model ini sudah ditanamkan ke kendaraan listrik dan perangkat rumah pintar Xiaomi, lalu dirilis di bawah lisensi Apache 2.0 untuk penggunaan komersial.

Xiaomi juga menerbitkan MiMo-Audio. Encoder audionya kemudian diintegrasikan ke MiMo-V2.5 untuk menopang pengalaman omnimodal.

Dari kloning suara hingga fitur ponsel

Pada Mei 2026, Xiaomi AI Lab melalui tim next-gen Kaldi merilis OmniVoice sebagai open-source. Ini adalah model text-to-speech zero-shot voice cloning yang mendukung 646 bahasa, termasuk banyak bahasa dengan data pelatihan minim.

OmniVoice dapat menyalin suara hanya dari beberapa detik audio referensi. Model ini lalu menghasilkan ucapan alami lintas bahasa sambil mempertahankan karakter suara aslinya.

Secara teknis, OmniVoice memakai arsitektur single-transformer yang lebih sederhana dan memetakan teks langsung ke token akustik. Xiaomi menyebut pendekatan itu memungkinkan pelatihan 100.000 jam data audio dalam satu hari dan inferensi hingga 40 kali kecepatan real-time menggunakan PyTorch.

Pada peluncuran seri V2.5, Xiaomi juga menghadirkan MiMo-V2.5-TTS dan sistem ASR. TTS mendukung voice cloning, sedangkan ASR menangani pengenalan dwibahasa untuk membangun produk suara end-to-end.

Di sisi pengguna umum, Xiaomi mengandalkan Xiao AI dan HyperAI. Xiao AI yang sudah lama hadir di ponsel, speaker pintar, dan wearable ditingkatkan lewat HyperOS 2 menjadi Super Xiao AI dengan memori konteks lebih baik, kontrol perangkat rumah pintar yang lebih cerdas, dan kemampuan membuat gambar dari teks.

HyperAI diperkenalkan secara global di MWC 2025 dan mulai hadir di Xiaomi 15 series. Paket fitur ini mencakup terjemahan real-time, bantuan menulis, pengenalan suara cerdas yang merangkum rekaman, serta penyuntingan foto AI, dengan Google Gemini dipakai sebagai backend untuk perangkat global.

miclaw dan strategi besar Xiaomi

Bagian paling ambisius dari strategi ini adalah miclaw. Diumumkan pada Maret 2026 dan masih dalam closed beta, miclaw adalah agen AI otonom berbasis MiMo yang tidak berhenti pada jawaban teks.

miclaw dapat membuka aplikasi, menavigasi antarmuka, mengisi formulir, berinteraksi dengan alat sistem, dan menyelesaikan tugas bertahap di ponsel. Xiaomi menyebut mekanismenya sebagai inference-execution loop, yaitu AI merencanakan tindakan, mengeksekusi, memeriksa hasil, lalu melanjutkan hingga tugas selesai.

Agen ini juga memiliki memori kontekstual yang memadatkan interaksi lama sambil menjaga tujuan awal tetap utuh. miclaw dapat terhubung ke ekosistem rumah pintar dan mobil Xiaomi, dan versi beta saat ini mendukung Xiaomi 17 series.

Untuk privasi, Xiaomi menyatakan interaksi pengguna dengan miclaw tidak dipakai melatih model AI. Data pribadi diproses secara real-time untuk menjalankan perintah, sementara informasi sensitif ditangani secara lokal melalui pendekatan yang disebut edge-cloud privacy computing.

Lei Jun pada Maret 2026 mengatakan Xiaomi akan menginvestasikan setidaknya $8.7 miliar ke AI dalam tiga tahun. Dengan belanja R&D tahunan yang diproyeksikan mencapai sekitar 40 miliar yuan ($5.7 miliar) pada 2026, Xiaomi juga menargetkan “grand convergence” yang menyatukan chip, sistem operasi, dan model AI miliknya dalam satu perangkat.

Dampak awalnya mulai terlihat di OpenRouter. Pada awal April 2026, model-model Xiaomi disebut telah menangkap sekitar 21% dari seluruh traffic di platform routing AI tersebut.