Xiaomi memperkenalkan Xiaomi-Robotics-0, model robot generasi pertama dengan parameter sebesar 4,7 miliar yang menggabungkan penglihatan, bahasa, dan aksi secara real-time. Model ini dirancang untuk menangani tiga fungsi utama robotika yaitu persepsi, pengambilan keputusan, dan eksekusi gerakan secara mulus, yang disebut Xiaomi sebagai inti dari “kecerdasan fisik.”
Model Xiaomi-Robotics-0 menggunakan arsitektur Mixture-of-Transformers (MoT) yang membagi tugas ke dalam dua komponen utama. Komponen pertama adalah Visual Language Model (VLM) yang berfungsi sebagai “otak” dengan kemampuan memahami instruksi manusia, bahkan yang umum dan samar, serta menginterpretasi hubungan spasial dari input visual resolusi tinggi. VLM ini juga mampu mendeteksi objek, menjawab pertanyaan visual, dan melakukan penalaran logis.
Komponen kedua bernama Action Expert yang dibangun menggunakan multi-layer Diffusion Transformer (DiT). Alih-alih menghasilkan satu aksi saja, DiT menghasilkan “Action Chunk” yang merupakan rangkaian gerakan dengan teknik flow-matching agar pergerakan tetap akurat dan halus. Xiaomi mengatasi permasalahan umum pada model vision-language-action yang biasanya kehilangan kemampuan pemahaman ketika belajar aksi fisik dengan melakukan co-training pada data multimodal dan data aksi secara bersamaan.
Proses pelatihan model dilakukan bertahap. Pertama, mekanisme “Action Proposal” memaksa VLM memprediksi distribusi aksi yang memungkinkan saat menginterpretasi gambar, guna menyelaraskan representasi internal antara penglihatan dan aksi. Setelah tahap ini, VLM dibekukan dan DiT dilatih untuk menghasilkan urutan aksi dari noise dengan menggunakan fitur key-value ketimbang token bahasa diskret.
Untuk mengurangi jeda antara prediksi model dan gerakan robot (inference latency), Xiaomi menerapkan asynchronous inference yang memisahkan komputasi model dari operasi robot sehingga gerakan tetap berjalan lancar meskipun model butuh waktu ekstra untuk berpikir. Selain itu, teknik “Clean Action Prefix” digunakan untuk memasukkan aksi sebelumnya ke dalam model agar pergerakan tetap stabil dan bebas getar. Model juga menggunakan Λ-shaped attention mask untuk memfokuskan perhatian pada input visual saat ini dan lebih responsif terhadap perubahan lingkungan mendadak.
Dalam pengujian benchmark, model Xiaomi-Robotics-0 berhasil meraih hasil terbaik di sejumlah simulasi seperti LIBERO, CALVIN, dan SimplerEnv dengan mengungguli sekitar 30 model lain. Eksperimen dunia nyata dilakukan pada platform robot berkedua lengan yang mampu melakukan tugas kompleks seperti melipat handuk dan membongkar susunan balok dengan koordinasi mata dan tangan yang stabil. Robot ini dapat menangani objek kaku dan fleksibel tanpa mengalami kegagalan signifikan.
Keunggulan utama Xiaomi-Robotics-0 dibandingkan model vision-language-action sebelumnya adalah kemampuannya tetap memelihara performa multimodal reasoning selama proses pelatihan aksi. Hal ini membuat robot lebih handal dalam menjalankan tugas yang menggabungkan persepsi visual dan interaksi fisik secara bersamaan. Pengembangan ini membuka peluang baru bagi Xiaomi untuk masuk ke ranah penelitian dan aplikasi robotika canggih di masa depan.





