Xiaomi Luncurkan Xiaomi-Robotics-0, Model Robot Generasi Pertama dengan Kecerdasan Visual dan Aksi Canggih

Xiaomi memperkenalkan Xiaomi-Robotics-0, model robot generasi pertama dengan parameter sebesar 4,7 miliar yang menggabungkan penglihatan, bahasa, dan aksi secara real-time. Model ini dirancang untuk menangani tiga fungsi utama robotika yaitu persepsi, pengambilan keputusan, dan eksekusi gerakan secara mulus, yang disebut Xiaomi sebagai inti dari “kecerdasan fisik.”

Model Xiaomi-Robotics-0 menggunakan arsitektur Mixture-of-Transformers (MoT) yang membagi tugas ke dalam dua komponen utama. Komponen pertama adalah Visual Language Model (VLM) yang berfungsi sebagai “otak” dengan kemampuan memahami instruksi manusia, bahkan yang umum dan samar, serta menginterpretasi hubungan spasial dari input visual resolusi tinggi. VLM ini juga mampu mendeteksi objek, menjawab pertanyaan visual, dan melakukan penalaran logis.

Komponen kedua bernama Action Expert yang dibangun menggunakan multi-layer Diffusion Transformer (DiT). Alih-alih menghasilkan satu aksi saja, DiT menghasilkan “Action Chunk” yang merupakan rangkaian gerakan dengan teknik flow-matching agar pergerakan tetap akurat dan halus. Xiaomi mengatasi permasalahan umum pada model vision-language-action yang biasanya kehilangan kemampuan pemahaman ketika belajar aksi fisik dengan melakukan co-training pada data multimodal dan data aksi secara bersamaan.

Proses pelatihan model dilakukan bertahap. Pertama, mekanisme “Action Proposal” memaksa VLM memprediksi distribusi aksi yang memungkinkan saat menginterpretasi gambar, guna menyelaraskan representasi internal antara penglihatan dan aksi. Setelah tahap ini, VLM dibekukan dan DiT dilatih untuk menghasilkan urutan aksi dari noise dengan menggunakan fitur key-value ketimbang token bahasa diskret.

Untuk mengurangi jeda antara prediksi model dan gerakan robot (inference latency), Xiaomi menerapkan asynchronous inference yang memisahkan komputasi model dari operasi robot sehingga gerakan tetap berjalan lancar meskipun model butuh waktu ekstra untuk berpikir. Selain itu, teknik “Clean Action Prefix” digunakan untuk memasukkan aksi sebelumnya ke dalam model agar pergerakan tetap stabil dan bebas getar. Model juga menggunakan Λ-shaped attention mask untuk memfokuskan perhatian pada input visual saat ini dan lebih responsif terhadap perubahan lingkungan mendadak.

Dalam pengujian benchmark, model Xiaomi-Robotics-0 berhasil meraih hasil terbaik di sejumlah simulasi seperti LIBERO, CALVIN, dan SimplerEnv dengan mengungguli sekitar 30 model lain. Eksperimen dunia nyata dilakukan pada platform robot berkedua lengan yang mampu melakukan tugas kompleks seperti melipat handuk dan membongkar susunan balok dengan koordinasi mata dan tangan yang stabil. Robot ini dapat menangani objek kaku dan fleksibel tanpa mengalami kegagalan signifikan.

Keunggulan utama Xiaomi-Robotics-0 dibandingkan model vision-language-action sebelumnya adalah kemampuannya tetap memelihara performa multimodal reasoning selama proses pelatihan aksi. Hal ini membuat robot lebih handal dalam menjalankan tugas yang menggabungkan persepsi visual dan interaksi fisik secara bersamaan. Pengembangan ini membuka peluang baru bagi Xiaomi untuk masuk ke ranah penelitian dan aplikasi robotika canggih di masa depan.

Qoo MediaKamis, 12 Februari 2026

Xiaomi Luncurkan Xiaomi-Robotics-0, Model Robot Generasi Pertama dengan Kecerdasan Visual dan Aksi Canggih

Apple Resmi Luncurkan MacBook Neo Rp 10 Jutaan, Chip A18 Pro dan Baterai 16 Jam bikin Terkejut

Motorola Razr 70 Ultra Bocor, Desain Lama Tapi Tenaga Naik Kelas

Apple Siap Ubah Arah Kamera iPhone, Rumor Sensor 200MP Picu Era Baru Fotografi

Huawei Siapkan Pura X2 Lawan iPhone Lipat Apple, Warna Berani Jadi Senjata Utama

Motorola Edge 70 Fusion Terasa Sulit Dikalahkan, Nothing Phone 4a Menang Gaya tapi Kalah Value?

Di Balik Serangan Israel di Lebanon Selatan, Rumah Sakit Mulai Runtuh

Berita Terkait

Vivo T5 Pro 5G Segera Meluncur, Baterai 9.020mAh di Bodi Tipis Ini Sulit Diabaikan

Daftar HP dan iPhone yang Bisa Main The Division Resurgence, Ternyata Tak Semua Flagship Aman

Nothing Siapkan Kacamata AI 2027, Ambisi Baru Carl Pei Menantang Meta?

Vivo V26 Pro 5G Premium Hadir Dengan Kamera 220MP, Flagship Yang Terlalu Serius Di Kelasnya