Memori Baru MIT Bikin Robot Ingat Lokasi Dan Waktu, Siap Kerja Bersebelahan Dengan Manusia

Robot di lantai pabrik sudah semakin lincah saat membawa komponen, memindai rak, dan bergerak di antara manusia. Namun, satu kemampuan yang masih sulit adalah mengingat di mana sebuah barang ditinggalkan dan kemudian menemukannya lagi saat dibutuhkan.

Kekosongan itu kini coba ditutup peneliti MIT lewat sistem memori baru untuk robot bernama DAAAM, singkatan dari Describe Anything, Anywhere, At Any Moment. Kerangka ini dirancang agar mesin tidak hanya mengenali isi lingkungan, tetapi juga lokasi, waktu kemunculan, dan cara mengambil kembali informasi itu dengan bahasa sehari-hari.

Memori yang mirip cara manusia bertanya

Bagi robot yang bekerja di gedung besar, kampus, atau pabrik, memori semacam ini harus mampu menghubungkan tempat, objek, dan waktu. Sistem itu perlu menjawab pertanyaan seperti di mana terakhir kali melihat obeng merah, berapa lama sebuah benda berada di suatu ruang, atau sepeda mana di luar gedung yang bannya kempis.

Luca Carlone, associate professor di MIT Department of Aeronautics and Astronautics sekaligus principal investigator di Laboratory for Information and Decision Systems, mengatakan robot harus bisa beralasan tentang waktu dan ruang seperti manusia. Ia menyebut pendekatan itu mengubah peta tradisional menjadi peta berbasis bahasa yang lebih mudah dipahami dan diakses robot.

DAAAM dikembangkan bersama Nicolas Gorlo, mahasiswa pascasarjana MIT, dan Lukas Schmid, mantan peneliti MIT yang kini menjadi profesor di University of Technology Nuremberg, Jerman. Karya ini baru-baru ini dipresentasikan di Conference on Computer Vision and Pattern Recognition.

Menggabungkan visi komputer dan pemetaan robotik

Masalah yang dihadapi proyek ini berada di persimpangan visi komputer dan pemetaan robotik. Sistem visi sering bisa mendeskripsikan adegan dengan detail kaya, tetapi biasanya memproses satu gambar atau satu objek pada satu waktu, sedangkan pemetaan robotik mampu membangun peta 3D ruang besar namun kerap kekurangan deskripsi bahasa yang rinci atau terlalu berat dihitung.

DAAAM mencoba menjembatani dua dunia itu. Saat robot bergerak, sistem memberi deskripsi bahasa alami pada apa yang terlihat, lalu mengaitkannya dengan peta 3D agar objek terhubung ke lokasi spesifik.

Sebuah bangunan bisa dikenali sebagai Stata Center lengkap dengan catatan tentang arsitekturnya. Rak sepeda bisa dideskripsikan berisi lima sepeda, dengan satu sepeda merah yang bannya kempis.

Pendekatan ini penting karena memori bukan sekadar menyimpan cuplikan visual. Memori harus menyusun informasi agar robot bisa menjawab pertanyaan nyata, bukan hanya mengingat bahwa suatu objek pernah muncul di satu bingkai kamera.

Kecepatan jadi tantangan utama

Deskripsi yang rinci datang dengan biaya mahal. Sistem yang ada untuk menghasilkan anotasi detail bisa membutuhkan beberapa detik hanya untuk melabeli beberapa objek, dan itu terlalu lambat untuk robot yang bergerak di ruang nyata yang padat.

Untuk mengurangi hambatan tersebut, tim MIT merancang DAAAM agar mengelompokkan objek yang berdekatan dan memilih hanya sudut pandang kamera yang paling berguna untuk dideskripsikan. Sistem ini memilih key frame yang memberi pandangan paling jelas terhadap beberapa objek sekaligus, lalu menandainya dalam batch, bukan satu per satu.

Menurut penelitian, langkah itu mempercepat proses sekitar satu orde magnitudo. Gorlo mengatakan setiap objek hanya dianotasi sekali, sehingga kerangka ini bisa berjalan di lingkungan sangat besar secara real time.

Hasilnya adalah memori yang tetap terikat pada geografi. Objek tidak disimpan sebagai entri teks terpisah atau keterangan gambar yang lepas, melainkan terhubung ke struktur scene graph empat dimensi yang memadukan lokasi 3D dan perubahan dari waktu ke waktu.

Lebih cepat mencari jawaban

Setelah memori terbentuk, tantangan berikutnya adalah pengambilan kembali informasi. Robot mungkin harus menyaring jumlah objek, deskripsi, dan penanda waktu yang sangat banyak untuk menjawab satu pertanyaan, sehingga DAAAM memakai model bahasa dengan alat retrieval khusus untuk mengambil detail relevan sekaligus mengurangi risiko halusinasi.

Jika seseorang bertanya tentang patung di dekat gedung kampus, sistem bisa mencari lewat kata “sculpture”, lewat lokasi gedung, atau keduanya. Dalam uji pada spatiotemporal question answering, DAAAM mengungguli metode pembanding.

Pada benchmark NaVQA asli, akurasi pertanyaan deskriptifnya mencapai 0,672. Pada versi object-centric yang direvisi tim, DAAAM mencapai akurasi 0,711, dibandingkan 0,463 untuk salah satu varian ReMEmbR dan 0,299 untuk ConceptGraphs.

Sistem ini juga menunjukkan performa lebih kuat pada urutan panjang dan penalaran temporal. Pada benchmark object-centric, ia mencatat positional error 41,75 meter dan temporal error 1,792 menit, lalu pada pengujian sequential task grounding meraih task accuracy 11,22 persen, tertinggi di antara metode yang dibandingkan.

Tim menyebut framework ini dapat berjalan pada sensor rate 10 hertz di dataset CODa sambil menangani lingkungan skala besar. Sistem itu juga mampu diskalakan ke urutan lebih dari 35 menit dan jarak lebih dari 1,5 kilometer.

Masih ada batas yang perlu diperbaiki

DAAAM belum sempurna. Model yang dipakai untuk menghasilkan deskripsi detail masih bisa melewatkan ciri yang tidak biasa atau malah mengarah ke objek yang lebih umum, seperti saat pintu lift salah dideskripsikan memiliki gagang.

Kecepatan anotasi juga mungkin belum cukup untuk mesin yang bergerak lebih cepat, seperti robot udara atau sebagian sistem virtual reality. Rata-rata satu worker thread hanya bisa menganotasi sekitar 5,2 fragmen baru per detik di GPU desktop, cukup untuk robot darat bergerak, tetapi belum tentu untuk semua platform.

Ada pula soal memori jangka panjang. DAAAM menyimpan riwayat deskripsi untuk objek dinamis, dan para peneliti mencatat catatan itu mungkin tidak akan skalabel tanpa peringkasan yang lebih baik.

Meski begitu, arah riset ini menunjukkan jenis memori robot yang lebih praktis dan lebih dekat dengan cara manusia meminta informasi. Bagi pabrik, perawatan, dan navigasi, itu bisa membuat robot tak sekadar melihat dunia, tetapi juga mengingatnya dengan konteks yang bisa dipakai saat bekerja berdampingan dengan manusia.

Terkait