Robot di pabrik dan gedung besar semakin cerdas bergerak, tetapi masih kesulitan saat harus mengingat di mana sebuah benda pernah ditinggalkan. Peneliti MIT kini mencoba menutup celah itu lewat sistem memori baru yang dirancang agar robot bisa menghubungkan lokasi, waktu, dan objek dalam satu kerangka kerja.
Sistem bernama DAAAM, singkatan dari Describe Anything, Anywhere, At Any Moment, dibuat untuk membantu mesin menjawab pertanyaan yang lebih dekat dengan cara manusia bertanya. Robot bisa diminta mencari obeng merah yang terakhir terlihat, menghitung berapa lama sebuah benda berada di ruang tertentu, atau mengenali sepeda mana di luar gedung yang bannya kempis.
Memori yang lebih mirip penalaran manusia
Menurut Luca Carlone, associate professor di MIT Department of Aeronautics and Astronautics sekaligus principal investigator di Laboratory for Information and Decision Systems, robot perlu mampu beralasan tentang ruang dan waktu seperti manusia. Ia menyebut pendekatan ini mengubah peta tradisional menjadi peta berbasis bahasa yang lebih mudah dipahami dan diakses robot.
DAAAM dikembangkan bersama Nicolas Gorlo, mahasiswa pascasarjana MIT, dan Lukas Schmid, mantan peneliti MIT yang kini menjadi profesor di University of Technology Nuremberg, Jerman. Karya ini baru-baru ini dipresentasikan di Conference on Computer Vision and Pattern Recognition.
Menggabungkan visi komputer dan pemetaan robotik
Proyek ini berdiri di persimpangan visi komputer dan pemetaan robotik. Sistem visi bisa mendeskripsikan adegan dengan detail kaya, sementara pemetaan robotik mampu membangun peta 3D ruang besar, tetapi keduanya punya batas masing-masing saat dipakai untuk memori robot yang harus cepat dan mudah dicari kembali.
DAAAM mencoba menjembatani dua dunia itu dengan memberi deskripsi bahasa alami pada apa yang dilihat robot, lalu mengaitkannya langsung ke peta 3D. Dengan cara ini, objek tidak hanya tercatat sebagai cuplikan visual, tetapi juga terhubung ke lokasi spesifik dan perubahan yang terjadi seiring waktu.
Contohnya, sebuah bangunan bisa dikenali sebagai Stata Center dengan catatan arsitekturnya, sementara rak sepeda dapat dideskripsikan berisi lima sepeda, termasuk satu sepeda merah dengan ban kempis.
Kecepatan tetap jadi tantangan
Masalah utama dalam pendekatan seperti ini adalah biaya komputasi. Sistem anotasi detail yang ada bisa memakan beberapa detik hanya untuk melabeli beberapa objek, padahal robot harus bekerja di ruang nyata yang padat dan bergerak cepat.
Untuk mengurangi hambatan itu, tim MIT membuat DAAAM agar mengelompokkan objek yang berdekatan dan memilih sudut pandang kamera yang paling berguna sebagai key frame. Objek kemudian dianotasi dalam batch, bukan satu per satu, sehingga prosesnya jauh lebih cepat.
Penelitian ini menyebut langkah tersebut mempercepat proses sekitar satu orde magnitudo. Gorlo mengatakan setiap objek hanya dianotasi sekali, sehingga kerangka ini bisa dipakai di lingkungan sangat besar secara real time.
Hasilnya adalah memori yang tetap terikat pada geografi. Objek disimpan sebagai bagian dari scene graph empat dimensi yang memadukan lokasi 3D dan perubahan dari waktu ke waktu, bukan sebagai catatan teks yang berdiri sendiri.
Pencarian informasi dibuat lebih efisien
Setelah memori terbentuk, robot tetap harus menemukan informasi yang relevan dari data yang sangat banyak. DAAAM memakai model bahasa dengan alat retrieval khusus agar detail yang dicari bisa diambil dengan lebih tepat dan risiko halusinasi bisa ditekan.
Jika seseorang bertanya tentang patung di dekat gedung kampus, sistem dapat mencari lewat kata “sculpture”, lewat lokasi gedung, atau keduanya. Dalam uji spatiotemporal question answering, DAAAM mengungguli metode pembanding.
Pada benchmark NaVQA asli, akurasi pertanyaan deskriptifnya mencapai 0,672. Pada versi object-centric yang direvisi tim, DAAAM mencapai 0,711, lebih tinggi dibandingkan 0,463 untuk salah satu varian ReMEmbR dan 0,299 untuk ConceptGraphs.
Sistem ini juga tampil kuat pada urutan panjang dan penalaran temporal. Pada benchmark object-centric, DAAAM mencatat positional error 41,75 meter dan temporal error 1,792 menit, lalu pada pengujian sequential task grounding meraih task accuracy 11,22 persen, tertinggi di antara metode yang dibandingkan.
Tim menyebut framework ini dapat berjalan pada sensor rate 10 hertz di dataset CODa sambil menangani lingkungan skala besar. Sistem itu juga mampu diskalakan ke urutan lebih dari 35 menit dan jarak lebih dari 1,5 kilometer.
Masih ada batas yang perlu dibenahi
DAAAM belum sempurna. Model yang dipakai untuk menghasilkan deskripsi detail masih bisa melewatkan ciri yang tidak biasa atau justru mengarah ke objek yang lebih umum, seperti saat pintu lift salah dideskripsikan memiliki gagang.
Kecepatan anotasinya juga belum tentu cukup untuk mesin yang bergerak lebih cepat, seperti robot udara atau sebagian sistem virtual reality. Rata-rata satu worker thread hanya bisa menganotasi sekitar 5,2 fragmen baru per detik di GPU desktop.
Tim peneliti juga mencatat bahwa memori jangka panjang masih menjadi tantangan. DAAAM menyimpan riwayat deskripsi untuk objek dinamis, tetapi catatan semacam itu mungkin tidak akan skalabel tanpa peringkasan yang lebih baik.
Meski begitu, arah riset ini menunjukkan memori robot yang lebih praktis dan lebih dekat dengan cara manusia meminta informasi. Bagi pabrik, perawatan, dan navigasi, pendekatan seperti ini bisa membuat robot bukan hanya melihat dunia, tetapi juga mengingatnya dengan konteks yang berguna saat bekerja berdampingan dengan manusia.







