728x90
반응형

https://arxiv.org/html/2512.00565v1

2025.11.29
[Describe Anything Anywhere At Any Moment]

이 논문은 대규모 환경에서 로봇이 공간과 시간을 통합적으로 이해할 수 있게 돕는 실시간 메모리 프레임워크인 DAAAM을 소개합니다. 이 시스템은 센서 데이터를 입력받아 계층적 4D 장면 그래프(4D Scene Graph)를 구축하며, 각 객체에 대해 매우 상세한 자연어 묘사를 생성하여 저장합니다. 연구진은 방대한 이미지 데이터를 효율적으로 처리하기 위해 최적화 기반의 프레임 선택 알고리즘과 배치 추론 기법을 도입하여, 거대 시각-언어 모델을 로봇 운행 중에 실시간으로 구동할 수 있게 만들었습니다. 결과적으로 이 기술은 로봇이 과거에 본 사물의 위치나 특징에 대한 복잡한 질문에 답하거나 장기적인 임무를 수행할 수 있는 지속적이고 정밀한 시공간적 기억 능력을 제공합니다.

Figure 1:We present Describe Anything, Anywhere, at Any Moment (DAAAM), a real-time, large-scale, spatio-temporal memory for embodied question answering and 4D reasoning. Given RGB-D sensor input DAAAM incrementally constructs a hierarchical 4D scene graph with highly detailed annotations that acts as an effective and scalable spatio-temporal memory representation for LLM Agents.


 MIT 연구진이 개발한 DAAAM은 로봇이 RGB-D 센서를 통해 주변 환경을 관찰하면서 시간과 공간 정보를 포함한 4차원 장면 그래프를 지속적으로 구축하는 시공간 기억 시스템이다. 이를 통해 로봇은 자신이 과거에 관찰한 사물과 위치, 상태 변화를 장기적으로 기억할 수 있으며, LLM 기반 AI 에이전트가 자연어 질의를 통해 해당 정보를 효율적으로 검색하고 추론할 수 있다. 특히 대규모 환경에서도 실시간으로 작동할 수 있도록 설계돼 차세대 범용 로봇의 기억 장치 역할을 수행할 수 있다는 점이 특징이다.

Figure 2:An overview of the proposed approach. Given an RGB-D video stream, we first segment the scene into fragments and track them over time in image space using a lightweight tracker [1]. We perform metric-semantic mapping using Hydra [21] with the Khronos [52] frontend on the unlabeled segments to build a 4D map of the environment. To semantically lift the resulting map, we aggregate the tracked observations in parallel and select frames using an optimization-based frame selection algorithm. The selected frames and segments are batch-processed by the Describe Anything Model (DAM) [31] to generate detailed descriptions for each object. The generated descriptions are finally incorporated back into the map and a 4D scene graph is constructed and clustered into semantically informed regions.
 

728x90
Posted by Mr. Slumber
,