728x90
반응형

(개념) 2025년 공개된 구글/제휴 연구팀의 ATLAS(“Learning to Optimally Memorize the Context at Test Time”)에서 제안된 순환 계열 모델의 메모리 업데이트 원리

- ATLAS의 메모리 업데이트 규칙

 

“잠깐만, 최근 'c'개의 토큰들(예를 들어 최근 50개)을 살펴보고 
이것들을 모두 함께 활용해서 메모리 상태를 최적화하자"

 

- 토큰을 하나씩 보면서 급행(online, greedy)으로 상태를 갱신하던 기존 규칙을 버리고, 최근 'c' 개 토큰으로 이루어진 슬라이딩 윈도우 전체를 한 번에 고려하여 메모리를 최적화(optimization-based) 방식으로 갱신

 

 

논문을 보면, 이런 접근법이 특히 BABILong 같이 ‘아주 긴 문서에 흩어져 있는 사실을 바탕으로 언어 모델이 얼마나 장기 추론이나 정보 검색을 잘 하는지 평가하는 테스트’에서 실제로 좋은 성과를 보여주는데, 무려 1천만 토큰까지 이어지는 시퀀스에서 강력한 성능을 보여준다고 해요.

 

 

 

 

 

 

 

 

 

 

 

 

https://arxiv.org/html/2505.23735v1

728x90
Posted by Mr. Slumber
,