728x90
반응형

(배경) (Task)과 토큰(Token)마다 연산 예산(Compute Budget)과 메모리를 유연하게 조절하고 맞춤형으로 활용하는 방법

(개념) 재귀(recursion) 기반 연산 또는 모델 구조를 여러 개 혼합(Mixture)하여 동적으로 선택하거나 조합하는 메커니즘


MoR의 가장 큰 특징은 레이어(Layer)를 얼마나 효율적으로 다시 쓸 수 있느냐에 있습니다. 각 토큰이 필요한 만큼만 처리 단계를 거치게 하는 것이죠. 이렇게 하기 위해서 MoR은 두 가지 라우팅(Routing) 메커니즘과 두 가지 KV(Key-Value) 캐싱 방식을 조합해서, 기존의 트랜스포머(Transformer)에 바로 적용할 수 있는 안정적인 기술 스택을 제공해 줍니다.

조금만 더 쉽게 말하면, MoR은 모델 안에 작은, 그리고 재사용할 수 있는 ‘사고 엔진(Thinking Engine)’을 넣어둔 것과 비슷합니다. 필요할 때만 더 깊이 생각하게 해 주는 거예요. 이런 기법 덕분에 더 큰 모델과 비슷한 품질을 내면서도, 훨씬 저렴하고 빠르고, 특정한 상황에 맞춰서 유연하게 적용할 수 있다고 합니다.

https://arxiv.org/abs/2507.10524?utm_source=chatgpt.com

728x90
Posted by Mr. Slumber
,