728x90
반응형

메릴랜드 대학교 연구진의 핵심 아이디어는, 사전 학습된(Pretrained) 모델을 재학습하지 않고 테스트-타임에 더 똑똑하게 만드는 것입니다. 이걸 하기 위해서, 연구자들은 모델의 레이어(Layer)를 재배열할 수 있는 블록처럼 다룹니다. 그리고 각각의 테스트 예제마다, 이 블록들을 사용해서 해당 입력에 맞는 맞춤형(Custom) 모델을 구성합니다. 이렇게 입력마다 유연하게 모델을 구성하는 방식을 CoLa(Chain-of-Layers)라고 부릅니다.

CoLa를 사용하면 아래와 같은 일을 할 수 있습니다:

  • 더 빠르고 단순한 작업에는 레이어를 건너뛰기(Skip)
  • 더 깊은 사고(Deeper Thinking)를 흉내 내기 위해서 레이어를 반복적으로 재사용(Recurrent Reuse) — 마치 RNN처럼요
  • 레이어 순서를 바꿔서 더 유용한 조합(Composition) 찾기
 

각각의 입력에 맞는 최적의 맞춤형 레이어 구성을 찾기 위해서, 연구자들은 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS) 방식을 사용했습니다. MCTS는 다양한 테스트-타임 컴퓨트 최적화 접근법, 그리고 게임 AI(알파고와 같은)에서 자주 사용하는 인기 있는 탐색 기법 중의 하나입니다. MCTS의 가장 큰 장점은 탐험(Exploration, 새로운 아이디어 시도) 활용(Exploitation, 이미 잘 작동하는 것 사용) 사이의 조화를 균형있게 잡는다는 점입니다.

 

 

 

CoLa 기법에서, MCTS는 서로 다른 레이어 경로를 시도해 보면서 가능한 한 적은 레이어로도 정확한 예측을 만들어 내는 경로를 탐색하는데요. 그 작동 방식은 다음과 같습니다:

  • 각각의 상태(State)는 부분적 또는 완전한 레이어 시퀀스(Sequence)를 나타냅니다. 시작점은 원래 모델의 경로입니다.
  • 액션(Action)은 해당 시퀀스를 변경할 수 있습니다. 예를 들어, “레이어 k개 건너뛰기(Skip k Layers)”, “레이어 k개를 r번 반복하기(Repeat k Layers r Times)” 같은 방식이고, 여기서 k와 r은 1에서 4까지의 값을 가질 수 있습니다.
  • 경로(Path)가 완성되면, 모델은 해당 경로를 입력에 적용해서 출력을 생성합니다. 출력이 정답이면 보상(Reward) 1점을 부여하고, 너무 많은 레이어를 사용한 경우에는 효율성을 장려하기 위해서 페널티(Penalty)를 차감합니다.
  • 다음에 탐색할 경로를 선택하는 점수 함수로는 UCB(Upper Confidence Bound)를 사용하고, 아래와 같은 역할을 합니다.
    • 과거 성능이 좋은 경로를 장려(활용, Exploitation)
    • 방문 빈도가 낮은 경로를 탐험(Exploration)
    • 긴 레이어 경로에 페널티를 부여해서 더 짧고 효율적인 모델을 선호
  • 탐색이 끝나면 알고리즘은 파레토 최적(Pareto-Optimal) 집합을 선택합니다 - 정확도와 효율성 간의 최적의 균형을 제공하는 해법들이죠. 최종적인 결과는 이렇게 구성된 ‘맞춤형 CoLa(Chain-of-Layers)’입니다.
 

이 모든 과정에서 모델의 파라미터(Parameter)는 변하지 않고, CoLa는 단지 사전 학습된 레이어를 더 지능적으로 활용할 뿐인 겁니다.

 

CoLa가 성능에 미치는 실제 영향

실험 결과에서 볼 수 있듯이, CoLa를 통해서 테스트-타임(Test-Time)에서 레이어를 다이나믹하게 건너뛰거나 반복하는 방식은 고정된 시퀀스를 사용하는 것보다 일관되게 더 나은 성능을 보여줬습니다. MCTS가 가이드하는 레이어 건너뛰기, 반복, 재배열을 통해서 이미 모델 안에 숨겨져 있던 성능을 끌어낼 수 있는 겁니다. 예를 들어서:

  • 건너뛰기(Skip-only)는 간단한 작업에서 유용하고, 모델의 깊이(Depth)와 연산량을 줄입니다.
  • 반복만 사용(Recurrence-only)하는 방식은 모델이 더 깊이 생각하도록 도와주어, 어려운 작업에서 더 나은 결과를 낼 수 있습니다.
  • 두 가지의 방식을 함께 사용하면 입력의 난이도에 맞춰서 모델의 깊이를 조정할 수 있고, 재학습을 하지 않고서도 어려운 작업에서 최대 3배의 정확도 향상을 달성합니다.

또 다른 중요한 시사점이 있는데, 이겁니다:

  • 모델 구성의 효과적인 재구성: CoLa는 전체 사례의 75% 이상에 해당하는 경우에, 여전히 정답을 내 주면서도 더 짧은 경로를 찾아내는 경우가 많습니다.
  • 특히, 잘못된 답을 고치는 데 '더 많은 레이어가 아니라 더 적은 레이어면 충분한 경우가 많습니다. 잘못된 답을 수정하는 경우의 60% 이상의 경우에서, 레이어 배열을 더 잘 조정하는 것이 실수를 수정하는 좋은 방법이라는 점을 확인할 수 있습니다.
  • 대형 모델과 소형 모델의 작동 방식 차이
    • 어려운 작업의 경우에, 그리고 대형 모델인 경우에 레이어를 좀 더 균등하게 사용합니다. 예를 들어서 파라미터 수가 8B인 대형 모델은 더 다이나믹하게 적응합니다.
    • 소형 모델은 중간 레이어에서 더 강한 가지치기(Pruning)를 하는 성향을 보입니다. 소형 모델은 항상 특정한 레이어를 건너뛰는 등 고정된 패턴에 의존하는 경우가 많습니다.
  • CoLa는 수학 및 상식 추론 벤치마크에서, 그리고 일반적인 모델 및 Instruction-Tuned 모델 모두의 경우에서 좋은 성능을 보여주었습니다.
 

그렇지만, CoLa 기법에는 여전히 몇 가지 한계가 있습니다:

  • MCTS는 연산 비용이 큽니다. 추론 단계에서 비용과 시간이 많이 들 수 있고, 특히 실시간(Real-Time) 또는 대규모의 배포 환경에서는 모델을 여러 번 실행해야 하기 때문에 더 부담이 됩니다.
  • CoLa가 전역 최적(Global Optimal)의 실행 경로를 반드시 찾는다는 보장은 없습니다.
  • 이 방법은 최대 LLaMA-3 8B 모델과 중간 길이의 추론 작업에 대해서 평가를 했지만, 레이어 수가 훨씬 많은 예를 들어 70B+ 모델이나 아주 긴 컨텍스트에서 얼마나 잘 스케일링이 되는지는 불분명합니다.
  • CoLa는 레이어 순서를 변경하지만, 레이어 간 출력을 결합하거나 더 복잡한 재라우팅(Re-routing)을 수행하지는 않습니다.
  • 비전(Vision), 대화(Dialogue), 멀티모달(Multimodal) 작업에서 얼마나 잘 작동하는지에 대해서는 아직 정보가 없습니다.
 

종합적으로 볼 때, CoLa는 테스트-타임의 아키텍처 어댑테이션(Test-Time Architectural Adaptation)을 통해서 테스트 타임에서 모델의 일반화를 구현해 내는 흥미로운 새로운 방법을 제안하는 거라고 볼 수 있습니다. 그리고 또 ‘고정되어 있는’ LLM 아키텍처 때문에 성능에 제한이 있을 수 있다는 걸 입증하는 것이기도 합니다.

여기서 핵심은, 재학습된 레이어가 단순한 고정 파이프라인이 아니라 모듈형 추론 도구(Modular Reasoning Tools)처럼 작동할 수 있다는 점입니다. 모델이 사용되는 레이어와 그 방식을 다이나믹하게 조정할 수 있다면, 추가 학습이 없이도 더 빠르고, 효율적이고, 심지어 더 정확해질 수 있다는 거죠.

 
 

 

https://turingpost.co.kr/p/update-in-test-time-scaling#chainof-layers-co-la

https://arxiv.org/abs/2507.07996

728x90
Posted by Mr. Slumber
,