[용어] Chain-of-Layers(CoLa) 기법

13.일상다반사 2025. 8. 16. 18:14

728x90

메릴랜드 대학교 연구진의 핵심 아이디어는, 사전 학습된(Pretrained) 모델을 재학습하지 않고 테스트-타임에 더 똑똑하게 만드는 것입니다. 이걸 하기 위해서, 연구자들은 모델의 레이어(Layer)를 재배열할 수 있는 블록처럼 다룹니다. 그리고 각각의 테스트 예제마다, 이 블록들을 사용해서 해당 입력에 맞는 맞춤형(Custom) 모델을 구성합니다. 이렇게 입력마다 유연하게 모델을 구성하는 방식을 CoLa(Chain-of-Layers)라고 부릅니다.

CoLa를 사용하면 아래와 같은 일을 할 수 있습니다:

더 빠르고 단순한 작업에는 레이어를 건너뛰기(Skip)
더 깊은 사고(Deeper Thinking)를 흉내 내기 위해서 레이어를 반복적으로 재사용(Recurrent Reuse) — 마치 RNN처럼요
레이어 순서를 바꿔서 더 유용한 조합(Composition) 찾기

각각의 입력에 맞는 최적의 맞춤형 레이어 구성을 찾기 위해서, 연구자들은 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS) 방식을 사용했습니다. MCTS는 다양한 테스트-타임 컴퓨트 최적화 접근법, 그리고 게임 AI(알파고와 같은)에서 자주 사용하는 인기 있는 탐색 기법 중의 하나입니다. MCTS의 가장 큰 장점은 탐험(Exploration, 새로운 아이디어 시도)과 활용(Exploitation, 이미 잘 작동하는 것 사용) 사이의 조화를 균형있게 잡는다는 점입니다.

CoLa 기법에서, MCTS는 서로 다른 레이어 경로를 시도해 보면서 가능한 한 적은 레이어로도 정확한 예측을 만들어 내는 경로를 탐색하는데요. 그 작동 방식은 다음과 같습니다:

각각의 상태(State)는 부분적 또는 완전한 레이어 시퀀스(Sequence)를 나타냅니다. 시작점은 원래 모델의 경로입니다.
액션(Action)은 해당 시퀀스를 변경할 수 있습니다. 예를 들어, “레이어 k개 건너뛰기(Skip k Layers)”, “레이어 k개를 r번 반복하기(Repeat k Layers r Times)” 같은 방식이고, 여기서 k와 r은 1에서 4까지의 값을 가질 수 있습니다.

경로(Path)가 완성되면, 모델은 해당 경로를 입력에 적용해서 출력을 생성합니다. 출력이 정답이면 보상(Reward) 1점을 부여하고, 너무 많은 레이어를 사용한 경우에는 효율성을 장려하기 위해서 페널티(Penalty)를 차감합니다.
다음에 탐색할 경로를 선택하는 점수 함수로는 UCB(Upper Confidence Bound)를 사용하고, 아래와 같은 역할을 합니다.
- 과거 성능이 좋은 경로를 장려(활용, Exploitation)
- 방문 빈도가 낮은 경로를 탐험(Exploration)
- 긴 레이어 경로에 페널티를 부여해서 더 짧고 효율적인 모델을 선호
탐색이 끝나면 알고리즘은 파레토 최적(Pareto-Optimal) 집합을 선택합니다 - 정확도와 효율성 간의 최적의 균형을 제공하는 해법들이죠. 최종적인 결과는 이렇게 구성된 ‘맞춤형 CoLa(Chain-of-Layers)’입니다.

이 모든 과정에서 모델의 파라미터(Parameter)는 변하지 않고, CoLa는 단지 사전 학습된 레이어를 더 지능적으로 활용할 뿐인 겁니다.

CoLa가 성능에 미치는 실제 영향

실험 결과에서 볼 수 있듯이, CoLa를 통해서 테스트-타임(Test-Time)에서 레이어를 다이나믹하게 건너뛰거나 반복하는 방식은 고정된 시퀀스를 사용하는 것보다 일관되게 더 나은 성능을 보여줬습니다. MCTS가 가이드하는 레이어 건너뛰기, 반복, 재배열을 통해서 이미 모델 안에 숨겨져 있던 성능을 끌어낼 수 있는 겁니다. 예를 들어서:

건너뛰기(Skip-only)는 간단한 작업에서 유용하고, 모델의 깊이(Depth)와 연산량을 줄입니다.
반복만 사용(Recurrence-only)하는 방식은 모델이 더 깊이 생각하도록 도와주어, 어려운 작업에서 더 나은 결과를 낼 수 있습니다.
두 가지의 방식을 함께 사용하면 입력의 난이도에 맞춰서 모델의 깊이를 조정할 수 있고, 재학습을 하지 않고서도 어려운 작업에서 최대 3배의 정확도 향상을 달성합니다.

또 다른 중요한 시사점이 있는데, 이겁니다:

모델 구성의 효과적인 재구성: CoLa는 전체 사례의 75% 이상에 해당하는 경우에, 여전히 정답을 내 주면서도 더 짧은 경로를 찾아내는 경우가 많습니다.
특히, 잘못된 답을 고치는 데 '더 많은 레이어가 아니라 더 적은 레이어면 충분한 경우가 많습니다. 잘못된 답을 수정하는 경우의 60% 이상의 경우에서, 레이어 배열을 더 잘 조정하는 것이 실수를 수정하는 좋은 방법이라는 점을 확인할 수 있습니다.
대형 모델과 소형 모델의 작동 방식 차이
- 어려운 작업의 경우에, 그리고 대형 모델인 경우에 레이어를 좀 더 균등하게 사용합니다. 예를 들어서 파라미터 수가 8B인 대형 모델은 더 다이나믹하게 적응합니다.
- 소형 모델은 중간 레이어에서 더 강한 가지치기(Pruning)를 하는 성향을 보입니다. 소형 모델은 항상 특정한 레이어를 건너뛰는 등 고정된 패턴에 의존하는 경우가 많습니다.
CoLa는 수학 및 상식 추론 벤치마크에서, 그리고 일반적인 모델 및 Instruction-Tuned 모델 모두의 경우에서 좋은 성능을 보여주었습니다.

그렇지만, CoLa 기법에는 여전히 몇 가지 한계가 있습니다:

MCTS는 연산 비용이 큽니다. 추론 단계에서 비용과 시간이 많이 들 수 있고, 특히 실시간(Real-Time) 또는 대규모의 배포 환경에서는 모델을 여러 번 실행해야 하기 때문에 더 부담이 됩니다.
CoLa가 전역 최적(Global Optimal)의 실행 경로를 반드시 찾는다는 보장은 없습니다.
이 방법은 최대 LLaMA-3 8B 모델과 중간 길이의 추론 작업에 대해서 평가를 했지만, 레이어 수가 훨씬 많은 예를 들어 70B+ 모델이나 아주 긴 컨텍스트에서 얼마나 잘 스케일링이 되는지는 불분명합니다.
CoLa는 레이어 순서를 변경하지만, 레이어 간 출력을 결합하거나 더 복잡한 재라우팅(Re-routing)을 수행하지는 않습니다.
비전(Vision), 대화(Dialogue), 멀티모달(Multimodal) 작업에서 얼마나 잘 작동하는지에 대해서는 아직 정보가 없습니다.

종합적으로 볼 때, CoLa는 테스트-타임의 아키텍처 어댑테이션(Test-Time Architectural Adaptation)을 통해서 테스트 타임에서 모델의 일반화를 구현해 내는 흥미로운 새로운 방법을 제안하는 거라고 볼 수 있습니다. 그리고 또 ‘고정되어 있는’ LLM 아키텍처 때문에 성능에 제한이 있을 수 있다는 걸 입증하는 것이기도 합니다.

여기서 핵심은, 재학습된 레이어가 단순한 고정 파이프라인이 아니라 모듈형 추론 도구(Modular Reasoning Tools)처럼 작동할 수 있다는 점입니다. 모델이 사용되는 레이어와 그 방식을 다이나믹하게 조정할 수 있다면, 추가 학습이 없이도 더 빠르고, 효율적이고, 심지어 더 정확해질 수 있다는 거죠.

https://turingpost.co.kr/p/update-in-test-time-scaling#chainof-layers-co-la

https://arxiv.org/abs/2507.07996

728x90

저작자표시 (새창열림)

'13.일상다반사' 카테고리의 다른 글

[용어] 신뢰성 사실 라벨 (Trustworthiness Fact Labels, TFL), ISO/IEC 42117 (0)	2025.08.22
[용어] AI 레드팀 테스팅 (AI Red Team Testing), ISO/IEC 42119-7 (0)	2025.08.22
[용어] 오메가 규칙(Ω-rule) (0)	2025.08.13
[용어] 프롬 스크래치(from scratch) (3)	2025.08.13
솔로 프리너(Solopreneur) (0)	2025.08.08

Posted by Mr. Slumber

Char