728x90
반응형

(개념) 모델이 실제 추론을 수행할 때 입력 데이터를 동적으로 조정하여 최적의 성능을 낼 수 있도록 AI 모델이 추론하는 과정에서 성능을 최적화하는 방법

-  '추론 시간' 동안 계산 자원을 증가시키는 방법을 통해 모델의 응답 정확도를 높이는 기법

 

 

학습된 모델의 파라미터를 변경하지 않고, 테스트 시점에서 더 많은 계산을 통해 성능을 향상시키는 데 주안점을 둡니다. 즉, 모델은 여러 개의 응답을 생성하고, 그 중에서 보상 모델을 통해 최적의 응답을 선택하는 방식을 사용

 

 

(원리)

  • 다수결 투표(majority voting): 여러 모델에서 생성된 응답 중 가장 많이 선택된 답변이 최종 결과로 채택됩니다.
  • 베스트 오브 N(Best-of-N): N개의 응답을 생성하여 그 중 가장 높은 점수를 받은 응답을 선택합니다.
  • 가중 베스트 오브 N(Weighted Best-of-N): 각각의 응답에 가중치를 부여하여, 총 점수가 가장 높은 응답을 선택합니다.

(응용) 

  1. 허깅페이스의 sLM: 허깅페이스는 이 기법을 활용하여 생긴 여러 언어 모델에서 성능을 향상시키고 있습니다. 해당 기술은 사용자 요청에 대한 보다 정교하고 정확한 응답을 생성하는 데 기여하고 있습니다1.
  2. OpenAI의 o1 모델: 오픈AI가 개발한 o1 모델은 테스트 타임 스케일링 기법을 통해 이전 모델보다 훨씬 향상된 성능을 보여줍니다. 이 모델은 추가적인 계산 자원을 활용하여 추론 정확도를 높이는 데 성공했습니다4..
  3. 한국어 인공지능 모델 '올라프 v2': 원라인에이아이가 개발한 이 모델은 생각 프로세스와 테스트 타임 스케일링을 통합하여 한국어 처리를 개선하는 데에 중점을 두었습니다7.

 

 

  •  

 

https://arxiv.org/abs/2501.19393

 

s1: Simple test-time scaling

Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly share its methodology, leading to many replication efforts.

arxiv.org

https://discuss.pytorch.kr/t/s1-test-time-scaling/6060

 

s1: 테스트 시점 스케일링(Test-Time Scaling)을 단순하게 구현하는 방법에 대한 연구

s1: Simple Test-Time Scaling 연구 배경 최근 인공지능(AI) 기술이 급속도로 발전하면서, 대형 언어 모델(Large Language Model, LLM)의 활용이 점점 더 확대되고 있습니다. GPT-4o, Claude, Gemini와 같은 최신 모델들

discuss.pytorch.kr

 

728x90
Posted by Mr. Slumber
,