728x90
반응형

(개념) 실제 검색엔진 없이 LLM의 검색 능력을 개선

 

[2025.5.7] Incentivize the Search Capability of LLMs without Searching(https://arxiv.org/pdf/2505.04588)

 

효과적인 검색은 LLM의 성능 향상에 필수적이나, 기존 검색엔진을 활용한 학습 방식은 검색 결과의 예측 불가능한 품질로 인해 학습 과정에 불안정성을 초래하며 수십만 건의 검색 요청으로 상당한 API 비용이 발생∙ 이에 연구진은 실제 검색엔진과 상호작용 없이도 AI 모델이 자체적으로 검색엔진을 모방해 검색 능력을 향상하는 강화학습 프레임워크로서 ‘제로서치’를 고안

 

∙ 연구진은 우선 LLM이 최종 답에 도달할 때까지 여러 차례 검색엔진과 상호작용을 하도록 유도하여 정답과 오답을 나타내는 궤적을 파악하고 이를 바탕으로 지도학습 미세조정(SFT)을 통해 LLM의 검색엔진 시뮬레이션 성능을 개선

 

제로서치와 여타 방법*을 7개 데이터셋**으로 비교한 결과, 제로서치는 일관되게 더 나은 성능을 기록

 

* Direct Answer, CoT, RAG, RA-Agent, Search-o1, R1-base, R1-instruct, Search-R1-base, Search-R1-inst

** NQ, TriviaQA, PopQA, HotpotQA, 2Wiki, Musique, Bamboogle

 

∙ 모델이 커질수록 성능이 더욱 향상되는 경향도 확인되었으며, 매개변수 7B의 시뮬레이션 검색엔진은 구글 검색과 유사했고, 14B 검색엔진은 구글 검색을 능가하는 성능을 발휘 ∙ 비용 분석 결과, 약 6만 4천 건의 검색 요청을 처리하는 12시간의 훈련 과정에서 구글 검색 시에는 586.7달러의 API 비용이 발생하는 반면, 제로서치는 API 비용이 들지 않고 GPU 사용료만 발생하며, 이는 3B 모델 기준 17.7달러, 14B 모델 기준 70.8달러에 불과

 

SPRi AI Brief, 2025년 6월호

 

 

 

 

 

 

728x90
Posted by Mr. Slumber
,