728x90
반응형
https://arxiv.org/abs/2505.20411
이 자료는 대규모 언어 모델(LLM) 기반 소프트웨어 공학 에이전트의 성능을 개선하고 평가하기 위한 SWE-rebench 파이프라인과 데이터셋을 소개합니다. 연구진은 기존 벤치마크의 데이터 오염 문제와 수동 구축의 한계를 해결하기 위해, GitHub에서 실제 과업을 지속적으로 추출하고 검증하는 완전 자동화된 시스템을 개발했습니다. 이를 통해 구축된 21,000개 이상의 파이썬 기반 과업은 에이전트의 강화 학습 및 정밀한 성능 측정에 활용됩니다. 또한, 최신 모델들을 대상으로 한 실험 결과, 일부 모델의 높은 성적이 과거 데이터에 대한 암기 효과일 수 있음을 시사하며 표준화된 평가 환경의 중요성을 강조합니다. 결론적으로 이 논문은 에이전트의 실질적인 문제 해결 능력을 투명하고 공정하게 비교할 수 있는 동적 벤치마크 시스템을 제안합니다.





















728x90
'07.AI' 카테고리의 다른 글
| 인공지능 - MoE (Mixture-of-Experts; 전문가 혼합) 기법 - Transformers (0) | 2026.03.08 |
|---|---|
| SW 테스트 - 정적 테스트 - 코드 리뷰 (Review) - 무신사의 AI 코드 리뷰 프로세스 구축기 (0) | 2026.03.05 |
| 인지 - 인지 부채 (가속된 개발 속도와 이해의 불균형) (0) | 2026.03.05 |
| LLM - 가중치 (Open Weight) - 2026년 1월,2월 (0) | 2026.03.02 |
| 인공지능 - 인공지능 에이전트 (Agent) - AI 에이전트의 실제 활용: 평가 및 거버넌스의 기초 (0) | 2026.02.28 |


