728x90
반응형

https://openai.com/ko-KR/index/why-we-no-longer-evaluate-swe-bench-verified/

최근 OpenAI가 발표한 분석에 따르면, 자율 소프트웨어 엔지니어링 성능을 측정하던 표준 지표인 SWE-bench Verified는 더 이상 최신 모델의 역량을 정확히 판별하기 어렵습니다. 조사 결과 평가 항목의 절반 이상에서 테스트 설계의 결함이나 모호한 문제 설명이 발견되었으며, 이는 모델이 올바른 해답을 제시하더라도 부당하게 탈락하는 결과를 초래했습니다. 또한 공개된 코드베이스를 활용하는 특성상 학습 데이터 오염이 심각하여, 일부 모델은 논리적 추론 없이 과거의 정답 코드를 그대로 복제하는 한계를 보였습니다. 이에 따라 평가의 중심은 오염 가능성이 낮고 변별력이 높은 SWE-bench Pro 및 비공개 벤치마크로 이동하고 있습니다. 결론적으로 진정한 기술 발전을 확인하기 위해서는 단순한 자동 채점을 넘어 도메인 전문가의 검증과 정교한 평가 체계 구축이 필수적인 시점에 도달했습니다.

 

 

728x90
Posted by Mr. Slumber
,