Char :: 성과측정 - AI 검증 및 평가 - OpenAI, SWE-bench Verified 오염

성과측정 - AI 검증 및 평가 - OpenAI, SWE-bench Verified 오염

07.AI/7. AI 벤치마크 2026. 5. 1. 01:43

728x90

https://openai.com/ko-KR/index/why-we-no-longer-evaluate-swe-bench-verified/

2026.2.23
[SWE-bench Verified가 더 이상 프런티어 코딩 역량을 측정하지 못하는 이유]

최근 OpenAI가 발표한 분석에 따르면, 자율 소프트웨어 엔지니어링 성능을 측정하던 표준 지표인 SWE-bench Verified는 더 이상 최신 모델의 역량을 정확히 판별하기 어렵습니다. 조사 결과 평가 항목의 절반 이상에서 테스트 설계의 결함이나 모호한 문제 설명이 발견되었으며, 이는 모델이 올바른 해답을 제시하더라도 부당하게 탈락하는 결과를 초래했습니다. 또한 공개된 코드베이스를 활용하는 특성상 학습 데이터 오염이 심각하여, 일부 모델은 논리적 추론 없이 과거의 정답 코드를 그대로 복제하는 한계를 보였습니다. 이에 따라 평가의 중심은 오염 가능성이 낮고 변별력이 높은 SWE-bench Pro 및 비공개 벤치마크로 이동하고 있습니다. 결론적으로 진정한 기술 발전을 확인하기 위해서는 단순한 자동 채점을 넘어 도메인 전문가의 검증과 정교한 평가 체계 구축이 필수적인 시점에 도달했습니다.

728x90

저작자표시 (새창열림)

'07.AI > 7. AI 벤치마크' 카테고리의 다른 글

LLM - 성능 - 벤치마크 - RLI, GDPval, APEX-Agents 경제가치 분석 (0)	2026.05.02
LLM - 성능 - 벤치마크 - 멀티모달 대형 언어 모델(MLLM) (0)	2026.05.02
LLM - 검색 증강 생성 (RAG) - 평가 - RAGEval (0)	2026.04.05
성과측정 - AI 검증 및 평가 - AI 에이전트 SWE-bench Verified (0)	2026.03.29
성과측정 - AI 검증 및 평가 - AI 에이전트 SWE-rebench2 (0)	2026.03.28