728x90
반응형
○ 벤치마크 데이터셋의 신뢰성을 좌우하는 핵심 이슈로, 평가 문제나 정답이 모델 학습 데이터에 사전에 포함되어 실제 성능보다 과대평가되는 ‘데이터 누수(Data Leakage)’ 문제가 지속적으로 제기
- 대규모 웹 기반 학습이 일반화된 LLM 환경에서는 공개 벤치마크가 장기간 유지될 경우, 문제의 일부 또는 전체가 학습 데이터에 포함될 가능성을 완전히 배제하기 어려운 구조
- 이에 따라 벤치마크 데이터셋은 단순히 공개·유지되는 데이터가 아니라, 문제 교체, 비공개 평가 세트 분리, 접근 통제 등 오염을 최소화하기 위한 운영 전략을 전제로 관리되어야 하는 평가 자산으로 인식될 필요


















https://nsp.nanet.go.kr/plan/subject/detail.do?nationalPlanControlNo=PLAN0000059846
728x90
'12. 메일진 > 5. AI 벤치마크' 카테고리의 다른 글
| 성과측정 - AI 검증 및 평가 - AI 에이전트 SWE-rebench (0) | 2026.03.08 |
|---|---|
| LLM - 성능 - 벤치마크 - 데이터셋 가이드 (0) | 2026.02.20 |
| LLM - 성능 - 벤치마크 - 벤치마크 데이터셋 현황 분석 및 정부 주도의 벤치마크 마련 필요성 (0) | 2026.02.14 |
| LLM - 성능 - 벤치마크 - Extended NYT Connections (0) | 2025.12.12 |
| 성과측정 - AI 검증 및 평가 - LLM-as-a-Judge (0) | 2025.12.06 |


