728x90
반응형

○ 벤치마크 데이터셋의 신뢰성을 좌우하는 핵심 이슈로, 평가 문제나 정답이 모델 학습 데이터에 사전에 포함되어 실제 성능보다 과대평가되는 ‘데이터 누수(Data Leakage)’ 문제가 지속적으로 제기

 

- 대규모 웹 기반 학습이 일반화된 LLM 환경에서는 공개 벤치마크가 장기간 유지될 경우, 문제의 일부 또는 전체가 학습 데이터에 포함될 가능성을 완전히 배제하기 어려운 구조

 

- 이에 따라 벤치마크 데이터셋은 단순히 공개·유지되는 데이터가 아니라, 문제 교체, 비공개 평가 세트 분리, 접근 통제 등 오염을 최소화하기 위한 운영 전략을 전제로 관리되어야 하는 평가 자산으로 인식될 필요

 

 

 

 

 

 

 

 

 

 

https://nsp.nanet.go.kr/plan/subject/detail.do?nationalPlanControlNo=PLAN0000059846

728x90
Posted by Mr. Slumber
,