Char :: LLM - 성능 - 벤치마크 - 데이터 누수(Data Leakage)

LLM - 성능 - 벤치마크 - 데이터 누수(Data Leakage)

07.AI/7. AI 벤치마크 2026. 2. 18. 17:41

728x90

○ 벤치마크 데이터셋의 신뢰성을 좌우하는 핵심 이슈로, 평가 문제나 정답이 모델 학습 데이터에 사전에 포함되어 실제 성능보다 과대평가되는 ‘데이터 누수(Data Leakage)’ 문제가 지속적으로 제기

- 대규모 웹 기반 학습이 일반화된 LLM 환경에서는 공개 벤치마크가 장기간 유지될 경우, 문제의 일부 또는 전체가 학습 데이터에 포함될 가능성을 완전히 배제하기 어려운 구조

- 이에 따라 벤치마크 데이터셋은 단순히 공개·유지되는 데이터가 아니라, 문제 교체, 비공개 평가 세트 분리, 접근 통제 등 오염을 최소화하기 위한 운영 전략을 전제로 관리되어야 하는 평가 자산으로 인식될 필요

728x90

성과측정 - AI 검증 및 평가 - AI 에이전트 SWE-rebench (0)	2026.03.08
LLM - 성능 - 벤치마크 - 데이터셋 가이드 (0)	2026.02.20
LLM - 성능 - 벤치마크 - 벤치마크 데이터셋 현황 분석 및 정부 주도의 벤치마크 마련 필요성 (0)	2026.02.14
LLM - 검색 증강 생성 (RAG) - 평가 (0)	2025.12.17
LLM - 성능 - 벤치마크 - Extended NYT Connections (0)	2025.12.12