Char :: LLM - 검색 증강 생성 (RAG) - 평가

LLM - 검색 증강 생성 (RAG) - 평가 - RAGEval

07.AI/7. AI 벤치마크 2026. 4. 5. 10:18

728x90

증강 생성(RAG) 시스템의 성능을 정교하게 평가하기 위한 새로운 프레임워크인 RAGEval을 제안합니다. 기존 평가 방식이 도메인별 특수성을 반영하지 못하고 단순 자구 일치도에 의존하는 한계를 극복하기 위해, 이 모델은 스키마 기반의 자동 데이터 생성 파이프라인을 통해 금융, 법률, 의료와 같은 전문 분야의 맞춤형 데이터셋을 구축합니다. 특히 모델이 생성한 답변의 사실 관계를 정확히 측정하고자 완결성(Completeness), 환각(Hallucination), 무관성(Irrelevance)이라는 세 가지 핵심 지표를 도입하여 다각적인 분석을 수행합니다. 결과적으로 이 프레임워크는 실제 산업 현장의 복잡한 요구사항을 반영할 수 있는 유연하고 신뢰도 높은 RAG 평가 표준을 제시하는 데 목적이 있습니다.

728x90

저작자표시 (새창열림)

'07.AI > 7. AI 벤치마크' 카테고리의 다른 글

LLM - 성능 - 벤치마크 - 멀티모달 대형 언어 모델(MLLM) (0)	2026.05.02
성과측정 - AI 검증 및 평가 - OpenAI, SWE-bench Verified 오염 (0)	2026.05.01
성과측정 - AI 검증 및 평가 - AI 에이전트 SWE-bench Verified (0)	2026.03.29
성과측정 - AI 검증 및 평가 - AI 에이전트 SWE-rebench2 (0)	2026.03.28
성과측정 - AI 검증 및 평가 - AI 에이전트 SWE-CI, EvoScore (0)	2026.03.28