728x90
반응형

https://arxiv.org/abs/2408.01262

 

증강 생성(RAG) 시스템의 성능을 정교하게 평가하기 위한 새로운 프레임워크인 RAGEval을 제안합니다. 기존 평가 방식이 도메인별 특수성을 반영하지 못하고 단순 자구 일치도에 의존하는 한계를 극복하기 위해, 이 모델은 스키마 기반의 자동 데이터 생성 파이프라인을 통해 금융, 법률, 의료와 같은 전문 분야의 맞춤형 데이터셋을 구축합니다. 특히 모델이 생성한 답변의 사실 관계를 정확히 측정하고자 완결성(Completeness), 환각(Hallucination), 무관성(Irrelevance)이라는 세 가지 핵심 지표를 도입하여 다각적인 분석을 수행합니다. 결과적으로 이 프레임워크는 실제 산업 현장의 복잡한 요구사항을 반영할 수 있는 유연하고 신뢰도 높은 RAG 평가 표준을 제시하는 데 목적이 있습니다.

 

 

 

 

 

 

728x90
Posted by Mr. Slumber
,