728x90
반응형

대규모 언어 모델은 RAG를 통해 사용자가 선택한 데이터 소스에 그라운딩된 응답을 생성할 수 있습니다. RAG에는 두 가지 단계가 있습니다.

  1. 검색: 가장 관련성 있는 사실을 빠르게 가져오는 것이 일반적인 검색 문제일 수 있습니다. RAG를 이용하면 답변을 생성하는 데 중요한 사실을 빠르게 검색할 수 있습니다.
  2. 생성: LLM은 검색된 사실을 이용해서 그라운딩된 응답을 생성합니다.

따라서 그라운딩된 답변 생성 방법은 그라운딩 소스로부터 사실을 검색하고 그라운딩된 답변을 생성합니다.

 

[The_AI_Report(2026-1)]_벤치마크_데이터셋_현황_분석_및_정부_주도의_벤치마크_마련_필요성

 

 

1. RAG 검증에서 Ground Truth의 역할과 필요성
RAG 시스템의 성능 평가는 주관적 판단이 아닌 정량적 메트릭을 기반으로 이루어져야 하며, 이때 Ground Truth는 비교의 기준점 역할을 한다.
1.1 주요 평가 지표 및 목적
 지표 산출의 기준: Faithfulness(충실도), Correctness(정확도), Context Precision(문맥 정밀도) 등의 메트릭을 계산하는 기준이 된다.
 재현율(Recall) 및 사실적 유사성 측정: 검색된 컨텍스트가 GT의 정보를 얼마나 포함하는지, 생성된 답변이 GT와 사실적으로 일치하는지 판단한다.
 환각 방지: 검색 품질이 낮을 경우 발생하는 환각을 방지하기 위해, 컨텍스트가 '충분한 맥락(Sufficient context)'을 제공하는지 검증한다. 이는 금융 및 의료와 같은 고위험 분야에서 특히 중요하다.
1.2 RAGAs 프레임워크의 4가지 입력 요소
GT 데이터셋은 기본적으로 다음 네 가지 요소의 조합으로 구성된다.
1. Question: 사용자 질의
2. Context: 시스템이 검색한 정보
3. Answer: RAG 시스템이 생성한 출력
4. Ground Truth: 질의에 대한 실제 정답 및 이상적인 답변
 
2. Ground Truth 데이터셋 구축 전략
GT 데이터셋을 확보하는 방법은 크게 기존 데이터 활용과 신규 생성으로 나뉘며, 생성 방식은 자동화 수준에 따라 차이가 있다.
전략 설명 장점 단점
기존 데이터셋 활용 WikiEval, SQuAD, HotpotQA 등 인터넷에 공개된 데이터셋 사용 비용 및 시간 효율적, 벤치마킹 용이 도메인 특화성 부족, 비즈니스 특수 사례 반영 어려움
수동 생성 도메인 전문가가 직접 질의 작성 및 최적의 답변 구성 높은 정확도와 신뢰성, 특정 상황에 맞춤화 가능 확장성 제한, 높은 리소스 투입 필요, 작성자 편향 발생 가능
LLM 기반 생성 지식 베이스를 LLM에 입력하여 질문과 답변을 자동 생성 높은 확장성 및 효율성, 다양한 유형의 질문 생성 가능 수동 프롬프트 작업 필요, 환각 포함 가능성 존재
프레임워크 활용 (RAGAs) '진화적 생성 패러다임'을 통해 질문을 반복적으로 정제 체계적이고 도전적인 질문 생성 가능 프레임워크 학습 및 설정 복잡성
 
3. 컨텍스트 품질 평가 및 선택 방법론
검색된 컨텍스트 중 노이즈를 필터링하고 최적의 정보를 선택하는 것이 RAG 성능의 핵심이다.
3.1 RAG Triad (TruLens)
환각 현상을 평가하기 위한 세 가지 핵심 축을 제안한다.
 문맥적 관련성(Context Relevance): 검색된 각 컨텍스트 청크가 입력 질의와 관련이 있는가?
 근거성(Groundedness): LLM의 답변이 검색된 컨텍스트 내의 사실에 기반하고 있는가? (개별 주장 단위로 검증)
 답변 관련성(Answer Relevance): 최종 응답이 사용자의 원래 질문에 도움이 되는 답변인가?
 
3.2 문맥적 영향 가치 (Contextual Influence, CI Value)
기존의 유사도 기반 검색의 한계를 극복하기 위해 제안된 지표로, 특정 컨텍스트를 제거했을 때 성능이 얼마나 저하되는지를 측정한다.
 질의 인식(Query-awareness): 질의와 무관한 컨텍스트는 CI 값이 0에 수렴한다.
 리스트 인식(List-awareness): 컨텍스트 간의 중복성을 식별하고 고유하며 필수적인 정보에 높은 점수를 부여한다.
 생성기 인식(Generator-awareness): LLM이 이미 알고 있는 정보와 대조하여, 실제 성능 개선에 기여하는 정보만 식별한다.
 설정 용이성: 복잡한 Top-k 튜닝 없이 CI 값이 양수(+)인 컨텍스트만 유지하는 직관적인 전략을 사용한다.
 
 
4. CI 대리 모델(CSM)을 통한 효율적 구현
실시간 추론 시 모든 컨텍스트의 CI 값을 직접 계산하는 것은 높은 지연 시간을 초래하므로, 이를 예측하는 **CI Surrogate Model(CSM)**이 활용된다.
4.1 CSM 아키텍처 및 학습
 계층적 구조: BERT 기반의 로컬 레이어(질의-컨텍스트 쌍 모델링)와 셀프 어텐션 기반의 글로벌 레이어(컨텍스트 간 상호작용 캡처)로 구성된다.
 학습 패러다임:
    ◦ 지도 학습(Supervised Training): Oracle CI 값을 타겟으로 학습하며, 데이터 불균형 해결을 위해 '교차 인스턴스 개입(Cross-instance intervention)' 기법을 사용한다.
    ◦ 엔드투엔드 학습(E2E Training): 생성기의 출력을 직접 신호로 사용하여 CSM 매개변수를 최적화한다.

 

4.2 성능 입증 데이터
다양한 NLP 태스크(NQ, TriviaQA, HotpotQA 등)에서 실험한 결과는 다음과 같다.
 성능 향상: 기존 RAG 대비 평균 **15.03%**의 생성 성능 향상을 기록했다.
 효율성: 추론 지연 시간을 대폭 단축했다. (예: NQ 데이터셋에서 n=50일 때, RankGPT의 1437ms 대비 CSM은 481ms 기록)
 정확도: Oracle CI 값과 0.75 이상의 Spearman 상관관계를 보이며 높은 예측 정확도를 입증했다.
 
5. 결론
RAG 시스템의 성공적인 운영을 위해서는 체계적인 Ground Truth 구축과 고도화된 컨텍스트 선택 전략이 결합되어야 한다. 특히 CI 가치와 같은 생성기 인식(Generator-aware) 지표를 도입하고 이를 CSM과 같은 경량화된 모델로 구현함으로써, 성능 최적화와 추론 효율성이라는 두 가지 목표를 동시에 달성할 수 있다. 향후 연구는 다양한 태스크에 범용적으로 적용 가능한 컨텍스트 선택기 개발에 집중될 것으로 전망된다.

 

[google] https://docs.cloud.google.com/generative-ai-app-builder/docs/grounded-gen?hl=ko

728x90
Posted by Mr. Slumber
,