728x90
반응형

(개념) RAG 시스템이 사용자의 질문에 대해 근거 문서(Grounding Documents)와 일치하는 가장 관련성 높은 답변을 생성하는지 확인하는 데 중점을 둡니다.

 

AI 엔지니어링, 2025.11

 

Microsoft Azure AI Foundry의 RAG 평가 항목은 크게 세 가지 주요 측면을 평가합니다.

 

1. 평가의 주요 세 가지 측면

RAG 시스템의 평가는 질문에 대한 검색 결과의 관련성, 생성된 응답과 근거 문서 간의 일관성, 그리고 최종 응답의 적합성을 중심으로 이루어집니다.

평가 측면 목적 주요 평가 도구
검색 품질 (Retrieval) 근거 문서 검색 결과가 사용자의 질문과 얼마나 관련성이 높은가? Document Retrieval, Retrieval
응답 일관성 (Groundedness/Consistency) 생성된 응답이 근거 문서를 벗어나지 않고 얼마나 일관성을 유지하는가? Groundedness, Groundedness Pro
응답 품질 (Response Quality) 최종 응답이 질문에 대해 얼마나 정확하고 완전하며 직접적으로 관련이 있는가? Relevance, Response Completeness

 

2. RAG 평가 항목 상세 설명

Azure AI Foundry에서 제공하는 주요 평가 도구는 다음과 같습니다. 이 도구들은 **프로세스 평가(Process evaluation)**와 **시스템 평가(System evaluation)**로 구분됩니다.

평가 도구 평가 유형 목적 (평가 내용) 핵심 입력 결과/측정 항목
Document Retrieval (미리 보기) 프로세스 검색 품질이 RAG의 병목 현상일 때, **정답 레이블(Ground Truth)**을 사용하여 검색 품질 지표 (Fidelity, NDCG, XDCG 등)를 정밀하게 측정합니다. retrieval_ground_truth, retrieval_documents 복합 지표 및 Pass/Fail
Retrieval 프로세스 정답 레이블 없이 LLM 평가자(LLM judge)를 사용하여 검색된 문맥(Context) 덩어리가 질문에 응답하는 데 얼마나 관련성이 높은지 측정합니다. Query, Context 이진값 (1~5점 척도 기반 Pass/Fail)
Groundedness 시스템 LLM 평가자를 사용하여 생성된 응답이 내용을 조작하지 않고 주어진 문맥과 얼마나 잘 일치하는지 (즉, 정밀도 측면) 측정합니다. Query, Context, Response 이진값 (1~5점 척도 기반 Pass/Fail)
Groundedness Pro (미리 보기) 시스템 Azure AI Content Safety 서비스를 활용하여 응답이 문맥과 엄격하게 일치하는지 감지합니다. Query, Context, Response 이진값 (True/False)
Relevance 시스템 정답 없이 RAG 응답이 질문에 대해 정확성, 완전성, 직접적인 관련성을 얼마나 잘 다루는지 측정합니다. Query, Response 이진값 (1~5점 척도 기반 Pass/Fail)
Response Completeness (미리 보기) 시스템 정답과 비교하여 응답이 예상되는 정보를 얼마나 완전히 다루었는지 (즉, 재현율 측면) 측정하여 중요한 정보가 누락되지 않도록 보장합니다. Response, Ground truth 이진값 (Pass/Fail)

 

 

근거성(Groundedness)과 응답 완전성(Response Completeness)의 관계

  • Groundedness (정밀도/Precision): 응답이 근거 문맥 밖의 내용을 포함하지 않음에 중점을 둡니다. (사실 조작 방지)
  • Response Completeness (재현율/Recall): 응답이 정답(Ground truth)과 비교하여 중요한 정보가 누락되지 않음에 중점을 둡니다. (필요 정보 포함)

 

AI 지원 평가자 모델 구성

Groundedness Pro를 제외한 AI 지원 품질 평가 도구들은 **LLM 평가자(LLM-judge)**를 사용합니다. 복잡한 평가에는 강력한 추론 모델(Reasoning Models)을 사용하는 것이 권장됩니다. AzureOpenAI 또는 OpenAI 추론 모델을 LLM 평가자로 사용할 수 있습니다.

 

 

 

https://learn.microsoft.com/en-us/azure/ai-foundry/concepts/evaluation-evaluators/rag-evaluators?view=foundry-classic

728x90
Posted by Mr. Slumber
,