728x90
반응형
(개념) RAG 시스템이 사용자의 질문에 대해 근거 문서(Grounding Documents)와 일치하는 가장 관련성 높은 답변을 생성하는지 확인하는 데 중점을 둡니다.

Microsoft Azure AI Foundry의 RAG 평가 항목은 크게 세 가지 주요 측면을 평가합니다.
1. 평가의 주요 세 가지 측면
RAG 시스템의 평가는 질문에 대한 검색 결과의 관련성, 생성된 응답과 근거 문서 간의 일관성, 그리고 최종 응답의 적합성을 중심으로 이루어집니다.
| 평가 측면 | 목적 | 주요 평가 도구 |
| 검색 품질 (Retrieval) | 근거 문서 검색 결과가 사용자의 질문과 얼마나 관련성이 높은가? | Document Retrieval, Retrieval |
| 응답 일관성 (Groundedness/Consistency) | 생성된 응답이 근거 문서를 벗어나지 않고 얼마나 일관성을 유지하는가? | Groundedness, Groundedness Pro |
| 응답 품질 (Response Quality) | 최종 응답이 질문에 대해 얼마나 정확하고 완전하며 직접적으로 관련이 있는가? | Relevance, Response Completeness |
2. RAG 평가 항목 상세 설명
Azure AI Foundry에서 제공하는 주요 평가 도구는 다음과 같습니다. 이 도구들은 **프로세스 평가(Process evaluation)**와 **시스템 평가(System evaluation)**로 구분됩니다.
| 평가 도구 | 평가 유형 | 목적 (평가 내용) | 핵심 입력 | 결과/측정 항목 |
| Document Retrieval (미리 보기) | 프로세스 | 검색 품질이 RAG의 병목 현상일 때, **정답 레이블(Ground Truth)**을 사용하여 검색 품질 지표 (Fidelity, NDCG, XDCG 등)를 정밀하게 측정합니다. | retrieval_ground_truth, retrieval_documents | 복합 지표 및 Pass/Fail |
| Retrieval | 프로세스 | 정답 레이블 없이 LLM 평가자(LLM judge)를 사용하여 검색된 문맥(Context) 덩어리가 질문에 응답하는 데 얼마나 관련성이 높은지 측정합니다. | Query, Context | 이진값 (1~5점 척도 기반 Pass/Fail) |
| Groundedness | 시스템 | LLM 평가자를 사용하여 생성된 응답이 내용을 조작하지 않고 주어진 문맥과 얼마나 잘 일치하는지 (즉, 정밀도 측면) 측정합니다. | Query, Context, Response | 이진값 (1~5점 척도 기반 Pass/Fail) |
| Groundedness Pro (미리 보기) | 시스템 | Azure AI Content Safety 서비스를 활용하여 응답이 문맥과 엄격하게 일치하는지 감지합니다. | Query, Context, Response | 이진값 (True/False) |
| Relevance | 시스템 | 정답 없이 RAG 응답이 질문에 대해 정확성, 완전성, 직접적인 관련성을 얼마나 잘 다루는지 측정합니다. | Query, Response | 이진값 (1~5점 척도 기반 Pass/Fail) |
| Response Completeness (미리 보기) | 시스템 | 정답과 비교하여 응답이 예상되는 정보를 얼마나 완전히 다루었는지 (즉, 재현율 측면) 측정하여 중요한 정보가 누락되지 않도록 보장합니다. | Response, Ground truth | 이진값 (Pass/Fail) |
근거성(Groundedness)과 응답 완전성(Response Completeness)의 관계
- Groundedness (정밀도/Precision): 응답이 근거 문맥 밖의 내용을 포함하지 않음에 중점을 둡니다. (사실 조작 방지)
- Response Completeness (재현율/Recall): 응답이 정답(Ground truth)과 비교하여 중요한 정보가 누락되지 않음에 중점을 둡니다. (필요 정보 포함)
AI 지원 평가자 모델 구성
Groundedness Pro를 제외한 AI 지원 품질 평가 도구들은 **LLM 평가자(LLM-judge)**를 사용합니다. 복잡한 평가에는 강력한 추론 모델(Reasoning Models)을 사용하는 것이 권장됩니다. AzureOpenAI 또는 OpenAI 추론 모델을 LLM 평가자로 사용할 수 있습니다.
728x90
'07.AI' 카테고리의 다른 글
| LLM - Open AI, GPT-2 (0) | 2025.12.19 |
|---|---|
| LLM - 검색 증강 생성 (RAG) - Vertex AI Search - Ground Truth (0) | 2025.12.17 |
| LLM - 성능 - 리텐션(retention) (0) | 2025.12.14 |
| LLM - 가중치 (Open Weight) - 개방형 모델 vs 폐쇄형 모델 (0) | 2025.12.14 |
| 생성형 AI - 오픈 모델 (Open Model) (1) | 2025.12.14 |


