Char :: 성과측정 - AI 검증 및 평가

성과측정 - AI 검증 및 평가 - LLM-as-a-Judge

07.AI/7. AI 벤치마크 2025. 12. 6. 00:15

728x90

The advisor embodies two key LLM-as-a-Judge concepts:
- Point-wise Evaluation: Each response receives an individual quality score based on predefined criteriaSelf
- Refinement: Failed responses trigger retry attempts with constructive feedback to guide improvement

https://huggingface.co/learn/cookbook/en/llm_judge#3-improve-the-llm-judge

https://spring.io/blog/2025/11/10/spring-ai-llm-as-judge-blog-post?fbclid=IwY2xjawOGEBFleHRuA2FlbQIxMQBzcnRjBmFwcF9pZBAyMjIwMzkxNzg4MjAwODkyCGNhbGxzaXRlAjMwAAEexBPjll1kBiK7MM4L0xIaAcPAhD-ldWSF8lyGZjT0NDhqUjggqP4I_lR4CJY_aem_evJ5CT8EGGn-qqG3e0iLuA

728x90

저작자표시 (새창열림)

'07.AI > 7. AI 벤치마크' 카테고리의 다른 글

LLM - 검색 증강 생성 (RAG) - 평가 (0)	2025.12.17
LLM - 성능 - 벤치마크 - Extended NYT Connections (0)	2025.12.12
LLM - 딥시크 (DeepSeek) - 미 NIST, DeepSeek AI 모델 평가 결과 발표 (0)	2025.11.18
성과측정 - AI 검증 및 평가 - AI 반도체(특히 추론용 칩) 스타트업 CB Insights (0)	2025.11.02
성과측정 - AI 검증 및 평가 - 오픈AI, AI의 경제적 가치를 측정하다: GDPval 공개 (1)	2025.10.04