728x90
반응형

The advisor embodies two key LLM-as-a-Judge concepts:
- Point-wise Evaluation: Each response receives an individual quality score based on predefined criteriaSelf
- Refinement: Failed responses trigger retry attempts with constructive feedback to guide improvement


https://huggingface.co/learn/cookbook/en/llm_judge#3-improve-the-llm-judge
728x90
'12. 메일진 > 5. AI 벤치마크' 카테고리의 다른 글
| LLM - 성능 - 벤치마크 - 벤치마크 데이터셋 현황 분석 및 정부 주도의 벤치마크 마련 필요성 (0) | 2026.02.14 |
|---|---|
| LLM - 성능 - 벤치마크 - Extended NYT Connections (0) | 2025.12.12 |
| 성과측정 - AI 검증 및 평가 - AI 반도체(특히 추론용 칩) 스타트업 CB Insights (0) | 2025.11.02 |
| 성과측정 - AI 검증 및 평가 - 오픈AI, AI의 경제적 가치를 측정하다: GDPval 공개 (1) | 2025.10.04 |
| LLM - 성능 - 벤치마크, 케이엠엠엘유-프로(KMMLU-Pro) (1) | 2025.07.20 |


