07.AI
모델 성능 평가 - 데이터 분류 - 루즈 L(Rouge L)
Mr. Slumber
2024. 5. 14. 00:49
728x90
반응형
(개념) 요약 사용 사례에서 RAG와 LLM을 테스트하는 데 사용할 수 있지만 일반적으로 결과를 벤치마크하기 위해 사람이 만든 요약이 필요하다.
- LCS(longest common sequence) between model output
- 말 그대로 common sequence 중에서 가장 긴 것을 매칭함
- n-gram과 달리 순서나 위치관계를 고려한 알고리즘
- Recall : LCS 길이 / label의 N-gram의수
- Precision : LCS 길이 / output의 N-gram의수
https://velog.io/@crosstar1228/NLPRouge-score-Summarization%EC%9D%98-%ED%8F%89%EA%B0%80-Metric
[NLP]Rouge score - Summarization의 평가 Metric
Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가
velog.io
Mastering ROUGE Matrix: Your Guide to Large Language Model Evaluation for Summarization with Examples
Introduction In this article, we will start discussing everything you might want to learn...
dev.to
728x90