728x90
반응형
(개념) 요약 사용 사례에서 RAG와 LLM을 테스트하는 데 사용할 수 있지만 일반적으로 결과를 벤치마크하기 위해 사람이 만든 요약이 필요하다.
- LCS(longest common sequence) between model output
- 말 그대로 common sequence 중에서 가장 긴 것을 매칭함
- n-gram과 달리 순서나 위치관계를 고려한 알고리즘
- Recall : LCS 길이 / label의 N-gram의수
- Precision : LCS 길이 / output의 N-gram의수
https://velog.io/@crosstar1228/NLPRouge-score-Summarization%EC%9D%98-%ED%8F%89%EA%B0%80-Metric
[NLP]Rouge score - Summarization의 평가 Metric
Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가
velog.io
Mastering ROUGE Matrix: Your Guide to Large Language Model Evaluation for Summarization with Examples
Introduction In this article, we will start discussing everything you might want to learn...
dev.to
728x90
'07.AI' 카테고리의 다른 글
인공지능 - 범용 일반 지능(AGI) - 멀티모달 AI 경쟁과 다가오는 AGI (0) | 2024.05.21 |
---|---|
모델 성능 평가 - 데이터 분류 - 세이커 블루(sacreBLEU) (0) | 2024.05.14 |
모델 성능 평가 - 데이터 분류 - F1 점수 (0) | 2024.05.14 |
모델 성능 평가 - 데이터 분류 - ROC 커브 (0) | 2024.05.14 |
데이터 분류 모델 - 혼동행렬 (0) | 2024.05.14 |