728x90
반응형

(개념) 요약 사용 사례에서 RAG와 LLM을 테스트하는 데 사용할 수 있지만 일반적으로 결과를 벤치마크하기 위해 사람이 만든 요약이 필요하다.

 

 

 

 

  • LCS(longest common sequence) between model output
  • 말 그대로 common sequence 중에서 가장 긴 것을 매칭함
  • n-gram과 달리 순서나 위치관계를 고려한 알고리즘
  • Recall : LCS 길이 / label의 N-gram의수
  • Precision : LCS 길이 / output의 N-gram의수

 

 

 

https://velog.io/@crosstar1228/NLPRouge-score-Summarization%EC%9D%98-%ED%8F%89%EA%B0%80-Metric

 

[NLP]Rouge score - Summarization의 평가 Metric

Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가

velog.io

 

 

https://dev.to/aws-builders/mastering-rouge-matrix-your-guide-to-large-language-model-evaluation-for-summarization-with-examples-jjg

 

Mastering ROUGE Matrix: Your Guide to Large Language Model Evaluation for Summarization with Examples

Introduction In this article, we will start discussing everything you might want to learn...

dev.to

 

728x90
Posted by Mr. Slumber
,