07.AI

모델 성능 평가 - 데이터 분류 - 루즈 L(Rouge L)

Mr. Slumber 2024. 5. 14. 00:49
728x90
반응형

(개념) 요약 사용 사례에서 RAG와 LLM을 테스트하는 데 사용할 수 있지만 일반적으로 결과를 벤치마크하기 위해 사람이 만든 요약이 필요하다.

 

 

 

 

  • LCS(longest common sequence) between model output
  • 말 그대로 common sequence 중에서 가장 긴 것을 매칭함
  • n-gram과 달리 순서나 위치관계를 고려한 알고리즘
  • Recall : LCS 길이 / label의 N-gram의수
  • Precision : LCS 길이 / output의 N-gram의수

 

 

 

https://velog.io/@crosstar1228/NLPRouge-score-Summarization%EC%9D%98-%ED%8F%89%EA%B0%80-Metric

 

[NLP]Rouge score - Summarization의 평가 Metric

Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가

velog.io

 

 

https://dev.to/aws-builders/mastering-rouge-matrix-your-guide-to-large-language-model-evaluation-for-summarization-with-examples-jjg

 

Mastering ROUGE Matrix: Your Guide to Large Language Model Evaluation for Summarization with Examples

Introduction In this article, we will start discussing everything you might want to learn...

dev.to

 

728x90