Char :: 모델 성능 평가 - 데이터 분류

모델 성능 평가 - 데이터 분류 - 루즈 L(Rouge L)

07.AI 2024. 5. 14. 00:49

728x90

(개념) 요약 사용 사례에서 RAG와 LLM을 테스트하는 데 사용할 수 있지만 일반적으로 결과를 벤치마크하기 위해 사람이 만든 요약이 필요하다.

LCS(longest common sequence) between model output
말 그대로 common sequence 중에서 가장 긴 것을 매칭함
n-gram과 달리 순서나 위치관계를 고려한 알고리즘
Recall : LCS 길이 / label의 N-gram의수
Precision : LCS 길이 / output의 N-gram의수

https://velog.io/@crosstar1228/NLPRouge-score-Summarization%EC%9D%98-%ED%8F%89%EA%B0%80-Metric

[NLP]Rouge score - Summarization의 평가 Metric

Recall-Oriented Understudy for Gisting Evaluationlabel(사람이 만든 요약문)과 summary(모델이 생성한 inference)을 비교해서 성능 계산ROUGE-N, ROUGE-L, ROUGE-W, ROUGE-S 등 다양한 지표가

velog.io

https://dev.to/aws-builders/mastering-rouge-matrix-your-guide-to-large-language-model-evaluation-for-summarization-with-examples-jjg

Mastering ROUGE Matrix: Your Guide to Large Language Model Evaluation for Summarization with Examples

Introduction In this article, we will start discussing everything you might want to learn...

dev.to

728x90

저작자표시 (새창열림)

'07.AI' 카테고리의 다른 글

인공지능 - 범용 일반 지능(AGI) - 멀티모달 AI 경쟁과 다가오는 AGI (0)	2024.05.21
모델 성능 평가 - 데이터 분류 - 세이커 블루(sacreBLEU) (0)	2024.05.14
모델 성능 평가 - 데이터 분류 - F1 점수 (0)	2024.05.14
모델 성능 평가 - 데이터 분류 - ROC 커브 (0)	2024.05.14
데이터 분류 모델 - 혼동행렬 (0)	2024.05.14

Posted by Mr. Slumber

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Char

모델 성능 평가 - 데이터 분류 - 루즈 L(Rouge L)

'07.AI' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바