728x90
반응형
1. BERTScore
BERTScore는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 활용하여 두 문장 간의 유사성을 평가하는 지표입니다. 이 지표는 각 단어의 임베딩을 기반으로 하여 문장 간의 의미적 유사성을 측정합니다. BERTScore는 다음과 같은 특징을 가지고 있습니다:
- 문맥적 이해: BERT는 문맥을 고려하여 단어의 의미를 파악하므로, BERTScore는 단순한 n-그램 기반의 지표보다 더 정교한 평가를 제공합니다.
- 정확한 유사성 측정: BERTScore는 각 단어의 임베딩을 비교하여 유사성을 계산하므로, 문장의 의미가 유사하더라도 단어의 순서가 다를 경우에도 높은 점수를 부여할 수 있습니다.
2. Perplexity
Perplexity는 언어 모델의 성능을 평가하는 데 사용되는 지표로, 모델이 주어진 텍스트를 얼마나 잘 예측하는지를 나타냅니다. Perplexity는 다음과 같은 방식으로 계산됩니다:
- 확률 기반: 모델이 생성한 단어의 확률을 기반으로 하여, 주어진 문장의 확률을 계산합니다. 낮은 Perplexity 값은 모델이 텍스트를 잘 예측하고 있다는 것을 의미합니다.
- 해석: Perplexity는 모델의 '당혹감'을 나타내며, 값이 낮을수록 모델이 더 자신 있게 예측하고 있다는 것을 나타냅니다. 일반적으로 Perplexity 값이 낮을수록 모델의 성능이 좋다고 평가됩니다.
3. BLEU (Bilingual Evaluation Understudy)
BLEU는 기계 번역의 품질을 평가하기 위해 개발된 지표로, 생성된 텍스트와 참조 텍스트 간의 n-그램 일치를 기반으로 합니다. BLEU의 주요 특징은 다음과 같습니다:
- n-그램 기반: BLEU는 1-그램, 2-그램 등 다양한 n-그램의 일치를 계산하여 점수를 부여합니다. 이로 인해 생성된 텍스트가 참조 텍스트와 얼마나 유사한지를 정량적으로 평가할 수 있습니다.
- 벌점 시스템: BLEU는 생성된 텍스트의 길이에 따라 벌점을 부여하여, 너무 짧은 텍스트가 높은 점수를 받지 않도록 합니다. 이는 모델이 다양한 길이의 텍스트를 생성하도록 유도합니다.
4. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)
ROUGE는 주로 요약 생성 모델의 성능을 평가하는 데 사용되는 지표로, 생성된 텍스트와 참조 텍스트 간의 n-그램 일치를 기반으로 합니다. ROUGE의 주요 특징은 다음과 같습니다:
- 다양한 변형: ROUGE는 ROUGE-N, ROUGE-L, ROUGE-W 등 여러 변형이 있으며, 각각 n-그램, 최장 공통 부분 수열, 가중치 기반의 평가를 제공합니다.
- 재현율 중심: ROUGE는 주로 재현율을 중심으로 평가하며, 생성된 텍스트가 참조 텍스트의 내용을 얼마나 잘 반영하고 있는지를 측정합니다. 높은 ROUGE 점수는 모델이 중요한 정보를 잘 포착하고 있다는 것을 의미합니다.
지표 | 측정 대상 | 주요 특징 | 장점 | 단점 |
BERTScore | 문맥적 유사성 | 임베딩 기반 의미 평가 | 문맥적 의미 반영 | 계산 복잡도 높음 |
Perplexity | 텍스트 예측력 | 언어 모델의 확률 기반 평가 | 생성 모델 평가에 적합 | 텍스트의 품질 직접 반영 X |
BLEU | n-gram 일치 | 생성 텍스트와 참조 텍스트의 n-gram 일치율 | 계산 간단, 기계 번역에 적합 | 문맥 및 의미 반영 X |
ROUGE | n-gram, LCS, Skip-Bigram 겹침 | 요약 및 텍스트 생성 평가 | 다양한 변형 활용 가능 | 의미 및 문맥 평가 한계 |
https://blog-ko.allganize.ai/llm-evaluation-auto-evaluate/
https://arockialiborious.com/f/guide-to-evaluating-large-language-models-llms
728x90
'07.AI' 카테고리의 다른 글
LLM - 성능 - 벤치마크, MBXP, HumanEval, HumanEval-X (0) | 2025.01.21 |
---|---|
LLM - 성능 - AI 투명성 평가, FMTI (0) | 2025.01.20 |
인공지능 - 인공지능 에이전트 (Agent) (5) | 2025.01.20 |
인공지능 - 인공지능 에이전트 (Agent) - MS 오토젠(AutoGen) (0) | 2025.01.20 |
인공지능 - 인공지능 에이전트 (Agent) - AI 에이전트 시대, AI 활용 패러다임 변화 (0) | 2025.01.18 |