728x90
반응형

 

 

1. BERTScore

 

BERTScore는 BERT(Bidirectional Encoder Representations from Transformers) 모델을 활용하여 두 문장 간의 유사성을 평가하는 지표입니다. 이 지표는 각 단어의 임베딩을 기반으로 하여 문장 간의 의미적 유사성을 측정합니다. BERTScore는 다음과 같은 특징을 가지고 있습니다:

  • 문맥적 이해: BERT는 문맥을 고려하여 단어의 의미를 파악하므로, BERTScore는 단순한 n-그램 기반의 지표보다 더 정교한 평가를 제공합니다.
  • 정확한 유사성 측정: BERTScore는 각 단어의 임베딩을 비교하여 유사성을 계산하므로, 문장의 의미가 유사하더라도 단어의 순서가 다를 경우에도 높은 점수를 부여할 수 있습니다.

2. Perplexity

Perplexity는 언어 모델의 성능을 평가하는 데 사용되는 지표로, 모델이 주어진 텍스트를 얼마나 잘 예측하는지를 나타냅니다. Perplexity는 다음과 같은 방식으로 계산됩니다:

  • 확률 기반: 모델이 생성한 단어의 확률을 기반으로 하여, 주어진 문장의 확률을 계산합니다. 낮은 Perplexity 값은 모델이 텍스트를 잘 예측하고 있다는 것을 의미합니다.
  • 해석: Perplexity는 모델의 '당혹감'을 나타내며, 값이 낮을수록 모델이 더 자신 있게 예측하고 있다는 것을 나타냅니다. 일반적으로 Perplexity 값이 낮을수록 모델의 성능이 좋다고 평가됩니다.

3. BLEU (Bilingual Evaluation Understudy)

BLEU는 기계 번역의 품질을 평가하기 위해 개발된 지표로, 생성된 텍스트와 참조 텍스트 간의 n-그램 일치를 기반으로 합니다. BLEU의 주요 특징은 다음과 같습니다:

  • n-그램 기반: BLEU는 1-그램, 2-그램 등 다양한 n-그램의 일치를 계산하여 점수를 부여합니다. 이로 인해 생성된 텍스트가 참조 텍스트와 얼마나 유사한지를 정량적으로 평가할 수 있습니다.
  • 벌점 시스템: BLEU는 생성된 텍스트의 길이에 따라 벌점을 부여하여, 너무 짧은 텍스트가 높은 점수를 받지 않도록 합니다. 이는 모델이 다양한 길이의 텍스트를 생성하도록 유도합니다.

4. ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

ROUGE는 주로 요약 생성 모델의 성능을 평가하는 데 사용되는 지표로, 생성된 텍스트와 참조 텍스트 간의 n-그램 일치를 기반으로 합니다. ROUGE의 주요 특징은 다음과 같습니다:

  • 다양한 변형: ROUGE는 ROUGE-N, ROUGE-L, ROUGE-W 등 여러 변형이 있으며, 각각 n-그램, 최장 공통 부분 수열, 가중치 기반의 평가를 제공합니다.
  • 재현율 중심: ROUGE는 주로 재현율을 중심으로 평가하며, 생성된 텍스트가 참조 텍스트의 내용을 얼마나 잘 반영하고 있는지를 측정합니다. 높은 ROUGE 점수는 모델이 중요한 정보를 잘 포착하고 있다는 것을 의미합니다.

 

지표 측정 대상 주요 특징 장점 단점
BERTScore 문맥적 유사성 임베딩 기반 의미 평가 문맥적 의미 반영 계산 복잡도 높음
Perplexity 텍스트 예측력 언어 모델의 확률 기반 평가 생성 모델 평가에 적합 텍스트의 품질 직접 반영 X
BLEU n-gram 일치 생성 텍스트와 참조 텍스트의 n-gram 일치율 계산 간단, 기계 번역에 적합 문맥 및 의미 반영 X
ROUGE n-gram, LCS, Skip-Bigram 겹침 요약 및 텍스트 생성 평가 다양한 변형 활용 가능 의미 및 문맥 평가 한계

 

 

 

 

 

 

 

 

 

https://blog-ko.allganize.ai/llm-evaluation-auto-evaluate/

https://arockialiborious.com/f/guide-to-evaluating-large-language-models-llms

728x90
Posted by Mr. Slumber
,