728x90
반응형

(개념) 한국어 거대언어모델(LLM)의 실제 실무 능력, 특히 변호사, 의사, 회계사 등 한국의 14개 국가 전문직 자격시험을 기반으로 LLM의 전문 지식과 실무 응용력을 평가하기 위해 만들어진 고난도 벤치마크

 

기존 MMLU의 문제점

문제점 [설명]
맥락 부족 일부 질문에 핵심 맥락이 없어 정확한 답변이 어려움. (hyper.ai )
모호한 답변 세트 답변 옵션이 모호하여 혼란을 야기하고 모델 성능 평가에 부정확성을 초래. (hyper.ai )
잘못된 답변 세트 일부 질문에 잘못된 답변이 포함되어 있어 평가 결과의 신뢰성을 저하시킴. (hyper.ai )
프롬프트 민감성 사용된 프롬프트에 따라 성능이 크게 변동하여 일관된 평가가 어려움. (hyper.ai )

 

(배경) KMMLU-Pro는 기존 MMLU의 한계를 보완하고, 한국어 언어 모델의 성능을 더욱 정확하게 평가하기 위해 개발되었습니다. 주요 특징은 다음과 같습니다:

  • 한국어 원문 기반 데이터셋: 기존 영어 벤치마크를 번역한 방식이 아닌, 한국어 고시 등 원본 한국어 시험에서 수집하여 한국어의 언어적, 문화적 특징을 반영. (arxiv.org )
  • 다양한 주제와 난이도: 인문학부터 과학, 기술, 공학, 수학(STEM) 분야까지 총 45개 주제에서 35,030개의 전문가 수준 다지선다형 문제로 구성. (arxiv.org )
  • 추론 중심의 질문 추가: 문제 난이도를 높이고 추론 중심의 질문을 추가하여 모델의 깊은 이해와 분석 능력을 평가. (discuss.pytorch.kr )
  • 선택지 수 증가: 각 질문의 선택지를 4개에서 10개로 늘려 무작위 추측의 가능성을 줄이고 평가의 현실성과 난이도를 증가. (discuss.pytorch.kr )

(개발 및 구성) 

  • 공동개발: LG AI연구원과 오픈소스 LLM 연구 커뮤니티 해례가 공동으로 개발
    - 네이버 클라우드와 EleutherAI 그리고 손규진 님(EleutherAI, OneLine AI)을 비롯한 HAERAE 팀
  • 문항: 최근 1년간 시행된 14개 국가 전문자격시험의 실제 문제 2,822문항으로 구성
  • 시험 범위: 법률, 의료, 회계 등 다양한 전문 분야의 자격시험 문제 포함
  • 평가 방식: 각 시험의 공식 통과 기준을 적용하여 LLM의 실무 적합성을 정량적으로 측정

(특징) 

  • 한국 실정 반영: 번역 기반 데이터와 달리 실제 한국 자격시험 원문을 사용, 한국 문화·지역 특수성이 잘 반영됨.
  • 신뢰성: 기존 벤치마크의 문제 중복, 정답 노출, 품질 저하 문제를 보완하기 위해 신규 구성 및 데이터 정제.
  • 산업 및 실무 적용: 법률, 의료, 회계 등 전문 실무 상황에서 인공지능의 실제 역량을 측정하는 기준으로 사용됨.
  • 공개 데이터셋: 연구 목적을 위해 공개·배포됨.


(한국 도메인 특화 인스턴스 정보)

KMMLU-Pro, 허깅페이스

 

Usage

from datasets import load_dataset

dataset = load_dataset("LGAI-EXAONE/KMMLU-Pro")

Citation

@misc{hong2025kmmlureduxkmmluproprofessionalkorean,
      title={From KMMLU-Redux to KMMLU-Pro: A Professional Korean Benchmark Suite for LLM Evaluation}, 
      author={Seokhee Hong and Sunkyoung Kim and Guijin Son and Soyeon Kim and Yeonjung Hong and Jinsik Lee},
      year={2025},
      eprint={2507.08924},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2507.08924}, 
}

 

 

( KMMLU 벤치마크에서 다양한 언어 모델의 성능을 비교한 결과)

디노티시아의 LLM 모델은 KMMLU에서 평균 53.26점을 기록하며,

LG엑사원3.5(45.30점), 엔씨소프트 VARCO(38.49점),

알리바바 Qwen2(45.66점),

야놀자 EEVE(42.17점) 등 주요 경쟁 모델을 능가하는 성능을 달성했습니다.

 

모델명 KMMLU 점수 (%) [출처]
SKT A.X 4.0 (72B) 78.3 SKT A.X 4.0 벤치마크 결과
GPT-4o 72.5 SKT A.X 4.0 벤치마크 결과
Qwen3 (235B MoE) 70.6 SKT A.X 4.0 벤치마크 결과
GPT-4o-mini 52.63 KMMLU, CLIcK, HAE-RAE 데이터셋을 이용한 LLM/SLM 모델의 한국어 능력 평가
GPT-4-turbo 58.75 KMMLU, CLIcK, HAE-RAE 데이터셋을 이용한 LLM/SLM 모델의 한국어 능력 평가
GPT-3.5-turbo 40.3 KMMLU, CLIcK, HAE-RAE 데이터셋을 이용한 LLM/SLM 모델의 한국어 능력 평가

 

 

 

 

(주요 성과) 

  • 오픈AI, Anthropic 등 글로벌 기업의 최신 LLM이 테스트에 참여
  • 오픈AI 'o1' 모델이 평균 79.55% 정확도, 앤스로픽의 '클로드 3.7 소넷'이 12종의 시험에 합격(14개 중).

 

https://www.ncloud-forums.com/topic/225/

 

HyperCLOVA X와 EleutherAI의 한국어 언어모델 벤치마크 KMMLU를 공개합니다!

한국의 문화적 특성을 반영해 고안된 벤치마크, KMMLU 네이버 클라우드와 EleutherAI 그리고 손규진 님(EleutherAI, OneLine AI)을 비롯한 HAERAE 팀이 협력하여 만든 KMMLU가 정식으로 공개 되었습니다. 이번

www.ncloud-forums.com

 

https://arxiv.org/abs/2507.08924

https://huggingface.co/datasets/LGAI-EXAONE/KMMLU-Pro

728x90
Posted by Mr. Slumber
,