728x90
반응형
(개념) LG AI연구원에서 개발한 생성형 AI 모델의 성능을 평가하는 새로운 벤치마크 시스템
(목표) AI 모델이 갖춰야 할 핵심 역량을 세분화하여 정밀하게 측정하는 것을 목표로 함
개발 배경
기존의 생성형 AI 모델 평가 방식은 '유용성', '무해성'과 같은 추상적인 지표에 의존하여 실제 사용자가 느끼는 실용성을 제대로 반영하지 못한다는 한계가 있었다. 또한, AI 모델이 보유한 세부 역량에 대한 측정이 어렵다는 문제점이 있었다.
빅젠 벤치의 특징
- 핵심 역량 중심 평가: 생성형 AI 모델이 갖춰야 할 핵심 역량을 9가지로 분류하고, 77개의 세부 역할을 평가하는 765개의 항목으로 구성되어 있다.
- 9가지 핵심 역량: 지시사항 수행, 논리적 추론, 도구 사용 능력, 안전성, 다양한 언어와 문화적 맥락 이해 능력 등
- 사람 평가 방식 모방: 실제 사람의 평가와 유사한 결과를 도출하기 위해 생성형 AI 모델을 사용하고 평가할 때 주변의 다양한 상황과 주관적 요소를 고려하는 사람의 평가 방식을 모방했다.
- 높은 신뢰도와 타당도: 103개의 생성형 AI 모델들을 평가한 결과 전문가 집단과의 교차 검증에서 높은 수준의 신뢰도와 타당도를 보여 새로운 벤치마크로서의 가능성을 확인했다.
- 평가 AI 모델 오픈 소스 공개: 연구 과정에서 평가자 역할을 하는 AI 모델 중 하나인 '프로메테우스-2(Prometheus-2)'를 오픈소스로 공개했다. 프로메테우스-2는 GPT-4와 큰 차이 없이 높은 평가 신뢰도를 보였다.
- 세분화된 평가 항목: 77개의 세부 역할 수행 능력을 평가하는 765개의 항목으로 구성되어, AI 모델의 능력을 객관적이고 종합적으로 평가할 수 있도록 설계되었다.
의의 및 기대효과
- AI 모델 개발 방향 제시: 빅젠 벤치는 생성형 AI 모델 개발 과정에서 세부 항목별 성능을 자동으로 평가하는 후속 연구를 가능하게 하여, AI 모델 개발 방향을 제시할 수 있다.
- AI 기술 경쟁력 강화: 빅젠 벤치를 통해 AI 모델의 실용성을 지표화하고, 실제 사용 환경에서 만족스러운 성능을 보이는 생성형 AI 모델을 개발하는 데 기여할 수 있다.
- NAACL 최고 논문상 수상: LG AI연구원은 빅젠 벤치를 개발하여 자연어 처리 분야 최고 권위 학회 중 하나인 NAACL 2025에서 최고 논문상을 수상하며 AI 기술 경쟁력을 입증했다.
https://huggingface.co/datasets/prometheus-eval/BiGGen-Bench
728x90
'07.AI' 카테고리의 다른 글
인공지능 - 인공지능 에이전트 (Agent) - 에이전틱 AI (Agentic AI) (1) | 2025.05.16 |
---|---|
LLM - 성능 - 최적화 - 배치 (Batch) (0) | 2025.05.16 |
LLM - 성능 - 벤치마크, MMMU, GPQA, SWE, HLE (0) | 2025.05.08 |
인공지능 - 위험 관리 (0) | 2025.04.27 |
인공지능 - 법/규제 - 인공지능 기본법(AI기본법) (1) | 2025.04.24 |