728x90
반응형

△MMMU(Massive Multi-discipline Multimodal Understanding)  : 다양한 분야의 대학 수준 과제로 멀티모달 AI 모델을 평가, △GPQA(Graduate-level Google-Proof Q&A Benchmark) : 언어 모델의 고급 추론 능력 평가

△SWE(SoftWare Engineering)-bench : 코드작성, 버그수정, 코드리뷰 등 SW개발 작업에서 AI 모델을 평가

△HLE(Human Last Exam) " 인류의 마지막 난제로 구성되어 50%이상 점수면 AGI로 평가

 

 

MMMU (대규모 다분야 멀티모달 이해 및 추론)

https://mmmu-benchmark.github.io/

개요

MMMU는 전문 인공일반지능(AGI)을 목표로 하는 대규모 멀티모달 모델의 전문적인 멀티모달 이해 능력을 평가하기 위해 신중하게 큐레이션된 새로운 벤치마크입니다.

  • 대학 수준의 주제 지식과 신중한 추론을 요구하는 대규모의 다분야 작업에서 멀티모달 모델을 평가하기 위해 설계되었습니다.
  • 미술 및 디자인, 비즈니스, 과학, 건강 및 의학, 인문 및 사회 과학, 기술 및 공학의 6가지 핵심 분야를 다룹니다.
  • 대학 시험, 퀴즈 및 교과서에서 수집한 11.5K개의 멀티모달 질문이 포함되어 있습니다.
  • 차트, 다이어그램, 지도, 테이블, 악보, 화학 구조 등 30가지의 매우 이질적인 이미지 유형을 포함합니다.
  • 전문가 수준의 시각적 지각 능력과 주제별 지식을 통한 신중한 추론 모두를 요구합니다.

주요 통계

  • GPT-4V는 56%의 정확도를 달성하여 개선의 여지가 큼을 시사합니다.
  • MMMU-Pro라는 더욱 강력한 버전이 향상된 평가를 위해 도입되었습니다.
  • 시판 중인 다양한 모델들의 성능을 평가한 결과, 사진 및 그림과 같이 학습 중에 더 자주 보이는 범주에서는 오픈 소스 모델이 비교적 강력한 성능을 보였지만, 기하학적 모양, 악보 및 화학 구조와 같이 덜 일반적인 이미지 범주에서는 모든 모델이 매우 낮은 점수를 얻었습니다.

평가 기술

MMMU는 LMM의 지각, 지식 및 추론의 세 가지 필수 기술을 측정하도록 설계되었습니다.

  • 모델이 다양한 양식에서 정보를 인식하고 이해할 수 있을 뿐만 아니라 주제별 지식을 통해 추론하여 솔루션을 도출하는 능력을 평가하는 것을 목표로 합니다.
  • 평가는 제로샷 설정에서 수행되어 모델이 벤치마크에 대한 미세 조정 또는 퓨샷 데모 없이도 정확한 답변을 생성하는 기능을 평가합니다.

 

GPQA (대학원 수준의 Google 방지 Q&A 벤치마크)

https://arxiv.org/pdf/2311.12022

 

개요

GPQA는 생물학, 물리학 및 화학 분야의 도메인 전문가가 작성한 448개의 객관식 질문으로 구성된 도전적인 데이터 세트입니다.

  • 이 질문은 고품질이고 매우 어렵습니다. 해당 분야에서 박사 학위를 취득했거나 취득 중인 전문가가 65%의 정확도에 도달하는 반면, 숙련된 비전문가 검증자는 웹에 대한 무제한 액세스(즉, 질문이 "Google 방지"임)를 통해 평균 30분 이상을 소비했음에도 불구하고 34%의 정확도에만 도달합니다.
  • 숙련된 비전문가와 최첨단 AI 시스템 모두에게 GPQA의 어려움은 현실적인 확장 가능한 감독 실험을 가능하게 하며, 이를 통해 인간 전문가가 인간 능력을 능가하는 AI 시스템으로부터 신뢰성 있게 진실된 정보를 얻을 수 있는 방법을 고안하는 데 도움이 될 수 있기를 바랍니다.
  • 데이터 세트에는 BigBench 카나리아 문자열의 상위 집합인 카나리아 문자열이 포함되어 있습니다.

성능

  • GPT-4 기반 기준선은 39%의 정확도를 달성합니다.
  • 도메인 전문가(해당 분야의 박사 학위 소지자)는 65%의 정확도를 달성합니다(전문가가 회고적으로 식별한 명백한 실수 제외 시 74%).
  • 숙련된 비전문가 검증자는 34%의 정확도에만 도달합니다. 이들은 웹에 대한 무제한 액세스를 통해 평균 30분 이상을 소비했음에도 불구하고 이 점수를 얻었습니다.

목적

GPQA는 숙련된 비전문가와 최첨단 AI 시스템 모두에게 어려운 과제를 제시함으로써 확장 가능한 감독 실험을 현실적으로 수행할 수 있도록 하여 인공지능 시스템이 인간의 능력을 능가하더라도 인간 전문가가 신뢰할 수 있는 방식으로 진실된 정보를 얻을 수 있는 방법을 모색할 수 있도록 지원합니다.

SWE (소프트웨어 엔지니어링)

https://arxiv.org/pdf/2310.06770

https://arxiv.org/pdf/2502.12115

개요

SWE는 소프트웨어 엔지니어링과 관련된 다양한 벤치마크를 나타냅니다. 여기에는 다음이 포함됩니다.

  • SWE-bench: GitHub에서 발견된 실제 소프트웨어 문제를 해결하는 LLM의 능력을 평가하기 위해 설계되었습니다. 여기에는 2,294개의 소프트웨어 엔지니어링 문제가 포함되어 있습니다. 이 작업은 언어 모델에 코드베이스와 문제 설명을 제공하고 문제를 해결하는 패치를 생성하도록 요청하는 것입니다. 모델의 제안된 솔루션은 리포지토리의 테스트 프레임워크에 대해 평가됩니다.
  • SWE-Lancer: Upwork에서 가져온 실제 프리랜서 소프트웨어 엔지니어링 작업을 완료하는 데 있어 프런티어 언어 모델(LLM)의 기능을 평가하기 위해 개발된 벤치마크입니다. 여기에는 단순한 버그 수정에서 최대 $32,000의 가치가 있는 복잡한 기능 구현에 이르기까지 1,400개 이상의 작업이 포함되어 있습니다.
  • SWE-PolyBench: AI 코딩 에이전트를 위한 다국어 벤치마크입니다.

역할과 중요성

이러한 벤치마크는 AI 모델의 코드 생성, 이해 및 디버깅 능력을 평가하는 데 중요합니다. SWE 벤치마크는 또한 AI 모델과 프롬프트를 생성하고, 출력을 구문 분석하고, 상호 작용 루프를 관리하는 주변 소프트웨어 스캐폴딩을 포함하는 전체 "에이전트" 시스템을 평가하는 데 중점을 둡니다.

SWE의 의미

SWE는 또한 소프트웨어 엔지니어를 의미할 수도 있습니다. 이 맥락에서 소프트웨어 엔지니어는 풀 스택, 백엔드, 프런트엔드 및 모바일 개발을 포함한 광범위한 역할을 포괄합니다.

 

HLE (인류의 마지막 시험)

개요

HLE는 AI 모델의 성능을 측정하는 것을 목표로 하는 엄격한 학술 시험입니다.

  • 이것은 단일 측정 단위가 되도록 설계된 희귀한 평가 프레임워크 중 하나입니다.
  • 이 벤치마크에는 여러 학문 분야에 걸쳐 2700개의 매우 어렵고 멀티모달 작업이 포함되어 있습니다.
  • 현재 LLM의 부족한 점과 다른 벤치마크가 현대적인 평가에 불충분한 이유를 입증합니다.

데이터 세트

  • HLE 데이터 세트는 원래 3,000개의 질문으로 구성되었지만 텍스트 전용 하위 집합(이미지 입력이 필요한 질문 제외)을 사용한 평가에서는 2,684개의 질문을 사용했습니다.
  • 이 데이터 세트는 2025년 1월에 최종 확정되었습니다.
  • 여기에는 GPT-4o, Gemini 1.5 Pro, Claude 3.5 Sonnet, o1, o1-mini 및 o1-preview와 같은 모델이 포함된 GPT-4o를 사용한 테스트를 기반으로 한 적대적 질문 선택이 포함되었습니다.

성과

최고 시스템의 점수는 8.80%에 불과합니다. Gemini 2.5 Pro는 도구 없이 18.8%의 정확도를 달성했습니다. 이 점수는 o3-mini(14%) 및 Claude 3.7 Sonnet(8.9%)과 같은 경쟁 모델보다 상당히 높습니다.

 

https://www.analyticsvidhya.com/blog/2025/03/llm-benchmarks/

 

14 Popular LLM Benchmarks to Know in 2025

LLM benchmarks: essential tools for evaluating AI models in reasoning, coding, and NLP. Learn their role, top benchmarks, and limitations.

www.analyticsvidhya.com

https://skphd.medium.com/essential-benchmarks-and-metrics-for-responsible-ai-2447156b0276

 

Essential Benchmarks and Metrics for Responsible AI

The rapid advancement of Large Language Models (LLMs), such as GPT, LLaMA, and Gemini, has profoundly reshaped the landscape of artificial…

skphd.medium.com

 

728x90
Posted by Mr. Slumber
,