07.AI

LLM - LG, K-엑사원(EXAONE)

Mr. Slumber 2026. 1. 12. 15:37
728x90
반응형

https://friendli.ai/model/LGAI-EXAONE/K-EXAONE-236B-A23B

K-엑사원 모델 구조

 

K-EXAONE 모델이 다양한 벤치마크에서 다른 대규모 언어 모델(LLM)들과 비교하여 어떤 성능을 보이는지를 시각적으로 나타냅니다. 각 막대는 특정 벤치마크에서의 모델 점수를 의미하며, 높은 점수일수록 해당 작업에서 더 나은 성능을 보입니다.

*   **전반적인 평가 결과**: K-EXAONE은 다양한 평가 범주에서 전반적으로 우수한 성능을 보여줍니다. 특히, 한국어 능력(KoBALT)과 안전성(KGC-Safety) 측면에서 두각을 나타냅니다.

*   **각 벤치마크별 분석**:
    *   **MMLU-Pro (World Knowledge)**: K-EXAONE은 83.8점을 기록하여, EXAONE-4.0-32B(81.8점)와 gpt-oss-120b(80.7점)보다 높은 점수를 얻었습니다. DeepSeek-V3.2(85.0점)와 Qwen3-235B-A22B-Thinking-2507(84.4점)에 비해 약간 낮지만, 비슷한 수준의 세계 지식 이해 능력을 보여줍니다.
    *   **AIME 2025 (Math)**: K-EXAONE은 92.8점으로, EXAONE-4.0-32B(85.3점)를 크게 앞섭니다. gpt-oss-120b(92.5점), Qwen3-235B-A22B-Thinking-2507(92.3점), DeepSeek-V3.2(93.1점)와 함께 최상위권 성능을 기록하며 뛰어난 수학적 추론 능력을 입증합니다.
    *   **LiveCodeBench v6 (Coding)**: K-EXAONE은 80.7점을 받아 EXAONE-4.0-32B(66.7점)보다 훨씬 높은 코딩 능력을 보여줍니다. gpt-oss-120b(81.9점)와 DeepSeek-V3.2(79.4점)와 유사한 성능을 보이며, Qwen3-235B-A22B-Thinking-2507(74.1점)보다는 우수합니다.
    *   **τ²-Bench (Agentic Tool Use)**: K-EXAONE은 73.2점으로, EXAONE-4.0-32B(46.8점)에 비해 월등히 높은 점수를 기록했습니다. 이는 에이전트로서 도구를 사용하고 복잡한 작업을 수행하는 능력이 향상되었음을 시사합니다. gpt-oss-120b(63.9점)와 DeepSeek-V3.2(58.6점)보다는 높지만, Qwen3-235B-A22B-Thinking-2507(79.0점)에는 약간 못 미칩니다.
    *   **IFBench (Instruction Following)**: K-EXAONE은 67.3점으로, EXAONE-4.0-32B(36.0점)보다 월등히 뛰어납니다. gpt-oss-120b(69.5점)와 가장 유사한 성능을 보이며, Qwen3-235B-A22B-Thinking-2507(52.6점) 및 DeepSeek-V3.2(62.5점)보다 우수한 지시 수행 능력을 보여줍니다.
    *   **KoBALT (Korean)**: K-EXAONE은 61.8점으로, EXAONE-4.0-32B(24.5점)에 비해 한국어 능력에서 큰 발전을 이루었습니다. gpt-oss-120b(54.3점) 및 DeepSeek-V3.2(56.1점)보다 높고, Qwen3-235B-A22B-Thinking-2507(62.1점)와 비슷한 수준의 강력한 한국어 성능을 나타냅니다.
    *   **MMMLU (Multilinguality)**: K-EXAONE은 85.7점으로, EXAONE-4.0-32B(83.2점)보다 앞섭니다. gpt-oss-120b(83.8점)와 Qwen3-235B-A22B-Thinking-2507(87.3점), DeepSeek-V3.2(88.0점)와 비교했을 때, 다국어 이해 능력이 경쟁력이 있음을 보여줍니다.
    *   **KGC-Safety (Safety)**: K-EXAONE은 96.1점으로, 다른 모든 비교 모델들을 압도하며 뛰어난 안전성 성능을 보여줍니다. 이는 K-EXAONE이 유해하거나 편향된 응답을 생성할 위험이 낮다는 것을 의미합니다.

*   **모델 비교**: K-EXAONE은 이전 모델인 EXAONE-4.0-32B에 비해 대부분의 벤치마크에서 상당한 성능 향상을 보입니다. 또한, 오픈웨이트 모델인 gpt-oss-120b, Qwen3-235B-A22B-Thinking-2507, DeepSeek-V3.2와 비교했을 때, 많은 영역에서 그들과 견줄 수 있거나 더 나은 성능을 보여주고 있음을 알 수 있습니다.

이 결과는 K-EXAONE이 특히 한국어 관련 작업, 안전성, 그리고 코딩 및 수학적 추론과 같은 복잡한 작업에서 강력한 성능을 가진다는 것을 시사합니다.

--

 
 
 
 
 
 
https://friendli.ai/model/LGAI-EXAONE/K-EXAONE-236B-A23B

728x90