AI 커뮤니티는 인기 있는 온라인 리더보드를 마치 성경처럼 여긴다.
연구자들은 이를 인용하고 기업들은 이를 최우선 목표로 삼는다.
그러나 그 겉치레 아래에는 정확성보다 겉모습을 보상하는 망가진 시스템이 있다.
마치 식료품점에서 과학 저널인 척 연예 잡지를 사는 것과 같다.
1.문제: “내용보다 외형”(Beauty Over Substance)
LMArena의 원래 목적은 두 답변을 비교해서 더 나은 답을 투표하는 것이다. 그러나 실제로는 불특정 인터넷 사용자들이 답변을 제대로 읽지도 않고, 2초 만에 클릭한다. 결과적으로 길고 화려하게 꾸민 답변이 더 높은 점수를 받는다.
2. 필연적인 결과: “광기”(Madness)
이런 잘못된 보상 구조 때문에 리더보드 순위를 높이는 법은 현실적으로 단순히 사용자의 주목을 끄는 것이 된다. 예시로 Meta의 Maverick 모델이 질문에 답하지 않고 형식만 근사하게 꾸며 순위를 올린 사례가 소개된다.

3. 데이터: “52% 틀림”(The Data: 52% Wrong)
저자들이 직접 500개의 리더보드 투표를 분석했을 때, 52%의 투표 결과에 동의하지 않았다. 더 나아가 틀렸다고 강하게 동의하지 않은 경우가 많았다. 두 가지 예시(오즈의 마법사 대사, 케이크 팬 크기 문제)가 소개된다.

4. 왜 문제가 계속되는가 (Why It’s Broken)
LMArena 시스템은 완전히 공개되어 있고, 투표하는 사람들에게 품질 관리를 하지 않고, 이들이 실수해도 아무 제재가 없다. 참가자들은 ‘이모지·길이’ 등 꾸밈 요소를 선호한다고 운영자들이 인정하기까지 했다.
5. 비용(Cost)
산출되는 리더보드가 형식과 환상(hallucination) 중심으로 최적화되면, 이를 기준으로 학습·개발하는 AI 모델도 똑같은 방향으로 최적화된다. 이는 정확성·신뢰성과 정반대다.
6. 결정적 선택(The Brutal Choice)
LMArena 순위에 맞춰 모델을 최적화할 것이냐, 아니면 진정으로 유용한 기능·원칙을 지키느냐의 선택이 모든 모델 개발자에게 주어진다고 말한다. 훌륭한 모델은 결국 가치와 진정성으로 평가받을 것이라고 강조한다.
[ 비판: The Leaderboard Illusion 연구 (구조적 문제) ]

① 평가 편향 문제
연구에 따르면 LMArena는 비공개 사전 테스트된 여러 모델 변종에서 최고 점수를 선택해 공개하는 방식이 존재했고, 이 때문에 결과가 특정 연구실에 유리하게 편향되었다는 주장
② 데이터 접근 불균형
연구는 모델별 대결 횟수 차가 존재한다고 지적합니다.
상위권 몇몇 모델은 훨씬 더 많은 “전투(battle)” 참여 기회를 얻었고, 반면 다수 오픈소스 모델은 적은 기회만 주어졌다는 것
[ LMArena팀의 반론: “Our Response to ‘The Leaderboard Illusion’” ]
① 오해와 사실관계 정정
LMArena는 공개 리더보드에 있는 오픈 모델 비율이 훨씬 높다며 해당 논문의 수치를 문제 삼았습니다.
즉, 오픈 모델이 논문 주장처럼 8.8%가 아니라 약 40.9%를 차지한다는 점을 제시
② 사전 테스트 점수 편향 효과는 제한적
논문에서 사전 공개된 테스트가 점수에 크게 영향을 준다고 했지만, LMArena는 해당 효과가 실제론 데이터가 쌓이면 사라지는 작은 효과라고 설명
③ 투명성 및 정책 공개
LMArena는 사전 테스트 관련 정책이 이미 공개돼 있으며, 공정하게 운영하려는 방침이 있다고 강조했습니다.
또 “공개되는 것은 실제 공개 모델만”이라는 점을 밝힘







https://surgehq.ai/blog/lmarena-is-a-plague-on-ai
'13.일상다반사' 카테고리의 다른 글
| 한국방송통신전파진흥원 딥리서치 업무활용 가이드북 (0) | 2026.01.07 |
|---|---|
| [용어] 프롬 스크래치(from scratch) (3) | 2026.01.04 |
| [용어] 제본스 역설(Jevons paradox) (0) | 2026.01.03 |
| 인공지능 시스템에서 메모리는 어떻게 작동하는가 (0) | 2026.01.01 |
| [용어] 디지털 더미(Digital Heap) (0) | 2025.12.31 |


