Char :: LLM - 성능 - 벤치마크 - Extended NYT Connections

LLM - 성능 - 벤치마크 - Extended NYT Connections

07.AI/7. AI 벤치마크 2025. 12. 12. 13:19

728x90

(개념) 일반적인 NYT Connections 퍼즐을 인공지능(AI) 성능 측정용으로 확장·개량한 고난도 평가 지표

Extended NYT Connections 벤치마크에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨

Leaderboard: Extended Version

RankModelScore %#Puzzles

1	Gemini 3 Pro Preview	96.8	759
2	Grok 4.1 Fast Reasoning	93.5	759
3	Sherlock Think Alpha	92.4	759
4	Grok 4 Fast Reasoning	92.1	759
5	Grok 4	91.7	759
6	Sonoma Sky Alpha	90.7	759
7	o3-pro (medium reasoning)	87.3	759
8	GPT-5 Pro	83.9	759
9	o1-pro (medium reasoning)	82.5	651
10	o3 (high reasoning)	78.6	759
11	GPT-5.2 (high reasoning)	77.9	759
12	GPT-5 (high reasoning)	77.0	759

Correlation of puzzle-level results: heatmap

https://github.com/lechmazur/nyt-connections/

728x90

저작자표시 (새창열림)

'07.AI > 7. AI 벤치마크' 카테고리의 다른 글

LLM - 성능 - 벤치마크 - 벤치마크 데이터셋 현황 분석 및 정부 주도의 벤치마크 마련 필요성 (0)	2026.02.14
LLM - 검색 증강 생성 (RAG) - 평가 (0)	2025.12.17
성과측정 - AI 검증 및 평가 - LLM-as-a-Judge (0)	2025.12.06
LLM - 딥시크 (DeepSeek) - 미 NIST, DeepSeek AI 모델 평가 결과 발표 (0)	2025.11.18
성과측정 - AI 검증 및 평가 - AI 반도체(특히 추론용 칩) 스타트업 CB Insights (0)	2025.11.02

Posted by Mr. Slumber

,

블로그 이미지

#AI;DL, #프로밤샘러, #원문링크참조 Mr. Slumber

카테고리

분류 전체보기 (2434)

01.Digital Service (179)

02.SW (274)

03.Security (207)

04.Database (88)

05.Network (62)

06.CAOS (62)

07.AI (780)

08.Algorithm (43)

09.경영 (75)

10.BT (6)

11.법제도 (32)

12. 메일진 (518)

13.일상다반사 (97)

14. PM (6)

15. 이미지 (2)

16. 정보기술 기술지도사 (2)

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

Total :
Today :
Yesterday :

250x250

티스토리 초대신청

티스토리툴바