반응형
(개념) 일반적인 NYT Connections 퍼즐을 인공지능(AI) 성능 측정용으로 확장·개량한 고난도 평가 지표
Extended NYT Connections 벤치마크에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨

RankModelScore %#Puzzles
| 1 | Gemini 3 Pro Preview | 96.8 | 759 |
| 2 | Grok 4.1 Fast Reasoning | 93.5 | 759 |
| 3 | Sherlock Think Alpha | 92.4 | 759 |
| 4 | Grok 4 Fast Reasoning | 92.1 | 759 |
| 5 | Grok 4 | 91.7 | 759 |
| 6 | Sonoma Sky Alpha | 90.7 | 759 |
| 7 | o3-pro (medium reasoning) | 87.3 | 759 |
| 8 | GPT-5 Pro | 83.9 | 759 |
| 9 | o1-pro (medium reasoning) | 82.5 | 651 |
| 10 | o3 (high reasoning) | 78.6 | 759 |
| 11 | GPT-5.2 (high reasoning) | 77.9 | 759 |
| 12 | GPT-5 (high reasoning) | 77.0 | 759 |
Correlation of puzzle-level results: heatmap

https://github.com/lechmazur/nyt-connections/
'07.AI' 카테고리의 다른 글
| LLM - Open AI, GPT-5.2 (0) | 2025.12.12 |
|---|---|
| LLM - 검색 증강 생성 (RAG, Retrieval-augmented generation) 평가 (0) | 2025.12.06 |
| LLM - 검색 증강 생성 (RAG, Retrieval-augmented generation) (3) | 2025.12.06 |
| 성과측정 - AI 검증 및 평가 - LLM-as-a-Judge (0) | 2025.12.06 |
| 생성형 AI - 소버린 AI(Sovereign AI) (5) | 2025.12.02 |


