LLM - Open AI, GPT-5.2

07.AI 2025. 12. 12. 13:26
728x90
반응형

Extended NYT Connections 벤치마크에서 GPT‑5.2의 고추론 버전이 69.9→77.9로 향상됨

실제 컨텍스트 윈도우 크기가 40만 토큰임
공식 문서에 명시되어 있음

 

 

GDPval에서는 모델이 미국 GDP에 가장 크게 기여하는 9개 산업 전반의 44개 직종을 대상으로 명확히 정의된 지식 업무를 수행합니다. 업무 목표는 영업 프레젠테이션, 회계 스프레드시트, 응급 진료 스케줄, 세금 신고서, 제조 도면, 짧은 영상 등 실제 업무 환경에서 사용할 수 있는 결과물을 생성하는 것입니다. ChatGPT의 GPT‑5.2 Thinking 모델에서는 GPT‑5 Thinking에는 없던 새로운 도구들을 사용할 수 있습니다.

 

 

중간·저추론 버전도 모두 개선되었지만, Gemini 3 Pro와 Grok 4.1 Fast Reasoning이 여전히 더 높음

  • Gemini 3 Pro Preview가 같은 테스트에서 96.8%라니 인상적임
  • 다른 사람이 Clues by Sam 퍼즐로 테스트했는데 GPT‑5 Pro가 이미 1위를 차지했음

속도는 빨라졌지만 Opus 4.5보단 느리고, 5.1 대비 체감 개선이 거의 없음
토큰 비용이 40%나 올랐는데 가치가 느껴지지 않음
Gemini 3는 무료로 ChatGPT Pro 수준이고, Claude Code $100/월도 강력함
OpenAI가 존재론적 위기를 맞고 있는 듯함

  • Gemini 2.5에서 3으로 갈 때도 큰 개선이 없었음. 전반적으로 실질적 진보가 정체된 느낌임
  • 지식 컷오프가 2025년 8월”이라는 점과 가격 인상은 새로운 사전학습(pretrain) 모델을 의미하는 듯함
    GPT‑5.1은 GPT‑4o와 같은 사전학습을 썼다고 알려져 있었음
    • 새로운 프리트레인은 비용이 막대하므로 단순한 0.1 버전 상승으로 끝나진 않을 것임
    • 혹은 5.1이 더 오래된 체크포인트이거나 양자화(quantization) 가 더 심했을 수도 있음
    • 아니면 그냥 같은 모델에 품질 낮은 데이터(slop) 를 한 번 더 먹인 걸 수도 있음

 

https://news.hada.io/topic?id=25011

https://openai.com/ko-KR/index/introducing-gpt-5-2/

https://platform.openai.com/docs/models/gpt-5.2

728x90
Posted by Mr. Slumber
,