728x90
반응형
(개념) OpenAI가 STEM(Science/과학, Technology/기술, Engineering/공학, Math/수학) 영역에 특화된 공개 소형 추론 모델
- 이전 모델인 o1-mini보다 응답 속도가 24%가량 빨라지고
- 첫 번째 토큰 출력 속도도 2,500ms 향상되어 더욱 빠른 AI 경험을 제공
- 함수 호출, 구조화된 출력, 개발자 메시지 등의 기능을 지원
(특징)
- STEM(수학, 과학, 코딩) 특화 성능
- 빠른 응답 속도 (o1-mini 대비 24% 향상)
- 저렴한 비용 & 낮은 지연 시간
- 함수 호출, 구조화된 출력, 개발자 메시지 지원
- 세 가지 추론 모드 (Low/Medium/High) 지원
(벤치마크 결과)
수학(AIME 2024, FrontierMath), 과학(GPQA Diamond), 공학(Codeforces, SWE-bench, LiveBench Coding)을 비롯한 일반 지식(MMLU, MGSM, SimpleQA) 등
Competition Math (AIME 2024)
![](https://blog.kakaocdn.net/dn/b2wLiE/btsMcAmA0wz/4htNVDSrTnjghLDgCdHmdK/img.webp)
PhD-level Science Questions (GPQA Diamond)
![](https://blog.kakaocdn.net/dn/w0nPp/btsMaTBaN6A/yz2jrBCQhE7px5OfCqx8Fk/img.webp)
FrontierMath
![](https://blog.kakaocdn.net/dn/bm5oSV/btsMaCzIngC/9GHJ4fyGvPo2V1cCGrwNK0/img.webp)
Competition Code (Codeforces)
![](https://blog.kakaocdn.net/dn/bIOzGf/btsMa7zhy1x/f1SVk7go9UedIORWityLkK/img.webp)
Software Engineering (SWE-bench Verified)
![](https://blog.kakaocdn.net/dn/bCRUrk/btsMcTzsoyg/CKLN7NJ0w89HAWa0B202F1/img.webp)
LiveBench Coding
![](https://blog.kakaocdn.net/dn/ehiMYg/btsMayjO30c/xux5vHxhBCELjIcFPTY181/img.webp)
General knowledge
![](https://blog.kakaocdn.net/dn/ORk79/btsMcrJ1koR/JFlvaQZbIURFrA38mTqy4K/img.webp)
Human Preference Evaluation
![](https://blog.kakaocdn.net/dn/vsQjW/btsMckdcQj3/HIxDH88muCoCNEC4lvs4FK/img.webp)
![](https://blog.kakaocdn.net/dn/doLV7I/btsMcJXY9gW/bCKn7K3SdiSTm3s77QdeIK/img.webp)
Disallowed content evaluations
![](https://blog.kakaocdn.net/dn/FbfUZ/btsMczBc91X/xZQlRdsbHFNy7c4vHPQNCk/img.webp)
Jailbreak Evaluations
![](https://blog.kakaocdn.net/dn/m9Jqa/btsMc1jOHcK/Uk1VB3i1jYRLTz6KHiGf2k/img.webp)
728x90
'07.AI' 카테고리의 다른 글
기초 모델 (FM, Foundation Model) - 사후 학습(Post-training) - 지도학습 기반 미세 조정(SFT, Supervised Fine-tuning) (0) | 2025.02.08 |
---|---|
기초 모델 (FM, Foundation Model) - 사후 학습(Post-training) - 강화학습(RL, Reinforcement Learning) (0) | 2025.02.08 |
SW 테스트 - 정적 테스트 - 코드 리뷰 (Review) - AI Code Reviewer (0) | 2025.01.31 |
LLM - 딥시크 (DeepSeek) - DeepSeek-R1 (0) | 2025.01.31 |
LLM - SLM(Small Language Model) (1) | 2025.01.31 |