https://openreview.net/forum?id=7xjoTuaNmN
이 자료는 고도의 추리 능력을 갖춘 인공지능 모델을 구축하기 위한 오픈 소스 데이터 생성 체계인 'OpenThoughts' 프로젝트를 소개합니다. 연구진은 수학, 코딩, 과학 분야에서 1,000회 이상의 통제된 실험을 수행하여, 단순한 데이터의 양보다 질적 수준과 적절한 선별이 모델 성능에 더 결정적인 영향을 미친다는 사실을 입증했습니다. 특히 이들은 특정 교사 모델로부터 다양한 답변을 추출하고, 질문의 난이도와 답변 길이를 기준으로 데이터를 정제하는 최적화된 파이프라인을 통해 기존의 폐쇄형 모델들에 필적하는 'OpenThinker3-7B' 모델을 개발해냈습니다. 결과적으로 이 소스는 누구나 고성능 추리 모델을 학습시킬 수 있도록 투명한 데이터 레시피와 검증된 방법론을 제공하는 데 목적이 있습니다.
추론 모델은 수학, 코드, 과학 등 다양한 분야의 벤치마크에서 빠른 발전을 이루어 왔습니다. 하지만 최첨단 모델들이 대부분 공개 정보가 거의 없는 독점 데이터셋에 의존하기 때문에, 추론 모델 학습에 가장 적합한 학습 방식에 대한 의문점은 여전히 남아 있습니다. 이러한 문제를 해결하기 위해 OpenThoughts 프로젝트는 추론 모델 학습을 위한 오픈소스 데이터셋을 구축하는 것을 목표로 합니다. OpenThoughts2-1M 데이터셋을 기반으로 개발된 OpenThinker2-32B는 AIME 및 LiveCodeBench와 같은 표준 추론 벤치마크에서 DeepSeek-R1-Distill-32B와 동등한 성능을 보이는 최초의 공개 추론 데이터셋 기반 모델입니다. 이후 1,000회 이상의 제어 실험을 통해 데이터 생성 파이프라인의 각 단계를 체계적으로 분석하여 OpenThoughts3 데이터셋을 완성했습니다. 파이프라인을 120만 개의 예제로 확장하고 QwQ-32B를 교사 데이터셋으로 사용하여 OpenThinker3-7B 모델을 개발했습니다. 이 모델은 AIME 2025에서 53%, LiveCodeBench 06/24-01/25에서 51%, GPQA Diamond에서 54%의 최첨단 성능을 달성했으며, 이는 DeepSeek-R1-Distill-Qwen-7B 모델 대비 각각 15.3%, 17.2%, 20.5%포인트 향상된 수치입니다. 모든 데이터셋과 모델은 openthoughts.ai 에서 이용 가능합니다.





















'12. 메일진' 카테고리의 다른 글
| 클라우드 컴퓨팅 - 카오스 엔지니어링(Chaos Engineering) (0) | 2026.04.27 |
|---|---|
| DB 유형 - 벡터 DB - AI 에이전트 전용 관리형 메모리 서비스, '인그램(Engram)' (0) | 2026.04.27 |
| LLM - 멀티모달 AI - OpenSearch에서 멀티모달 문서 검색 벤치마킹 (0) | 2026.04.26 |
| DB 유형 - 벡터 DB (벡터 데이터베이스) - 노션(Notion) 벡터 검색 아키텍처의 진화 과정 (0) | 2026.04.26 |
| CPU - 에이전트 AI(Agentic AI) 시대의 GPU 중심 AI를 넘어서 (0) | 2026.04.26 |


