2025년 8월 두 개의 오픈 가중치 언어 모델 gpt-oss-120b와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했으며, GPT-2 이후 처음으로 대규모 LLM 가중치를 개방한 사례다. 두 모델은 긴 128k 컨텍스트, 추론 효율, 실사용 성능을 강조하며 합리적 자원으로 배포 가능하도록 설계되었다.
핵심 아키텍처/스펙
성능과 배포
라이선스/정책 포인트
|



GPT-OSS의 내부 구조
이번에 공개된 GPT-OSS는 GPT-2와 GPT-3의 기본 아이디어를 기반으로 하지만, Mixture-of-Experts(MoE) 트랜스포머 아키텍처를 적용했습니다. 즉, ‘한 번에 모델의 일부만 활성화’해서 메모리를 절약하고 학습 효율을 높인 대규모 언어 모델이라는 말이죠. 두 모델 모두 Apache 2.0 라이센스, 128k 컨텍스트 윈도우(Context Window), 그리고 전체 CoT(Chain-of-Thought)를 접근할 수 있게끔 해 줍니다.
오픈AI가 공개한 GPT-OSS는 두 가지 버전의 모델이 있습니다.
GPT-OSS-120B
36개의 트랜스포머 레이어로 구성된 대규모 모델로, 전체 파라미터 수는 약 1,170억 개이고, 각 단계에서 토큰당 약 51억 개의 파라미터만 사용합니다. 각각의 MoE 블록에는 128개의 Expert가 포함되어 있습니다.
GPT-OSS-20B
24개의 레이어로 구성된 더 작은 버전인데, 전체 파라미터 수는 약 210억 개이고, 토큰당 36억 개의 파라미터가 활성화됩니다. 각각의 블록에는 32개의 Expert가 포함되어 있습니다.
양자화(Quantization) 기법 덕분에 MoE 레이어의 크기가 줄어들었는데, 파라미터 하나 당 정밀도를 약 4.25비트로 낮췄다고 알려져 있습니다.
덕분에 GPT-OSS-120B 모델은 단일 80GB GPU에서도 효율적으로 실행할 수 있습니다. 더 작은 GPT-OSS-20B 모델은 16GB 메모리만으로도 동작하고, 물론 GPU 가속 없이 실행을 하면 성능이 느려지긴 하지만, 엣지 디바이스나 32GB RAM 용량의 노트북에서도 사용할 수 있습니다.
특히 최상급의 노트북 모델들이 로컬에서 추론을 잘 하도록 하기 위해서 약 64GB 수준의 RAM이 있다는 걸 전제로 하는 경우가 많다는 점을 생각한다면, 80GB 대 16GB라는 하드웨어 요구사항의 차이는 좀 이상하게 느껴지기도 합니다.
어쨌든, 그럼에도 불구하고, 이런 모델들은 값비싼 인프라 없이도 로컬 배포, 빠른 반복적 실험을 할 수 있도록 해 줍니다.
MoE 아키텍처의 중요한 구성 요소
| “우선 놀랍기도 하고 재미있는 건, 어텐션 메커니즘에 GPT-2 시절처럼 바이어스 유닛(Bias Unit)을 사용했다는 점입니다. 정말 흥미로워요. 그 때 이후로 이런 아키텍처를 본 적이 없거든요” Sebastian Raschka |
바이어스 유닛(Bias Unit)은 뉴럴네트워크 연산에서 y=Wx+b 함수에서 b처럼, 입력값 x와 관계없이 일정한 값을 더해주는 항으로, 출력 분포를 미세 조정하고 모델의 표현력을 확장하는 역할을 합니다. GPT-2까지는 어텐션 메커니즘에도 이러한 바이어스 유닛이 포함됐지만, GPT-3 이후 대규모 모델들은 파라미터를 절약하고 효율성을 높이기 위해서 이걸 제거하는 추세였죠.
Sebastian Raschka가 놀란 이유는 GPT-OSS가 최신 트렌드와는 달리 GPT-2 스타일의 바이어스 유닛을 어텐션에 다시 도입했기 때문이라고 했는데, 아마 이건 성능과 표현력을 강화하기 위한 시도가 아닐까 합니다. 최근에는 잘 하지 않는 설계 상의 선택이기는 합니다
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
From GPT-2 to gpt-oss: Analyzing the Architectural Advances
And How They Stack Up Against Qwen3
magazine.sebastianraschka.com
https://openai.com/ko-KR/index/introducing-gpt-oss/
'07.AI' 카테고리의 다른 글
| 생성형 AI - 월드 모델 (World Model) - 공동 임베딩 예측 아키텍처(JEPA) (0) | 2025.10.28 |
|---|---|
| 인공지능 - 안전성 - AI Alignment(인공지능 정렬) (0) | 2025.10.26 |
| LLM - 가중치 (Open Weight) - 글리치(glitch) 토큰 (0) | 2025.10.08 |
| LLM - 가중치 (Open Weight) - 메타 (Meta) CWM (0) | 2025.10.08 |
| 인공지능 - 위험 관리 - 가디언 모델(Guardian Model) (0) | 2025.09.29 |


