LLM - Open AI, GPT-OSS

07.AI 2025. 10. 8. 11:37
728x90
반응형

2025년 8월 두 개의 오픈 가중치 언어 모델 gpt-oss-120b와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했으며, GPT-2 이후 처음으로 대규모 LLM 가중치를 개방한 사례다. 두 모델은 긴 128k 컨텍스트, 추론 효율, 실사용 성능을 강조하며 합리적 자원으로 배포 가능하도록 설계되었다.

 

핵심 아키텍처/스펙

  • 두 모델은 트랜스포머 MoE로 토큰당 활성 파라미터를 줄여 추론 비용을 낮춘다(120b: 5.1B 활성/117B 총, 20b: 3.6B 활성/21B 총).
  • 128k 컨텍스트, 그룹화된 멀티 쿼리 어텐션(그룹 크기 8), RoPE 위치 인코딩을 사용한다.
  • 주로 영어 텍스트(코딩·STEM·일반지식) 중심 데이터로 학습되었고, o200k_harmony 토크나이저를 함께 공개했다.

성능과 배포

  • OpenAI는 추론 벤치마크에서 경쟁력 있는 성능을 주장하며, 120B는 고성능 환경, 20B는 더 적은 메모리에서 로컬/엣지 활용을 겨냥했다는 포지셔닝을 제시했다.
  • AWS Bedrock/SageMaker JumpStart에서도 사용 가능해 기업 인프라 내에서 통제된 배포가 용이하다(스트리밍과 툴 연동 샘플 포함).

라이선스/정책 포인트

  • Apache 2.0으로 상업적 사용, 수정, 재배포, 서브라이선스가 가능하며 특허 조항으로 개발자 위험을 낮춘다.
  • 다만 “오픈 소스”가 아니라 “오픈 웨이트”로, 훈련 데이터/전과정 재현 코드는 비공개라는 점이 커뮤니티에서 구분되고 있다.

Figure 1: The two gpt-oss models side by side.

 

Figure 2: A side-by-side comparison between gpt-oss-20b and GPT-2 XL 1.5B.

 

AI 모델 성능(정확도, Accuracy %) 벤치마크



GPT-OSS의 내부 구조
이번에 공개된 GPT-OSS는 GPT-2와 GPT-3의 기본 아이디어를 기반으로 하지만, Mixture-of-Experts(MoE) 트랜스포머 아키텍처를 적용했습니다. 즉, ‘한 번에 모델의 일부만 활성화’해서 메모리를 절약하고 학습 효율을 높인 대규모 언어 모델이라는 말이죠. 두 모델 모두 Apache 2.0 라이센스, 128k 컨텍스트 윈도우(Context Window), 그리고 전체 CoT(Chain-of-Thought)를 접근할 수 있게끔 해 줍니다.

오픈AI가 공개한 GPT-OSS는 두 가지 버전의 모델이 있습니다.

GPT-OSS-120B
36개의 트랜스포머 레이어로 구성된 대규모 모델로, 전체 파라미터 수는 약 1,170억 개이고, 각 단계에서 토큰당 약 51억 개의 파라미터만 사용합니다. 각각의 MoE 블록에는 128개의 Expert가 포함되어 있습니다.

GPT-OSS-20B
24개의 레이어로 구성된 더 작은 버전인데, 전체 파라미터 수는 약 210억 개이고, 토큰당 36억 개의 파라미터가 활성화됩니다. 각각의 블록에는 32개의 Expert가 포함되어 있습니다.

양자화(Quantization) 기법 덕분에 MoE 레이어의 크기가 줄어들었는데, 파라미터 하나 당 정밀도를 약 4.25비트로 낮췄다고 알려져 있습니다.

덕분에 GPT-OSS-120B 모델은 단일 80GB GPU에서도 효율적으로 실행할 수 있습니다. 더 작은 GPT-OSS-20B 모델은 16GB 메모리만으로도 동작하고, 물론 GPU 가속 없이 실행을 하면 성능이 느려지긴 하지만, 엣지 디바이스나 32GB RAM 용량의 노트북에서도 사용할 수 있습니다.

특히 최상급의 노트북 모델들이 로컬에서 추론을 잘 하도록 하기 위해서 약 64GB 수준의 RAM이 있다는 걸 전제로 하는 경우가 많다는 점을 생각한다면, 80GB 대 16GB라는 하드웨어 요구사항의 차이는 좀 이상하게 느껴지기도 합니다.

어쨌든, 그럼에도 불구하고, 이런 모델들은 값비싼 인프라 없이도 로컬 배포, 빠른 반복적 실험을 할 수 있도록 해 줍니다.

MoE 아키텍처의 중요한 구성 요소


“우선 놀랍기도 하고 재미있는 건, 어텐션 메커니즘에 GPT-2 시절처럼 바이어스 유닛(Bias Unit)을 사용했다는 점입니다. 정말 흥미로워요. 그 때 이후로 이런 아키텍처를 본 적이 없거든요”


Sebastian Raschka 




바이어스 유닛(Bias Unit)은 뉴럴네트워크 연산에서 y=Wx+b 함수에서 b처럼, 입력값 x와 관계없이 일정한 값을 더해주는 항으로, 출력 분포를 미세 조정하고 모델의 표현력을 확장하는 역할을 합니다. GPT-2까지는 어텐션 메커니즘에도 이러한 바이어스 유닛이 포함됐지만, GPT-3 이후 대규모 모델들은 파라미터를 절약하고 효율성을 높이기 위해서 이걸 제거하는 추세였죠.

Sebastian Raschka가 놀란 이유는 GPT-OSS가 최신 트렌드와는 달리 GPT-2 스타일의 바이어스 유닛을 어텐션에 다시 도입했기 때문이라고 했는데, 아마 이건 성능과 표현력을 강화하기 위한 시도가 아닐까 합니다. 최근에는 잘 하지 않는 설계 상의 선택이기는 합니다


https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the

 

From GPT-2 to gpt-oss: Analyzing the Architectural Advances

And How They Stack Up Against Qwen3

magazine.sebastianraschka.com

 

https://openai.com/ko-KR/index/introducing-gpt-oss/

 

728x90
Posted by Mr. Slumber
,