LLM - Open AI, GPT-OSS

07.AI 2025. 8. 16. 01:23
728x90
반응형

 

Figure 1: The two gpt-oss models side by side.

 

Figure 2: A side-by-side comparison between gpt-oss-20b and GPT-2 XL 1.5B.

 

AI 모델 성능(정확도, Accuracy %) 벤치마크



GPT-OSS의 내부 구조
이번에 공개된 GPT-OSS는 GPT-2와 GPT-3의 기본 아이디어를 기반으로 하지만, Mixture-of-Experts(MoE) 트랜스포머 아키텍처를 적용했습니다. 즉, ‘한 번에 모델의 일부만 활성화’해서 메모리를 절약하고 학습 효율을 높인 대규모 언어 모델이라는 말이죠. 두 모델 모두 Apache 2.0 라이센스, 128k 컨텍스트 윈도우(Context Window), 그리고 전체 CoT(Chain-of-Thought)를 접근할 수 있게끔 해 줍니다.

오픈AI가 공개한 GPT-OSS는 두 가지 버전의 모델이 있습니다.

GPT-OSS-120B
36개의 트랜스포머 레이어로 구성된 대규모 모델로, 전체 파라미터 수는 약 1,170억 개이고, 각 단계에서 토큰당 약 51억 개의 파라미터만 사용합니다. 각각의 MoE 블록에는 128개의 Expert가 포함되어 있습니다.

GPT-OSS-20B
24개의 레이어로 구성된 더 작은 버전인데, 전체 파라미터 수는 약 210억 개이고, 토큰당 36억 개의 파라미터가 활성화됩니다. 각각의 블록에는 32개의 Expert가 포함되어 있습니다.

양자화(Quantization) 기법 덕분에 MoE 레이어의 크기가 줄어들었는데, 파라미터 하나 당 정밀도를 약 4.25비트로 낮췄다고 알려져 있습니다.

덕분에 GPT-OSS-120B 모델은 단일 80GB GPU에서도 효율적으로 실행할 수 있습니다. 더 작은 GPT-OSS-20B 모델은 16GB 메모리만으로도 동작하고, 물론 GPU 가속 없이 실행을 하면 성능이 느려지긴 하지만, 엣지 디바이스나 32GB RAM 용량의 노트북에서도 사용할 수 있습니다.

특히 최상급의 노트북 모델들이 로컬에서 추론을 잘 하도록 하기 위해서 약 64GB 수준의 RAM이 있다는 걸 전제로 하는 경우가 많다는 점을 생각한다면, 80GB 대 16GB라는 하드웨어 요구사항의 차이는 좀 이상하게 느껴지기도 합니다.

어쨌든, 그럼에도 불구하고, 이런 모델들은 값비싼 인프라 없이도 로컬 배포, 빠른 반복적 실험을 할 수 있도록 해 줍니다.

MoE 아키텍처의 중요한 구성 요소


“우선 놀랍기도 하고 재미있는 건, 어텐션 메커니즘에 GPT-2 시절처럼 바이어스 유닛(Bias Unit)을 사용했다는 점입니다. 정말 흥미로워요. 그 때 이후로 이런 아키텍처를 본 적이 없거든요”


Sebastian Raschka 




바이어스 유닛(Bias Unit)은 뉴럴네트워크 연산에서 y=Wx+b 함수에서 b처럼, 입력값 x와 관계없이 일정한 값을 더해주는 항으로, 출력 분포를 미세 조정하고 모델의 표현력을 확장하는 역할을 합니다. GPT-2까지는 어텐션 메커니즘에도 이러한 바이어스 유닛이 포함됐지만, GPT-3 이후 대규모 모델들은 파라미터를 절약하고 효율성을 높이기 위해서 이걸 제거하는 추세였죠.

Sebastian Raschka가 놀란 이유는 GPT-OSS가 최신 트렌드와는 달리 GPT-2 스타일의 바이어스 유닛을 어텐션에 다시 도입했기 때문이라고 했는데, 아마 이건 성능과 표현력을 강화하기 위한 시도가 아닐까 합니다. 최근에는 잘 하지 않는 설계 상의 선택이기는 합니다


https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the

 

From GPT-2 to gpt-oss: Analyzing the Architectural Advances

And How They Stack Up Against Qwen3

magazine.sebastianraschka.com

 

728x90
Posted by Mr. Slumber
,