728x90
반응형

https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures

이 글은 최신 오픈 소스 거대언어모델(LLM)들이 긴 문맥 처리의 효율성을 극대화하기 위해 도입한 혁신적인 설계 기법들을 상세히 분석합니다. 저자인 세바스찬 라시카는 KV 캐시 점유율 감소와 계산 비용 절감을 핵심 목표로 설정하고, Gemma 4의 교차 레이어 KV 공유와 DeepSeek V4의 압축 주의 집중(Compressed Attention) 등 구체적인 기술 사례를 제시합니다. 본문은 단순한 성능 지표를 넘어 변형된 트랜스포머 블록 구조와 매니폴드 제약 하이퍼 커넥션(mHC) 같은 정교한 아키텍처 변화가 추론 속도와 메모리 활용도에 미치는 영향을 깊이 있게 탐구합니다. 결과적으로 이 텍스트는 모델의 크기를 무작정 키우는 대신, 구조적 최적화를 통해 긴 대화와 복잡한 추론 작업을 더욱 경제적으로 수행하려는 AI 연구의 최신 흐름을 조명합니다.

그림 1. 최근 주요 오픈웨이트 릴리스(4월~5월)의 LLM 아키텍처 도면. 이미지와 자세한 내용은 제 LLM 아키텍처 갤러리 에서 확인하실 수 있습니다 . 모든 모델 크기가 표시된 것은 아닙니다. Qwen3.6에는 27B 및 35B-A3B 변형이 포함되어 있으며, ZAYA1은 8B 모델(ZAYA1-base 및 ZAYA1-reasoning-base 제외)로 표시됩니다. 점선 상자 안의 아키텍처는 이 글에서 더 자세히 다룹니다.

 

그림 3: 그룹화된 쿼리 어텐션(GQA)은 여러 쿼리(Q) 헤드 간에 동일한 키(K) 및 값(V) 헤드를 공유합니다.

 

그림 4: 일반적인 트랜스포머 블록은 각 어텐션 모듈에서 Q, K, V 프로젝션을 각각 계산합니다(왼쪽). 크로스 레이어 어텐션 설계(오른쪽)는 여러 레이어에 걸쳐 동일한 K 및 V 프로젝션을 공유합니다.

 

그림 9: Poolside의 Laguna XS.2 아키텍처.
그림 10: Laguna의 레이어별 쿼리 헤드 예산 책정. 풀 어텐션 레이어는 KV 헤드당 6개의 쿼리 헤드를 사용하고, 슬라이딩 윈도우 어텐션 레이어는 KV 헤드당 8개의 쿼리 헤드를 사용합니다.

 

그림 11: 압축된 컨볼루션 어텐션을 특징으로 하는 트랜스포머 블록을 포함하는 Zaya1(8B).

 

그림 12: 일반 멀티헤드 어텐션(MHA)과 멀티헤드 레이트엔트(MLA) 어텐션을 나란히 비교한 그림.

 

그림 13: 멀티헤드 잠재 주의(MLA)와 압축 합성곱 주의(CCA)를 나란히 비교한 그림.
그림 14: 시퀀스 혼합 합성곱의 개념적 개요
그림 17: DeepSeek V4-Pro 아키텍처 개요.

 

그림 21: MLA 방식의 토큰별 잠재 캐싱, CSA 및 HCA의 개념적 비교. MLA는 저장된 KV 표현을 압축하지만 토큰당 하나의 잠재 항목을 유지합니다. CSA는 m=4 및 희소한 상위 k 선택을 통해 시퀀스를 비교적 완만하게 단축하는 반면, HCA는 m'=128 및 더 짧은 캐시에 대한 밀집 어텐션을 사용하여 훨씬 더 강력한 시퀀스 압축을 사용합니다.

 

그림 22: CSA는 압축된 이력 블록의 희소 집합을 선택하는 반면, HCA는 더 많이 압축된 블록에 집중적으로 접근합니다. 두 경로 모두 128개 토큰 슬라이딩 윈도우 분기를 통해 최근의 압축되지 않은 KV 항목을 포함합니다.

 

Residual stream ; 트랜스포머에서 각 레이어가 읽고 쓰는  공유 벡터 공간

728x90
Posted by Mr. Slumber
,