https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures
이 글은 최신 오픈 소스 거대언어모델(LLM)들이 긴 문맥 처리의 효율성을 극대화하기 위해 도입한 혁신적인 설계 기법들을 상세히 분석합니다. 저자인 세바스찬 라시카는 KV 캐시 점유율 감소와 계산 비용 절감을 핵심 목표로 설정하고, Gemma 4의 교차 레이어 KV 공유와 DeepSeek V4의 압축 주의 집중(Compressed Attention) 등 구체적인 기술 사례를 제시합니다. 본문은 단순한 성능 지표를 넘어 변형된 트랜스포머 블록 구조와 매니폴드 제약 하이퍼 커넥션(mHC) 같은 정교한 아키텍처 변화가 추론 속도와 메모리 활용도에 미치는 영향을 깊이 있게 탐구합니다. 결과적으로 이 텍스트는 모델의 크기를 무작정 키우는 대신, 구조적 최적화를 통해 긴 대화와 복잡한 추론 작업을 더욱 경제적으로 수행하려는 AI 연구의 최신 흐름을 조명합니다.

그림 1. 최근 주요 오픈웨이트 릴리스(4월~5월)의 LLM 아키텍처 도면. 이미지와 자세한 내용은 제 LLM 아키텍처 갤러리 에서 확인하실 수 있습니다 . 모든 모델 크기가 표시된 것은 아닙니다. Qwen3.6에는 27B 및 35B-A3B 변형이 포함되어 있으며, ZAYA1은 8B 모델(ZAYA1-base 및 ZAYA1-reasoning-base 제외)로 표시됩니다. 점선 상자 안의 아키텍처는 이 글에서 더 자세히 다룹니다.











그림 22: CSA는 압축된 이력 블록의 희소 집합을 선택하는 반면, HCA는 더 많이 압축된 블록에 집중적으로 접근합니다. 두 경로 모두 128개 토큰 슬라이딩 윈도우 분기를 통해 최근의 압축되지 않은 KV 항목을 포함합니다.

















'07.AI' 카테고리의 다른 글
| LLM - Ethernet - OpenAI, MRC(Multipath Reliable Connection) (0) | 2026.05.16 |
|---|---|
| 생성형 AI - 상호작용 모델(Interaction Models) (0) | 2026.05.16 |
| LLM - 성능 - OpenAI, 고블린 데이터 오염 (0) | 2026.05.12 |
| LLM - 성능 - 벤치마크 - Perplexity AI, Opik 멀티모달 대형 언어 모델(MLLM) 개발자 가이드 (0) | 2026.05.12 |
| LLM - 성능 - 지식 증류(Knowledge Distillation) - 증류 공황 (0) | 2026.05.10 |


