12. 메일진

LLM - 딥시크 (DeepSeek) - DeepSeek-V4

Mr. Slumber 2026. 5. 17. 16:51
728x90
반응형

https://api-docs.deepseek.com/news/news260424

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

 

DeepSeek-V4-Pro(1.6T)와 DeepSeek-V4-Flash(284B)로 구성된 DeepSeek-V4 시리즈는 백만 토큰에 달하는 초장기 문맥을 매우 효율적으로 처리하기 위해 설계된 차세대 혼합 전문가(MoE) 언어 모델입니다. 이 모델은 하이브리드 어텐션(CSA 및 HCA) 구조를 통해 연산량과 KV 캐시 사용량을 획기적으로 줄였으며, Manifold-Constrained Hyper-Connections(mHC)와 Muon 최적화 도구를 도입하여 학습의 안정성과 성능을 동시에 끌어올렸습니다. 연구진은 32조 개 이상의 방대한 데이터를 학습시켜 오픈 소스 모델 중 세계 지식, 논리적 추론 및 에이전트 역량 분야에서 최첨단 성능을 달성하는 데 성공했습니다. 결과적으로 본 기술 보고서는 하드웨어 효율성을 극대화하여 복잡하고 긴 호흡의 작업을 실무적으로 가능하게 하는 효율적 지능의 새로운 기준을 제시하고 있습니다.

 

https://magazine.sebastianraschka.com/p/recent-developments-in-llm-architectures, 그림 17: DeepSeek V4-Pro 아키텍처 개요.

 

그림 23. DeepSeek V4 논문에 보고된 1M 컨텍스트 효율성 수치를 DeepSeek V3.2와 비교한 결과.

 

 

 

 

 

 

 

 

 

 

 

 

728x90