728x90
반응형

https://api-docs.deepseek.com/news/news260424

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

 

DeepSeek-V4-Pro(1.6T)와 DeepSeek-V4-Flash(284B)로 구성된 DeepSeek-V4 시리즈는 백만 토큰에 달하는 초장기 문맥을 매우 효율적으로 처리하기 위해 설계된 차세대 혼합 전문가(MoE) 언어 모델입니다. 이 모델은 하이브리드 어텐션(CSA 및 HCA) 구조를 통해 연산량과 KV 캐시 사용량을 획기적으로 줄였으며, Manifold-Constrained Hyper-Connections(mHC)와 Muon 최적화 도구를 도입하여 학습의 안정성과 성능을 동시에 끌어올렸습니다. 연구진은 32조 개 이상의 방대한 데이터를 학습시켜 오픈 소스 모델 중 세계 지식, 논리적 추론 및 에이전트 역량 분야에서 최첨단 성능을 달성하는 데 성공했습니다. 결과적으로 본 기술 보고서는 하드웨어 효율성을 극대화하여 복잡하고 긴 호흡의 작업을 실무적으로 가능하게 하는 효율적 지능의 새로운 기준을 제시하고 있습니다.

 

 

 

 

 

 

 

 

 

 

 

 

 

728x90
Posted by Mr. Slumber
,