728x90
반응형
https://api-docs.deepseek.com/news/news260424
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek-V4-Pro(1.6T)와 DeepSeek-V4-Flash(284B)로 구성된 DeepSeek-V4 시리즈는 백만 토큰에 달하는 초장기 문맥을 매우 효율적으로 처리하기 위해 설계된 차세대 혼합 전문가(MoE) 언어 모델입니다. 이 모델은 하이브리드 어텐션(CSA 및 HCA) 구조를 통해 연산량과 KV 캐시 사용량을 획기적으로 줄였으며, Manifold-Constrained Hyper-Connections(mHC)와 Muon 최적화 도구를 도입하여 학습의 안정성과 성능을 동시에 끌어올렸습니다. 연구진은 32조 개 이상의 방대한 데이터를 학습시켜 오픈 소스 모델 중 세계 지식, 논리적 추론 및 에이전트 역량 분야에서 최첨단 성능을 달성하는 데 성공했습니다. 결과적으로 본 기술 보고서는 하드웨어 효율성을 극대화하여 복잡하고 긴 호흡의 작업을 실무적으로 가능하게 하는 효율적 지능의 새로운 기준을 제시하고 있습니다.





































728x90
'12. 메일진' 카테고리의 다른 글
| 2026 - 교육 - MIT, 유니버설 AI(Universal AI) (0) | 2026.05.18 |
|---|---|
| [용어] Residual stream (0) | 2026.05.17 |
| 2026 - 스탠퍼드대학 인간중심 AI연구소(HAI) 생성형 인공지능의 가치 (0) | 2026.05.16 |
| 2026 - 세계경제 전망(업데이트) (작성일 2026-05-12) (0) | 2026.05.16 |
| 2026 - 유럽 감사원, 2026-2030년 인공지능 전략 (0) | 2026.05.16 |


