Char :: LLM - 딥시크 (DeepSeek)

LLM - 딥시크 (DeepSeek)

07.AI 2025. 2. 25. 14:07

728x90

중국의 인공지능 (AI) 스타트업 딥시크 (DeepSeek)가 12월 26일 (현지시간) 6,710억 개의 매개변수를 가진 오픈 소스 대형 언어 모델 (LLM)인 '딥시크-V3'를 공개 (2024.12)

매개변수 규모
- 6,710억 개의 매개변수로, 메타의 '라마 3.1(405B)'보다 약 1.5배 크다.
학습 데이터
- 14.8조 개의 토큰으로 사전 훈련되었으며, 코딩, 번역, 에세이 작성 등 다양한 작업을 수행할 수 있다.
기술적 접근
- MoE(전문가 혼합) 기법을 사용하여 필요 시 특정 모델만 활성화해 효율성을 극대화.
- '멀티헤드 잠재 어텐션(MLA)'과 '멀티토큰 예측(MTP)' 기능으로 중요한 세부 정보를 반복적으로 학습하고, 추론 속도를 향상.
컨텍스트 창
- 최대 12만 8,000 토큰의 컨텍스트를 지원, 긴 문맥 처리에 적합.

비용 효율성
- 훈련 비용 약 557만 달러(약 82억 원)로, 메타의 라마 3.1 추정 비용(약 7300억 원) 대비 매우 경제적.
벤치마크 성과
- 수학 중심의 Math-500 테스트에서 90.2점 획득(큐원 80점 대비 우수).
- 영어 중심 벤치마크(SimpleQA, FRAMES 제외) 및 중국어 중심 테스트에서 GPT-4o와 경쟁 가능한 성능.
적용 분야
- 상업적 사용 가능하며, 허깅페이스 등 플랫폼을 통해 접근 가능. 이는 AI 기술의 민주화에 기여.

딥시크, 오픈 소스 사상 최대 규모 LLM 출시..."GPT-4o 따라 잡았다" - AI타임스

중국의 딥시크가 역대 최대 규모의 오픈 소스 대형언어모델(LLM)인 ‘딥시크-V3(DeepSeek-V3)’를 공개했다. 이 모델은 메타의 \'라마 3.1 405B\', 알리바바의 \'큐원 2.5 72B\'와 같은 기존 오픈 소스 모델

www.aitimes.com

Pixtral Large

Pixtral grows up.

mistral.ai

728x90

인공지능 - 법/규제 - 인공지능 기본법(AI기본법) - 시행 전 보완을 위한 입법 과제 (0)	2025.03.13
LLM - 성능 - 최적화 - LoRA(Low-Rank Adaptation) 튜닝 (0)	2025.02.25
LLM - 딥시크 (DeepSeek) - DeepSeek-R1 (0)	2025.02.25
LLM - 딥시크 (DeepSeek) - DeepSeek-V3 (0)	2025.02.25
OpenAI, Deep Research 문제 (feat. 모델은 틀린다 vs 모델은 맞다) (0)	2025.02.20

Posted by Mr. Slumber