728x90
반응형
중국의 인공지능 (AI) 스타트업 딥시크 (DeepSeek)가 12월 26일 (현지시간) 6,710억 개의 매개변수를 가진 오픈 소스 대형 언어 모델 (LLM)인 '딥시크-V3'를 공개 (2024.12)
주요 특징
- 매개변수 규모
- 6,710억 개의 매개변수로, 메타의 '라마 3.1(405B)'보다 약 1.5배 크다.
- 학습 데이터
- 14.8조 개의 토큰으로 사전 훈련되었으며, 코딩, 번역, 에세이 작성 등 다양한 작업을 수행할 수 있다.
- 기술적 접근
- MoE(전문가 혼합) 기법을 사용하여 필요 시 특정 모델만 활성화해 효율성을 극대화.
- '멀티헤드 잠재 어텐션(MLA)'과 '멀티토큰 예측(MTP)' 기능으로 중요한 세부 정보를 반복적으로 학습하고, 추론 속도를 향상.
- 컨텍스트 창
- 최대 12만 8,000 토큰의 컨텍스트를 지원, 긴 문맥 처리에 적합.
성능 및 평가
- 비용 효율성
- 훈련 비용 약 557만 달러(약 82억 원)로, 메타의 라마 3.1 추정 비용(약 7300억 원) 대비 매우 경제적.
- 벤치마크 성과
- 수학 중심의 Math-500 테스트에서 90.2점 획득(큐원 80점 대비 우수).
- 영어 중심 벤치마크(SimpleQA, FRAMES 제외) 및 중국어 중심 테스트에서 GPT-4o와 경쟁 가능한 성능.
- 적용 분야
- 상업적 사용 가능하며, 허깅페이스 등 플랫폼을 통해 접근 가능. 이는 AI 기술의 민주화에 기여.
https://www.aitimes.com/news/articleView.html?idxno=166606
딥시크, 오픈 소스 사상 최대 규모 LLM 출시..."GPT-4o 따라 잡았다" - AI타임스
중국의 딥시크가 역대 최대 규모의 오픈 소스 대형언어모델(LLM)인 ‘딥시크-V3(DeepSeek-V3)’를 공개했다. 이 모델은 메타의 \'라마 3.1 405B\', 알리바바의 \'큐원 2.5 72B\'와 같은 기존 오픈 소스 모델
www.aitimes.com
https://mistral.ai/news/pixtral-large/
Pixtral Large
Pixtral grows up.
mistral.ai
728x90
'07.AI' 카테고리의 다른 글
인공지능 - 법/규제 - 인공지능(AI) 기본법 시행 전 보완을 위한 입법 과제 (0) | 2025.03.13 |
---|---|
LLM - 성능 - 최적화 - LoRA(Low-Rank Adaptation) 튜닝 (0) | 2025.02.25 |
LLM - 딥시크 (DeepSeek) - DeepSeek-R1 (0) | 2025.02.25 |
LLM - 딥시크 (DeepSeek) - DeepSeek-V3 (0) | 2025.02.25 |
인공지능 - 범 일반 지능(AGI, Artificial General Intelligence) (0) | 2025.02.24 |