728x90
반응형
중국의 인공지능 (AI) 스타트업 딥시크 (DeepSeek)가 12월 26일 (현지시간) 6,710억 개의 매개변수를 가진 오픈 소스 대형 언어 모델 (LLM)인 '딥시크-V3'를 공개 (2024.12)
주요 특징
- 매개변수 규모
- 6,710억 개의 매개변수로, 메타의 '라마 3.1(405B)'보다 약 1.5배 크다.
- 학습 데이터
- 14.8조 개의 토큰으로 사전 훈련되었으며, 코딩, 번역, 에세이 작성 등 다양한 작업을 수행할 수 있다.
- 기술적 접근
- MoE(전문가 혼합) 기법을 사용하여 필요 시 특정 모델만 활성화해 효율성을 극대화.
- '멀티헤드 잠재 어텐션(MLA)'과 '멀티토큰 예측(MTP)' 기능으로 중요한 세부 정보를 반복적으로 학습하고, 추론 속도를 향상.
- 컨텍스트 창
- 최대 12만 8,000 토큰의 컨텍스트를 지원, 긴 문맥 처리에 적합.
성능 및 평가
- 비용 효율성
- 훈련 비용 약 557만 달러(약 82억 원)로, 메타의 라마 3.1 추정 비용(약 7300억 원) 대비 매우 경제적.
- 벤치마크 성과
- 수학 중심의 Math-500 테스트에서 90.2점 획득(큐원 80점 대비 우수).
- 영어 중심 벤치마크(SimpleQA, FRAMES 제외) 및 중국어 중심 테스트에서 GPT-4o와 경쟁 가능한 성능.
- 적용 분야
- 상업적 사용 가능하며, 허깅페이스 등 플랫폼을 통해 접근 가능. 이는 AI 기술의 민주화에 기여.
https://www.aitimes.com/news/articleView.html?idxno=166606
https://mistral.ai/news/pixtral-large/
728x90
'07.AI' 카테고리의 다른 글
인공지능 - 법/규제 - 인공지능 발전과 신뢰 기반 조성 등에 관한 기본법(AI기본법) (1) | 2024.12.30 |
---|---|
LLM - QVQ (0) | 2024.12.30 |
생성형 AI - Gemini(제미나이) 2.0 (0) | 2024.12.27 |
LLM - 검색 증강 생성 (RAG, Retrieval-augmented generation) (3) | 2024.12.26 |
AI 저널리즘 (3) | 2024.12.24 |