LLM - 딥시크 (DeepSeek)

07.AI 2024. 12. 30. 21:12
728x90
반응형

 

중국의 인공지능 (AI) 스타트업 딥시크 (DeepSeek)가 12월 26일 (현지시간) 6,710억 개의 매개변수를 가진 오픈 소스 대형 언어 모델 (LLM)인 '딥시크-V3'를 공개 (2024.12)

주요 특징

  1. 매개변수 규모
    • 6,710억 개의 매개변수로, 메타의 '라마 3.1(405B)'보다 약 1.5배 크다.
  2. 학습 데이터
    • 14.8조 개의 토큰으로 사전 훈련되었으며, 코딩, 번역, 에세이 작성 등 다양한 작업을 수행할 수 있다.
  3. 기술적 접근
    • MoE(전문가 혼합) 기법을 사용하여 필요 시 특정 모델만 활성화해 효율성을 극대화.
    • '멀티헤드 잠재 어텐션(MLA)'과 '멀티토큰 예측(MTP)' 기능으로 중요한 세부 정보를 반복적으로 학습하고, 추론 속도를 향상.
  4. 컨텍스트 창
    • 최대 12만 8,000 토큰의 컨텍스트를 지원, 긴 문맥 처리에 적합.

벤치마크 결과 (사진=딥시크)

성능 및 평가

  1. 비용 효율성
    • 훈련 비용 약 557만 달러(약 82억 원)로, 메타의 라마 3.1 추정 비용(약 7300억 원) 대비 매우 경제적.
  2. 벤치마크 성과
    • 수학 중심의 Math-500 테스트에서 90.2점 획득(큐원 80점 대비 우수).
    • 영어 중심 벤치마크(SimpleQA, FRAMES 제외) 및 중국어 중심 테스트에서 GPT-4o와 경쟁 가능한 성능.
  3. 적용 분야
    • 상업적 사용 가능하며, 허깅페이스 등 플랫폼을 통해 접근 가능. 이는 AI 기술의 민주화에 기여.

 

https://www.aitimes.com/news/articleView.html?idxno=166606

 

딥시크, 오픈 소스 사상 최대 규모 LLM 출시..."GPT-4o 따라 잡았다" - AI타임스

중국의 딥시크가 역대 최대 규모의 오픈 소스 대형언어모델(LLM)인 ‘딥시크-V3(DeepSeek-V3)’를 공개했다. 이 모델은 메타의 \'라마 3.1 405B\', 알리바바의 \'큐원 2.5 72B\'와 같은 기존 오픈 소스 모델

www.aitimes.com

https://mistral.ai/news/pixtral-large/

 

Pixtral Large

Pixtral grows up.

mistral.ai

 

728x90
Posted by Mr. Slumber
,