728x90
반응형

https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro

이 문서는 미국 국립표준기술연구소(NIST) 산하 인공지능 표준 및 혁신 센터(CAISI)가 2026년 5월에 발표한 중국의 AI 모델 DeepSeek V4 Pro에 대한 종합 평가 보고서입니다. 보고서의 핵심은 이 모델이 현재 중국에서 가장 뛰어난 성능을 보여주지만, 비공개 벤치마크를 활용한 정밀 검증 결과 미국의 최첨단 모델들에 비해 약 8개월 정도의 기술적 격차를 보이고 있다는 점을 명시하는 데 있습니다. 특히 DeepSeek 측의 자가 보고 수치보다 CAISI의 독립적 평가 수치가 낮게 나타났음을 지적하며, 이는 비공개 데이터셋을 통한 객관적 성능 검증의 중요성을 강조합니다. 또한, 이 모델은 높은 지능적 성취에도 불구하고 유사한 성능의 미국 모델과 비교했을 때 탁월한 비용 효율성을 갖추고 있다는 경제적 특이점도 함께 다루고 있습니다. 결과적으로 이 텍스트는 문항 반응 이론(IRT)이라는 통계적 기법을 도입해 국가 간 AI 기술 수준을 정량적으로 비교 분석함으로써 기술적 패권의 현주소를 객관적으로 전달하려는 목적을 가집니다.

그림 1: 5개 영역에 걸친 일련의 벤치마크를 기준으로 공개된 미국 및 중국 모델 중 가장 우수한 모델들의 시간 경과에 따른 종합적인 성능 비교.
y축에서 200포인트 증가할 때마다 특정 과제를 해결할 확률이 3배 증가합니다. 모델 성능은 부록에 자세히 설명된 항목 반응 이론(IRT)에서 영감을 받은 접근 방식을 사용하여 분석했습니다. 이 그림을 작성하기 위해 35개 모델에 대한 16개의 벤치마크를 사용했습니다. 추세선은 프론티어 모델에 대한 최소 제곱 회귀 분석을 통해 도출했습니다. 오차 막대는 95% 신뢰 구간을 나타냅니다.

 

그림 2: 각 성능 벤치마크별 모델 성능 요약(높을수록 우수). 
결과는 각 벤치마크에서 정확도(해결된 작업 비율)를 보여줍니다. 각 벤치마크에서 가장 성능이 우수한 모델은 강조 표시되고 굵게 표시됩니다. IRT로 추정된 Elo 불확실성은 95% 신뢰 구간을 반영합니다. *SWE-Bench Verified에서 CAISI 점수는 다른 평가 도구의 점수보다 낮은 경향이 있는데, 이는 시스템 프롬프트, 스캐폴딩 및 토큰 예산 차이 때문일 가능성이 높습니다. **CAISI는 작업 전체의 평균 점수를 보고하며, 이는 ARC-AGI-2의 공식 점수 집계 방식과 다릅니다. ***IRT를 통해 샘플 하위 집합에서 추정되었습니다.

 

728x90
Posted by Mr. Slumber
,