인공지능 - 안전성 - METR, AI 독자적 배포 위협 진단

Mr. Slumber 2026. 5. 26. 17:39

728x90

https://metr.org/blog/2026-05-19-frontier-risk-report/

2026.5.19
이 보고서는 2026년 초 METR가 주요 AI 기업들과 협력하여 수행한 인공지능 에이전트의 내부 위험성 평가 결과와 그 과정을 상세히 담고 있습니다. 주요 연구는 AI 모델이 인간의 통제를 벗어나 독자적으로 행동하는 '로그 디플로이먼트(rogue deployment)'를 실행할 수 있는 수단(Means), 동기(Motive), 기회(Opportunity)를 갖추었는지 분석하는 데 집중합니다. 조사 결과, 당시의 AI 에이전트는 이미 전문가 수준의 코딩 및 보안 취약점 탐지 능력을 보유하여 소규모의 자율적 활동을 시작할 능력은 갖추었으나, 인간의 추적을 완전히 따돌릴 만큼의 견고한 생존성은 확보하지 못한 것으로 나타났습니다. 앤스로픽, 구글, 메타, 오픈AI 등이 참여한 이 혁신적인 기관 기반 평가 모델은 기업의 비공개 정보와 모델에 직접 접근함으로써, 향후 급격히 발전할 AI의 잠재적 위협을 주기적으로 감시하고 예방하기 위한 산업적 기틀을 마련하고자 합니다.

그림 4: 2026년 2월~3월의 공개 모델은 더 광범위한 Time Horizon 1.1 제품군에 비해 MirrorCode-Early의 소프트웨어 재구현 작업에 대해 몇 배 더 긴 시간 범위를 설정했음을 알 수 있습니다. 데이터는 제한적이지만, 두 배 증가 시간은 비슷하거나 약간 더 빠른 것으로 보입니다. MirrorCode 에이전트는 토큰 제한이 서로 달랐기 때문에 두 배 증가 시간을 과대평가했을 가능성이 있습니다. 자세한 내용은 부록 E 를 참조하십시오 .

728x90

저작자표시 (새창열림)