728x90
반응형
https://metr.org/blog/2026-05-19-frontier-risk-report/
2026.5.19
이 보고서는 2026년 초 METR가 주요 AI 기업들과 협력하여 수행한 인공지능 에이전트의 내부 위험성 평가 결과와 그 과정을 상세히 담고 있습니다. 주요 연구는 AI 모델이 인간의 통제를 벗어나 독자적으로 행동하는 '로그 디플로이먼트(rogue deployment)'를 실행할 수 있는 수단(Means), 동기(Motive), 기회(Opportunity)를 갖추었는지 분석하는 데 집중합니다. 조사 결과, 당시의 AI 에이전트는 이미 전문가 수준의 코딩 및 보안 취약점 탐지 능력을 보유하여 소규모의 자율적 활동을 시작할 능력은 갖추었으나, 인간의 추적을 완전히 따돌릴 만큼의 견고한 생존성은 확보하지 못한 것으로 나타났습니다. 앤스로픽, 구글, 메타, 오픈AI 등이 참여한 이 혁신적인 기관 기반 평가 모델은 기업의 비공개 정보와 모델에 직접 접근함으로써, 향후 급격히 발전할 AI의 잠재적 위협을 주기적으로 감시하고 예방하기 위한 산업적 기틀을 마련하고자 합니다.




그림 4: 2026년 2월~3월의 공개 모델은 더 광범위한 Time Horizon 1.1 제품군에 비해 MirrorCode-Early의 소프트웨어 재구현 작업에 대해 몇 배 더 긴 시간 범위를 설정했음을 알 수 있습니다. 데이터는 제한적이지만, 두 배 증가 시간은 비슷하거나 약간 더 빠른 것으로 보입니다. MirrorCode 에이전트는 토큰 제한이 서로 달랐기 때문에 두 배 증가 시간을 과대평가했을 가능성이 있습니다. 자세한 내용은 부록 E 를 참조하십시오 .















728x90
'12. 메일진 > 7. AI Safety' 카테고리의 다른 글
| 인공지능 - 안전성 - 데이터가 어떻게 AI의 가치관과 위험성을 전염시키는가 (0) | 2026.05.02 |
|---|---|
| 인공지능 - 해석력 - AI 안전을 위한 기계론적 해석가능성(Mechanistic Interpretability, MI) (0) | 2026.04.29 |
| 인공지능 - 안전성 - 2026 국제 AI 안전 보고서 (0) | 2026.03.08 |
| 2026 - 국가 안보 - AI 안전 장치와 국가 안보의 충돌: 앤트로픽과 오픈AI의 딜레마 (0) | 2026.03.01 |
| 프론티어 AI(Frontier AI) - 안전 요소 (AI Safety Policies) (1) | 2026.01.20 |


