Char :: AI 안전성 - METR, AI 독자적 배포 위협 진단

AI 안전성 - METR, AI 독자적 배포 위협 진단

12. 메일진/7. AI Safety 2026. 5. 26. 17:39

728x90

https://metr.org/blog/2026-05-19-frontier-risk-report/

2026.5.19
이 보고서는 2026년 초 METR가 주요 AI 기업들과 협력하여 수행한 인공지능 에이전트의 내부 위험성 평가 결과와 그 과정을 상세히 담고 있습니다. 주요 연구는 AI 모델이 인간의 통제를 벗어나 독자적으로 행동하는 '로그 디플로이먼트(rogue deployment)'를 실행할 수 있는 수단(Means), 동기(Motive), 기회(Opportunity)를 갖추었는지 분석하는 데 집중합니다. 조사 결과, 당시의 AI 에이전트는 이미 전문가 수준의 코딩 및 보안 취약점 탐지 능력을 보유하여 소규모의 자율적 활동을 시작할 능력은 갖추었으나, 인간의 추적을 완전히 따돌릴 만큼의 견고한 생존성은 확보하지 못한 것으로 나타났습니다. 앤스로픽, 구글, 메타, 오픈AI 등이 참여한 이 혁신적인 기관 기반 평가 모델은 기업의 비공개 정보와 모델에 직접 접근함으로써, 향후 급격히 발전할 AI의 잠재적 위협을 주기적으로 감시하고 예방하기 위한 산업적 기틀을 마련하고자 합니다.

그림 4: 2026년 2월~3월의 공개 모델은 더 광범위한 Time Horizon 1.1 제품군에 비해 MirrorCode-Early의 소프트웨어 재구현 작업에 대해 몇 배 더 긴 시간 범위를 설정했음을 알 수 있습니다. 데이터는 제한적이지만, 두 배 증가 시간은 비슷하거나 약간 더 빠른 것으로 보입니다. MirrorCode 에이전트는 토큰 제한이 서로 달랐기 때문에 두 배 증가 시간을 과대평가했을 가능성이 있습니다. 자세한 내용은 부록 E 를 참조하십시오 .

728x90

저작자표시 (새창열림)

'12. 메일진 > 7. AI Safety' 카테고리의 다른 글

AI 안전성 - 클로드 페이블 5(Claude Fable 5) 와 AI 안전 (0)	2026.06.18
AI 안전성 - Claude Mythos (미토스) Preview 보안 분석 (0)	2026.06.12
AI 안전성 - 데이터가 어떻게 AI의 가치관과 위험성을 전염시키는가 (0)	2026.05.02
AI 해석력 - AI 안전을 위한 기계론적 해석가능성(Mechanistic Interpretability, MI) (0)	2026.04.29
AI 안전성 - 2026 국제 AI 안전 보고서 (0)	2026.03.08

Posted by Mr. Slumber

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Char

AI 안전성 - METR, AI 독자적 배포 위협 진단

'12. 메일진 > 7. AI Safety' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바