728x90
반응형

개요  

본 보고서는 주요 대형 모델 개발자들이 채택한 "frontier AI safety policies"에서 공통적으로 나타나는 요소들을 정리한 것임. 조사 대상은  Anthropic, OpenAI, Google DeepMind, Magic, Naver, Meta, G42, Cohere, Microsoft, Amazon, xAI, NVIDIA 등 12개 회사의 정책임.

 

1. Anthropic’s Responsible Scaling Policy, v2.2
2. OpenAI’s Preparedness Framework, version 2
3. Google DeepMind’s Frontier Safety Framework, Version 3.0
4. Magic’s AGI Readiness Policy
5. Naver’s AI Safety Framework
6. Meta’s Frontier AI Framework
7. G42’s Frontier AI Safety Framework
8. Cohere’s Secure AI Frontier Model Framework
9. Microsoft’s Frontier Governance Framework
10. Amazon’s Frontier Model Safety Framework
11. xAI’s Risk Management Framework
12. NVIDIA’s Frontier AI Risk Assessment

공통 요소 목록과 핵심 의미 (표에 따른 포함 빈도)  


1) Capability Thresholds (능력 임계값) — 포함: 9/12  
모델이 어떤 수준의 능력에 도달하면 "심각한 위험"이 되는지를 정의.  
보통 threat model(위협 경로)을 기반으로 설정(예: biological, cyber, AI R&D 자동화 등).  
등급(예: Low/Medium/High/Critical)을 두어 각 등급별로 요구되는 대응 수준을 달리함.


2) Model Weight Security (모델 가중치 보안) — 포함: 11/12  
모델 weights(가중치) 도난·유출을 막기 위한 정보보안 조치.  
접근 통제, 암호화, 격리된 컴퓨팅 환경, 내부 권한 분리, 정기적 보안 감사지원, 외부 레드팀 테스트 등이 예시.  
RAND의 보안 레벨(SL2~SL5) 등으로 보안 강도를 단계화하는 회사도 있음.


3) Model Deployment Mitigations (배포 시 완화조치) — 포함: 12/12  
응답 거부훈련(RLHF 등), adversarial training, 출력 모니터링, 런타임 제어(예: rate-limiting), 자동·수동 레드팀, 탐지 시스템 등.  
중요한 점: 이러한 조치는 모델 가중치가 안전하게 통제되는 한에서만 효과적임.


4) Conditions for Halting Deployment Plans (배포 중단 조건) — 포함: 9/12  
평가 결과가 특정 임계값(특히 High 이상)을 넘고 적절한 완화수단이 마련되지 않으면 배포를 중단하거나 제한함.


5) Conditions for Halting Development Plans (개발 중단 조건) — 포함: 8/12  
Critical 수준의 능력이 개발 과정에서 나타나면, 배포 여부와 상관없이 개발을 중단하거나 추가 안전조치를 요구함.


6) Full Capability Elicitation during Evaluations (능력 완전 유도 평가) — 포함: 7/12  
평가 설계 시 모델의 능력을 과소평가하지 않도록 적대적·실전형 상황을 포함하여 전 능력을 끌어내도록 노력.


7) Timing and Frequency of Evaluations (평가 시기·빈도) — 포함: 9/12  
사전(배포 전), 훈련 중(중간 체크포인트), 사후(운영 중) 등 여러 시점에서 반복 평가를 수행하도록 명시.


8) Accountability (책임성) — 포함: 12/12  
내부 거버넌스(보드, 안전팀)와 외부 감사·서드파티 평가, 투명성 보고 등으로 정책 이행을 감시.


9) Updating Policies over Time (정책 갱신) — 포함: 12/12  
위험 이해도와 평가방법이 발전함에 따라 정책을 주기적으로 갱신하겠다는 약속.




대표적 위협 모델(Threat models) — 정책에서 자주 다루는 항목  

Biological weapons assistance (생물무기 지원)  
Cyberoffense / Offensive cybersecurity (사이버 공격 자동화 · 취약점 악용)  
Automated AI R&D (AI 연구·개발 자동화로 인한 능력 확산)  
Autonomous replication (자율적 복제·운영)  
Advanced persuasion, Deceptive alignment 등 심리·조작·정렬 실패 관련 위협


1) 정책 간 차이와 실행상의 쟁점  

일부 회사(NVIDIA, Cohere 등)는 도메인 특화 위험에 더 중점. xAI, Magic 등은 정량적 벤치마크 강조.  
"임계값 설정 방법"이나 "보안·배포 기준의 구체성"은 회사마다 다름(정성적 기준 vs 정량적 기준).  
평가(엘리시테이션)에서의 sandbagging(평가 회피)·사기성 응답 가능성 등으로 인해 충분히 강한 적대적 테스트가 중요함.  
제도적 규제(예: EU Code of Practice, California SB53)와 맞물려 정책들이 진화 중.


2) 요약 메시지  

핵심은: 

(1) 위험을 정의하는 임계값을 정하고, 

(2) 그에 맞춰 가중치 보안과 배포 완화조치를 단계적으로 강화하며, 

(3) 반복적이고 적대적인 평가와 책임성 메커니즘을 통해 정책을 지속 갱신하는 것.

 

 

결론

 

이 문서는 현재 공개된 12개 frontier AI 안전 정책에서 공통적으로 나타나는 요소들을 정리했다.


2024년 8월 보고서에서 제시된 공통 요소들이, 이후 새로 추가된 정책들에도 여전히 널리 유지되고 있다는 점을 강조한다 — 즉, 업계 차원의 실무적 수렴(convergence)이 진행 중임을 시사한다.


거의 모든 정책이 "capability thresholds" (위험 역치)를 명시하고 있으며, 이 역치를 기준으로 모델 평가를 수행하고 필요한 대응을 강화한다는 점을 분명히 한다.



시사점(무엇이 중요한가)

1) 산업적 함의: 공통 틀의 확산은 규제·표준화 작업과의 정합성을 높일 수 있어, 정책 조화(regulatory alignment)·상호검증 가능한 평가 기준 개발이 현실적으로 가능해진다.
2) 운영적 함의: 역치가 명확해지면 기업 내에서 '어느 시점에 어떤 조치를 취할지'에 대한 의사결정이 더 일관되게 이뤄질 수 있다.
3) 위험: 문서 자체는 기술적·법적 요구조건을 대체하지 않으며, '정책을 공개했다'는 사실이 곧 규정 준수나 적절한 실행을 의미하지는 않는다.
4) 미해결 문제: 'acceptable level of risk'에 대한 합의가 아직 없음, 정책들 간 세부적 차이(정량적 벤치마크 강조 vs 도메인별 초점 등)가 존재함.


실무상 앞으로 봐야 할 것들

1) 역치의 구체화: 역치를 어떤 지표(정량적/정성적)로 측정할지, 누구(내부 팀·외부 검증자)가 판단할지 명확히 해야 한다.
2) 평가 방법의 강화: sandbagging(평가 회피), 장기적·도구 연동 시나리오, 자동화된 R&D 능력 등 복합적 위험을 포괄적으로 탐지할 평가 설계가 필요하다.
3) 투명성과 검증: 모델 무게 보안·배포 완화책·중단 기준 등에 대해 독립적 감사·외부 검토 메커니즘을 도입하면 신뢰성이 높아진다.
4) 규제 연계: EU Code of Practice, California SB53 등 규제적 요구와의 정합성을 모니터링하고 정책을 업데이트해야 한다.


결론적 요약 한 문장

업계 전반에서 역치 기반의 위험 관리, 모델 보안, 배포 통제, 평가·책임성 등 공통적 안전 수칙들이 확산되고 있으나, 실행의 구체성·검증·정책 간 일관성 확보는 향후 과제로 남아 있다.

 

 

 

https://metr.org/blog/2025-12-09-common-elements-of-frontier-ai-safety-policies/

728x90
Posted by Mr. Slumber
,