728x90
반응형

딥마인드의 '기술적 AGI 안전과 보안을 위한 접근법(An Approach to Technical AGI Safety and Security)' 보고서

 

딥마인드는 최근 '기술적 AGI 안전과 보안을 위한 접근법'이라는 제목의 보고서를 발표했습니다. 이 보고서는 인공지능의 안전성과 보안 문제를 다루며 AGI(인공 일반 지능)의 잠재적 위험성을 줄이기 위한 방법론을 제시합니다.

 

AGI의 잠재적 위험성

보고서는 2030년까지 인간 상위 1%의 능력을 가진 AI가 등장할 수 있다고 경고합니다. 이는 점진적인 기술 발전을 통해 가능할 것이며, 이러한 AGI가 인류에 미칠 수 있는 위험을 효과적으로 관리하는 것이 필요하다고 강조합니다34.

보고서의 주요 내용

딥마인드는 이 145페이지 분량의 보고서에서 AGI 안전성을 보장하기 위한 네 가지 주요 경로를 제시하고 있습니다. 어느 하나의 방법이 아닌 전체적인 접근이 필요하다는 점을 강조하며, 이를 통해 AGI의 가능성과 위험을 동시에 고려해야 한다고 밝혔습니다27.

산업과의 대화

딥마인드는 이 보고서를 산업 전반에 걸쳐 중요한 대화를 시작하는 발판으로 삼고자 하며, AGI 개발에 참여하는 모든 주체들과 협력하여 안전한 개발을 위한 방법들을 모색하고 있습니다15.

이 보고서는 안전한 AGI 기술의 발전을 위해 필수적인 감시와 평가 체계를 괴롭히는 제안들을 제시하고 있으며, AGI의 안전을 보장하기 위한 협력의 필요성을 강조하고 있습니다610.


딥마인드의 보고서는 AGI의 위험을 예방하기 위한 구체적인 전략도 제시합니다. 이러한 전략은 두 가지 주요 범주로 나눌 수 있습니다. 첫째, '악용' 문제를 해결하기 위해 위험한 기능에 대한 접근을 제한하고, 이를 모니터링하며, 보안 조치를 강화하는 방안을 제안합니다. 둘째, '비일치' 문제를 다루기 위해, 모델 수준의 완화 조치와 시스템 수준의 보안 조치를 강화하는 방안을 모색합니다. 이러한 접근은 역사적으로 발생할 수 있는 위험을 사전에 차단하는 데 중요한 역할을 할 것으로 보입니다12. 또한, 보고서는 해석 가능성, 불확실성 추정 및 보다 안전한 설계 패턴과 같은 기술들이 이러한 완화 조치의 효과를 향상시킬 수 있음을 강조하고 있습니다4.

 

 

 

인간 상위 1% 수준 AGI가 일으킬 수 있는 4가지 위협(구글 딥마인드 기술적 AGI 안전과 보안을 위한 접근법 보고서 갈무리)

 

인간 상위 1% 수준 AGI가 일으킬 수 있는 자율적 비정렬 행동 개념도(구글 딥마인드 기술적 AGI 안전과 보안을 위한 접근법 보고서 갈무리)

 

 

딥마인드는 AGI가 야기할 수 있는 위험을 크게 네 가지 범주로 분류했다.

  • 오용 (Misuse): 악의적 사용자의 고의적인 오용.
  • 자율적 비정렬 행동 (Misalignment): AI가 자율적으로 인간의 의도와 다른 목표를 추구하는 경우.
  • 비고의적 판단 오류 (Mistakes): AI가 의도치 않은 오류를 범하는 경우.
  • 사회·경제적 구조 변화에 따른 시스템 리스크 (Structural Risks): AGI로 인한 사회·경제적 불안정 및 시스템 리스크.

보고서는 특히 '오용'과 '자율적 비정렬 행동'을 AGI의 중심 위험 요소로 강조하며, AI가 해킹, 바이오테러 등 실질적 해악 수단으로 쓰이거나 스스로 목표를 설정하고 인간의 통제를 벗어날 경우를 우려한다. 딥마인드는 "인류를 영구히 파괴할 수 있는" 실존적 위험에 대해서도 경고했다.

 

위험 완화 전략

오용 방지

  • AGI가 '위험 역량'을 보유하고 있는지를 정량적으로 평가하고, 실제 피해를 유발할 수 있는 능력을 사전에 점검한다.
  • 위험하거나 불법적인 요청을 거부하도록 학습하는 '사후 훈련(post-training)'을 적용하고, 우회 공격(jailbreak)까지 방어할 수 있는 내성을 갖추도록 설계한다.
  • 모델이 이미 학습한 위험 기술을 제거하거나 무력화하는 '기능 억제(capability suppression)' 전략을 병행한다.
  • 입력과 출력을 실시간으로 감시하는 모니터링 체계를 통해 AI가 위험 징후를 보일 경우 즉각 경고하거나 출력을 차단한다.
  • AI 내부의 활성화 패턴까지 들여다보는 방식으로 위협 탐지를 고도화한다.
  • 내부와 외부 전문가로 구성된 팀이 실제로 모델을 공격해보는 '레드 팀 테스팅(Red Teaming)'을 실시하여 방어 체계의 허점을 실험적으로 점검하고 개선한다.

자율적 비정렬 행동 방지

  • AI 자체를 '정렬된 상태'로 학습시키는 것을 1차 방어선으로 설정하고, '증폭된 감독(Amplified Oversight)' 개념을 제시한다.
  • 사람보다 우월한 판단을 내릴 수 있는 AI에 대해 동일 수준의 AI가 상호 비판적 피드백을 제공하며 문제점을 지적하도록 설계한다.
  • AI가 새로운 상황이나 입력에서도 일관되게 안전하게 행동하도록 '견고한 학습(Robust Training)'을 적용한다.
  • AGI가 정렬되지 않았더라도 시스템 차원에서 해를 억제하는 2차 방어선을 구축한다.
  • AI를 '내부 위협자'로 간주하고 보안 체계 전반을 AI에 맞춰 재설계하며, 샌드박싱, 접근권 분리, 로그 기록, 이상 행동 탐지 등을 기반으로 위협 행동 발생 시 신속 대응이 가능하도록 한다.
  • 비용이 적게 드는 기본 감시 시스템이 먼저 이상 행동을 선별하고, 더 위험하거나 판단이 어려운 경우 고도화된 감시 시스템이나 인간 판단으로 이관하는 '계층형 모니터링' 구조를 구축한다.

보조 연구 및 기술

  • AGI의 내부 추론 과정을 가시화하고 그 판단의 근거를 명확히 분석할 수 있도록 하는 '해석가능성(Interpretability)'을 확보한다.
  • AI가 행동 전 사용자의 재확인을 요청하거나 예외 상황에서 보수적으로 작동하도록 만드는 '안전 설계 패턴(Safer Design Patterns)'을 도입한다.
  • '정렬 신뢰도 검증(Alignment Assurance)'을 통해 시스템이 정말 인간 의도대로만 동작하는지를 반복 실험하고 실패 가능성을 최소화하는 과학적 기반을 마련한다.

 

 

https://www.fnnews.com/news/202504070641258342

 

딥마인드 "인류 상위 1% 수준 AI 나온다…통제력 상실 대비 필요"

(서울=뉴스1) 김민석 기자 = 구글 딥마인드가 향후 5~10년 내 인류에게 실존적 위협을 가할 수 있는 '인류 상위 1% 수준'의 AGI(Artificial General Intelligence·일반인공지능)가 등장할 것이라고 경고했다.7

www.fnnews.com

https://arxiv.org/abs/2504.01849

 

An Approach to Technical AGI Safety and Security

Artificial General Intelligence (AGI) promises transformative benefits but also presents significant risks. We develop an approach to address the risk of harms consequential enough to significantly harm humanity. We identify four areas of risk: misuse, mis

arxiv.org

 

728x90
Posted by Mr. Slumber
,