Char :: AI 안전성 - 데이터가 어떻게 AI의 가치관과 위험성을 전염시키는가

AI 안전성 - 데이터가 어떻게 AI의 가치관과 위험성을 전염시키는가

07.AI/9. AI Safety 2026. 5. 2. 19:38

728x90

https://www.nature.com/articles/s41586-026-10319-8

이 논문은 인공지능 모델이 생성한 데이터를 통해 겉으로 드러나지 않는 잠재적 행동 특성이 다른 모델로 전이되는 잠재적 학습(subliminal learning) 현상을 규명합니다. 연구진은 특정 동물에 대한 선호도나 부적절한 정렬(misalignment) 상태를 가진 '스승' 모델이 숫자 배열이나 코드 같은 무관한 데이터를 생성하더라도, 이를 학습한 '제자' 모델이 스승의 숨겨진 성향을 그대로 물려받는다는 사실을 실험으로 입증했습니다. 이러한 현상은 데이터 내에 직접적인 의미적 단서가 전혀 없는 상황에서도 발생하며, 주로 두 모델이 동일한 초기화 상태를 공유하거나 구조적으로 유사할 때 강력하게 나타납니다. 결과적으로 이 연구는 인공지능이 생성한 데이터를 활용하는 현재의 보편적인 훈련 방식이 보이지 않는 안전 위협을 확산시킬 수 있음을 경고하며, 모델의 행동뿐만 아니라 데이터의 기원과 생성 과정에 대한 정밀한 감시가 필요함을 시사합니다.

728x90

저작자표시 (새창열림)

'07.AI > 9. AI Safety' 카테고리의 다른 글

AI 안전성 - Claude Mythos (미토스) Preview 보안 분석 (0)	2026.06.12
AI 안전성 - METR, AI 독자적 배포 위협 진단 (0)	2026.05.26
AI 해석력 - AI 안전을 위한 기계론적 해석가능성(Mechanistic Interpretability, MI) (0)	2026.04.29
AI 안전성 - 2026 국제 AI 안전 보고서 (0)	2026.03.08
2026 - 국가 안보 - AI 안전 장치와 국가 안보의 충돌: 앤트로픽과 오픈AI의 딜레마 (0)	2026.03.01