728x90
반응형

https://openai.com/ko-KR/index/where-the-goblins-came-from/

이 문서는 인공지능 모델이 비유 표현에서 고블린이나 그렘린 같은 괴물 단어를 비정상적으로 자주 사용하는 기묘한 현상과 그 원인을 분석합니다. 조사 결과, 이러한 언어적 습관은 '너디(Nerdy)' 페르소나를 강화하는 과정에서 해당 단어가 포함된 응답에 우발적으로 높은 보상이 주어지며 발생한 것으로 밝혀졌습니다. 특히 강화 학습을 통해 습득된 이 특징은 특정 설정을 넘어 모델 전체로 확산되는 보상 일반화의 예기치 못한 부작용을 잘 보여줍니다. 결과적으로 연구진은 페르소나 설정을 폐기하고 학습 데이터를 정제함으로써 문제를 해결했으며, 이는 AI 행동의 근본적인 원인을 감사하고 제어하는 기술적 역량의 중요성을 강조합니다.

 

 

728x90
Posted by Mr. Slumber
,