728x90
반응형
https://openai.com/ko-KR/index/where-the-goblins-came-from/
이 문서는 인공지능 모델이 비유 표현에서 고블린이나 그렘린 같은 괴물 단어를 비정상적으로 자주 사용하는 기묘한 현상과 그 원인을 분석합니다. 조사 결과, 이러한 언어적 습관은 '너디(Nerdy)' 페르소나를 강화하는 과정에서 해당 단어가 포함된 응답에 우발적으로 높은 보상이 주어지며 발생한 것으로 밝혀졌습니다. 특히 강화 학습을 통해 습득된 이 특징은 특정 설정을 넘어 모델 전체로 확산되는 보상 일반화의 예기치 못한 부작용을 잘 보여줍니다. 결과적으로 연구진은 페르소나 설정을 폐기하고 학습 데이터를 정제함으로써 문제를 해결했으며, 이는 AI 행동의 근본적인 원인을 감사하고 제어하는 기술적 역량의 중요성을 강조합니다.








728x90
'07.AI' 카테고리의 다른 글
| LLM - Ethernet - OpenAI, MRC(Multipath Reliable Connection) (0) | 2026.05.16 |
|---|---|
| 생성형 AI - 상호작용 모델(Interaction Models) (0) | 2026.05.16 |
| LLM - 성능 - 벤치마크 - Perplexity AI, Opik 멀티모달 대형 언어 모델(MLLM) 개발자 가이드 (0) | 2026.05.12 |
| LLM - 성능 - 지식 증류(Knowledge Distillation) - 증류 공황 (0) | 2026.05.10 |
| LLM - 성능 - 최적화 - 양자화(Quantization) (0) | 2026.05.10 |


