728x90
반응형
1. 저작권과 기억(Memorization) 문제
- 저작권자들의 주장:
LLM이 학습 데이터에서 본 문장을 그대로 재현해내면(called memorization) 저작권 침해가 될 수 있다는 점을 지적. - AI 개발자의 반론:
이런 사례는 실제 사용자들이 특정 프롬프트를 조작(manipulated prompts) 하여 의도적으로 뽑아낸 것이며, 체리피킹(cherry-picked examples) 이라는 주장. (출처: OpenAI blog)
2. 기억 vs. 일반화
- 모델이 단순히 과적합(overfitting) 된 것이 아니라면, 기억은 사실 일반화(generalization) 과정에서 발생할 수도 있다고 설명.
즉, 학습 데이터의 패턴이 모델 내부에 압축된 형태로 들어갔다가 다시 표현되는 것일 수 있음.
3. 완화 전략(Mitigation strategies)
- 다양한 완화 방법이 연구되고 있음:
- 파인튜닝으로 정렬(alignment) 강화 (예: RLHF, DPO 등)
- 학습 데이터 중복 제거 (deduplication)
- 프롬프트 필터링(prompt filtering)
- 그러나 이들 전략은 모델 품질과 저작권 리스크 완화 사이의 트레이드오프가 존재하며, 아직 충분히 연구되지 않음.
4. 오른쪽 그림 (예시)
- 오른쪽에 있는 스크린샷은 ChatGPT가 **셰익스피어의 소네트 18번(Shall I compare thee to a summer’s day?)**을 그대로 재현하는 장면.
- 이는 대표적인 memorization 사례로, 학습 데이터에 있던 문장을 거의 그대로 출력한 상황을 보여줌.
728x90
'07.AI' 카테고리의 다른 글
LLM - 토큰 팩토리 (Token Factory) (0) | 2025.08.30 |
---|---|
LLM - 멀티모달 AI - Text-to-Image (T2I) & Text-to-Video (T2V) (1) | 2025.08.28 |
생성형 AI - 추론 ‘inference’ 비용 (1) | 2025.08.27 |
LLM - Open AI, GPT-5 (1) | 2025.08.27 |
LLM - Google, ATLAS (6) | 2025.08.27 |