728x90
반응형

 

1. 저작권과 기억(Memorization) 문제

  • 저작권자들의 주장:
    LLM이 학습 데이터에서 본 문장을 그대로 재현해내면(called memorization) 저작권 침해가 될 수 있다는 점을 지적.
  • AI 개발자의 반론:
    이런 사례는 실제 사용자들이 특정 프롬프트를 조작(manipulated prompts) 하여 의도적으로 뽑아낸 것이며, 체리피킹(cherry-picked examples) 이라는 주장. (출처: OpenAI blog)

2. 기억 vs. 일반화

  • 모델이 단순히 과적합(overfitting) 된 것이 아니라면, 기억은 사실 일반화(generalization) 과정에서 발생할 수도 있다고 설명.
    즉, 학습 데이터의 패턴이 모델 내부에 압축된 형태로 들어갔다가 다시 표현되는 것일 수 있음.

3. 완화 전략(Mitigation strategies)

  • 다양한 완화 방법이 연구되고 있음:
    • 파인튜닝으로 정렬(alignment) 강화 (예: RLHF, DPO 등)
    • 학습 데이터 중복 제거 (deduplication)
    • 프롬프트 필터링(prompt filtering)
  • 그러나 이들 전략은 모델 품질과 저작권 리스크 완화 사이의 트레이드오프가 존재하며, 아직 충분히 연구되지 않음.

4. 오른쪽 그림 (예시)

  • 오른쪽에 있는 스크린샷은 ChatGPT가 **셰익스피어의 소네트 18번(Shall I compare thee to a summer’s day?)**을 그대로 재현하는 장면.
  • 이는 대표적인 memorization 사례로, 학습 데이터에 있던 문장을 거의 그대로 출력한 상황을 보여줌.

 

https://www.saipcon.com/

728x90
Posted by Mr. Slumber
,