Char :: AI 저널리즘 - 생성형 AI 저작권 - 기억(Memorization) 문제

AI 저널리즘 - 생성형 AI 저작권 - 기억(Memorization) 문제

07.AI 2025. 8. 28. 06:27

728x90

1. 저작권과 기억(Memorization) 문제

저작권자들의 주장:
LLM이 학습 데이터에서 본 문장을 그대로 재현해내면(called memorization) 저작권 침해가 될 수 있다는 점을 지적.
AI 개발자의 반론:
이런 사례는 실제 사용자들이 특정 프롬프트를 조작(manipulated prompts) 하여 의도적으로 뽑아낸 것이며, 체리피킹(cherry-picked examples) 이라는 주장. (출처: OpenAI blog)

2. 기억 vs. 일반화

모델이 단순히 과적합(overfitting) 된 것이 아니라면, 기억은 사실 일반화(generalization) 과정에서 발생할 수도 있다고 설명.
즉, 학습 데이터의 패턴이 모델 내부에 압축된 형태로 들어갔다가 다시 표현되는 것일 수 있음.

3. 완화 전략(Mitigation strategies)

다양한 완화 방법이 연구되고 있음:
- 파인튜닝으로 정렬(alignment) 강화 (예: RLHF, DPO 등)
- 학습 데이터 중복 제거 (deduplication)
- 프롬프트 필터링(prompt filtering)
그러나 이들 전략은 모델 품질과 저작권 리스크 완화 사이의 트레이드오프가 존재하며, 아직 충분히 연구되지 않음.

4. 오른쪽 그림 (예시)

오른쪽에 있는 스크린샷은 ChatGPT가 **셰익스피어의 소네트 18번(Shall I compare thee to a summer’s day?)**을 그대로 재현하는 장면.
이는 대표적인 memorization 사례로, 학습 데이터에 있던 문장을 거의 그대로 출력한 상황을 보여줌.

https://www.saipcon.com/

728x90

저작자표시 (새창열림)

'07.AI' 카테고리의 다른 글

LLM - 토큰 팩토리 (Token Factory) (1)	2025.08.30
LLM - 멀티모달 AI - Text-to-Image (T2I) & Text-to-Video (T2V) (1)	2025.08.28
생성형 AI - 추론 ‘inference’ 비용 (1)	2025.08.27
LLM - Google, ATLAS (6)	2025.08.27
포렌식 - AI 아티펙트 (1)	2025.08.27

Posted by Mr. Slumber

,

블로그 이미지

#IT, #프로밤샘러, #literacy Mr. Slumber

카테고리

분류 전체보기 (1805)

01.Digital Service (177)

02.SW (272)

03.Security (200)

04.Database (86)

05.Network (60)

06.CAOS (63)

07.AI (333)

08.Algorithm (43)

09.경영 (73)

10.BT (6)

11.법제도 (31)

12. 메일진 (358)

13.일상다반사 (91)

14. PM (6)

15. 이미지 (2)

16. 정보기술 기술지도사 (2)

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

Total :
Today :
Yesterday :

티스토리 초대신청

티스토리툴바