Char :: LLM - 가중치 (Open Weight) - 글리치(glitch) 토큰

LLM - 가중치 (Open Weight) - 글리치(glitch) 토큰

07.AI 2025. 10. 8. 11:32

728x90

(개념) LLM의 토크나이저(tokenizer)에서 생성된 비정상적인 토큰

- 의미를 갖지 않거나 훈련 데이터·토크나이저 설계의 오류로 인해 생성된 이상 토큰

(특징)

의미 결여: 실제 단어가 아니라 랜덤 문자열 형태
모델 출력 장애: 잘못된 프롬프트 처리, 의미 없는 반복, 예상치 못한 중단
임베딩 군집화: 고유한 임베딩 클러스터를 형성해 탐지가 가능

(발생원인)

훈련 데이터 노이즈 및 불완전성
- 비정상적 문서·코드 주입이나 특수 문자 처리 오류
토크나이저 설계 결함
- 서브워드 분할 과정에서 예상치 못한 바이트 시퀀스 발생
모델 보안 공격 가능성
- 악의적 공격자가 특정 glitch 토큰을 삽입해 모델 동작 왜곡

(주요연구)

Yuxi Li 등은 182,517개 토큰을 분석해 glitch 토큰을 카테고리별로 분류하고, LLM의 증상 유형을 정리했다.

카테고리 예시:
- 완전 무작위 문자열
- 반복적 패턴 기반 토큰
- 희소한 특수문자 조합
증상:
- 출력 중단 또는 프롬프트 드리프트
- 비문 생성
- 악성 코드 주입 가능성

OpenAI가 최근 공개한 오픈 가중치 모델을 통해 훈련 데이터의 비밀에 일부 접근 가능해짐
GPT-5 분석 과정에서 성인 사이트 문구가 훈련 데이터에 포함된 증거가 발견됨
특정 이상 토큰(glitch token) 을 분석해 GPT 계열 모델의 훈련 데이터 속성을 유추할 수 있음
Github 등에서 수집된 스팸/부적절 콘텐츠도 일부 토큰에 반영되어 있음
오픈 가중치 공개가 훈련 데이터 추론 및 공격 벡터 확대의 원인이 될 수 있음

https://en.wikipedia.org/wiki/Glitch_token

https://news.hada.io/topic?id=23479

https://fi-le.net/oss/

728x90

저작자표시 (새창열림)

'07.AI' 카테고리의 다른 글

인공지능 - 안전성 - AI Alignment(인공지능 정렬) (0)	2025.10.26
LLM - Open AI, GPT-OSS (5)	2025.10.08
LLM - 가중치 (Open Weight) - 메타 (Meta) CWM (0)	2025.10.08
인공지능 - 위험 관리 - 가디언 모델(Guardian Model) (0)	2025.09.29
머신러닝 - 파인튜닝 - ORPO(Odds Ratio Preference Optimization) 방식 (0)	2025.09.25

Posted by Mr. Slumber

,

블로그 이미지

#IT, #프로밤샘러, #literacy Mr. Slumber

카테고리

분류 전체보기 (1919)

01.Digital Service (178)

02.SW (274)

03.Security (205)

04.Database (88)

05.Network (61)

06.CAOS (66)

07.AI (365)

08.Algorithm (43)

09.경영 (75)

10.BT (6)

11.법제도 (33)

12. 메일진 (398)

13.일상다반사 (115)

14. PM (6)

15. 이미지 (2)

16. 정보기술 기술지도사 (2)

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

Total :
Today :
Yesterday :

티스토리 초대신청

티스토리툴바