728x90
반응형
(개념) LLM의 토크나이저(tokenizer)에서 생성된 비정상적인 토큰
- 의미를 갖지 않거나 훈련 데이터·토크나이저 설계의 오류로 인해 생성된 이상 토큰
(특징)
- 의미 결여: 실제 단어가 아니라 랜덤 문자열 형태
- 모델 출력 장애: 잘못된 프롬프트 처리, 의미 없는 반복, 예상치 못한 중단
- 임베딩 군집화: 고유한 임베딩 클러스터를 형성해 탐지가 가능
(발생원인)
- 훈련 데이터 노이즈 및 불완전성
- 비정상적 문서·코드 주입이나 특수 문자 처리 오류
- 토크나이저 설계 결함
- 서브워드 분할 과정에서 예상치 못한 바이트 시퀀스 발생
- 모델 보안 공격 가능성
- 악의적 공격자가 특정 glitch 토큰을 삽입해 모델 동작 왜곡
(주요연구)
Yuxi Li 등은 182,517개 토큰을 분석해 glitch 토큰을 카테고리별로 분류하고, LLM의 증상 유형을 정리했다.
- 카테고리 예시:
- 완전 무작위 문자열
- 반복적 패턴 기반 토큰
- 희소한 특수문자 조합
- 증상:
- 출력 중단 또는 프롬프트 드리프트
- 비문 생성
- 악성 코드 주입 가능성
|
https://en.wikipedia.org/wiki/Glitch_token
728x90
'07.AI' 카테고리의 다른 글
LLM - Open AI, GPT-OSS (5) | 2025.10.08 |
---|---|
LLM - 가중치 (Open Weight) - 메타 (Meta) CWM (0) | 2025.10.08 |
인공지능 - 위험 관리 - 가디언 모델(Guardian Model) (0) | 2025.09.29 |
머신러닝 - 파인튜닝 - ORPO(Odds Ratio Preference Optimization) 방식 (0) | 2025.09.25 |
LLM - 시각-언어 모델(Vision Language Model: VLM) - Paper (0) | 2025.09.24 |