728x90
반응형
(개념) LLM의 토크나이저(tokenizer)에서 생성된 비정상적인 토큰
- 의미를 갖지 않거나 훈련 데이터·토크나이저 설계의 오류로 인해 생성된 이상 토큰

(특징)
- 의미 결여: 실제 단어가 아니라 랜덤 문자열 형태
- 모델 출력 장애: 잘못된 프롬프트 처리, 의미 없는 반복, 예상치 못한 중단
- 임베딩 군집화: 고유한 임베딩 클러스터를 형성해 탐지가 가능
(발생원인)
- 훈련 데이터 노이즈 및 불완전성
- 비정상적 문서·코드 주입이나 특수 문자 처리 오류
- 토크나이저 설계 결함
- 서브워드 분할 과정에서 예상치 못한 바이트 시퀀스 발생
- 모델 보안 공격 가능성
- 악의적 공격자가 특정 glitch 토큰을 삽입해 모델 동작 왜곡
(주요연구)
Yuxi Li 등은 182,517개 토큰을 분석해 glitch 토큰을 카테고리별로 분류하고, LLM의 증상 유형을 정리했다.
- 카테고리 예시:
- 완전 무작위 문자열
- 반복적 패턴 기반 토큰
- 희소한 특수문자 조합
- 증상:
- 출력 중단 또는 프롬프트 드리프트
- 비문 생성
- 악성 코드 주입 가능성
|
https://en.wikipedia.org/wiki/Glitch_token
728x90
'12. 메일진 > 3.AI 비용' 카테고리의 다른 글
| 생성형 AI - 추론 ‘inference’ 비용 (1) | 2026.01.27 |
|---|---|
| 2025 - OpenRouter, “State of AI” (100조 토큰 실제 사용 데이터 기반, Retention/Cohort 분석 포함) (0) | 2025.12.14 |
| LLM - 토큰 팩토리 (Token Factory) (1) | 2025.08.30 |
| 인공지능 - AI 인프라 비용산정 (0) | 2024.05.24 |
| 생성형 AI - 고비용 문제 부각 (0) | 2023.04.27 |


