728x90
반응형

(개념) LLM의 토크나이저(tokenizer)에서 생성된 비정상적인 토큰

- 의미를 갖지 않거나 훈련 데이터·토크나이저 설계의 오류로 인해 생성된 이상 토큰

 

 

(특징)

  • 의미 결여: 실제 단어가 아니라 랜덤 문자열 형태
  • 모델 출력 장애: 잘못된 프롬프트 처리, 의미 없는 반복, 예상치 못한 중단
  • 임베딩 군집화: 고유한 임베딩 클러스터를 형성해 탐지가 가능

(발생원인)

  1. 훈련 데이터 노이즈 및 불완전성
    • 비정상적 문서·코드 주입이나 특수 문자 처리 오류
  2. 토크나이저 설계 결함
    • 서브워드 분할 과정에서 예상치 못한 바이트 시퀀스 발생
  3. 모델 보안 공격 가능성
    • 악의적 공격자가 특정 glitch 토큰을 삽입해 모델 동작 왜곡

 

(주요연구)

Yuxi Li 등은 182,517개 토큰을 분석해 glitch 토큰을 카테고리별로 분류하고, LLM의 증상 유형을 정리했다.

  • 카테고리 예시:
    • 완전 무작위 문자열
    • 반복적 패턴 기반 토큰
    • 희소한 특수문자 조합
  • 증상:
    • 출력 중단 또는 프롬프트 드리프트
    • 비문 생성
    • 악성 코드 주입 가능성

 

  • OpenAI가 최근 공개한 오픈 가중치 모델을 통해 훈련 데이터의 비밀에 일부 접근 가능해짐
  • GPT-5 분석 과정에서 성인 사이트 문구가 훈련 데이터에 포함된 증거가 발견됨
  • 특정 이상 토큰(glitch token) 을 분석해 GPT 계열 모델의 훈련 데이터 속성을 유추할 수 있음
  • Github 등에서 수집된 스팸/부적절 콘텐츠도 일부 토큰에 반영되어 있음
  • 오픈 가중치 공개가 훈련 데이터 추론 및 공격 벡터 확대의 원인이 될 수 있음

 

https://en.wikipedia.org/wiki/Glitch_token

https://news.hada.io/topic?id=23479

https://fi-le.net/oss/

728x90
Posted by Mr. Slumber
,