728x90
반응형

AI, 특히 생성형 모델(예: LLM이나 이미지 생성 AI)에서 토큰화 과정에 관련된 개념

 

슬롭 토큰이란

슬롭(slop) 토큰은

- AI 모델이 텍스트나 이미지를 처리할 때, 의도한 데이터가 아닌 불필요한 데이터(노이즈, 오염된 시퀀스 등)를 의미

- 데이터 전처리가 불완전하거나, 모델의 토큰화 알고리즘이 비표준 입력을 잘못 분해했을 때 발생 가능

- 일반적으로 정상적인 텍스트, 이미지 생성 결과를 방해하거나 퀄리티 저하의 원인이 됨

 

 

  • 모델이 확률적으로 낮은 단어·기호를 연속적으로 뱉는 상황을 가리킬 때 사용됩니다.
  • 맥락 유지가 무너지고 의미가 흐트러지며, 문장이 점점 “미끄러지는” 형태로 나타납니다.
  • 주로 길게 이어지는 의미 붕괴 패턴을 지칭합니다.

 

글리치 토큰이란

글리치(glitch) 토큰은

- 모델의 토큰화 과정이나 학습 데이터셋에 특이하거나 예기치 않은 입력(이상값, 오타, 엉뚱한 유니코드 등)이 포함되어 생기는 비상식적인 토큰

- 모델이 특정 입력에 대해 이상한 결과를 내거나, 일종의 '인코딩 버그'처럼 특정 패턴에 반응하는 경우

 예를 들어, ChatGPT와 같은 LLM에서 특이한 입력을 주면 설명이나 생성 결과가 비정상적으로 바뀌는 현상

 

 

  • 모델 내부의 표현이 충돌하거나 입력 처리 과정에서 이상이 생길 때 발생하는 갑작스러운 오류적 단어/문자열을 의미합니다.
  • 특정 프롬프트 조합에서만 나타나는 급작스러운 단발성 비정상 출력에 가깝습니다.
  • 모델이 “고장 난 듯한” 형태의 토큰을 특정 조건에서 반복적으로 되뱉는 경우도 여기에 포함됩니다.

 

feat.ChatGPT 캔버스

 

 

feat.ChatGPT 캔버스

728x90
Posted by Mr. Slumber
,