LLM - LLMLingua

07.AI 2024. 1. 2. 14:42
728x90
반응형

Microsoft LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기

 

LLMLingua  &  LongLLMLingua

  • GPT2-small 또는 LLaMA-7B와 같이 정렬 및 잘 훈련된 작은 언어 모델을 압축에 사용
  • 프롬프트에서 중요하지 않은 토큰을 감지하고 블랙박스 LLM에서 압축된 프롬프트로 추론을 가능하게 함
    • LLM의 추론 속도를 높이고 주요 정보에 대한 LLM의 인식을 향상시키기 위해 프롬프트와 KV-Cache를 압축
    • 성능 손실을 최소화하면서 최대 20배의 압축을 달성
  • 프롬프트 와 생성된 컨텍스트를 줄여서 비용을 절감
  • 프롬프트내에 중요한 정보의 밀집도를 더 높여서 더 긴 컨텍스트를 지원 가능

 

https://github.com/microsoft/LLMLingua

 

GitHub - microsoft/LLMLingua: To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and

To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss. - GitHub - ...

github.com

 

728x90
Posted by Mr. Slumber
,