728x90
반응형
Microsoft LLMLingua - 추론 가속 및 비용 절감을 위해 프롬프트 압축하기
- GPT2-small 또는 LLaMA-7B와 같이 정렬 및 잘 훈련된 작은 언어 모델을 압축에 사용
- 프롬프트에서 중요하지 않은 토큰을 감지하고 블랙박스 LLM에서 압축된 프롬프트로 추론을 가능하게 함
- LLM의 추론 속도를 높이고 주요 정보에 대한 LLM의 인식을 향상시키기 위해 프롬프트와 KV-Cache를 압축
- 성능 손실을 최소화하면서 최대 20배의 압축을 달성
- 프롬프트 와 생성된 컨텍스트를 줄여서 비용을 절감
- 프롬프트내에 중요한 정보의 밀집도를 더 높여서 더 긴 컨텍스트를 지원 가능
https://github.com/microsoft/LLMLingua
GitHub - microsoft/LLMLingua: To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and
To speed up LLMs' inference and enhance LLM's perceive of key information, compress the prompt and KV-Cache, which achieves up to 20x compression with minimal performance loss. - GitHub - ...
github.com
728x90
'07.AI' 카테고리의 다른 글
생성형 AI - G7 히로시마 프로세스 (1) | 2024.01.04 |
---|---|
생성형 AI - 영국의 생성형 AI 7대 원칙 (1) | 2024.01.04 |
AI 거버넌스 (1) | 2024.01.02 |
추천 시스템 - 가짜뉴스 - AI 팩트체킹 보조 기술 (0) | 2023.12.28 |
생성형 AI - 블레츨리 선언 (0) | 2023.12.26 |