728x90
반응형

https://arxiv.org/pdf/2309.06180

https://github.com/vllm-project/vllm

2023.09.12
[PagedAttention을 사용하는 대규모 언어 모델을 위한 효율적인 메모리 관리]

이 논문은 거대 언어 모델(LLM) 서비스의 처리량을 혁신적으로 높이기 위해 제안된 vLLM 시스템과 그 핵심 알고리즘인 PagedAttention에 대해 설명하고 있습니다. 기존 시스템은 생성될 텍스트의 길이를 미리 알 수 없어 메모리를 연속적인 공간에 비효율적으로 할당했으나, 이 연구는 운영체제의 가상 메모리 기법에서 영감을 얻어 KV 캐시를 비연속적인 메모리 블록에 나누어 저장함으로써 메모리 낭비를 거의 0에 가깝게 줄였습니다. 이러한 유연한 메모리 관리 방식은 다양한 디코딩 알고리즘에서 메모리 공유를 가능하게 하며, 결과적으로 동일한 하드웨어에서 기존 대비 2~4배 더 많은 요청을 처리할 수 있게 합니다. 결론적으로 vLLM은 메모리 파편화 문제를 해결하고 동적 스케줄링과 선점형 기술을 결합하여 대규모 AI 모델 서비스의 비용 효율성을 극대화하는 실질적인 해결책을 제시합니다.

728x90
Posted by Mr. Slumber
,