728x90
반응형

https://spri.kr/posts/view/23966?code=data_all

인공지능 서비스의 경제성을 결정짓는 핵심 요소가 모델 학습에서 추론 효율성으로 이동하면서, 이를 뒷받침하는 추론 서빙 소프트웨어가 AI 인프라 경쟁의 새로운 격전지로 부상하고 있습니다. 현재 시장은 혁신적인 메모리 관리 기술을 앞세운 vLLM과 SGLang이라는 두 오픈소스 엔진이 표준으로 자리 잡았으며, 이들은 다양한 하드웨어 백엔드로의 확장을 통해 운영 비용 절감을 주도하고 있습니다. 여기에 더해 LMCache와 같은 전문적인 KV 캐시 계층이 등장하여 데이터를 효율적으로 오프로딩하고 공유함으로써, 복잡한 워크로드에서 처리량을 극대화하는 소프트웨어 스택의 세분화가 가속화되는 추세입니다. 결국 이러한 기술적 진보는 단순한 하드웨어 성능을 넘어, 소프트웨어 최적화가 AI 인프라의 총소유비용(TCO)을 결정하는 가장 전략적인 변수가 되었음을 시사합니다.

 

10) Gartner, (2025.10.10.), “Gartner Says AI-Optimized IaaS Is Poised to Become the Next Growth Engine for AI Infrastructure”

11) NVIDIA, (2025.06.18.), “LLM Inference Benchmarking: How Much Does Your LLM Inference Cost?”

12) Kown, Woosuk, et al., (2023), “Efficient memory management for large language model serving with pagedattention”

13) Pytorch, (2024.09), “vLLM Joins PyTorch Ecosystem: Easy, Fast, and Cheap LLM Serving for Everyone”

14) AIMultiple, (2026.01), “LLM Inference Engines: vLLM vs LMDeploy vs SGLang

15) SGLang, (2026), “SGLang Documentation”

 

 

16) Liu Yuhan et al., (2025), ."Lmcache: An efficient KV cache layer for enterprise-scale LLM inference“

17) Google Cloud, (2025), “Boosting LLM Performance With Tiered KV Sache on google Kubernetes Engine”

18) CoreWeave, (2025.10.16.), “CoreWeave Unveils AI Object Storage, Redefining How AI Workloads Access and Scale Data”

19) NVIDIA, (2026.2.19.), “LMCache Integration in Dynamo”

 

728x90
Posted by Mr. Slumber
,