Char :: AI - 기술 스택 - LLM 추론 최적화

AI - 기술 스택 - LLM 추론 최적화 - NVIDIA Rubin CPX

07.AI/10. AI 반도체 2026. 5. 24. 12:11

728x90

https://www.chiplog.io/p/a-deep-dive-into-nvidia-rubin-cpx

이 자료는 엔비디아가 새롭게 선보인 Rubin CPX 프로세서의 탄생 배경과 기술적 가치를 분석하며, 대규모 언어 모델(LLM) 추론의 효율성을 극대화하기 위한 추론 단계의 분리(Disaggregated Inference) 개념을 핵심적으로 다룹니다. 텍스트는 초기 ORCA 시스템부터 최신 Dynamo 프레임워크에 이르기까지, 모델이 입력을 처리하는 프리필(Prefill) 단계와 답변을 생성하는 디코드(Decode) 단계를 최적화해온 기술적 진화 과정을 상세히 설명합니다. 특히 프리필 작업에 특화된 Rubin CPX 하드웨어를 도입함으로써 서비스 제공자는 비용을 절감하고 사용자는 응답 속도 향상이라는 혜택을 동시에 누릴 수 있음을 강조합니다. 결과적으로 이 글은 소프트웨어 차원의 최적화가 어떻게 전용 가속기 하드웨어로 정착되었는지 그 경제적, 기술적 필연성을 설득력 있게 제시합니다.

한 사용자는 "피아노를 배우고 싶어요. 단계별 설명과 자료를 주세요."라고 요청 하고, 다른 사용자는 5만 단어 분량의 문서를 업로드 하고 요약을 요청할 수 있습니다 . 공유 GPU 환경에서는 TTFT(처리 시간)는 괜찮아 보일 수 있지만, 긴 요약 요청이 들어오는 순간 TPOT(처리 시간)가 급격히 증가하여 채팅 도중에 눈에 띄는 지연이 발생할 수 있습니다.

ORCA presentation at OSDI ‘22 (https://www.usenix.org/conference/osdi22/presentation/yu)

추론 서비스 시스템은 일반적으로 두 부분으로 구성됩니다. 하나는 사용자 요청을 수신하고 일괄 처리하는 추론 서버 또는 스케줄러 이고, 다른 하나는 GPU에 커널을 발행하는 실행 엔진 입니다.

ORCA는 요청 수준 스케줄링을 반복 수준 스케줄링 으로 대체하여 배치 처리를 요청 단위가 아닌 토큰 단위로 수행하도록 했습니다. 따라서 사용자의 작업이 완료되면 즉시 반환됩니다. 또한 이를 통해 이전 요청이 슬롯을 비워주는 동안 새로운 요청을 지속적으로 배치 처리할 수 있게 되었습니다 .

KV 캐시를 오프로드하고 검색할 수 있는 KV 블록 관리자로 , 코드 생성 및 다중 턴 대화와 같은 워크로드의 성능을 크게 향상시킵니다.

728x90

저작자표시 (새창열림)

'07.AI > 10. AI 반도체' 카테고리의 다른 글

AI 반도체 - CPO(Co-Packaged Optics) (0)	2026.05.27
AI - 기술 스택 - LLM 추론 최적화 - SambaNova (삼바노바) (0)	2026.05.24
AI 반도체 - CPO - SCALE 광학 모듈 솔루션 (0)	2026.05.12
AI 반도체 - Epoch AI, AI 전용 칩의 생태계 가치 및 분석 (0)	2026.05.08
AI 반도체 - AI 반도체의 기술 장벽과 전망 [주간기술동향 2211호] (0)	2026.05.08

Posted by Mr. Slumber

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Char

AI - 기술 스택 - LLM 추론 최적화 - NVIDIA Rubin CPX

'07.AI > 10. AI 반도체' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바