728x90
반응형

https://www.itfind.or.kr/trend/weekly/latestWeekly.do

2026.06.03
[로봇 파운데이션 모델의 저지연 추론을 위한 AI 반도체 연구 동향]


본 고는 로봇 파운데이션 모델의 저지연 추론을 위해 AI 반도체 기술을 연산 및 메모리 병목 관점에서 분석한다. VLA 기반 구조는 멀티모달 정보를 통합하지만, 트랜스포머(transformer) 특성상 어텐션(attention) 연산과 KV 캐시(cache)에서 성능 제약이 발생한다. 특히, 긴 시퀀스에서의 높은 계산 복잡도와 자기회귀적(autoregressive) 추론 시 누적되는 KV 캐시의 메모리 요구가 주요 병목으로 작용한다. 이를 해결하기 위해 어텐션 및 KV 캐시 최적화 기술이 활발히 연구되고 있다. 어텐션 측면에서는 FlashAttention, SpAtten, ELSA 등이 연산량과 데이터 이동을 줄이는 방향으로 발전하고 있다. KV 캐시 측면에서는 PagedAttention, H2O, FlexGen 등 메모리 관리 및 이기종 자원 활용 기법이 제안되고 있다. 이러한 기술들은 데이터플로우, 메모리 구조, 실행 방식이 결합한 형태로 진화하고 있다. 향후에는 하드웨어-소프트웨어 공동 설계를 기반으로 한 통합적 최적화가 핵심 방향이 될 것으로 예상된다.

728x90
Posted by Mr. Slumber
,