[용어] GQA(Grouped-Query Attention)

13.일상다반사 2025. 9. 2. 16:13

728x90

(개념) 어텐션의 쿼리 헤드 여러 개가 하나의 KV 세 트를 공유하도록 묶는 방식

트랜스포머 모델에서 처음 제시된 MHA(MultiHead Attention)은 헤드 각각 Q, K, V의 가중치 행렬을 가지기 때문에 다양한 관점에서 어텐션 값 추출이 가능하여 추론 성능을 극대화하는 반면 헤드별로 어텐션 연산을 수행하기 때문에 연산량이 높다. 이를 해결하기 위해 초기에 제안된 방안은 헤드를 하나만 가지며 쿼리만 여러 개로 나누는 MQA(Multi-Query Attention) 방안이 제안되었는데, 속도는 향상되는 방면 다양성이 지나치게 감소하여 추론 성능이 저하되었다. GQA는 둘 방안 사이의 보완책으로 [그림 1]과 같이 헤드를 몇 개의 그룹으로 묶고, 쿼리를 각 그룹별로 분배하는 방식이다. 이를 통해 연산량은 MHA 대비 감소하는 대신 성능은 MHA에 비해 근소하게 열화되는 성과를 달성했다. 현재는 생성형 AI 모델 전반적으로 GQA를 매우 널리 적용하고 있다.

출처: Joshua Ainslie, et al., “Gqa: Training generalized multi-query transformer models from multihead checkpoints”, 2023.

https://arxiv.org/abs/2305.13245

728x90

저작자표시 (새창열림)

'13.일상다반사' 카테고리의 다른 글

Gemini 2.5 Flash 이미지 생성을 위한 최적 프롬프트 가이드 (0)	2025.09.11
에이전트 디자인 패턴(무료 책) (0)	2025.09.11
[용어] 기술 버블 (Technology Bubble) (1)	2025.09.01
[용어] 바이브 코딩 (0)	2025.08.30
[용어] 가격 알고리즘 (Pricing Algorithm) (2)	2025.08.28

Posted by Mr. Slumber

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Char

[용어] GQA(Grouped-Query Attention)

'13.일상다반사' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바