13.일상다반사

인공지능 시스템에서 메모리는 어떻게 작동하는가

Mr. Slumber 2026. 1. 1. 02:11
728x90
반응형

대규모 언어 모델(LLM)에서 메모리가 중요한 이유는 무엇일까요? 첫 번째 이유는 모델 가중치를 저장하기 위해서입니다. 모델 가중치는 모델이 사용자의 질문에 대한 응답을 계산하는 데 필요한 수십억 또는 수조 개의 숫자로 이루어진 거대한 배열입니다.

두 번째 이유는 '컨텍스트 윈도우'라고 불리는 것입니다. 이는 모델이 한 번에 기억할 수 있는 입력량의 크기를 나타냅니다. 예를 들어, 구글의 제미니 모델은 현재 100만 토큰의 컨텍스트 윈도우를 지원합니다. 즉, 70만~80만 단어에 달하는 텍스트, 거의 해리 포터 시리즈 전체 분량을 한 번에 처리하면서도 텍스트의 각 부분 간의 관계를 모두 유지할 수 있다는 뜻입니다. 만약 이를 확장하여 미국 의회 도서관 전체 분량의 텍스트를 처리하려면 훨씬 더 많은 메모리가 필요할 것입니다.

토큰에 대해 간단히 설명드리겠습니다. 토큰은 단어, 단어의 일부, 구두점 또는 기타 텍스트 단위일 수 있습니다. LLM(로컬 러닝 머신)은 입력 토큰 하나당 출력 토큰을 생성합니다. 이를 위해 메모리에 저장된 숫자 배열에 대해 엄청난 수의 행렬 곱셈을 수행합니다. 이 과정을 통해 "어텐션(attention)"이라는 핵심 값을 계산합니다. 구글이 2017년에 발표한 논문 " Attention Is All You Need "에서 처음 소개된 어텐션 은 모든 최신 트랜스포머 기반 LLM의 핵심 개념이며, LLM에 강력한 성능을 부여하는 요소입니다.

바로 이 지점에서 고대역폭 메모리(HBM)가 중요한 역할을 합니다. 모델에 입력이 주어지면 가중치와 토큰이 GPU로 전달되어 GPU가 수조 개의 곱셈 연산을 수행하여 출력 토큰을 생성해야 합니다. 모델이 빠르게 반응하려면 메모리에서 데이터를 주고받는 속도가 매우 빨라야 합니다. 현재 이러한 요구 사항을 충족할 수 있는 메모리 유형은 HBM뿐입니다.

핵심은 간단합니다. GPU 속도를 아무리 높여도 제때 데이터를 공급할 수 없다면 아무 소용이 없다는 것입니다 . HBM은 정보 흐름을 안정적이고 빠르게 유지함으로써 이러한 병목 현상을 극복하는 데 도움을 주며, 이것이 바로 오늘날 AI 학습과 추론 모두에서 HBM이 매우 중요한 역할을 하는 이유입니다.

HBM에 숨겨진 놀라운 엔지니어링
HBM의 내부 구조는 그 자체로 공학적 업적입니다. 여러 개의 실리콘 메모리 칩이 수직으로 쌓여 있고 수천 개의 미세한 전선으로 연결되어 있습니다. 이 메모리 칩 각각은 DRAM(Dynamic Random Access Memory)입니다. DRAM은 정보를 유지하기 위해 지속적으로 갱신되어야 하므로 동적 메모리라고 불립니다.

DRAM 자체는 새로운 기술이 아닙니다. DRAM 기술의 정점은 1980년대였으며, 당시 전 세계 반도체 기업들은 DRAM 시장 주도권을 놓고 치열한 경쟁을 벌였습니다. 결국 일본이 그 시장을 장악했습니다. 이후 DRAM은 지속적으로 발전해 왔지만, 용량 확장 속도는 급격히 둔화되었습니다. 과거에는 무어의 법칙에 따라 2년마다 용량이 두 배로 증가했지만, 이제는 10년 이상이 걸립니다. 단일 DRAM 칩으로는 더 이상 용량을 확장할 수 없게 되면서, 유일한 해결책은 여러 개의 칩을 쌓아 올리는 것입니다. 이는 2005년경 CPU의 속도가 데너드 스케일링을 통한 증가를 멈추고 멀티코어 프로세서로 전환했던 상황과 유사합니다. 메모리 역시 칩을 쌓아 올리는 방식으로 이와 같은 길을 걸어왔습니다.

하지만 DRAM을 적층하는 데에는 몇 가지 어려움이 있습니다. 전체 적층 높이가 너무 높아지는 것을 방지하기 위해 각 DRAM 다이는 주방용 알루미늄 호일 두께(20~30 마이크론) 정도로 얇게 만들어야 합니다. 각 다이를 연결하기 위해 제조업체는 실리콘에 수천 개의 미세한 구멍(TSV, Through-Silicon Via)을 뚫고 금속으로 채웁니다. 이 TSV는 적층된 다이들을 수직으로 연결하는 역할을 합니다.

상호 연결 규모는 엄청납니다. 최신 세대의 HBM에서는 각 다이에 거의 10,000개의 연결이 필요할 수 있습니다. 12개의 다이를 쌓아 올릴 경우, 스택이 제대로 작동하려면 모든 연결이 완벽하게 정렬되어야 합니다. 이 때문에 제조 수율이 매우 어렵고, 적층되는 레이어 수가 증가할수록 어려움은 더욱 커집니다.

현재 가장 널리 사용되는 기술은 HBM3와 HBM3e입니다. HBM3e는 최대 12개의 DRAM 다이를 적층할 수 있으며, 각 다이는 약 3GB의 용량을 제공합니다. 따라서 단일 스택에 총 36GB의 용량을 저장할 수 있으며, 1TB/s 이상의 데이터 전송 속도를 제공합니다. 차세대 HBM4는 스택당 최대 16개의 다이를 탑재하여 용량을 더욱 늘릴 것으로 예상됩니다. 병렬 데이터 레인의 수가 증가하고 레인당 속도가 향상됨에 따라 예상 대역폭은 3TB/s 이상, 용량은 64GB에 달할 것으로 전망됩니다.



https://open.substack.com/pub/aisupremacy/p/why-memory-defines-ai-hardware-supremacy-hbm

728x90