(배경) 컴퓨팅 성능이 제한된 디바이스 환경에서 수십~수백 GB 규모의 대형 AI 모델을 실행하기 위해서는, 원본 성능을 유지하면서 모델을 효율적으로 압축하는 경량화 기술이 핵심
1. 양자화 (Quantization)
LLM 모델의 연산 정밀도를 낮춰 메모리 사용량을 줄이고, 연산 속도와 에너지 효율을 동시에 향상시키는 기술
- 정의:
모델의 파라미터나 연산(예: 곱셈, 덧셈)에 사용되는 정밀도(비트 수)를 낮추는 기술입니다. 일반적으로 32bit(부동소수점, float32)로 표현하던 가중치와 활성값을 16bit(float16, bfloat16), 8bit(int8) 등 더 낮은 비트로 표현합니다.
- 양자화는 LLM의 가중치·활성값을 FP16·32 대신 INT4·8로 값 표현만 축소해 메모리를 최대 8배 절감하고, 캐시 적중률·병렬 처리를 높여 추론 속도·전력 효율을 동시에 끌어올리는 기법
* FP(Floating Point) : 소수점을 포함한 실수를 표현하는 방식으로 숫자가 클수록 더 정밀하지만, 메모리를 많이 사용
** INT(Integer) : 정수만 표현하는 방식으로 숫자가 작을수록 메모리를 적게 사용하지만, 정밀도는 떨어짐
- 최근에는 연산별 중요도를 평가해 중요 연산에는 고정밀, 영향이 적은 부분에는 저정밀로 처리해 정확도 손실없이 효율을 극대화하는 혼합 정밀도 기법이 활용됨
- 장점:
- 모델의 메모리 사용량 절감 (예: 4배 축소)
- 연산 속도 향상 (저정밀 연산이 더 빠름)
- 에너지 사용량 감소 (저전력 하드웨어 활용)
- 단점:
- 연산 정밀도 감소 → 모델 성능이 소폭 저하될 수 있음
- 적절한 양자화 및 복원 기법(예: 양자화 후 트레이닝, Post-Training Quantization)이 필요
- 예시:
- 8bit 양자화(Quantization-Aware Training, QAT)
- LoRA, GPTQ 등 LLM 압축에서도 활용
2. 지식 증류 (Knowledge Distillation)
- 정의:
큰 “스승(teacher)” 모델(일반적으로 큰 성능 좋은 모델)이 만든 예측 결과 또는 중간 표현을 “학생(student)” 모델(작고 빠른 모델)에게 지도 신호로 제공하며 학습시키는 방식입니다.
대형 모델(Teacher)의 추론 결과를 소형 모델(Student)에 학습시켜, 모델 크기를 줄이면서도 유사한 성능을 유지하는 기법
- 대형 모델이 각 답안의 ‘확신 정도(Softmax 확률 분포)’를 제공하고, 작은 모델이 이를 모방해 연산·메모리는 대폭 줄이면서 정확도는 거의 유지하는 ‘응답 기반 증류’가 가장 널리 쓰임
- 최근에는 트랜스포머 LLM이 CNN·RNN 등 서로 다른 구조의 학생 모델에도 지식을 전달하는 ‘교차-구조 지식 증류’ 연구가 활발
- 장점:
- 학생 모델은 더 작지만, 스승 모델에서 배운 “암묵적 지식” 덕분에 일반 학습보다 좋은 성능 발휘
- 모델 경량화 및 추론(실행) 속도 개선
- 단점:
- 스승 모델이 반드시 필요(추가 비용)
- 예시:
- TinyBERT, DistilBERT(대형 BERT의 증류 버전)
3. 가지치기 (Pruning)
- 정의:
뉴런(노드) 또는 노드 사이 연결(가중치) 중, 중요한 기여를 하지 않은 부분(값이 작은 가중치, 적게 활성화되는 뉴런 등)을 제거(0으로 만듦)함으로써 모델을 간소화하는 기술
중요도가 낮은 뉴런이나 연결을 제거해 파라미터와 연산량을 줄이는 기술- 처리 방식은 크게 비구조적·구조적 가지치기로 구분되며, 이후 성능 유지를 위해 재학습 과정을 거침
* 비구조적 가지치기(Unstructured Pruning): 중요도가 낮은 개별 가중치를 선택적으로 제거해 희소성을 높임
** 구조적 가지치기(Structured Pruning): 전체 뉴런, 채널, 블록 등 구조 단위로 제거해 모델의 구조를 단순화
- 장점:
- 파라미터 수 감소 → 메모리와 연산량 감소
- 모델 실행속도 개선 가능
- 단점:
- 가지치기 후, 성능 하락 가능성/재학습 필요
- 하드웨어에서의 효율 실현은 구조에 따라 상이
- 예시:
- Weight Pruning, Structured Pruning, Unstructured Pruning
기술명 | 개념/방법 | 장점 | 단점 | 예시 |
양자화 | 연산 정밀도 축소 | 메모리 ↓, 속도 ↑, 에너지 ↓ | 성능 소폭 저하 | 8bit GPTQ |
지식 증류 | teacher-student | 성능 유지, 모델 크기↓ | teacher 필요 | DistilBERT |
가지치기 | 중요도 낮은 연결 제거 | 파라미터↓, 속도·메모리↓ | 성능 감소, HW 문제 | Weight Prune |
'07.AI' 카테고리의 다른 글
인공지능 - 온디바이스 AI (7) | 2025.07.12 |
---|---|
LLM - 캐시 - 시맨틱 캐싱(Semantic Caching) (4) | 2025.07.11 |
생성형 AI - AI Scientist (0) | 2025.06.30 |
생성형 AI - ResearchAgent (1) | 2025.06.30 |
인공지능 - MoE (Mixture-of-Experts; 전문가 혼합) 기법 (1) | 2025.06.19 |