728x90
반응형

(배경) 컴퓨팅 성능이 제한된 디바이스 환경에서 수십~수백 GB 규모의 대형 AI 모델을 실행하기 위해서는, 원본 성능을 유지하면서 모델을 효율적으로 압축하는 경량화 기술이 핵심

 

 

인공지능 모델 경량화 기술 동향 [주간기술동향 2182호] (2025.07.09 발행)

 

인공지능 모델 경량화 기술 동향 [주간기술동향 2182호] (2025.07.09 발행)

 

 

 

 

1. 양자화 (Quantization)

LLM 모델의 연산 정밀도를 낮춰 메모리 사용량을 줄이고, 연산 속도와 에너지 효율을 동시에 향상시키는 기술

 

  • 정의:
    모델의 파라미터나 연산(예: 곱셈, 덧셈)에 사용되는 정밀도(비트 수)를 낮추는 기술입니다. 일반적으로 32bit(부동소수점, float32)로 표현하던 가중치와 활성값을 16bit(float16, bfloat16), 8bit(int8) 등 더 낮은 비트로 표현합니다.

- 양자화는 LLM의 가중치·활성값을 FP16·32 대신 INT4·8로 값 표현만 축소해 메모리를 최대 8배 절감하고, 캐시 적중률·병렬 처리를 높여 추론 속도·전력 효율을 동시에 끌어올리는 기법

 

* FP(Floating Point) : 소수점을 포함한 실수를 표현하는 방식으로 숫자가 클수록 더 정밀하지만, 메모리를 많이 사용

** INT(Integer) : 정수만 표현하는 방식으로 숫자가 작을수록 메모리를 적게 사용하지만, 정밀도는 떨어짐

 

- 최근에는 연산별 중요도를 평가해 중요 연산에는 고정밀, 영향이 적은 부분에는 저정밀로 처리해 정확도 손실없이 효율을 극대화하는 혼합 정밀도 기법이 활용됨

 

  • 장점:
    • 모델의 메모리 사용량 절감 (예: 4배 축소)
    • 연산 속도 향상 (저정밀 연산이 더 빠름)
    • 에너지 사용량 감소 (저전력 하드웨어 활용)
  • 단점:
    • 연산 정밀도 감소 → 모델 성능이 소폭 저하될 수 있음
    • 적절한 양자화 및 복원 기법(예: 양자화 후 트레이닝, Post-Training Quantization)이 필요
  • 예시:
    • 8bit 양자화(Quantization-Aware Training, QAT)
    • LoRA, GPTQ 등 LLM 압축에서도 활용

2. 지식 증류 (Knowledge Distillation)

  • 정의:
    큰 “스승(teacher)” 모델(일반적으로 큰 성능 좋은 모델)이 만든 예측 결과 또는 중간 표현을 “학생(student)” 모델(작고 빠른 모델)에게 지도 신호로 제공하며 학습시키는 방식입니다.

대형 모델(Teacher)의 추론 결과를 소형 모델(Student)에 학습시켜, 모델 크기를 줄이면서도 유사한 성능을 유지하는 기법

 

- 대형 모델이 각 답안의 ‘확신 정도(Softmax 확률 분포)’를 제공하고, 작은 모델이 이를 모방해 연산·메모리는 대폭 줄이면서 정확도는 거의 유지하는 ‘응답 기반 증류’가 가장 널리 쓰임

 

- 최근에는 트랜스포머 LLM이 CNN·RNN 등 서로 다른 구조의 학생 모델에도 지식을 전달하는 ‘교차-구조 지식 증류’ 연구가 활발

  • 장점:
    • 학생 모델은 더 작지만, 스승 모델에서 배운 “암묵적 지식” 덕분에 일반 학습보다 좋은 성능 발휘
    • 모델 경량화 및 추론(실행) 속도 개선
  • 단점:
    • 스승 모델이 반드시 필요(추가 비용)
  • 예시:
    • TinyBERT, DistilBERT(대형 BERT의 증류 버전)

3. 가지치기 (Pruning)

  • 정의:
    뉴런(노드) 또는 노드 사이 연결(가중치) 중, 중요한 기여를 하지 않은 부분(값이 작은 가중치, 적게 활성화되는 뉴런 등)을 제거(0으로 만듦)함으로써 모델을 간소화하는 기술

중요도가 낮은 뉴런이나 연결을 제거해 파라미터와 연산량을 줄이는 기술- 처리 방식은 크게 비구조적·구조적 가지치기로 구분되며, 이후 성능 유지를 위해 재학습 과정을 거침

 

* 비구조적 가지치기(Unstructured Pruning): 중요도가 낮은 개별 가중치를 선택적으로 제거해 희소성을 높임

** 구조적 가지치기(Structured Pruning): 전체 뉴런, 채널, 블록 등 구조 단위로 제거해 모델의 구조를 단순화

 

  • 장점:
    • 파라미터 수 감소 → 메모리와 연산량 감소
    • 모델 실행속도 개선 가능
  • 단점:
    • 가지치기 후, 성능 하락 가능성/재학습 필요
    • 하드웨어에서의 효율 실현은 구조에 따라 상이
  • 예시:
    • Weight Pruning, Structured Pruning, Unstructured Pruning
기술명 개념/방법 장점 단점 예시
양자화 연산 정밀도 축소 메모리 ↓, 속도 ↑, 에너지 성능 소폭 저하 8bit GPTQ
지식 증류 teacher-student 성능 유지, 모델 크기 teacher 필요 DistilBERT
가지치기 중요도 낮은 연결 제거 파라미터↓, 속도·메모리 성능 감소, HW 문제 Weight Prune
728x90
Posted by Mr. Slumber
,