728x90
반응형

윤성재, 조한진, 김원종. (2018). DNN 추론 가속 하드웨어 최적화를 위한 양자화 기법. 대한전자공학회 학술대회, (), 1393-1395.

 

DNN 추론과정 : 피쳐맵과 실수 형식의 필터를 합성곱 하는 연산으로 구성

 

 

성능 향상의 병목요인

1) 파라미터의 크기 최적화

2) 합성곱 연산기의 입/출력 비트 개수 최적화

합성곱 연산기의 면적과 처리 시간은 사용하는 비트 개수에 의존적이므로, 

파라미터를 양자화하여 합성곱 연산기의 크기를 줄이면

동일한 HW 리소스에 더 많은 합성곱 연산기 를 집적하여 병렬성을 높일 수 있다.

 

제안하는 방법은 기존에 학습되어 있는 32비트 실수형 파라미터를 양자화했다.

1)우선, 각 레이어에 동일한 비트를 할당하는 균등 양자화를 수행하고,

2)추론 정확도 감소의 영향이 적은 레이어는 더 적은 비트로 양자화하는 가변 양자화를 수행 하였다.

 

이를 통해 추론 정확도의 감소는 최소화하면 서 파라미터 크기를 줄여 하드웨어의 버퍼와 합성곱 연산기의 면적을 줄였다.

 

균등 양자화

(개념) DNN을 구성하는 모든 레이어에 동 일한 비트를 할당하여 양자화하는 것

 

가변 양자화

(개념) 입/출력 피쳐맵과 필터의 크기 및 개수 등의 특성이 다른 다수의 레이어로 구성되어 있어,

각 레이어가 실제 추론 정확도에 미치는 영향이 다르다.

파라미터 양자화를 최적화하기 위해서는 각 레이어의 특성 에 따라 양자화에 필요한 비트 개수를 다르게 해야 한다.

 

728x90
Posted by Mr. Slumber
,