728x90
반응형
저장·연산 동시 처리 차세대 반도체 ‘프로세싱 인 메모리(PIM·Processing In Memory)’
 
메모리 반도체에 연산 작업을 할 수 있는 인공지능(AI) 프로세서를 더한 제품
- 기술이 발달하고 인공지능을 응용하는 영역이 늘면서 고성능 메모리 반도체를 원하는 요구가 커졌다
- CPU가 메모리 반도체로부터 명령어를 불러오고 실행하고 그 결과를 다시 기억장치에 저장하면서 주고받는 정보가 많아지면 더디게 작업해야하는 한계 극복 목표
 
 

로직-메모리 간 통신 동작 다이어그램을 통한 NM PIM과 IM PIM 기술의 구분 설명

 

조성재. (2021). 프로세싱-인-메모리를 위한 메모리 소자 기술. 전자공학회지, 48(6), 25-35.

1) 아날로그 PIM 매크로: 인공 신경망의 유연성 및 분류 정확도의 한계 표현, 높은 에너지/면적 효율 성능을 가짐

2) 디지털 PIM 매크로: 효율성과 처리량이 적은 대신 물리적 변화를 피하는 장점
 
 
- 기존의 메모리 엑세스 병목 문제를 해결하기 위한 새로운 구조 제안
- 데이터의 이동을 최소화하기 위한 구조
- 최종 목표는 다른 크기의 PIM으로 데이터의 이동을 보장하는 것을 목표로 함
 
 
- 기술이 발달하고 인공지능을 응용하는 영역이 늘면서 고성능 메모리 반도체를 원하는 요구가 커졌다
- CPU가 메모리 반도체로부터 명령어를 불러오고 실행하고 그 결과를 다시 기억장치에 저장하면서 주고받는 정보가 많아지면 더디게 작업해야하는 한계 극복 목표
 

 

 
프로세서와 메모리가 분리된 폰노이만 구조에서는 데이터의 양이 증가하면 데이터 병목현 상이 필연적으로 발생하는데, 이러한 이유로 프로세서와 메모리를 통합하자는 PIM 구조는 이미 1970년대부터 알려져 있다
 

 
프로세서와 메모리가 분리된 구조의 폰노이만 구조는 사용자의 성능 요구량이 커지면서 로직과 메모리 사이의 데이터량에 의해 한계에 직면했다. 특히, 다양한 구조의 연구가 진행되고 있으나 그 중에 SRAM 기반의 PIM 구조에 대해서 언급을 하고자 한다. SRAM 메모리 밀도를 기존의 향상 한 트랜지스터 SRAM 셀 기술이 연구되고 있다.

 

뉴런, SRAM, 스파이크 생성변환, Classification, 제어기 등의 모듈로 구성이 이루어져 있다. 스파이크 입력을 변환하는 생성변환 블록과 뉴런 의 어레이에서는 뉴런의 가소성과 스파이크의 입력 및 입출력 뉴런의 시간에 따라서 맴브레 인 전압이 올라가거나 또는 감소되는 동작을 수행하고, 일정 전압 이상이 되면 스파이크가 발화를 하는 동작으로 학습을 하며, 학습이 완료된 후에 이러한 특성을 입력을 분류하는 동작을 수행한다. 웨이트 값은 정기적으로 업데이트하며 웨이트의 값은 메모리(SRAM)에 저장한다.
 
 
과학기술정보통신부에서 작년 4월에 배포한 “국내 인공지능 반도체 설계 역량을 총 결집해 인공지능 반도체 1등 국가에 나선다”라는 제목의 브리핑을 살펴보면, PIM을 “CPU (중앙처리장치) 중심 컴퓨팅을 뇌 구조와 같은 메모리 중심 컴퓨팅으로 바꾸는 반도체(현재의 메모리-프로세서의 속도효율 저하, 전력증가 문제해결 기대)”라고 정의하였다.  현재까지 컴퓨터를 설계하는 주된 방식인 폰 노이만 아키텍처에서는 데이터와 명령어를 메모리에 저장하며, CPU가 명령어를 순차적으로 메모리에서 읽어서 이를 해석하고 처리한다.  폰 노이만 아키텍처의 핵심은, 데이터와 명령어를 저장하는 주기억장치인 메모리이며, 지난 수십년간 Dynamic Random-Access Memory, 줄여서 DRAM이라고 하는 종류가 사용되고 있다.
 
1970년대 후반에 만들어진 Apple 사의 대표적인 컴퓨터인 Apple II를 보면, CPU가 DRAM에 접근할 때 걸리는 시간은 한 클럭 사이클이 되지 않았다.  메모리 접근 시간이 매우 짧고 CPU의 집적도 또한 매우 낮았기 때문에, 데이터 처리(Processing)를 메모리 내부(In Memory)에서 할 이유가 없었다.
무어의 법칙에 의해 집적회로의 집적도가 지수적으로 증가하면서, 대표적인 집적회로인 CPU와 DRAM 모두 성능이 비약적으로 향상되었는데, 목표가 서로 상이한 이들 집적회로의 소자, 공정 및 설계와 관련해, 분기(Divergence)가 일어나고 가속화 되었다. CPU의 경우는 동작속도를 높이는 것이 주된 목표였는데 반해 DRAM의 경우 저장용량을 늘리는데 초점이 맞추어졌다. 이로 인해, 1990년대 말에는 주기억장치 DRAM에 접근하는 시간이 수백 CPU 클럭 사이클에 이르게 되었으며, DRAM이 공급하는 자료전송 대역폭 또한 CPU의 수요에 비해 턱없이 부족하게 되었다.
소위 Memory Wall이라고 불리는 이러한 CPU와 DRAM 간의 성능 격차로 인한 문제를 해결하기 위한 방안 중 하나로, 메모리의 내부 혹은 근처에서 연산을 수행하는 기술인 PIM이 제시되었다.  하지만 앞서 언급한 바와 같이 CPU와 DRAM의 소자와 공정 및 설계의 차이로 인해, DRAM 근처에 연산을 처리하는 집적회로를 두는 것이 CPU에서 연산을 처리하는 것보다 크기는 수 배 이상 크지만 성능은 매우 떨어지는 문제가 발생하여, 1990년대 후반에 잠시 주목받았던 PIM 기술은 성공을 거두지 못하였고, 세간의 관심에서 멀어졌다.
하지만 2000년대 중반부터 데나드 스케일링(집적회로의 모든 트랜지스터를 동작시키면서도 단위 면적 당 전력 소모를 유지시키는 것)을 유지하기 어렵게 됨에 따라, 무어의 법칙에 의해서 더 많은 트랜지스터를 집적할 수 있지만 이를 모두 동작시킬 수는 없는, 풍요속의 빈곤이 발생하게 되었다.  이로 인해 집적회로 대부분의 트랜지스터를 동작 시킬 수 없는 다크 실리콘 시대가 시작되었는데, 이 시대에서 집적회로 설계의 최우선 과제는 에너지의 소모를 줄이는 것이 되었다.  
 
그리하여 현대 컴퓨터 설계에 있어서는 가속기의 활용이 증대되고 있으며, DRAM에서 데이터를 읽고 쓸 때 높은 접근시간과 낮은 시간 당 전송량 뿐 아니라 높은 에너지 소모량이 큰 문제로 대두되고 있다.  또한, TSV와 실리콘 인터포저 등 삼차원 적층/집적 기술이 성숙하고 기억장치 제조에 있어서도 자료의 연산 및 처리를 위한 수요가 늘어나면서 PIM을 상용화할 수 있는 환경이 조성되었고, 다크 실리콘의 시대에 살고 있는 우리에게 DRAM 접근 에너지를 줄이는 것의 중요성은 1990년대 말에 비해 더욱 중요하게 되었으므로, 국내에서도 PIM 관련 여러 연구개발 사업이 시작되려 하고 있다.
 
이러한 긍정적인 변화의 흐름 속에서 재조명 받기 시작한 PIM이 상업적으로 성공하기 위해서는 소자 및 공정, 회로, 컴퓨터 구조 관련 연구도 중요하지만, 해당 기술을 통해 극적인 성능과 에너지 효율의 향상을 거둘 수 있는 킬러 애플리케이션의 확보가 필수적이다.  현재 학계를 포함하여 사회, 경제적으로 가장 주목받는 AI 응용을 타겟으로 특화하려는 시도가 정부를 중심으로 이루어지고 있다. 딥러닝 알고리즘 및 인공신경망의 구조는 빠르게 진화하고 있으나 PIM을 포함한 하드웨어 개발에는 시간이 소요되므로, 시대에 뒤쳐진 하드웨어 기술을 개발하는 우를 범하지 않기 위해 관련 분야 연구자들이 밀접하게 연계하여 기술 개발을 진행하는 것이 필수적일 것이다.
 
 

한국정보과학회 뉴스레터(제692호, 2021년 1월 27일) - 전문가광장/오피니언

      왜 지금, 다시 PIM 인가 안정호 교수서울대학교 융합과학기술대학원     최근 정부에서 발표한 AI (인공지능) 국가전략은 “세계 최고 수준의 메모리 반도체 경쟁력을 발판으로 AI 반도체

www.kiise.or.kr

 

 
728x90
Posted by Mr. Slumber
,