728x90
반응형
딥러닝의 3대 요소
마법과 같은 AI세상입니다. 이것이 어떻게 가능했는가에 대해서는 대체로 일관되게 3가지를 꼽곤 합니다.
1.훌륭한 알고리즘
2.고속 계산 하드웨어들
3.대용량의 데이터들
이 3가지 축을 따라가며 고민을 함께 해나가 봅시다.
훌륭한 알고리즘
훌륭한 알고리즘이라면 대표적으로 지금의 LLM을 가능하게 했던 트랜스포머(Transformer)같은 알고리즘이나, 멋진 그림들을 그려내는 Stable Diffusion 같은 알고리즘들을 말합니다. 물론 공간쪽에서 쓰이는 NeRF같은 것들도 있구요. 여전히 많은 연구자들이 다양한 면에서 개선된 알고리즘을 내놓으며 피튀기게 싸우고 있습니다. 아까 위에서 본 모델들의 탑스코어 경쟁에서도 그러한 모습들을 볼 수 있죠. 다만 이 혁신의 속도를 바라보다보면 약간은 기가 질려서, 저 경쟁에 직접 뛰어들기보다는 ‘이기는 편 우리편’이라는 전략으로 승자를 기다리는 편이 훨씬 낫겠다는 생각이 들곤 합니다.
실제로 알고리즘의 우위는 영원하지 않습니다. GPT 3.5가 나왔을 당시의 첫 감상은 ‘이런 건 세상 누구도 못만들 것’같은 느낌이었습니다. 하지만 페이스북의 LLaMA 모델 공개는 전세계 연구자들의 가열찬 개조와 개발을 촉발 시켰고, 이제는 예전 GPT 3.5의 성능을 뛰어넘었다는 모델은 꽤나 자주 등장하고 있습니다. 물론 지금도 GPT 4의 성능은 최고입니다만, 그 턱밑까지 쫓아온 모델들이 상당합니다.
위는 https://chat.lmsys.org/ 에서 유저들의 체감 성능 투표에 의해 뽑힌 모델의 성능 순서입니다. GPT4와 3.5 사이에 여러 친구들이 포진해 있는 것을 볼 수 있습니다. 영원할 것 같은 GPT4의 성능도 언젠가는 다른 모두들이 수렴하지 않을까 싶습니다. 아직 한국어 기준에서는 쓸만한 오픈소스 모델이 드물기는 하지만, 이것도 시간이 해결해주지 않을까요? (새로운 국내 모델이 나오거나, 외국의 오픈된 모델이 한국어도 잘하게 되거나)
대단위 계산이 가능한 하드웨어
알고리즘이 수렴한다면 다음 경쟁 지점은 어디일까요? 하드웨어입니다. 다들 아시다시피 머신러닝의 학습에는 굉장히 많은 계산이 필요합니다. 계산을 빠르게 끝내기 위해서는 ‘순서(sequential)’대로 하는 것이 아니라, ‘병렬적(parallel)’으로 동시에 진행해야 합니다. 그리고 GPU는 이러한 병렬 계산에 특화된 프로세서입니다. 덕분에 이런 계산용 GPU를 만드는 NVIDIA의 주가는 하늘 높은 줄 모르고 솟아올랐고, 지금은 나스닥 전체 3위를 차지했네요. 세상에 주식 좀 더 사둘걸 ㅎㅎ
이제 AI회사의 경쟁력은 NVIDIA H100 기종 물량을 얼마나 확보할 수 있는가로 결정된다는 이야기가 있을 정도입니다. 돈주고도 못구하게 상황이거든요. 실제로 가장 많은 H100을 확보했던 메타와 MS의 주가가 가장 많이 오르기도 했으니 어느정도 맞는 말일지도 모르겠네요.
현재 각 회사의 AI경쟁력을 결정하는 것은 그걸 직접 개발하는 회사가 아니라, 하드웨어를 공급하는 NVIDIA가 되었습니다. 이렇게 하드웨어 공급사에게 발목잡혀 하고 싶은 것을 마음대로 할 수 없는 상황에 열받았는지, OpenAI의 샘알트먼은 9000조(!) 를 들여서 AI칩을 생산해 내는 새 생태계를 꾸릴 것이라는 엄청난 계획을 발표하기도 했죠. 머신러닝에서 하드웨어의 중요성을 다시 한번 느끼게 됩니다.
하지만 위와 같은 거대 중공업과 같은 흐름은 어찌보면 모델의 ‘생산자’관점입니다. 모델을 만드는 과정에서 ‘훈련(Training)’을 잘 하기 위해서는 매우 거대한 장비가 필요하지만, 훈련이 끝난 모델의 ‘소비자’가 되는 일반 기업들은 ‘추론(Inference)’이 잘 작동하기만 하면 됩니다. 이를 위한 여러 시도들이 활발하게 이루어지고 있습니다. 훈련된 ML모델을 더욱 작고 가볍게 만드면서도 성능을 유지하는 모델 경량화 기술들이 대거 등장하고 있으며, 이런 모델들을 작은 장치에서도 가볍게 돌릴 수 있게하는 많은 추론 전용 하드웨어들이 나오고 있습니다. 이 발전이 수렴하는 시점에서 ‘사용자’관점에서는 하드웨어 장벽도 크게 의미가 없어질 것입니다.
대용량의 데이터들
결국 마지막으로 남게 되는 것은 데이터들입니다. 데이터들은 크게 2가지로 나눌 수 있습니다. 누구든 웹으로 억세스 가능한 세상에 오픈된 데이터 (public data)와 개별 회사나 개인이 보유한 사적 데이터들(private data)입니다. 이제까지 우리가 신기해하던 GPT4나 Stable Diffusion 같은 머신러닝들은 대체로 이런 public data에 기반해서 만들어지고 있습니다. OpenAI의 GPT나 구글의 gemini등을 만들기 위해서 필요한 데이터의 양은 어마어마해서 보통 수십억개의 웹페이지, 공개된 논문들, 데이터베이스등이 사용됩니다.
반대로 말하자면 GPT등의 LLM등은 학습하는데 공개된 정보만을 사용하였기 때문에, 정말 똑똑하더라도 우리 회사 내부의 private한 정보는 아무것도 모릅니다. 때문에 정말 우리 회사 실무에 완전히 커스터마이즈되어서 동작하기 위해서는 이렇게 public data만 알고 있던 녀석들에게 private data를 반영시켜줘야 합니다.
private 데이터를 반영하기 ‘기술들’
LLM에게 private data를 반영시키는 대표적인 기술은 파인튠(finetune)과 RAG입니다. 파인튠은 기존의 LLM을 추가적으로 훈련을 더 시켜서 우리회사의 private한 정보들까지 알고있는 새 모델을 만드는 과정입니다. 비유를 들어보자면 LLM은 세계 최고의 학교에서 공부도 열심히 하고 다방면의 지식을 가진 매우 훌륭하고 똑똑한 인재이지만, 우리 회사에 대해서는 아무것도 모르는 친구라고 생각하면 됩니다. 이 친구에게 우리 회사 일을 맡기기 위해 회사 연수원에서 몇달 굴려서 새 인간(?)으로 거듭나게 하는거죠. 연수원에서 개조(?)되어 나온 이 친구는 이제 우리 회사일을 잘 해낼 수 있을 겁니다.
다만 파인튠은 어쨌거나 새 모델을 만드는 과정입니다. LLM이라는게 원래도 다루기 힘든 거대 모델이다보니 조금 만 더 업데이트 시키는 과정이라 하더라도 일이 좀 큽니다. 요즘은 LoRA등의 좀 더 가볍게 업데이트하는 여러 기법이 나오기는 했지만 여전히 꽤 좋은 하드웨어와 비용과 시행착오가 필요합니다. 때문에 많은 회사들은 파인튠에 집중하기 보다는 조금 더 간편한 RAG로 접근하고 있습니다.
RAG는 Retrieval-Augmented Generation의 약자입니다. 순서대로 번역해보면 ‘검색(Retrieval)→증강(Augmented)→생성(Generation)’ 입니다. LLM에게 일을 시키기 전에, 지금 시키려고 하는 일과 가장 관련성이 높은 우리 회사의 내부 데이터를 찾아 (검색), 프롬프트를 만들 때 이 지식들을 덧대어 LLM에게 지식을 알려주면서(증강), 궁금한 것을 물어 답을 얻습니다(생성).
비유해보자면, 훌륭하지만 우리 업무는 모르는 알바를 뽑았을 때, 이 친구에게 일을 시키면서, 업무 메뉴얼에서 도움이 될만한 페이지를 발췌해서 복사해주고 ‘참고하면서 일해’라고 하는 것과 비슷합니다.
그런데 왜 이렇게 번거로운 절차를 걸쳐서 하고 있을까요? 한번에 필요한 정보를 다 주면되지, 굳이 검색이라는 과정을 통해서 일부분씩만 전달해줄까요? 그건 LLM이 한번에 기억하고 처리할 수 있는 양에 제한이 있기 때문입니다.
LLM은 컨텍스트 윈도우(Context Window)라고 부르는 사이즈만큼 기억하고 묻고 대답할 수 있습니다. 이 컨텍스트 윈도우의 크기는 처음 GPT가 나왔을 때 4096 토큰 사이즈 였으며, 가장 최신의 그리고 가장 비싼 GPT4가 128k의 사이즈를 가집니다. (정의상 1 토큰은 여러글자일수도 있지만, 한글 기준에서는 편의상 1토큰이 1글자라고 생각해도 무방합니다.) 저건 아직 작은 사이즈여서, 가장 비싼 모델을 써도 한 회사의 전체 데이터를 담기에는 턱없이 모자란 양이죠.
때문에 검색이라는 과정을 통해 작은 사이즈로 발췌를 해야 하는 이유가 생기고, 여기에 많은 테크닉이 들어가게 됩니다. LangChain이라던가 LamaIndex라던가 하는 많은 라이브러리들이 이 문제를 풀기 위해 나왔고, 많은 스타트업들은 이것들을 이용해 새로운 서비스들을 출시하고 있습니다. ‘우리 회사는 훌륭한 AI기술을 가지고 있다’라고 말하는데, 알고보면 ‘남들보다 RAG를 잘 써서, 작은 컨텍스트 윈도우를 잘 활용할 줄 안다’ 인 경우가 꽤나 많습니다. 그런데, 과연 이 RAG 테크닉으로 AI 우위를 잡는게 앞으로도 의미가 있을까요?
https://www.yonghosee.com/ai-strategies-must-align-with-data#2e68d23f-b57d-4a4e-96a1-49f0b8b5cd93
728x90
'12. 메일진' 카테고리의 다른 글
ITFIND 메일진 제1161호 산업분야별 정보메일 (발행 : 2024-03-22 ) (1) | 2024.03.23 |
---|---|
Apple이 Multimodal LLM인 MM1에 대해 공개한 논문 정보 (0) | 2024.03.20 |
ITFIND 메일진 제1160호 산업분야별 정보메일 (발행 : 2024-03-15 ) (0) | 2024.03.16 |
ITFIND 메일진 제1159호 산업분야별 정보메일 (발행 : 2024-03-08 ) (1) | 2024.03.11 |
생성형 AI - LLaMa - Llama 2와 함께하는 프롬프트 엔지니어링 - 1시간 강의 (0) | 2024.03.08 |