728x90
반응형

[그림 7] Next Token Prediction 학습 방법 (출처 : Alammar, J 블로그)

  • 기존의 GPT 모델은 입력으로 들어온 텍스트 코퍼스 다음에 어떤 단어가 올지 예측하는 Next Token Prediction 학습을 진행
  • 이렇게 학습을 진행할 경우 문장을 완성하는 것이 목표기 때문에 사람과 대화하는 것처럼 인터랙션 할 수 없음
  • GPT-3가 빈칸을 채우는 형태의 프롬프트 엔지니어링이 필요한 이유가 바로 이 학습 방식 때문 

[그림 8] ChatGPT 학습 방법 (출처 : OpenAI 블로그)

Step 0. Pretraining

  • GPT-3처럼 언어모델을 대용량의 학습데이터에서 사전학습
  • ChatGPT는 추가로 사람이 만든 입력 프롬프트 데이터로 fine-tuning 시킴

Step 1. Supervised Fine-tuning

  • 데이터셋에서 프롬프트를 샘플링하고, 사람이 직접 적절한 답변을 작성한 데이터 수집
  • 사전학습된 언어 모델을 사람 답변 문장을 수집한 데이터셋으로 지도학습 진행

Step 2. Training reward model

  • 프롬프트를 샘플링하고 앞에서 학습한 언어모델을 통해 같은 입력에 대해 k개(4~9개)의 결과물을 생성
  • 사람이 k개의 결과물에 대해 순위를 매김 (상대적 비교 방식)
  • 랭킹 데이터를 사용해서 (입력 프롬프트, 모델이 생성한 문장)을 입력으로 받으면 점수를 출력하는 보상 모델을 학습 (k개 결과 문장 중 두 문장 선택하여 두 문장 중, 어느 문장이 더 선호되는지 학습)

Step 3. Reinforcement Learning with PPO algorithm

  • 2단계에서 지도 학습한 언어모델을 강화학습 알고리즘으로 추가 학습(fine-tuning) 진행
  • 언어모델이 프롬프트를 입력으로 받으면 결과 문장 생성 → 보상 모델이 입력 프롬프트와 결과 문장을 평가하여 점수 계산 → 언어모델이 받은 점수를 이용해 더 높은 점수를 받을 수 있도록 언어모델을 업데이트
  • ChatGPT에서는 PPO(& PPO-ppx) 알고리즘을 사용

참고) RLHF로 학습된 주요 언어모델

  • OpenAI : ChatGPT, InstructGPT(GPT-3.5)
  • DeepMind : Sparrow, SFT-Utilitarian model
  • Anthropic : Claude

 

 

 

 

 

https://tech.kakaoenterprise.com/181

 

ChatGPT, 그 이후

시작하며 본 포스팅은 2023년 2월 3일, 카카오엔터프라이즈 기술전략팀에서 세미나를 진행했던 내용을 요약하고 있습니다. 작년 11월 30일 OpenAI가 ChatGPT를 공개한 이후, ChatGPT의 일 사용자가 5일 만

tech.kakaoenterprise.com

 

728x90
Posted by Mr. Slumber
,