728x90
반응형
[그림 7] Next Token Prediction 학습 방법 (출처 : Alammar, J 블로그)
- 기존의 GPT 모델은 입력으로 들어온 텍스트 코퍼스 다음에 어떤 단어가 올지 예측하는 Next Token Prediction 학습을 진행
- 이렇게 학습을 진행할 경우 문장을 완성하는 것이 목표기 때문에 사람과 대화하는 것처럼 인터랙션 할 수 없음
- GPT-3가 빈칸을 채우는 형태의 프롬프트 엔지니어링이 필요한 이유가 바로 이 학습 방식 때문
Step 0. Pretraining
- GPT-3처럼 언어모델을 대용량의 학습데이터에서 사전학습
- ChatGPT는 추가로 사람이 만든 입력 프롬프트 데이터로 fine-tuning 시킴
Step 1. Supervised Fine-tuning
- 데이터셋에서 프롬프트를 샘플링하고, 사람이 직접 적절한 답변을 작성한 데이터 수집
- 사전학습된 언어 모델을 사람 답변 문장을 수집한 데이터셋으로 지도학습 진행
Step 2. Training reward model
- 프롬프트를 샘플링하고 앞에서 학습한 언어모델을 통해 같은 입력에 대해 k개(4~9개)의 결과물을 생성
- 사람이 k개의 결과물에 대해 순위를 매김 (상대적 비교 방식)
- 랭킹 데이터를 사용해서 (입력 프롬프트, 모델이 생성한 문장)을 입력으로 받으면 점수를 출력하는 보상 모델을 학습 (k개 결과 문장 중 두 문장 선택하여 두 문장 중, 어느 문장이 더 선호되는지 학습)
Step 3. Reinforcement Learning with PPO algorithm
- 2단계에서 지도 학습한 언어모델을 강화학습 알고리즘으로 추가 학습(fine-tuning) 진행
- 언어모델이 프롬프트를 입력으로 받으면 결과 문장 생성 → 보상 모델이 입력 프롬프트와 결과 문장을 평가하여 점수 계산 → 언어모델이 받은 점수를 이용해 더 높은 점수를 받을 수 있도록 언어모델을 업데이트
- ChatGPT에서는 PPO(& PPO-ppx) 알고리즘을 사용
참고) RLHF로 학습된 주요 언어모델
- OpenAI : ChatGPT, InstructGPT(GPT-3.5)
- DeepMind : Sparrow, SFT-Utilitarian model
- Anthropic : Claude
https://tech.kakaoenterprise.com/181
728x90
'07.AI' 카테고리의 다른 글
생성 AI : 스탠포드 HAI의 관점 (0) | 2023.03.20 |
---|---|
초거대언어모델의 부상과 주요이슈 - ChatGPT의 기술적 특징과 사회적‧산업적 시사점 (2) | 2023.03.14 |
GPT부터 BERT까지 (0) | 2023.03.08 |
Gen AI Conference 2023.2.14 (0) | 2023.03.08 |
'생성 AI'는 앞으로 사회 어떤 분야에서, 어떤 영향을 미칠 것인가! (1) | 2023.03.06 |