728x90
반응형

(개념) 사용자나 전문가가 제공한 선호 응답과 비선호 응답 데이터를 활용해 모델이 선호하는 답변을 더 자주 생성하도록 학습시키는 방법
- 대형 언어 모델(LLM)의 미세 조정(fine-tuning) 기법 중 하나

(방식)기존의 여러 단계의 학습 과정을 하나로 통합하여, 추가 보상 모델 학습 없이도 supervised fine-tuning(SFT) 단계에서 직접 odds ratio(승산비)를 이용해 선호도 정렬을 수행

ORPO 방식 개요

ORPO는 선호하는 응답과 선호하지 않는 응답 쌍을 이용해, 모델이 선호하는 응답을 생성할 확률과 비선호 응답을 생성할 확률의 odds ratio(비율)를 계산합니다.이 odds ratio를 로그 우도 손실 함수에 통합하여 페널티(term)로 사용함으로써, 모델이 선호하는 응답 쪽으로 확률을 더 높이도록 학습합니다.참조 모델(reference model) 사용 없이 단일(SFT) 단계에서 이 과정을 수행하여 학습 효율과 계산 자원을 절약합니다.

ORPO의 특징과 장점

기존 RLHF(강화학습을 활용한 선호도 학습)보다 학습 과정이 단순하고 효율적입니다.별도의 보상 모델을 따로 학습하거나 복잡한 강화학습 단계를 거칠 필요없이, SFT 단계에서 선호도 반영 학습을 끝낼 수 있습니다.Phi-2, Llama-2, Mistral 등 다양한 크기의 모델(125M~7B 파라미터)에서 효과를 검증했으며, 일부 7B~13B 이상의 대형 모델 성능을 능가하는 결과도 보고되었습니다

ORPO 수식적 정의 (개념 수준)

728x90
Posted by Mr. Slumber
,