728x90
반응형

https://arxiv.org/abs/2510.15839

2026.5.27
[Learning Correlated Reward Models: Statistical Barriers and Opportunities]

이 연구는 인간의 복잡한 선호도를 정교하게 모델링하기 위해 확률적 효용 모델(RUM)에서 발생하는 통계적 장벽과 그 해결책을 다룹니다. 기존의  비독립적 대안(IIA) 가정은 모든 사용자가 동일한 선호 기준을 가진다고 전제하여 개인화된 예측에 한계가 있었으나, 본 논문은 상관관계가 반영된 프로빗 모델을 통해 이러한 제약을 극복합니다. 연구진은 전통적인 
이지선다형(pairwise) 데이터로는 선호도 간의 상관관계를 파악하는 것이 불가능함을 증명하고, 대신 세 가지 대안 중 최선을 선택하는(best-of-three) 데이터가 모델 식별에 필수적임을 밝혀냈습니다. 결과적으로 효율적인 추정 알고리즘과 
유한 샘플 보장 이론을 제시함으로써, 강화학습(RLHF) 및 추천 시스템에서 더욱 정밀하고 개인화된 보상 모델링이 가능함을 입증했습니다.

 

Figure 1: The probabilities  ℙ{Xi⩾Xj⩾Xk} , for permutations,  (i,j,k) , of  {1,2,3} , correspond to the probability mass in each of the six slices of the plane denoted   through  .

728x90
Posted by Mr. Slumber
,