인간 평가 데이터에 내재한 typicality bias(익숙하고 처리하기 쉬운 텍스트를 선호하는 경향)가 reward 모델을 편향시켜 분포를 "sharpen"하고, 이로 인해 여러 올바른 답이 존재할 때 mode collapse가 발생한다. VS는 모델에게 응답들의 분포와 해당 확률을 말하게 하여 원래의 pretraining 분포에 가까운 다양성을 회복한다.
Figure 1: We show that typicality bias in preference data is a fundamental and pervasive cause of
mode collapse, reducing output diversity. As a solution, we propose Verbalized Sampling (VS), a
principled prompting method that returns distributions of responses, to improve diversity.
그림 1: 우리는 선호도 데이터에서 전형성 편향이 모드 붕괴의 근본적이고 만연한 원인이며, 출력 다양성을 감소시킨다는 것을 보여줍니다. 해결책으로, 우리는 응답 분포를 반환하는 원칙적인 프롬프팅 방법인 Verbalized Sampling(VS)을 제안하여 다양성을 향상시킵니다.
Figure 3: Qualitative and quantitative examples on different tasks. For story writing, VS improves
the output diversity. For the donation dialogue simulation task, VS simulates a donation amount
distribution much closer to the human distribution, and generates more realistic persuasion behaviors
(e.g., resistances and change of minds, see Table 14). On the task of enumerative open-ended
QA, we ask the model to “generate US states”. We first query a pretraining corpus (RedPajama)
to establish a “reference” distribution of US state names in the pretraining data. The verbalized
probability distribution generated by VS, when averaged over 10 trials, closely aligns with this
reference pretraining distribution (KL=0.12). In contrast, direct prompting collapses into a few
modes, repeatedly outputting states like California and Texas. See §G.9 for more detail.
다향성 향상 실험 결과 ===============
그림 3: 다양한 task에 대한 정성적, 정량적 예시. 스토리 작성에서 VS는 결과물의 다양성을 향상시킨다. 기부 대화 시뮬레이션 task에서 VS는 기부 금액 분포를 인간의 분포에 훨씬 더 가깝게 시뮬레이션하며, 더욱 현실적인 설득 행동(예: 저항 및 마음의 변화, Table 14 참조)을 생성한다. 열거형 개방형 QA task에서 모델에게 "미국 주를 생성하라"고 요청한다. 먼저 pretraining 데이터에서 미국 주 이름의 "reference" 분포를 설정하기 위해 pretraining 말뭉치(RedPajama)를 query한다. VS에 의해 생성된 verbalized 확률 분포는 10번의 시도에 걸쳐 평균을 낼 때 이 reference pretraining 분포와 거의 일치한다 (KL=0.12KL=0.12KL=0.12KL=0.12). 대조적으로, direct prompting은 몇 가지 mode로 축소되어 California 및 Texas와 같은 주를 반복적으로 출력한다. 자세한 내용은 §G.9를 참조하시오.
Table 1: Comparison of different prompting methods, given the same computation budget of N total
responses. k is the number of candidates generated per LLM call, specified in the prompt (e.g., k = 5
for the joke task). yi denotes the i-th generated candidate, ˆpi denotes its verbalized probability, and
π(·❘x) represents the LLM’s output distribution conditioned on the prompt x. For Multi-Turn and
VS-Multi, hi−1 denotes the conversation history up to turn i − 1, and t denotes the t-th turn.
프롬프팅 방법 비교 =============== 표 1: 총 N개의 응답에 대해 동일한 계산 예산을 가정했을 때, 다양한 프롬프팅 방법들을 비교합니다. k는 프롬프트에 명시된 LLM 호출 당 생성되는 후보의 수입니다 (예: 농담 task의 경우 k = 5). y_iyiy_iyi는 i번째 생성된 후보를 나타내고, \hat{p}_ip^i\hat{p}_ip^i는 언어화된 확률을 나타내며, \pi(\cdot|x)π(⋅∣x)\pi(\cdot|x)π(⋅∣x)는 프롬프트 x에 따라 조건화된 LLM의 출력 분포를 나타냅니다. Multi-Turn 및 VS-Multi의 경우, h_{i-1}hi−1h_{i-1}hi−1는 i - 1번째 턴까지의 대화 기록을 나타내고, t는 t번째 턴을 나타냅니다.
Figure 4: a-c: Average semantic diversity scores (%) in poem (a), story (b) and joke (c) across
methods and models. Our methods consistently outperform the baselines. We performed a one-
tailed t-test between VS-Standard and the baselines (* p < 0.05, ** p < 0.01, *** p < 0.001). d:
Diversity vs. Quality trade-off for the poem task, where VS-Multi and VS-CoT approach the Pareto
front. e-f: Emergent Trend where larger models benefit more from VS. We show differences in
diversity (e) and quality (f) over Direct across small (GPT-4.1-Mini, Gemini-2.5-Flash) and large
(GPT-4.1, Gemini-2.5-Pro) models. g-i: Tunable Diversity shows the diversity tuning results on
Gemini-2.5-Flash across tasks. Unlike baseline methods in dashed lines, we can tune the diversity
level with VS: as the probability threshold decreases, diversity increases.
다양성 및 품질 분석 === Figure 4: a-c: 시 (a), 이야기 (b), 농담 (c)에서 방법 및 모델에 따른 평균 semantic diversity 점수(%)를 나타냅니다. 제시된 방법들은 baseline보다 지속적으로 우수한 성능을 보입니다. VS-Standard와 baseline 간의 단측 t-검정을 수행했습니다 (* \textit{p}p\textit{p}p < 0.05, ** \textit{p}p\textit{p}p < 0.01, *** \textit{p}p\textit{p}p < 0.001). d: 시 task에서 Diversity와 Quality 간의 trade-off를 나타내며, VS-Multi와 VS-CoT는 Pareto front에 근접합니다. e-f: 더 큰 모델이 VS로부터 더 많은 이점을 얻는 Emergent Trend를 보여줍니다. 소형 (GPT-4.1-Mini, Gemini-2.5-Flash) 및 대형 (GPT-4.1, Gemini-2.5-Pro) 모델에서 Direct 대비 diversity (e) 및 quality (f)의 차이를 나타냅니다. g-i: Tunable Diversity는 task 전반에 걸쳐 Gemini-2.5-Flash에서 diversity tuning 결과를 보여줍니다. 점선으로 표시된 baseline 방법과는 달리, VS를 사용하여 diversity 수준을 조정할 수 있습니다. 즉, probability threshold가 감소함에 따라 diversity가 증가합니다.
Figure 6: Ablation study on temperature for poem generation across GPT-4.1 and Gemini-2.5-
Flash models. We set k = 5 across experiments. Each plot shows the diversity-quality trade-off for
three methods (Direct, Sequence, VS-Standard) at different temperature values (t). VS-Standard can
be combined with temperature to further improve the trade-off, consistently outperforming baselines
across both models.
온도 민감도 분석
=== 그림 6: GPT-4.1 및 Gemini-2.5-Flash 모델에서 시 생성 시 온도에 대한 민감도 분석을 나타냅니다. 실험 전반에 걸쳐 k = 5k=5k = 5k=5로 설정했습니다. 각 plot은 다양한 온도 값 (tttt)에서 세 가지 방법(Direct, Sequence, VS-Standard)에 대한 다양성-품질 trade-off를 보여줍니다. VS-Standard는 온도와 결합하여 trade-off를 더욱 개선할 수 있으며, 일관되게 두 모델 모두에서 기준선보다 뛰어난 성능을 보입니다.
Figure 8: VS performance in Persuasive Dialogue Simulation. (a) Donation Amount Distri-
butions simulated by small, large, and reasoning models with direct and VS, compared against
fine-tuned model (green) and human (blue). We see that VS simulates donation distributions more
similar to human, especially for the larger and reasoning-focused models. (b) Linguistic Alignment
on Distinct-1/2/3, semantic diversity, and readability. Black dashed lines denote human levels; closer
values indicate better stylistic match. VS achieves higher diversity than the direct prompting, ap-
proaching human levels. But the readability score remains higher, suggesting room for improvement.
설득 대화 시뮬레이션
=== 그림 8: 설득 대화 시뮬레이션에서 VS의 성능. (a) 소형, 대형, 추론 모델이 direct 방식과 VS 방식을 사용하여 시뮬레이션한 기부 금액 분포를 fine-tuned 모델(녹색) 및 인간(파란색)과 비교합니다. VS는 특히 대형 및 추론 중심 모델에서 인간과 유사한 기부 분포를 시뮬레이션하는 것을 확인할 수 있습니다. (b) Distinct-1/2/3, 의미적 다양성 및 가독성에 대한 언어적 정렬을 나타냅니다. 검은색 점선은 인간 수준을 나타내며, 값이 가까울수록 스타일 일치도가 높습니다. VS는 direct 프롬프트보다 더 높은 다양성을 달성하여 인간 수준에 근접합니다. 그러나 가독성 점수는 여전히 높아 개선의 여지가 있음을 시사합니다.
Figure 9: Results on the Open-Ended QA task averaged across models. We perform one-tailed t-test
between VS-Standard and baselines (*p < 0.05, **p < 0.01, ***p < 0.001). (a) shows the average
KL divergence between the response distribution and the corresponding pretraining distribution. VS
achieves lower KL divergence compared to baseline methods, indicating closer alignment with the
pretraining distribution. (b) shows the average Coverage-N across all models. This means VS can
generate a broader range of correct answers than the baselines. (c) shows the average precision across
all models. VS methods maintain answer quality comparable to baseline approache
개방형 질의응답 결과 ============= 그림 9: 개방형 질의응답(Open-Ended QA) 작업에 대한 모델 평균 결과입니다. VS-Standard와 기준선 간의 단측 t-검정(one-tailed t-test)을 수행했습니다 (*p < 0.05∗p<0.05*p < 0.05∗p<0.05, **p < 0.01∗∗p<0.01**p < 0.01∗∗p<0.01, ***p < 0.001∗∗∗p<0.001***p < 0.001∗∗∗p<0.001). (a)는 응답 분포와 해당 사전 학습 분포 간의 평균 KL divergence를 보여줍니다. VS는 기준선(baseline) 방법보다 낮은 KL divergence를 달성하여 사전 학습 분포와의 더 나은 alignment를 나타냅니다. (b)는 모든 모델에서 평균 Coverage-N을 보여줍니다. 이는 VS가 기준선보다 더 광범위한 정답을 생성할 수 있음을 의미합니다. (c)는 모든 모델에서 평균 precision을 보여줍니다. VS 방법은 기준선 접근 방식과 유사한 답변 품질을 유지합니다.