728x90
반응형

한 줄 요약  

이 논문은 언어 모델의 hallucination(그럴듯하지만 잘못된 진술)은 신비한 버그가 아니라 통계적 산물이며, 특히 (1) 사전학습(pretraining)에서의 확률모델링과 (2) 사후평가(post-training)·벤치마크의 이진(0-1) 채점이 추측(guessing)을 보상하기 때문에 발생한다고 주장합니다.

 

 
OpenAI가 언어 모델의 환각(hallucination) 현상에 관한 연구 논문을 발표했습니다. 최신 언어 모델들이 벤치마크 점수를 나날이 갱신하고 있지만, 환각 현상은 여전히 해결되지 못한 핵심 문제라고 지적했어요.

OpenAI는 환각의 주요 원인을 훈련 과정에서 답변의 불확실성을 인정하는 것보다 거짓 정보라도 추측하는 쪽에 더 큰 보상(reward)을 주는 방식에서 찾았어요. 또한 대부분의 벤치마크 리더보드가 정확도 지표(accuracy)만 강조하기 때문에, 모델 개발이 정확도 향상에만 집중하는 것도 문제라고 분석했습니다. 해결책으로는 단순히 오답에 페널티를 주는 것을 넘어서, 근본적으로 정확도 기반 평가 방식을 개선해 '운 좋은 추측'에 보상을 주지 않아야 한다고 주장했습니다.




사전학습에서의 핵심 아이디어 (왜 “생성 오류”가 생기는가)  

 

Figure 2: GPT-4 calibration histograms before (left) and after (right) reinforcement learning (OpenAI, 2023a, Figure 8, reprinted with permission). These plots are for multiple-choice queries where the plausible responses are simply A, B, C, or D. The pretrained model is well calibrate



데이터와 출력 공간을 X = E ∪ V로 나눕니다: E는 plausible한 오류(=hallucination), V는 valid(정확한) 응답.  
베이스 모델의 생성 오류율은
\displaystyle err := \hat p(E) = \Pr_{x\sim\hat p}[x\in E]
여기서 \hat p는 학습된 생성 분포입니다.


논문은 생성 문제를 Is-It-Valid(IIV)라는 이진 분류 문제로 환원합니다. IIV 분포 D는 유효한 예(훈련 분포 p에서)와 균등 랜덤 오류(E에서) 를 50/50 섞은 것.  
모델을 이용한 IIV 분류기 \hat f 는 임계치(예: 1/|E|)로 확률을 분류:
\hat f(x) = 


IIV의 오분류율(err_iiv)을 정의하면(= IIV 문제에서 모델이 틀릴 확률), 생성 오류와 다음 관계가 성립합니다(간단형):
\displaystyle err \gtrsim 2\cdot err_{iiv}
더 정확한 하한(논문 Corollary)은
\displaystyle err \ge 2\cdot err_{iiv} - \frac{|V|}{|E|} - \delta


각 항 의미:
err: 생성(실제) 오류율(얼마나 자주 hallucinate하는지)
err_{iiv}: IIV 문제에서의 오분류율(모델이 “이 답이 유효한가?”를 잘못 판단하는 비율)
|V|/|E|: valid 대비 error 후보 수 비율(작으면 더 불리함)
\delta: 캘리브레이션(모델 확률과 실제 확률의 삐뚤어짐) 항, 표준 cross-entropy 최적화에서는 보통 작아짐




직관: 모델이 “이 문장이 사실인지 아닌지”를 구별 못하면(분류가 어렵다면), 생성 시에도 오류를 많이 낸다는 것 — 즉 hallucination은 사실상 이진 분류의 오류가 생성으로 투사된 결과입니다.


Good–Turing / 단일 등장(singleton) 관점  

“사건이 한 번만 등장한 비율(sr)”(훈련데이터에서 한 번만 본 사실의 비율)은 아직 보지 못한 사실의 질량(missing mass)을 추정합니다.  
논문은 Arbitrary-Facts 모델에서 (IDK 포함) 다음과 같은 하한을 보입니다:
\displaystyle err \gtrsim s_r - \text{(작은 항들)}


의미: 훈련에서 한 번만 나온 사실들이 많을수록(예: 유명하지 않은 사람의 생일 등), 사전학습 모델은 필연적으로 그만큼 hallucinate할 가능성이 높다는 것.


사후훈련과 평가(incentive) 문제 — 왜 hallucination이 남아있는가  

중요한 사회·기술적 관찰: 대부분의 벤치마크와 리더보드는 binary scoring(정답=1, 오답/IDK=0)을 사용합니다.  
이런 0-1 채점 하에서는 “모르는 경우라도 추측해서 답하는 행동”이 기댓값상 더 낫습니다(학생이 시험에서 점수를 높이려 무작정 찍는 것과 동일).  
Observation (논문): 다양한 채점자 분포에 대해 abstain(IDK)을 선택하는 것은 최적 전략이 아니다 — 따라서 모델 학습/튜닝(특히 RLHF 등 이후 단계)은 ‘테스트를 잘 보는’ 방향으로 최적화되어, 불확실성을 솔직히 표명하는 행동(IDK 등)을 억제합니다. 결과적으로 과잉확신(overconfident hallucination)이 지속됩니다.


실용적 완화책(논문 제안)  

기본 제안: 주류(주요) 벤치마크의 채점 방식을 바꿔서 “불확실성 표명의 패널티”를 줄일 것. 단순히 별도의 hallucination 전용 벤치마크를 만드는 것만으로는 안됨(메인 보상 신호가 바뀌어야 함).  
구체적 방안: 각 문제에 명시적 confidence target t를 도입하고, 채점 규칙을 명시적으로 주는 방식. 예: “정답이면 +1, 틀리면 −t/(1−t), IDK는 0” — 이렇게 하면 모델은 자신의 신뢰도 > t일 때만 답하도록 행동하게 됨(behavioral calibration).  
behavioral calibration: 모델이 확률 점수(숫자)를 직접 출력하는 대신, 주어진 threshold t에 대해 ‘답할지 말지’를 행동으로 맞추도록 평가/학습함으로써 실무적으로 유용한 불확실성 표명을 유도.


한계와 추가 고려사항  

논문 분석은 plausibility한 출력(그럴듯한 오류) 중심이며, nonsensical output(말도 안 되는 문장)은 별개로 다뤄집니다.  
open-ended 생성(예: 전기문 작성)에서는 오류의 정도를 정량화하기가 더 어렵고, 본 분석은 “응답 안에 하나 이상 잘못된 사실이 있으면 error”로 간단화.  
검색(RAG), RLHF, 혹은 추론 개선(chain-of-thought) 등은 일부 hallucination을 줄일 수 있지만, 벤치마크 보상 구조가 그대로라면 ‘확신 없는 추측’을 완전히 억제하기 힘듦.


핵심적 시사점(한 문장)  

hallucination은 단순한 모델버그가 아니라 통계적·평가지향적 산물이며, 근본적 완화는 모델만이 아니라 평가·보상(leaderboards, 벤치마크)의 재설계까지 요구한다.


참고로 기억할 공식들 (중요한 식들)  

생성 오류율:
\displaystyle err := \hat p(E)


IIV 분류기(임계치 1/|E|):
\displaystyle \hat f(x)=


주요 관계(간단형):
\displaystyle err \gtrsim 2\cdot err_{iiv}


캘리브레이션 오차:
\displaystyle \delta := \big|\hat p(A) - p(A)\big|,\quad A={x:\hat p(x)>1/|E|}




짧은 제언(연구·실무자에게)  

모델 개발자는 단순히 정확도(0-1)만 올리는 목표가 아니라, 불확실성을 어떻게 표현·보상할지(평가지침)를 함께 설계해야 합니다.  
벤치마크 설계자들은 IDK/abstain에 대한 공정한 보상을 넣고, 명시적 신뢰도 임계값을 채점 규칙에 포함해야 합니다.

 

 

https://openai.com/ko-KR/index/why-language-models-hallucinate/

https://www.arxiv.org/abs/2509.04664

728x90
Posted by Mr. Slumber
,