[Paper Review] Majority of the Bests: Improving Best-of-N via Bootstrapping

문제

LLM에서 N개 출력을 생성한 뒤 Reward Model로 최고 점수 출력을 선택하는 Best-of-N(BoN)은, Reward Model이 불완전할 경우 정답 선택 확률이 80% 이하로 떨어지며 N을 아무리 키워도 개선이 제한적입니다.

방안

BoN의 출력을 하나의 확률 분포로 간주하고, 부트스트래핑 기법을 기반으로 한 복원 추출로 이 분포를 추정한 뒤 최빈값을 최종 답으로 선택하는 Majority-of-the-Bests(MoB)를 제안합니다.

주요 기여

BoN의 출력이 불완전한 Reward에서 확률적 특성을 갖는다는 점을 분석하고, 분포의 mode가 단일 샘플보다 신뢰할 수 있음을 보임

부트스트래핑 기반으로 BoN 출력 분포를 추정하고 mode를 선택하는 MoB 알고리즘 및 적응적 서브샘플 크기 선택 절차 제안

부트스트래핑 추정의 consistency에 대한 이론적 보장 제공

배경 및 동기

기존 선택 메커니즘의 구도

Self-Consistency (SC)

N개 출력을 생성하고, 최종 답 중 가장 빈번한 것을 선택 (다수결)

Reward Model 불필요

정답이 최빈값일 때 효과적이지만, 기저 모델의 생성 확률에 전적으로 의존

Best-of-N (BoN)

N개 출력을 생성하고, Reward Model이 가장 높은 점수를 준 출력을 선택

완벽한 Reward Model이면 거의 100% 정답 선택 가능

현실적으로 Reward가 불완전하여 성능 저하 발생

Weighted Best-of-N (WBoN)

각 최종 답에 대해, 해당 답에 도달하는 모든 출력의 Reward를 합산

가장 높은 총 Reward를 가진 답을 선택

BoN의 근본적 한계: 확률적 행동

BoN의 출력은 결정론적이지 않습니다. Reward Model이 불완전하면 BoN 자체가 하나의 확률 분포 (알고리즘이 최종적으로 선택하는 정답들의 확률 분포)을 따르게 됩니다. BoN이 정답을 고르려면, 정답 출력들 중 최고 Reward가 오답 출력들 중 최고 Reward보다 커야 합니다.

: 정답에 도달하는 번째 출력, 개

: 오답에 도달하는 번째 출력, 개

: Reward Model의 점수

이 조건의 성립 여부는 아래 요인에 기반합니다.

정답/오답 출력 개수 비율 — 기저 모델이 정답을 많이 생성할수록 유리

Reward 분포의 분리도 — 정답 출력의 Reward 분포 와 오답 출력의 Reward 분포 가 잘 분리될수록 유리

이 분석에서 드러나는 핵심 인사이트는 BoN의 출력 분포에서 정답이 확률 1에 가깝지 않더라도, 가장 높은 확률을 가진 값인 경우가 많습니다. 따라서 분포에서 하나를 뽑는 것(BoN)보다, 분포의 mode를 찾는 것(MoB)이 더 신뢰할 수 있습니다.

핵심 방법

전체 아키텍처

MoB의 동작 과정은 다음과 같습니다:


입력: 질문 x, 생성 예산 N

1. N개의 출력 생성: Y₁, ..., Y_N ~ p_ref
2. 각 출력에 대해 Reward 계산: r(Y₁), ..., r(Y_N)
3. 부트스트래핑으로 BoN 출력 분포 추정:
   - 크기 m의 서브셋을 복원 추출로 B번 생성
   - 각 서브셋에서 최고 Reward 출력의 답을 선택
4. B개의 선택된 답 중 최빈값을 최종 답으로 출력

Oracle MoB: 이상적 경우

BoN의 출력 분포 이 Oracle(출력 분포를 완벽하게 알고 있는 가상의 정보원)이 알려져 있다고 가정하면, BoN 대신 이 분포의 mode를 선택합니다.

BoN은 에서 하나를 샘플링하는 것이고, Oracle MoB는 의 최빈값을 선택하는 것입니다.

SC가 기저 모델 분포 의 mode를 선택하여 pass@1을 개선하듯, MoB는 BoN 분포 의 mode를 선택하여 BoN을 개선합니다. 실제로 이므로, SC는 인 Oracle MoB의 특수한 경우에 해당합니다.

부트스트래핑을 통한 분포 추정

현실에서는 을 알 수 없으므로, 부트스트래핑으로 추정합니다.

BoN+SC (단순한 접근법)

번의 독립적인 BoN을 수행하고 (각 개 출력 사용), 개 결과에 다수결을 적용합니다:

문제: 총 예산 가 필요하며, 과 모두 커야 하므로 매우 비효율적입니다.

MoB (부트스트래핑 접근법)

Bootstrapping (statistics)

Bootstrapping is a procedure for estimating the distribution of an estimator by resampling (often with replacement) one's data or a model which is estimated from the data.[1] Bootstrapping assigns measures of accuracy (bias, variance, confidence intervals, prediction error, etc.) to sample estimates.[2][3] This technique allows estimation of the sampling distribution of almost any statistic using random sampling methods.[1]

https://en.wikipedia.org/wiki/Bootstrapping_(statistics)

핵심 차이: 각 출력 가 하나의 BoN 실행에만 기여하는 BoN+SC와 달리, MoB는 복원 추출로 동일한 출력을 여러 서브셋에서 재사용합니다.

여기서 는 의 경험적 분포입니다. 즉, 원본 N개 출력에서 m개를 복원 추출하는 것과 같습니다.

는 충분히 크게 설정합니다 (보통 ). 이 전체 과정은 CPU에서 수행되므로 추가 GPU 비용이 없습니다.

서브샘플 크기 의 적응적 선택

의 선택에는 트레이드오프가 존재합니다:

이 클수록: BoN의 성공 확률이 높아져 의 mode가 정답일 가능성 증가. 하지만 이 에 가까워지면 부트스트래핑 추정의 정확도 저하 (극단값 추정 실패 문제)

이 작을수록: 부트스트래핑 추정은 정확하지만, Best-of- 자체의 성공 확률이 낮아짐

일 경우, 최고 Reward 출력이 모든 서브셋에 포함될 확률이 이므로, 이 항상 기존 BoN의 답에 최소 63.2%의 확률을 부여하게 됩니다. 이는 바람직하지 않습니다.

적응적 선택 절차:

후보 값 생성: (단, )

인접 후보 간 분포 차이 최소화:

이 계산은 개의 후보만 평가하면 되므로 매우 가볍고, 이라는 단순한 규칙도 적응적 방법과 거의 동등한 성능을 보입니다.

이론적 보장

[1] 일관성

Reward 분포에 대한 약한 가정 하에서, 의 가능한 값이 유한하고, 에서 이며 이면, 부트스트래핑 추정 분포 은 실제 분포 에 수렴합니다.

() 형태의 스케줄이면 이 조건을 만족합니다.

[2] BoN 출력 분포의 점근적 행동

정답 에 대한 Reward의 조건부 분포 CDF를 , 오답에 대한 조건부 분포 CDF를 이라 할 때, 두 분포의 우측 꼬리 비율 에 의해

이 결과는 Reward 분포의 꼬리 행동이 BoN의 최종 성공 확률을 결정한다는 것을 의미합니다. 이면 Reward Model이 정답을 선호하는 것이고, 이때 BoN의 성공 확률이 기저 모델보다 높아집니다. 하지만 가 유한한 한, BoN의 성공 확률은 1에 도달하지 못합니다.

결론

MoB는 BoN의 출력을 확률 분포로 간주하고, 부트스트래핑으로 이 분포를 추정한 뒤 mode를 선택하는 간결한 방법입니다. 추가 GPU 비용 없이 CPU 후처리만으로 동작하며, 하이퍼파라미터 튜닝이 거의 불필요합니다. 30개 실험 세팅 중 25개에서 BoN을 상회하며, 최대 +11.35%p의 개선을 달성했습니다.

SC가 기저 모델의 분포에서 mode를 찾듯, MoB는 BoN의 분포에서 mode를 찾습니다. 이 "분포 추정 → mode 선택" 원리는 BoN과 SC, LLM의 병렬 생성에서 Early stopping 신호 등으로 확장될 가능성이 있습니다.