문제
LLM에서 N개 출력을 생성한 뒤 Reward Model로 최고 점수 출력을 선택하는 Best-of-N(BoN)은, Reward Model이 불완전할 경우 정답 선택 확률이 80% 이하로 떨어지며 N을 아무리 키워도 개선이 제한적입니다.
방안
BoN의 출력을 하나의 확률 분포로 간주하고, 부트스트래핑 기법을 기반으로 한 복원 추출로 이 분포를 추정한 뒤 최빈값을 최종 답으로 선택하는 Majority-of-the-Bests(MoB)를 제안합니다.
주요 기여
- BoN의 출력이 불완전한 Reward에서 확률적 특성을 갖는다는 점을 분석하고, 분포의 mode가 단일 샘플보다 신뢰할 수 있음을 보임
- 부트스트래핑 기반으로 BoN 출력 분포를 추정하고 mode를 선택하는 MoB 알고리즘 및 적응적 서브샘플 크기 선택 절차 제안
- 부트스트래핑 추정의 consistency에 대한 이론적 보장 제공
배경 및 동기
기존 선택 메커니즘의 구도
Self-Consistency (SC)
- N개 출력을 생성하고, 최종 답 중 가장 빈번한 것을 선택 (다수결)
- Reward Model 불필요
- 정답이 최빈값일 때 효과적이지만, 기저 모델의 생성 확률에 전적으로 의존
Best-of-N (BoN)
- N개 출력을 생성하고, Reward Model이 가장 높은 점수를 준 출력을 선택
- 완벽한 Reward Model이면 거의 100% 정답 선택 가능
- 현실적으로 Reward가 불완전하여 성능 저하 발생
Weighted Best-of-N (WBoN)
- 각 최종 답에 대해, 해당 답에 도달하는 모든 출력의 Reward를 합산
- 가장 높은 총 Reward를 가진 답을 선택
BoN의 근본적 한계: 확률적 행동
BoN의 출력은 결정론적이지 않습니다. Reward Model이 불완전하면 BoN 자체가 하나의 확률 분포 (알고리즘이 최종적으로 선택하는 정답들의 확률 분포)을 따르게 됩니다. BoN이 정답을 고르려면, 정답 출력들 중 최고 Reward가 오답 출력들 중 최고 Reward보다 커야 합니다.
- : 정답에 도달하는 번째 출력, 개
- : 오답에 도달하는 번째 출력, 개
- : Reward Model의 점수
이 조건의 성립 여부는 아래 요인에 기반합니다.
- 정답/오답 출력 개수 비율 — 기저 모델이 정답을 많이 생성할수록 유리
- Reward 분포의 분리도 — 정답 출력의 Reward 분포 와 오답 출력의 Reward 분포 가 잘 분리될수록 유리
이 분석에서 드러나는 핵심 인사이트는 BoN의 출력 분포에서 정답이 확률 1에 가깝지 않더라도, 가장 높은 확률을 가진 값인 경우가 많습니다. 따라서 분포에서 하나를 뽑는 것(BoN)보다, 분포의 mode를 찾는 것(MoB)이 더 신뢰할 수 있습니다.
핵심 방법
전체 아키텍처
MoB의 동작 과정은 다음과 같습니다:
입력: 질문 x, 생성 예산 N 1. N개의 출력 생성: Y₁, ..., Y_N ~ p_ref 2. 각 출력에 대해 Reward 계산: r(Y₁), ..., r(Y_N) 3. 부트스트래핑으로 BoN 출력 분포 추정: - 크기 m의 서브셋을 복원 추출로 B번 생성 - 각 서브셋에서 최고 Reward 출력의 답을 선택 4. B개의 선택된 답 중 최빈값을 최종 답으로 출력
Oracle MoB: 이상적 경우
BoN의 출력 분포 이 Oracle(출력 분포를 완벽하게 알고 있는 가상의 정보원)이 알려져 있다고 가정하면, BoN 대신 이 분포의 mode를 선택합니다.
BoN은 에서 하나를 샘플링하는 것이고, Oracle MoB는 의 최빈값을 선택하는 것입니다.
SC가 기저 모델 분포 의 mode를 선택하여 pass@1을 개선하듯, MoB는 BoN 분포 의 mode를 선택하여 BoN을 개선합니다. 실제로 이므로, SC는 인 Oracle MoB의 특수한 경우에 해당합니다.
부트스트래핑을 통한 분포 추정
현실에서는 을 알 수 없으므로, 부트스트래핑으로 추정합니다.
BoN+SC (단순한 접근법)
번의 독립적인 BoN을 수행하고 (각 개 출력 사용), 개 결과에 다수결을 적용합니다:
문제: 총 예산 가 필요하며, 과 모두 커야 하므로 매우 비효율적입니다.
MoB (부트스트래핑 접근법)
핵심 차이: 각 출력 가 하나의 BoN 실행에만 기여하는 BoN+SC와 달리, MoB는 복원 추출로 동일한 출력을 여러 서브셋에서 재사용합니다.
여기서 는 의 경험적 분포입니다. 즉, 원본 N개 출력에서 m개를 복원 추출하는 것과 같습니다.
는 충분히 크게 설정합니다 (보통 ). 이 전체 과정은 CPU에서 수행되므로 추가 GPU 비용이 없습니다.
서브샘플 크기 의 적응적 선택
의 선택에는 트레이드오프가 존재합니다:
- 이 클수록: BoN의 성공 확률이 높아져 의 mode가 정답일 가능성 증가. 하지만 이 에 가까워지면 부트스트래핑 추정의 정확도 저하 (극단값 추정 실패 문제)
- 이 작을수록: 부트스트래핑 추정은 정확하지만, Best-of- 자체의 성공 확률이 낮아짐
일 경우, 최고 Reward 출력이 모든 서브셋에 포함될 확률이 이므로, 이 항상 기존 BoN의 답에 최소 63.2%의 확률을 부여하게 됩니다. 이는 바람직하지 않습니다.
적응적 선택 절차:
- 후보 값 생성: (단, )
- 인접 후보 간 분포 차이 최소화:
이 계산은 개의 후보만 평가하면 되므로 매우 가볍고, 이라는 단순한 규칙도 적응적 방법과 거의 동등한 성능을 보입니다.
이론적 보장
[1] 일관성
Reward 분포에 대한 약한 가정 하에서, 의 가능한 값이 유한하고, 에서 이며 이면, 부트스트래핑 추정 분포 은 실제 분포 에 수렴합니다.
() 형태의 스케줄이면 이 조건을 만족합니다.
[2] BoN 출력 분포의 점근적 행동
정답 에 대한 Reward의 조건부 분포 CDF를 , 오답에 대한 조건부 분포 CDF를 이라 할 때, 두 분포의 우측 꼬리 비율 에 의해
이 결과는 Reward 분포의 꼬리 행동이 BoN의 최종 성공 확률을 결정한다는 것을 의미합니다. 이면 Reward Model이 정답을 선호하는 것이고, 이때 BoN의 성공 확률이 기저 모델보다 높아집니다. 하지만 가 유한한 한, BoN의 성공 확률은 1에 도달하지 못합니다.
결론
MoB는 BoN의 출력을 확률 분포로 간주하고, 부트스트래핑으로 이 분포를 추정한 뒤 mode를 선택하는 간결한 방법입니다. 추가 GPU 비용 없이 CPU 후처리만으로 동작하며, 하이퍼파라미터 튜닝이 거의 불필요합니다. 30개 실험 세팅 중 25개에서 BoN을 상회하며, 최대 +11.35%p의 개선을 달성했습니다.
SC가 기저 모델의 분포에서 mode를 찾듯, MoB는 BoN의 분포에서 mode를 찾습니다. 이 "분포 추정 → mode 선택" 원리는 BoN과 SC, LLM의 병렬 생성에서 Early stopping 신호 등으로 확장될 가능성이 있습니다.
![[Paper Review] Majority of the Bests: Improving Best-of-N via Bootstrapping](/_next/image?url=https%3A%2F%2Fwww.notion.so%2Fimage%2Fattachment%253Ae16ac2b3-8857-4880-980d-754d34341049%253A%25E1%2584%2589%25E1%2585%25B3%25E1%2584%258F%25E1%2585%25B3%25E1%2584%2585%25E1%2585%25B5%25E1%2586%25AB%25E1%2584%2589%25E1%2585%25A3%25E1%2586%25BA_2026-03-10_%25E1%2584%258B%25E1%2585%25A9%25E1%2584%258C%25E1%2585%25A5%25E1%2586%25AB_4.07.49.png%3Ftable%3Dblock%26id%3D31ee642e-de97-80c0-9519-e34b128d8448%26cache%3Dv2&w=3840&q=75)