[Paper Review] Deep Think with Confidence

문제

Self-consistency 기반 병렬 추론에서, 트레이스 수를 늘려도 성능이 포화되거나 하락하며, 저품질 트레이스가 정답에 대한 투표를 희석시킵니다.

방안

모델이 자체적으로 생성하는 token-level confidence를 활용하여, (1) 오프라인에서는 완성된 트레이스를 필터링/가중 투표하고 (2) 온라인에서는 생성 도중 저품질 트레이스를 조기 종료합니다.

주요 기여

기존 평균 트레이스 confidence보다 우수한 세분화된 confidence 측정 지표 제안 (Group Confidence, Bottom-10% Confidence, Tail Confidence)

Confidence 기반 필터링 + 가중 투표 오프라인 파이프라인 설계

생성 중 Early Stopping 기반 온라인 알고리즘, DeepConf-low/high 제안

추가 학습 없이 DeepSeek-8B에서 AIME 2025 기준 99.9% 정확도 달성 full parallel thinking 대비 토큰 최대 84.7% 절감

배경 및 동기

기존 방법의 접근

Self-Consistency + Majority Voting은 LLM 추론의 test-time scaling 방법입니다.

예시로 Qwen3-8B 모델에서 AIME 2025를 풀 때, majority voting을 적용하면 단일 샘플 대비 pass@1 정확도가 65.1%에서 82.6%까지 상승합니다.

문제점 및 병목

1. Diminishing Returns

트레이스 수를 늘릴수록 성능 개선폭이 급격히 줄어듭니다.

Qwen3-8B 기준 512개 트레이스로 majority voting → 100M 추가 토큰 생성

하지만 pass@1 대비 정확도 개선은 약 17%p에 불과

트레이스 수를 64→512로 8배 늘려도 정확도 개선은 2~3%p 수준

2. 저품질 트레이스의 투표 오염

모든 트레이스를 동등하게 취급하면, 틀린 답을 내는 트레이스가 정답 투표를 희석시킵니다.

3. 계산 비용의 비효율성

생성된 트레이스 중 상당수는 처음부터 잘못된 방향으로 추론하여, 완료까지 기다릴 필요가 없습니다. 그럼에도 불구하고 기존 방법은 모든 트레이스를 끝까지 생성한 후에야 판단이 가능합니다.

병목의 원인은?

기존 majority voting은 트레이스의 품질 차이를 무시합니다. 한편 LLM은 추론 과정에서 자체적으로 token-level log-probability 기반 confidence 신호를 생성하고 있으며, 이 신호가 트레이스의 정확성과 강한 상관관계를 보입니다. 이를 이용하여 Voting 과정에 통합하면 정확도와 효율성을 모두 높일 수 있습니다.

핵심 방법

Confidence 측정 지표 설계

DeepConf에서 주요하게 봐야할 지표는 어떤 confidence 지표가 정답/오답 트레이스를 가장 잘 구분하는가입니다.

1. Token Confidence

2. Average Trace Confidence

3. Group Confidence (그룹 수준) — DeepConf 제안

토큰을 슬라이딩 윈도우로 그룹화하여 국소적 confidence를 포착합니다.

: 개의 연속 토큰으로 구성된 그룹 (예: 또는 )

인접 그룹과 겹치는 슬라이딩 윈도우 방식

추론 중간에 confidence가 급격히 떨어지는 구간(예: "wait", "however", "think again" 같은 토큰)을 정확히 포착

4. Bottom-10% Group Confidence — DeepConf 제안

모든 그룹 confidence 중 하위 10%의 평균을 트레이스 품질 지표로 사용합니다.

: 하위 10% confidence 그룹의 집합

직관적 의미: "추론 과정에서 가장 불확실했던 구간이 얼마나 불확실했는가"

하위 구간 하나라도 심각하게 불확실하면, 그 트레이스는 전체적으로 의심스러움

5. Lowest Group Confidence — DeepConf 제안

가장 낮은 단일 그룹 confidence만을 사용합니다.

: 트레이스 내 모든 그룹의 집합

Bottom-10%의 극단적 변형으로, 최악의 구간 하나만으로 판단

온라인 시나리오에서 특히 유용: 생성 중 현재 그룹의 confidence만 확인하면 됨

6. Tail Confidence — DeepConf 제안

트레이스의 마지막 구간만의 confidence를 측정합니다.

: 꼬리 토큰 수 (예: 2048개)

수학 문제에서 최종 답을 도출하는 마지막 단계의 확신도가 전체 정확성과 높은 상관

처음엔 확신 있게 시작했지만 결론에서 흔들리는 트레이스를 포착

지표 간 성능 비교

Offline Thinking with Confidence

완성된 트레이스들에 대해 사후적으로 confidence를 평가하고, 투표를 정제하는 방식입니다.

Confidence-Weighted Majority Voting

각 트레이스의 투표를 confidence로 가중합니다.

: 트레이스 의 confidence

높은 confidence 트레이스의 표가 더 큰 영향력을 가짐

단순 majority voting과 달리, 확신 높은 소수 트레이스가 불확실한 다수를 이길 수 있음

Confidence Filtering

투표 전에 low-confidence 트레이스를 완전히 제거합니다.

Top 10% 필터 (): 가장 confident한 상위 10%만 사용. 소수 트레이스로도 높은 정확도. 하지만 가끔 과신(overconfident) 오답에 취약

Top 90% 필터 (): 가장 낮은 10%만 제거. 보수적이지만 안정적

실험상 Top 90%가 안정성 면에서 우수, Top 10%가 최고 정확도를 보이나 가끔 성능이 떨어지는 경우가 있습니다.

Online Thinking with Confidence

생성 도중에 confidence를 확인하고, 저품질 트레이스를 조기 종료하는 방식으로, 이를 통해 불필요한 토큰 생성을 근본적으로 줄입니다.

DeepConf-low vs DeepConf-high

구분	DeepConf-low	DeepConf-high
필터링 비율 η	10% (상위 10% 기준)	90% (상위 90% 기준)
stopping threshold	높음 (엄격)	낮음 (관대)
토큰 절감률	높음 (43~84%)	중간 (16~59%)
정확도 안정성	가끔 1~2%p 하락 가능	majority voting과 거의 동일
적합 시나리오	효율 최우선	정확도 최우선

Adaptive Sampling

문제 난이도에 따라 트레이스 생성 수를 동적으로 조절합니다.


# 합의 비율(consensus ratio)로 난이도 추정
consensus = V(â) / Σ_a V(a)

# 쉬운 문제: 소수 트레이스로도 높은 합의 → 조기 종료
# 어려운 문제: 합의 낮음 → 예산까지 계속 생성

if consensus >= τ:  # τ = 0.95 기본값
    stop_generation()
else:
    continue_generating()

이 메커니즘 덕분에 쉬운 문제에서는 소수의 트레이스만 생성하고, 어려운 문제에 계산 자원을 집중 배분할 수 있습니다.

왜 Lowest Group Confidence가 온라인 시나리오에 적합한가?

생성 중 실시간으로 판단하려면, 트레이스 전체를 기다릴 수 없습니다. Lowest Group Confidence는 현재까지 생성된 구간의 최저 confidence만 확인하면 되므로, 스트리밍 방식으로 계산 가능합니다.


트레이스 생성 진행:
[그룹1: C=0.85] [그룹2: C=0.72] [그룹3: C=0.41] ← 임계값 0.55 미만!
                                                    → 즉시 중단

Lowest Group Conf = min(0.85, 0.72, 0.41) = 0.41 < s
→ 이 트레이스는 "추론이 한 번이라도 심각하게 흔들림"
→ 완료까지 기다릴 가치 없음