💬

주요 용어 해설집

  • MMLU (Massive Multitask Language Understanding): 57개 과목(초등 수학부터 법학, 역사 등)에 걸쳐 LLM의 지식과 문제 해결 능력을 측정하는 대표적인 벤치마크입니다.
  • GSM8k (Grade School Math 8K): 초등학교 수준의 수학 응용 문제 8,000여 개로 구성된 벤치마크로, 모델의 논리적 추론 능력을 평가하는 데 사용됩니다.
  • 데이터 오염 (Data Contamination): 평가에 사용될 데이터셋의 일부가 모델의 훈련 데이터에 포함되어, 모델이 마치 문제를 잘 푸는 것처럼 보이는 현상을 말합니다. 모델의 진짜 실력이 아닌 '암기력'을 측정하게 될 위험이 있습니다.