[Paper Review] 시계열 예측을 언어로 바꾸다 : Chronos

📌 들어가며 1. 시계열과 언어, 뭐가 다를까?1.1 본질적인 차이점 2. Chronos의 아이디어 2.1 간단한 두 단계: 스케일링 + 양자화 2.2 어떤 모델을 쓸까?3. 데이터 부족 문제는 어떻게 해결할까?3.1 시계열의 고질적 문제 4. 실험 결과는 어땠을까?4.1 데이터셋 규모 4.2 In-domain 성능 4.3 Zero-shot 성능이 진짜 놀라웠다 4.4 Fine-tuning으로 더 올라간다 5. 어떤 걸 배웠을까?5.1 한계점도 있었다 5.2 내가 배운 점 6. 마치며

📌 들어가며

시계열 예측 문제를 처음 접했을 때, 가장 먼저 든 생각은 "왜 이렇게 데이터가 부족하지?"였다.

NLP 분야는 WikiText(

huggingfaceSalesforce/wikitext · Datasets at Hugging Face

Salesforce/wikitext · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

) 같은 대규모 데이터셋이 흔한데, 시계열은 도메인마다 데이터를 새로 모아야 하고, 양도 턱없이 부족했다. ARIMA나 ETS 같은 통계 모델을 쓰기엔 뭔가 아쉽고, 딥러닝 모델을 쓰자니 데이터가 부족해서 과적합이 걱정됐다.

그러다 랩실에서 사수님의 제안으로 Chronos 논문을 읽게 됐다.

💡

시계열 예측을 '언어 모델링' 문제로 바꿀 수 있다고?

논문을 읽으면서 "아, 이런 접근도 가능하구나!"라는 생각이 들었다. 시계열과 언어는 완전히 다른 분야라고 생각했는데, 둘 다 결국 '시퀀스'를 다룬다는 공통점이 있었다. Amazon에서 발표한 Chronos 논문을 정리해본다.

1. 시계열과 언어, 뭐가 다를까?

1.1 본질적인 차이점

"언어 모델은 다음 '단어'를 예측하고, 시계열 모델은 다음 '값'을 예측한다. 둘 다 시퀀스인데, 본질적으로 뭐가 다른가?"

언어: "나는", "학교에", "간다" 같은 유한한 어휘에서 토큰 선택

시계열: 3.14, 27.8, -15.3 같은 연속적인 실수 값

이 차이 때문에 지금까지는 시계열 전용 모델(LSTM, Transformer 등)이 필요하다고 생각했다. 그런데 Chronos는 반대로 접근했다. → 연속값을 이산 토큰으로 바꾸면 되지 않을까?

2. Chronos의 아이디어

chronos-forecasting

amazon-science • Updated Mar 15, 2026

2.1 간단한 두 단계: 스케일링 + 양자화

Chronos의 방법은 의외로 단순했다.

시계열 값을 언어처럼 만들기 위해 딱 두 가지만 하면 됐다:

① 스케일링 (Scaling): 값의 범위를 맞춘다

시계열 데이터는 도메인마다 스케일이 천차만별이다.

에너지 소비: 0에 가까운 값이 의미 있음 (밤 시간대)

주가: 수만 원대

온도: -10도 ~ 40도

Chronos는 Mean Scaling을 사용했다.


x̃ᵢ = (xᵢ - m) / s

여기서 핵심은 0 같은 의미 있는 값을 보존한다는 점이었다. 논문 필기를 보니 저자도 이 부분을 강조했더라.

② 양자화 (Quantization): 연속값을 이산 토큰으로 스케일링된 값을 고정된 개수의 bin(구간)으로 나눈다.

예를 들어 4096개 bin을 만들면, 연속값이 1, 2, 3, ..., 4096 같은 토큰 ID로 바뀐다.

이제 시계열이 "1023, 1024, 1025, 1026" 같은 토큰 시퀀스가 됐다. 언어 모델이 처리할 수 있는 형태다! 😊

2.2 어떤 모델을 쓸까?

놀라운 건, 모델 구조는 전혀 바꾸지 않았다는 점이다.

Chronos는 T5(Encoder-Decoder)와 GPT-2(Decoder-only)를 그대로 가져다 썼다.

바뀐 건 딱 하나.

어휘 크기 |Vₜₛ|만 조정해서 입출력 임베딩 레이어의 크기를 바꿨을 뿐이다.

시계열 전용 설계가 전혀 필요 없었다는 게 신기했다.

3. 데이터 부족 문제는 어떻게 해결할까?

3.1 시계열의 고질적 문제

"대부분 시계열 데이터의 양이 부족하다"

NLP는 수억 개의 문장으로 학습하는데, 시계열은 수천~수만 개 정도밖에 없는 경우가 많다.

Chronos는 이 문제를 두 가지 방법으로 해결했다.

① TSMixup: 시계열 믹스업

이미지 분류의 Mixup을 시계열에 적용한 것이다. 서로 다른 데이터셋에서 k개 시계열을 샘플링해서 가중 평균을 낸다:


새로운 시계열 = 0.5 × 시계열A + 0.3 × 시계열B + 0.2 × 시계열C

이렇게 하면 훈련 데이터의 패턴 다양성이 엄청 늘어난다.

② KernelSynth: 합성 데이터 생성

Gaussian Process(GP)로 실제 같은 시계열을 만들어낸다.

Linear: 추세(trend)

RBF: 부드러운 변동

Periodic: 주기성

이 커널들을 랜덤하게 조합(+, ×)해서 다양한 패턴을 만들 수 있었다. 실제 데이터 : 합성 데이터 = 9:1 비율로 섞어서 학습했다고 한다.

4. 실험 결과는 어땠을까?

4.1 데이터셋 규모

논문에서 실험한 규모에 놀랐다.

55개 데이터셋

약 890K개 시계열

약 84B개 관측값 (토큰)

도메인도 에너지, 교통, 헬스케어, 소매, 날씨, 금융 등 정말 다양했다.

특히 데이터를 3가지로 나눠서 평가를 진행했다.

Pretraining-only (13개): 훈련에만 사용

Benchmark I (15개): In-domain 평가

Benchmark II (27개): Zero-shot 평가 - 훈련 시 미사용

4.2 In-domain 성능

훈련에 포함된 데이터에서 Chronos-T5 (Large, 311M)가 최고 성능을 보였다.

WQL (확률적 예측): 0.544

MASE (포인트 예측): 0.790

Local 모델(AutoETS, AutoARIMA)보다 훨씬 좋았고, Task-specific 딥러닝 모델(PatchTST, DeepAR)과도 비슷하거나 더 나았다. 신기한 건 작은 모델도 성능이 좋았다는 점이다. Chronos-T5 (Mini, 20M)조차 훨씬 더 많은 데이터로 학습한 Moirai-1.0-R보다 우수했다. 🔥

4.3 Zero-shot 성능이 진짜 놀라웠다

가장 인상적인 부분은 훈련 때 한 번도 안 본 27개 데이터셋에서의 성능이었다.

Chronos는 Local 통계 모델을 압도했고, Task-specific 모델(Moirai-1.0-R, Lag-Llama, LLMTime)보다도 나았다.

어떻게 이게 가능할까? 아마도 다양한 도메인의 데이터로 학습하면서 시계열의 일반적인 패턴을 배운 것 같다. 추세, 계절성, 노이즈 같은 기본 요소들은 도메인이 달라도 비슷하니까.

4.4 Fine-tuning으로 더 올라간다

Chronos-T5 (Small)을 Zero-shot 데이터에 Fine-tuning하니

WQL: 0.667 → 0.597 (10.5% 향상)

MASE: 0.841 → 0.720 (14.4% 향상)

Fine-tuning 후에는 Benchmark II에서 가장 정확한 모델이 됐다.

5. 어떤 걸 배웠을까?

5.1 한계점도 있었다

완벽해 보이는 Chronos도 약점은 있었다.

① 지수 추세는 과소 추정

선형 추세는 잘 예측하는데, 지수 추세는 못 따라간다. 해결책으로는 로그 스케일링 전처리가 필요하다.

② 고차 AR 구조에서는 특화 모델이 유리

AR(1), AR(2)는 잘하지만, AR(4)처럼 복잡한 자기회귀 과정은 AutoARIMA가 더 나았다.

③ 정밀도 손실 문제

토큰 범위가 [-15, +15]인데, 스케일이 너무 작으면 값이 범위를 벗어나고, 너무 크면 정밀도가 떨어진다. "작은 분산 → 토큰 범위 초과, 큰 분산 → 정밀도 손실"인 것이다.

5.2 내가 배운 점

이 논문을 읽으면서 몇 가지를 깨달았다.

첫째, "도메인 경계는 생각보다 허술하다"는 것이다.

시계열과 언어는 완전히 다른 분야라고 생각했는데, 간단한 토큰화만으로 언어 모델을 그대로 쓸 수 있었다. 문제의 본질(시퀀스 모델링)을 보면 접근법이 보인다.

둘째, "간단함이 힘이다"는 점이다.

복잡한 시계열 전용 구조 대신, Scaling + Quantization 두 단계만으로 해결했다. 오히려 단순해서 다양한 언어 모델(T5, GPT-2 등)에 바로 적용 가능했다.

셋째, 합성 데이터의 중요성이다.

10%의 잘 만들어진 합성 데이터가 Zero-shot 성능을 크게 올렸다. 실제 데이터가 부족한 시계열 분야에서 합성 데이터 생성 기법은 정말 중요한 것 같다.

6. 마치며

Chronos는 시계열 예측의 새로운 가능성을 보여준 논문이다. 지금까지는 도메인마다, 태스크마다 모델을 따로 학습시켜야 했다. 하지만 Chronos처럼 범용 모델(Foundation Model)을 만들면, 새로운 도메인에도 바로 적용할 수 있다.

물론 아직 개선할 점도 많다. 지수 추세, sparse 데이터 처리, Inference 속도 같은 부분은 더 연구가 필요하다. 그래도 앞으로 언어 모델의 발전(긴 컨텍스트, 효율적 추론 등)이 시계열 예측에도 바로 이식될 수 있다는 점에서, Chronos는 매우 의미 있는 출발점이라 생각한다.