[Paper Review] OpenTSLM: Time-Series Language Models for Reasoning over Multivariate Medical Text-and Time-Series Data

Abstract Introduction: 왜 시계열 데이터가 중요한가?기존 접근법들의 한계 Methods: OpenTSLM의 핵심 설계 Time-Series Encoder: 시계열을 패치로 OpenTSLM-SoftPrompt: 암묵적 통합 아키텍처 개요 손필기 노트 포인트: ID=Conv1d 구조 OpenTSLM-Flamingo: 명시적 통합 PerceiverResampler: 핵심 컴포넌트 Gated Cross-Attention: LLM과의 통합 특수 토큰의 역할 메모리 효율성: Flamingo의 진짜 강점 Figure 5 분석: VRAM Usage vs Sequence Length Experiments: 3가지 Chain-of-Thought 데이터셋 1. HAR-CoT (Human Activity Recognition)2. Sleep-CoT (Sleep Staging)3. ECG-QA-CoT (심전도 질문 답변)전문의 평가: 실제 임상 타당성 Quantitative Results: 성능 비교 주요 인사이트 손필기 핵심 요약: LoRA, SoftPrompt, Cross-Attention LoRA (Low-Rank Adaptation)SoftPrompt vs Hard Prompt Cross-Attention의 6단계 Discussion: 한계와 미래 방향 1. Domain Shift에 민감 2. 메모리 효율성 3. 생성 vs 분류 4. 일반화 검증 부족 OpenTSLM이 주는 3가지 교훈 1. 작은 모델도 적절한 설계로 충분하다 2. Rationale 생성의 중요성 3. 시계열은 "또 다른 언어"가 될 수 있다 Conclusion 추가 자료

이번 시간에는 시계열 데이터를 LLM과 통합하여 의료 데이터 추론을 수행하는 OpenTSLM 논문을 리뷰합니다. 스탠포드 연구팀에서 발표한 이 논문은 시계열 데이터를 "LLM의 언어"로 만들어 텍스트와 함께 추론할 수 있는 방법을 제안합니다.

최근 LLM은 텍스트뿐만 아니라 이미지, 오디오, 비디오까지 multi-modal 능력을 갖추며 큰 주목을 받고 있습니다. 하지만 의료 분야에서 핵심적인 시계열 데이터(심박수, 혈압, 산소포화도 등)는 여전히 LLM이 직접 다루기 어려운 영역으로 남아있었습니다.

🤔 과연 시계열 데이터를 LLM에 어떻게 통합할 수 있을까요? 그냥 텍스트로 변환하면 되지 않을까요? 아니면 이미지로 만들어서 Vision 모델에 넣으면?

이 질문에 대한 OpenTSLM의 답은 놀랍게도 "시계열 자체를 LLM의 native modality로 만들자"였습니다. 그럼 어떻게 이것이 가능했는지 함께 살펴봅시다. 😊

Abstract

의학은 본질적으로 시간의 흐름 속에 존재합니다. 환자의 vital sign, 증상, 검사 수치, 질병 진행 과정은 모두 시간에 따라 변화하며, 이러한 시간적 패턴을 추적하는 것이 진단과 치료의 핵심입니다.

최근 multimodal LLM의 발전으로 복잡한 데이터를 자연어로 해석하는 능력이 크게 향상되었지만, 시계열 데이터를 직접 처리하는 능력은 여전히 공백으로 남아있었습니다.

본 논문은 이 문제를 해결하기 위해 OpenTSLM이라는 Time-Series Language Model 패밀리를 제안합니다. 핵심 아이디어는 다음과 같습니다:

🔹 임의 길이의 시계열 데이터를 LLM에 통합

🔹 텍스트와 시계열을 함께 추론 (Joint Reasoning)

🔹 두 가지 아키텍처 비교: SoftPrompt vs Flamingo

특히 주목할 점은 18B 파라미터 모델이 GPT-4o (15.47%)를 2.95% 차이로 능가했으며, 심지어 작은 모델(Gemma-270M)도 적절한 아키텍처와 함께라면 실용적 성능을 보인다는 것입니다.

Introduction: 왜 시계열 데이터가 중요한가?

의료 현장에서 임상의는 다음과 같은 시간적 패턴을 끊임없이 추적합니다:

활력징후(vital signs) 변화 추이

약물 반응 및 검사 수치 변동

질병 진행 양상 및 예후 판단

치료 개입 시점 결정

이러한 시계열 데이터는 전자건강기록(EHR)과 연속 모니터링 장비에서 끊임없이 생성되며, 이 정보를 해석하고 관리하는 것이 임상 의사결정의 핵심입니다.

하지만 현재 LLM들은 이러한 시계열 데이터를 직접 이해하지 못합니다. 기존 연구들은 다음과 같은 방법으로 이 문제를 우회해왔습니다:

기존 접근법들의 한계

1. 토큰화(Tokenization) 방식

시계열 값을 텍스트 토큰으로 변환 (예: "120", "80" 같은 숫자들)

문제점: 시간적 의존성을 암묵적으로만 표현, 컨텍스트 길이 폭발

2. Soft Prompting 방식

시계열을 학습 가능한 임베딩으로 변환

문제점: 시퀀스 길이가 길어지면 메모리 폭발 (quadratic cost)

3. 시계열 인코더 통합

별도의 시계열 인코더로 feature를 뽑은 뒤 분류

문제점: 자유로운 텍스트 생성 불가, rationale 제공 어려움

그렇다면 OpenTSLM은 어떻게 이 문제를 해결했을까요?

Methods: OpenTSLM의 핵심 설계

OpenTSLM은 두 가지 아키텍처를 제안합니다. 먼저 공통적으로 사용하는 Time-Series Encoder부터 살펴보겠습니다.

Time-Series Encoder: 시계열을 패치로

OpenTSLM은 Vision Transformer의 아이디어를 차용하여 시계열을 패치(patch) 단위로 분할합니다.

입력 시계열 을 겹치지 않는 패치로 나누면 개의 패치가 생성됩니다. 각 패치는 다음과 같이 임베딩됩니다:

Conv1D: 1차원 합성곱으로 패치를 차원으로 투영

: 위치 인코딩 (시간 순서 정보 보존)

핵심 포인트: 패치 단위로 나누면서도 시간적 맥락을 유지하는 것이 중요합니다. 손필기에서도 강조했듯이 "패치 간에는 겹치지 않지만(non-overlapping) 시간 순서 정보는 positional encoding으로 보존"됩니다.

추가로, 원본 시계열의 스케일과 시간 해상도 정보를 보존하기 위해 평균(mean), 표준편차(std), 시간 스케일을 텍스트 프롬프트에 포함시킵니다:

"This is heart-rate data over 24 hours sampled at 50 Hz with mean=61 and std=12."

이렇게 함으로써 모델이 "이 수치가 정상 범위인지", "얼마나 빠른 변화인지"를 이해할 수 있게 됩니다.

OpenTSLM-SoftPrompt: 암묵적 통합

아키텍처 개요

SoftPrompt 방식은 시계열 토큰과 텍스트 토큰을 같은 시퀀스에 섞어서 LLM에 입력하는 방식입니다.

Time-Series Encoder: 패치 임베딩 생성

Projection Layer: 패치 임베딩을 LLM 차원 으로 투사

Soft Prompting: 텍스트 토큰과 인터리빙

모델 입력의 최종 형태는:

여기서 특수 토큰 <TS>는 "지금부터 시계열 데이터가 시작된다"는 신호를 LLM에 보내고, <endofchunk>는 "시계열이 끝났다"는 신호입니다.

손필기 노트 포인트: ID=Conv1d 구조

손필기에서 강조한 부분입니다:

프롬프트 앞에 시계열 정보를 먼저 넣음 (pre-prompt)

ID=Conv1d 같은 간단한 구조: 1D Convolution으로 패치 임베딩

LoRA로 Fine-tuning: 사전학습된 LLM의 가중치는 동결(freeze)하고 LoRA 어댑터만 학습

Base 모델 $\mathbf{W}$는 그대로 두고
학습 가능한 저랭크 행렬 $\mathbf{A}, \mathbf{B}$ 추가
업데이트: $h = \mathbf{W}x + \mathbf{BA}x$

장점:

파라미터 효율적 (LoRA 덕분에 적은 파라미터만 학습)

구현이 간단함

단점:

시퀀스 길이가 길어지면 self-attention의 quadratic cost로 메모리 폭발

손필기: "50만 샘플 이하에서는 과적합 위험"

OpenTSLM-Flamingo: 명시적 통합

SoftPrompt의 메모리 문제를 해결하기 위해 OpenTSLM은 Flamingo의 gated cross-attention 메커니즘을 차용합니다.

PerceiverResampler: 핵심 컴포넌트

Flamingo의 핵심은 PerceiverResampler입니다. 이는 임의 길이의 시계열을 고정 크기의 latent 표현으로 압축합니다:

$$ \mathbf{Z}{\text{latent}} = \text{PerceiverResampler}(\mathbf{E}{1:N}) \in \mathbb{R}^{N_{\text{latent}} \times d_{\text{latent}}} $$

여기서 $N_{\text{latent}}$는 고정된 크기 (예: 64개)로, 입력 길이 $N$과 무관합니다.

왜 이게 중요할까요?

손필기에서도 강조했듯이:

"Perceiver Resampler의 핵심은 임의 길이 입력을 고정 크기로 압축하는 것!"

즉, 시계열이 10개든 10,000개든, 최종적으로는 고정된 크기의 latent vector로 변환되므로 메모리 사용량이 일정합니다.

Gated Cross-Attention: LLM과의 통합

PerceiverResampler로 얻은 latent representation을 LLM에 어떻게 통합할까요?

Flamingo는 LLM의 N번째 블록마다 Gated Cross-Attention Layer를 삽입합니다:


LLM Block:
  1. Self-Attention (텍스트끼리)
  2. Gated Cross-Attention (텍스트 ← 시계열)
  3. Feed-Forward (MLP)

Cross-Attention의 연산은 다음과 같습니다:

$$ \mathbf{Q}{\text{text}} = \mathbf{x} \mathbf{W}Q, \quad \mathbf{K}{\text{ts}} = \mathbf{Z}{\text{latent}} \mathbf{W}K, \quad \mathbf{V}{\text{ts}} = \mathbf{Z}_{\text{latent}} \mathbf{W}_V $$

$$ \text{GatedCrossAttention}(\mathbf{x}, \mathbf{Z}{\text{latent}}) = \mathbf{x} + \gamma{\text{attn}} \cdot \sigma\left( \text{softmax}\left( \frac{\mathbf{Q}{\text{text}} \mathbf{K}{\text{ts}}^T}{\sqrt{d_k}} \right) \mathbf{V}_{\text{ts}} \right) $$

여기서 $\gamma_{\text{attn}}$은 학습 가능한 게이트 파라미터로, "시계열 정보를 얼마나 반영할지"를 조절합니다.

손필기의 핵심 정리:

Query: 텍스트에서 생성 (LLM 입력)Key, Value: 시계열에서 생성 (Perceiver Resampler 출력)게이트: 시계열 영향력 조절

왜 Query가 텍스트이고 Key/Value가 시계열일까요?

이는 "텍스트가 질문하고, 시계열이 답한다"는 철학입니다. LLM이 텍스트 생성 중 "지금 이 부분은 시계열 정보가 필요해"라고 판단하면, cross-attention을 통해 시계열에서 관련 정보를 가져옵니다.

특수 토큰의 역할

손필기에서 언급한 <TS> (time-series)와 <endofchunk> 토큰의 역할:

<TS>: "지금부터 시계열 데이터가 시작됨"을 LLM에 신호

<endofchunk>: "시계열이 끝났으니 이제 텍스트만 처리해"

프롬프트 예시:


[pre-prompt] <TS> [time-series data] <endofchunk> [post-prompt]

이렇게 명시적으로 구분함으로써 모델이 "언제 시계열 정보에 attention해야 하는지" 학습합니다.

메모리 효율성: Flamingo의 진짜 강점

손필기에서 가장 강조한 부분이 바로 메모리 안정성입니다. 실제 VRAM 사용량을 비교해봅시다.

Figure 5 분석: VRAM Usage vs Sequence Length

논문의 Figure 5는 시퀀스 길이 $(N \times L)$에 따른 VRAM 사용량을 보여줍니다:

모델	N=1, L=10	N=5, L=10,000
SoftPrompt (Llama-1B)	~2.6GB	OOM (메모리 부족)
Flamingo (Llama-1B)	~20GB	~29.5GB
Flamingo (Gemma-270M)	~2.4GB	~7.3GB

핵심 인사이트:

SoftPrompt는 시퀀스 길이에 따라 메모리 폭발

손필기: "L=10,000, N=1일 때 이미 메모리 초과"

이유: self-attention의 $O(L^2)$ 복잡도

Flamingo는 시퀀스 길이와 무관하게 안정적

L=10 → L=10,000으로 1000배 증가해도 메모리는 ~1.5배만 증가

이유: PerceiverResampler가 고정 크기로 압축하기 때문

작은 모델도 실용적

Gemma-270M은 2.4~7.3GB로 온디바이스 배포 가능

손필기: "Gemma-270M (2.4GB), Flamingo 대모이 적음"

이는 실제 의료 환경에서 매우 중요합니다. 병원 서버나 모바일 기기에서도 배포 가능한 수준이기 때문입니다.

Experiments: 3가지 Chain-of-Thought 데이터셋

OpenTSLM을 평가하기 위해 연구팀은 3가지 새로운 CoT 데이터셋을 제작했습니다. 단순히 "정답 레이블"만 있는 것이 아니라, "왜 그런 답인지" 설명하는 rationale까지 포함합니다.

1. HAR-CoT (Human Activity Recognition)

데이터: 3축 가속도계 데이터 (DaLiAc, PAMAP2 등) 태스크: 8가지 활동 분류 (앉기, 서기, 눕기, 걷기, 뛰기, 자전거 타기, 계단 오르기/내리기)

CoT 예시:

Prompt: "Given the following accelerometer data, classify the activity." Rationale: "The data shows brief drops in oxygen saturation during the night, accompanied by fluctuating heart rate. This pattern could point toward disrupted breathing events. Answer: Possible sleep apnea."

손필기 노트: "HAR-CoT는 움직임 패턴에 대한 설명"

결과:

OpenTSLM-SoftPrompt (Llama-3.2-1B): 65.44 F1 / 71.48 Acc

GPT-4o (plot): 60.44 F1

토큰화 + finetuned: 60.44 F1

작은 1B 모델이 GPT-4o를 능가한 것입니다! 😊

2. Sleep-CoT (Sleep Staging)

데이터: EEG (뇌파) 30초 세그먼트 태스크: 5가지 수면 단계 분류 (Wake, REM, Non-REM1/2/3)

CoT 예시:

Rationale: "The observed EEG signal displays a pattern characterized by relatively high frequency and variability, with rapid fluctuations and a lack of consistent, slow-wave patterns typically associated with a more alert and conscious condition. The presence of such dynamic and irregular patterns, along with the absence of the slower frequency oscillations points towards a classification of wakefulness."

손필기: "Sleep-CoT는 뇌파 패턴 분석"

결과:

OpenTSLM-SoftPrompt (Llama-3.2-1B): 69.88 F1 / 81.08 Acc

토큰화 + finetuned: 54.40 F1

9.05% 베이스라인 대비 향상! 이는 CoT rationale의 위력을 보여줍니다.

3. ECG-QA-CoT (심전도 질문 답변)

데이터: 12-lead ECG, 10초 길이 태스크: 3,138개의 다양한 질문에 자유 형식 답변

CoT 예시:

Question: "What range does the P-wave duration, the first lead ECG, fall into?" Rationale: "To determine the P-wave duration, we must first consider the standard normal range, which is typically 0.08 to 0.11 seconds. In the ECG, despite the presence of baseline drift, burst noise, and electrodes artifacts, examining the intervals can help us identify the relevant features. The P-wave relates consistently across the leads, and even with the presence of a pacemaker, it is crucial to assess whether any conduction abnormalities could affect the P wave duration. Therefore, considering the observed patterns and clinical context, the P-wave duration falls into the normal range."

손필기: "ECG-QA는 전문의 수준의 해석"

결과:

OpenTSLM-Flamingo (Llama3.2-3B): 40.25 F1 / 46.25 Acc

Tokenized finetuned: 26.77 F1

GPT-4o (plot): 2.95 F1 😱

중요: GPT-4o는 단순 plot 이미지만으로는 거의 답을 못 맞췄습니다 (2.95%). 이는 시계열을 "native modality"로 다루는 것의 중요성을 보여줍니다.

전문의 평가: 실제 임상 타당성

숫자만으로는 부족합니다. 실제 의료 현장에서 사용 가능한지 5명의 심장 전문의가 직접 평가했습니다.

평가 기준 (Figure 7):

Pattern Recognition (패턴 인식): ECG feature를 정확히 식별했는가?

Clinical Reasoning (임상 추론): 진단 논리가 타당한가?

Context Integration (맥락 통합): 환자 정보를 종합적으로 고려했는가?

결과:

Positive (긍정): 77% (패턴 인식)

Partial (부분 긍정): 30% (임상 추론)

Negative (부정): 14% (맥락 통합)

특히 Clinical Context Integration에서 85.1% 긍정 평가를 받았습니다! 😊

손필기: "전문의 평가 85% 긍정, 임상적으로 타당"

전문의 코멘트:

"The model correctly identified relevant ECG features (85.1% positive) and appropriately connected them to the final answer. Overall, the model gave a correct or partially correct ECG interpretation in 92.5% of cases."

Quantitative Results: 성능 비교

Table 2는 OpenTSLM과 베이스라인들의 성능을 비교합니다.

주요 인사이트

1. 텍스트 전용 베이스라인은 실패

Tokenized time-series (Gruver et al.): HAR에서 0.00 F1

이유: 템플릿 형식을 따르지 못하고 입력을 반복하거나 카운팅만 함

손필기: "토큰화 방식은 템플릿도 못 따라함"

2. GPT-4o도 plot만으로는 부족

TSQA에서 59.24로 준수하지만, ECG-QA에서는 2.95로 참패

이유: plot의 해상도 한계, 미세한 파형 변화 놓침

3. OpenTSLM-SoftPrompt의 강점

Llama-3.2-1B: TSQA에서 97.50 F1 (97.54 Acc)

GPT-4o (59.24)를 38점 차이로 압도

Sleep-CoT: 69.88 F1 (베이스라인 대비 +9.05%)

4. OpenTSLM-Flamingo의 강점

긴 시퀀스에서 안정적

Gemma-270M (작은 모델): TSQA 40.32 F1로 실용적 성능

손필기 정리:

"18B OpenTSLM이 GPT-4o (15.47%)를 2.95% 차이로 능가"

손필기 핵심 요약: LoRA, SoftPrompt, Cross-Attention

LoRA (Low-Rank Adaptation)

손필기에서 자세히 설명한 LoRA의 작동 원리:

기본 아이디어:

사전학습된 가중치 $\mathbf{W}^{\text{pretrained}}$는 동결 (freeze)

학습 가능한 저랭크 행렬 $\mathbf{A}, \mathbf{B}$ 추가

$\mathbf{A} \in \mathbb{R}^{d \times r}$, $\mathbf{B} \in \mathbb{R}^{r \times d}$ (여기서 $r \ll d$)
초기화: $\mathbf{A} = N(0, \sigma^2)$, $\mathbf{B} = 0$

Forward 연산: $$ h = \mathbf{W}^{\text{pretrained}} x + \mathbf{BA} x $$

왜 효율적인가?

Base 모델을 건드리지 않으므로 학습 파라미터 크게 감소

여러 LoRA 어댑터를 교체하면서 다양한 task 수행 가능

손필기: "LoRA는 Base 모델 0으로 두고 학습된 파라미터만 추가"

단점:

손필기: "메모리나 over-fitting 위험 있음 (데이터 50만 이하)"

SoftPrompt vs Hard Prompt

손필기에서 구분한 프롬프트 유형:

Hard Prompt (이산적):

실제 텍스트 토큰 사용 (예: "Data from Sensor X over Y days")

사람이 이해 가능

Soft Prompt (연속적):

학습 가능한 임베딩 벡터

모델이 최적화하지만, 사람은 해석 불가

손필기: "각 데이터마다 'Task'(파인튜닝) 같은 것"

장점: 표현력 강함, 유연함 단점: 해석 불가, 긴 시퀀스에서 메모리 폭발

Cross-Attention의 6단계

손필기에서 정리한 Cross-Attention 연산:

텍스트 Query: $\mathbf{Q}_{\text{text}} = \mathbf{x} \mathbf{W}_Q$

(Optional) PerceiverResampler를 거친 latent: $\mathbf{Z}_{\text{latent}}$

시계열 Key, Value: $\mathbf{K} = \mathbf{Z}_{\text{latent}} \mathbf{W}K$, $\mathbf{V} = \mathbf{Z}{\text{latent}} \mathbf{W}_V$

Attention 계산: $\text{Attention} = \text{softmax}\left( \frac{\mathbf{QK}^T}{\sqrt{d_k}} \right) \mathbf{V}$

Gated Sum: $\gamma_{\text{attn}} \cdot \text{Attention}$ (게이트로 영향력 조절)

Residual: $\mathbf{x} + \gamma_{\text{attn}} \cdot \text{Attention}$

손필기 강조:

"Query가 텍스트, Key/Value가 시계열 → '텍스트가 물어보면 시계열이 답한다'"

Discussion: 한계와 미래 방향

논문에서 밝힌 한계점들을 살펴봅시다.

1. Domain Shift에 민감

손필기: "시계열이 도메인별로 다르므로 파인튜닝 필요"

현재 OpenTSLM은 의료 데이터에 특화되어 있습니다. 금융, 제조, IoT 등 다른 도메인에 적용하려면 추가 파인튜닝이 필요할 것으로 보입니다.

2. 메모리 효율성

SoftPrompt의 한계:

손필기: "SoftPrompt는 긴 시퀀스에서 메모리 폭발"

Figure 5에서 확인했듯이 L=10,000에서 OOM

Flamingo의 장점:

메모리 안정성 확보

하지만 여전히 긴 시계열(10,000+)에서는 메모리 사용량 높음

3. 생성 vs 분류

손필기: "CoT 데이터 생성 시 GPT-4o 플롯 의존 → 플롯 품질 영향"

현재 CoT 데이터는 GPT-4o로 시계열 plot을 생성한 뒤 rationale을 만들었습니다. 하지만 plot만으로는 미세한 변화를 놓칠 수 있어, 생성된 rationale의 품질이 제한될 수 있습니다.

또한, 손실 함수가 정답 토큰에만 집중하므로 rationale 생성의 우선순위가 낮을 수 있습니다.

4. 일반화 검증 부족

손필기: "의료 외 일반화 검증 필요"

현재는 의료 데이터(HAR, Sleep, ECG)에서만 평가했습니다. 금융 시계열, 센서 데이터 등 unseen 도메인에 대한 평가가 필요합니다.

OpenTSLM이 주는 3가지 교훈

이 논문을 읽으며 얻은 인사이트를 정리해봅니다. 😊

1. 작은 모델도 적절한 설계로 충분하다

Gemma-270M (2.4GB)이 실용적 성능을 보였습니다. 항상 거대 모델이 답은 아니며, domain-adapted small model이 더 효율적일 수 있습니다.

특히 온디바이스 배포를 고려하면, 작은 모델 + 효율적 아키텍처(Flamingo)가 현실적 솔루션입니다.

2. Rationale 생성의 중요성

단순 분류(0 or 1)가 아닌 "왜 그런지" 설명하는 능력이 의료 AI의 핵심입니다.

전문의 평가에서 85%가 긍정 평가를 받은 것은, 모델이 단순히 정답을 맞추는 것이 아니라 임상적으로 타당한 추론을 한다는 의미입니다.

3. 시계열은 "또 다른 언어"가 될 수 있다

손필기 핵심:

"Time-series를 텍스트와 joint reasoning하는 것이 가능하다"

OpenTSLM은 시계열을 단순히 "숫자의 나열"이 아닌, LLM이 이해하고 추론할 수 있는 native modality로 만들었습니다. 이는 멀티모달 LLM의 다음 단계를 보여줍니다.

Conclusion

OpenTSLM은 시계열 데이터를 LLM에 통합하는 두 가지 아키텍처(SoftPrompt, Flamingo)를 제안하며, 다음을 입증했습니다:

✅ 작은 모델도 GPT-4o를 능가 가능 (18B가 15.47% vs 2.95%) ✅ 메모리 효율성: Flamingo는 긴 시퀀스에서도 안정적 ✅ 임상 타당성: 전문의 85% 긍정 평가 ✅ Rationale 생성: "왜 그런지" 설명 가능

특히 의료 분야에서 시계열 데이터의 중요성을 고려하면, OpenTSLM은 "시계열을 LLM의 언어로" 만드는 첫걸음이라고 생각합니다.

앞으로 이 방법이 의료뿐만 아니라 금융, 제조, IoT 등 다양한 도메인으로 확장되길 기대합니다. 😊

추가 자료

GitHub: https://github.com/StanfordBDHG/OpenTSLM

데이터셋: HAR-CoT, Sleep-CoT, ECG-QA-CoT (모두 오픈소스)

모델 가중치: 학습된 LoRA 어댑터 포함 공개

손필기에서 강조했듯이 "OpenTSLM은 본격 모델보다 LLM의 새로운 접근을 제시"합니다. 시계열 데이터를 다루는 연구자라면 꼭 참고해볼 만한 논문입니다.

나도 이제부터라도 시계열 데이터와 LLM 통합에 대해 관심을 가지고 열심히 공부해봐야겠다 😊

감사합니다!