[Paper Review] HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation

💡

HM-RAG는 단일 에이전트의 한계를 극복하고 '분해-검색-결정' 이라는 계층적 멀티 에이전트 협업을 통해 복잡한 멀티모달 데이터를 효과적으로 처리하는 새로운 RAG 패러다임을 제안한다.

HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation

While Retrieval-Augmented Generation (RAG) augments Large Language Models (LLMs) with external knowledge, conventional single-agent RAG remains fundamentally limited in resolving complex queries...

https://arxiv.org/abs/2504.12330

HMRAG

ocean-luna • Updated Nov 28, 2025

본 논문은 Hierarchical Multi-agent Multimodal RAG라는 새로운 프레임워크를 제안한다. 기존의 단일 에이전트 기반 검색 증강 생성 시스템은 정형, 비정형, 그래프 등 이질적인 데이터 소스 전반에 걸쳐 복잡한 추론을 요구하는 쿼리를 해결하는 데 근본적인 한계를 가진다. HM-RAG는 이러한 문제를 해결하기 위해 여러 전문 에이전트가 협력하는 구조를 채택했다.

이 프레임워크는 3계층 아키텍처로 구성된다.

Decomposition Agent: 복잡한 쿼리를 의미적으로 일관된 하위 작업으로 분해한다. 쿼리 재작성 및 스키마 기반 컨텍스트 보강을 통해 작업을 명확히 한다.

Multi-source Retrieval Agents: 벡터, 그래프, 웹 기반 데이터베이스를 대상으로 병렬적으로 정보를 검색한다. 각 데이터 소스에 최적화된 Plug-and-play 모듈을 사용한다.

Decision Agent: 여러 소스에서 검색된 답변들을 'Consistency Voting' 방식으로 통합하고, 'Expert Model Refinement'를 통해 결과 간의 불일치를 해결하여 최종 답변을 생성한다.

이러한 구조를 통해 HM-RAG는 텍스트, 그래프 관계, 웹 기반 증거를 종합하여 쿼리를 깊이 있게 이해한다. 그 결과, ScienceQA 및 CrisisMMD 벤치마크에서 기존 RAG 시스템 대비 답변 정확도는 12.95%, 질문 분류 정확도는 3.56% 향상되는 놀라운 성능을 보였다. 특히, 두 데이터셋 모두에서 zero-shot 설정으로 최고 수준의 성능을 달성했다는 점이 주목할 만하다. 모듈식 아키텍처 덕분에 새로운 데이터 유형을 쉽게 통합할 수 있으며, 엄격한 데이터 거버넌스를 유지할 수 있다는 장점도 가진다.

구분	(a) 기존 RAG	(b) HM-RAG (제안 모델)
데이터 종류	텍스트만 (단일 모달)	텍스트, 이미지 등 (멀티모달)
작업 방식	단일 파이프라인 (단일 에이전트)	분업과 협업 (멀티 에이전트)
정보 소스	벡터 DB 하나	벡터 DB, 그래프 DB, 웹 등 다중 소스
질문 처리	질문 그대로 처리	복잡한 질문을 분해하여 처리
답변 생성	단일 소스 정보로 생성	여러 소스 정보를 종합/판단하여 생성

Single-modal RAG: 텍스트 기반 RAG는 언어 정보 처리에는 뛰어나지만 시각적 콘텐츠를 다루지 못한다. 이미지 기반 RAG는 시각적 콘텐츠 처리에 능하지만, 이미지 요소와 텍스트 컨텍스트 간의 의미적 연결을 설정하는 데 실패하는 경우가 많다.

Graph-based RAG: 지식 그래프를 활용하여 데이터 간의 상호 의존성을 모델링하는 데 효과적이다. 이는 데이터 간의 고차원적 관계를 파악하는 데 유리하지만, fine-grained details의 충실도를 희생하는 트레이드오프가 존재한다. 즉, 미묘한 분석에 필요한 세부 텍스트를 놓칠 수 있다.

Modality Isolation: 각 데이터 유형에 특화된 시스템들은 서로 다른 모달리티를 종합하는 능력이 부족하다. 이로 인해 이질적인 데이터 환경에서 정보 검색 시 중요한 정보 손실이 발생할 위험이 있다.

이러한 문제들을 해결하기 위해 저자들은 HM-RAG를 제안한다. 이 프레임워크는 여러 전문 에이전트 간의 유기적인 협력을 통해 멀티모달 검색 성능을 극대화한다. 핵심 아이디어는 다음과 같다.

계층적 구조 → 쿼리 분석(분해 에이전트), 병렬적 정보 수집(다중 소스 검색 에이전트), 결과 종합 및 정제(결정 에이전트)의 3단계로 작업을 체계화하였음.

플러그 앤 플레이 통합 → 벡터, 그래프, 웹 등 다양한 데이터 소스를 유연하게 연결할 수 있는 모듈식 설계를 채택함.

전문가 주도 정제 →최종 답변의 품질을 높이기 위해 전문가 모델(LLM, MLLM 등)을 통한 정제 과정을 도입함.

방법론

Multimodal Knowledge Pre-Processing (멀티모달 지식 사전 처리 )

본격적인 검색에 앞서, 텍스트와 이미지 데이터를 벡터 및 그래프 데이터베이스로 변환하는 과정이다.

멀티모달 텍스트 지식 생성: VLM(BLIP-2)을 사용하여 이미지에서 텍스트 설명(Tv)을 추출한다. 이후, 기계가 생성한 설명의 모호함을 줄이고 구체성을 높이기 위해 원본 텍스트 데이터와 결합하여 정제된 멀티모달 텍스트 기반(Tm)을 구축한다.

멀티모달 지식 그래프 구축: LightRAG 프레임워크를 사용해 정제된 텍스트 기반(Tm)으로부터 멀티모달 지식 그래프(MMKG)를 생성한다. 이 그래프는 텍스트와 이미지에서 추출된 개념(entities)과 관계(relations)를 삼중자(triplets) 형태로 저장하며, 이미지 데이터의 원본 위치 정보를 포함하여 교차 모달 참조(cross-modal grounding)가 가능하도록 설계된다.

Decomposition Agent (분해 에이전트)

복잡하고 여러 의도를 가진 사용자 쿼리를 실행 가능한 하위 작업으로 분해하는 역할을 한다.

분해 필요성 판단: LLM을 사용하여 입력 쿼리가 단일 의도인지 다중 의도인지 먼저 판단한다.

의도 분해: 다중 의도로 판단될 경우, 구조화된 프롬프트를 통해 쿼리를 2~3개의 단순하고 논리적으로 연결된 하위 질문으로 분해한다.

Multi-source Plug-and-Play Retrieval Agents (다중 소스 플러그 앤 플레이 검색 에이전트)

분해된 하위 질문을 바탕으로, 세 가지 전문 에이전트가 병렬적으로 정보를 검색한다. 각 에이전트는 표준화된 인터페이스를 통해 쉽게 교체하거나 통합할 수 있다.

벡터 기반 검색 에이전트: 비정형 텍스트에서 세분화된 정보를 검색한다. 일반적인 시맨틱 검색 방식(임베딩 → 코사인 유사도 계산 → 상위 k개 검색)을 사용한다.

그래프 기반 검색 에이전트: MMKG 내에서 관계형 정보를 탐색한다. LightRAG의 그래프 순회(traversal) 기능을 활용하여 쿼리와 관련된 하위 그래프를 동적으로 구성한다.

웹 기반 검색 에이전트: 실시간 정보가 필요할 때 사용된다. Google Serper API를 통해 웹에서 최신 정보를 검색한다.

Decision Agent (결정 에이전트)

각 검색 에이전트가 가져온 답변(Av, Ag, Aw)들을 종합하여 최종 답변을 생성하는 마지막 단계이다.

Consistency Voting(일관성 투표): 먼저 각 답변 쌍의 의미적 일치도를 ROUGE-L, BLEU와 같은 지표로 평가한다. 유사도가 특정 임계값을 넘으면, 답변들이 일관성이 있다고 판단하고 경량 LLM(Lightweight LLM)을 사용해 최종 답변으로 정제한다.

Expert Model Refinement(전문가 모델 정제): 만약 답변 간 유사도가 낮아 서로 충돌한다고 판단되면, 더 강력한 '전문가 모델'(예: GPT-4, MLLM)을 호출한다. 이 전문가 모델은 원본 쿼리와 모든 검색된 증거들을 다시 검토하여 논리적으로 일관되고 사실에 기반한 최종 답변을 합성한다.

이러한 2단계 결정 과정은 효율성(빠른 투표)과 정확성(느리지만 강력한 전문가 정제) 사이의 균형을 맞추는 보다 나은 전략으로 생각된다.

실험 및 결과

ScienceQA 데이터셋 결과

최고 성능 달성: HM-RAG는 93.73%의 평균 정확도를 기록하며 SOTA(State-of-the-art)를 달성했다. 상용 모델인 GPT-4o(91.16%)는 물론, 인간 전문가의 성능(88.40%)까지 뛰어넘었다.

압도적인 성능 격차: 이는 단일 에이전트 RAG (벡터 기반, 그래프 기반, 웹 기반)보다 각각 12.95%, 12.71%, 12.13% 더 높은 수치이다.

CrisisMMD 데이터셋 결과

CrisisMMD는 재난 상황에서 생성된 소셜 미디어 게시물(텍스트+이미지)로 구성된 데이터셋이다.

SOTA 달성: HM-RAG는 58.55%의 평균 정확도로 최고 성능을 기록했다.

뛰어난 파라미터 효율성: 가장 강력한 텍스트 전용 모델(Qwen2.5-72B)과 GPT-4o보다 적은 7B 파라미터 모델을 사용했음에도 불구하고 각각 2.3%, 3.44% 더 높은 성능을 보였다.

멀티모달 통합의 효과: HM-RAG는 텍스트만 사용한 변형 모델보다 5.7%, 그래프만 사용한 변형 모델보다 2.01% 더 높은 정확도를 보여, 다중 소스 추론의 효과를 명확히 입증했다.

Qualitative Analysis (정성적 분석)

문제 상황

질문: "이미지에 표시된 식민지의 이름은 무엇인가요?"

제시된 정보: 미국 초기 13개 식민지 지도 이미지. 특정 지역(뉴햄프셔)이 더 짙은 녹색으로 강조되어 있습니다.

선택지: (A) 메릴랜드, (B) 뉴햄프셔, (C) 로드아일랜드, (D) 버몬트

정답: (B) 뉴햄프셔

각 에이전트의 답변 및 실패 원인 분석

1. Text-based (텍스트 기반 에이전트)

답변: 실패(FAILED). (임의로 (D)를 찍었지만 사실상 답을 못 찾음)

실패 원인: 이 에이전트는 오직 텍스트 데이터베이스만 참조할 수 있습니다. 주어진 이미지를 "볼" 능력이 없습니다. 데이터베이스에 이 지도 이미지에 대한 설명이 없다면, 질문에 답할 방법이 전혀 없습니다. → 시각 정보 부족으로 실패.

2. Graph-based (그래프 기반 에이전트)

답변: (A) 메릴랜드 (오답)

실패 원인: 이 에이전트는 지식 그래프, 즉 데이터 간의 관계를 잘 알고 있습니다. '메릴랜드는 13개 식민지 중 하나이다'와 같은 사실은 알고 있을 수 있습니다. 하지만 텍스트 에이전트와 마찬가지로, 지도 이미지의 시각적 정보를 직접적으로 해석하여 자신의 지식과 연결하지 못합니다. → 시각 정보와 지식 연결 실패로 실패.

3. Web-based (웹 기반 에이전트)

답변: (C) 로드아일랜드 (오답)

실패 원인: 이 에이전트는 웹을 검색하여 brainly.com이라는 사이트에서 비슷한 질문과 답변을 찾아냈습니다. 하지만 웹에는 수많은 정보가 있고, 종종 비슷하지만 다른 이미지나 잘못된 정보가 존재합니다. 이 에이전트는 검색된 정보가 현재 주어진 이미지와 100% 일치하는지 검증하지 못하고, 그럴듯해 보이는 검색 결과를 그대로 가져온 것입니다. → 부정확한 외부 정보에 의존하여 실패.

4. HM-RAG의 성공 비결

HM-RAG의 결정 에이전트(Decision Agent)는 위 세 에이전트로부터 각각 (D), (A), (C)라는 제각각의 답변과 "실패" 신호를 받습니다.

답변들이 서로 충돌하고 신뢰할 수 없다고 판단한 결정 에이전트는 '전문가 모델 정제(Expert Model Refinement)' 단계를 가동합니다.

이 단계에서 이미지를 이해할 수 있는 강력한 멀티모달 모델(전문가 모델)이 호출됩니다.

이 전문가 모델은 세 에이전트의 실패한 답변들을 참고 자료로만 활용하고, 원본 질문과 원본 이미지를 직접 다시 살펴봅니다.

그리고 "지도가 뉴햄프셔를 더 짙은 색으로 강조하고 있으므로, 이것이 선택된 식민지이다"라고 정확하게 시각적 근거를 바탕으로 추론하여 정답 (B)를 도출합니다.

Ablation Studies (구성 요소 제거 연구)

각 에이전트 구성 요소의 중요도를 파악하기 위해 하나씩 제거하며 성능을 측정했다.

결정 에이전트(DA)가 가장 중요: DA를 제거했을 때 성능이 10.82%나 하락하여 가장 큰 영향을 미쳤다. 이는 여러 소스의 정보를 종합하고 정제하는 역할이 매우 중요함을 시사한다.

웹 검색 에이전트(WA)의 중요성: WA를 제거하면 평균 성능이 5.63% 감소했으며, 특히 복잡한 고학년 수준 문제에서 영향이 컸다.

완전한 시스템이 최적: 모든 에이전트(VA, GA, WA, DA)가 통합된 완전한 시스템이 93.73%로 최고의 성능을 보였다.

결론적으로, 실험 결과는 HM-RAG의 계층적 멀티 에이전트 아키텍처가 복잡한 멀티모달 추론 문제 해결에 매우 효과적임을 강력하게 뒷받침한다.

본 논문이 제시하는 HM-RAG는 기존의 단일 파이프라인 RAG의 한계를 명확히 인식하고, 이를 '분업과 협업'이라는 멀티 에이전트 패러다임으로 해결한 인상적인 연구이다. 단순히 여러 데이터 소스를 사용하는 것을 넘어, 각 작업을 전문화된 에이전트에게 위임하고 그 결과를 체계적으로 종합하는 계층적 구조가 핵심이다.

핵심 기여 (Contribution)

계층적 멀티 에이전트 아키텍처: '계획(분해)-실행(검색)-종합(결정)'의 3단계 구조를 RAG에 도입하여, 복잡한 문제를 체계적으로 해결할 수 있는 확장 가능한 프레임워크를 제시했다.

플러그 앤 플레이 방식의 다중 소스 검색: 어떤 단일 데이터 소스도 만능이 아니라는 현실을 인정하고, 벡터(비정형 텍스트), 그래프(관계형 지식), 웹(실시간 정보) 검색을 유연하게 통합했다.

지능적인 2단계 결정 메커니즘: 빠른 '일관성 투표'로 간단한 사례를 효율적으로 처리하고, 어려운 '전문가 모델 정제'로 답변의 정확성을 보장함으로써 효율과 성능의 균형을 맞췄다.

한계점 및 향후 연구 방향 (Limitation & Future Work)

시스템 복잡성 및 지연 시간: 다수의 에이전트와 모델이 상호작용하는 구조는 전체 시스템의 복잡성을 높이고, 특히 '전문가 모델 정제' 단계에서 응답 지연 시간을 증가시킬 수 있다. 각 단계의 최적화 및 경량화가 중요한 과제가 될 것이다.

오류 전파 가능성: 초기 '분해 에이전트'가 쿼리의 의도를 잘못 파악하면, 후속 검색 에이전트 전체가 잘못된 방향으로 작업을 수행할 위험이 존재한다.

동적 에이전트 라우팅: 현재는 모든 검색 에이전트를 병렬적으로 실행하지만, 쿼리의 특성에 따라 가장 적합한 에이전트(들)를 동적으로 선택하거나 작업의 우선순위를 정하는 방식으로 효율성을 더욱 높일 수 있을 것이다.

다양한 모달리티로의 확장: 현재의 텍스트, 이미지, 그래프를 넘어 비디오, 오디오 등 더 다양한 데이터 모달리티를 처리할 수 있도록 에이전트의 종류를 확장하는 연구가 기대된다.