[2026.02.23] Query2doc: Query Expansion with Large Language Models 논문 리뷰
작성자 차예성날짜 2026-02-24 13:27:24조회수 13
논문제목:
Query2doc: Query Expansion with Large Language Models
Overview:
연구 배경:
정보 검색(Information Retrieval, IR)은 사용자의 쿼리가 주어졌을 때 대규모 코퍼스(말뭉치)에서 관련성 높은 문서를 찾아내는 것을 목표로 하는 핵심 기술
IR의 주요 패러다임으로는 단어의 빈도를 따지는 Sparse retrieval(예: BM25)과 임베딩 벡터를 활용하는 Dense retrieval이 존재
사용자의 검색 쿼리는 종종 짧고 모호하기 때문에, 실제 문서와의 어휘적 차이(Lexical Gap)를 줄이고 검색 성능을 높이기 위해 쿼리 확장(Query Expansion) 기술이 오랫동안 활용
기존 한계:
기존의 RM3와 같은 쿼리 확장 방식은 모델 구조의 복잡성이 증가하는 것에 비해 Dense retriever의 벡터 공간에서는 유의미한 성능 향상을 보장하지 못하는 등 효율성이 낮음
이로 인해 최근의 최첨단 Dense retriever 모델들은 대부분 이러한 전통적인 쿼리 확장 기술을 채택하지 않고 있음.
연구 목표:
본 연구는 대형 언어 모델(LLM)을 활용한 간단하면서도 매우 효과적인 쿼리 확장 기법인 'Query2doc'을 제안하여, Sparse 및 Dense 검색 시스템 양쪽 모두의 성능을 끌어올리는 것을 목표
핵심 방법론 및 기여:
가상 문서(Pseudo-document) 생성: 원본 쿼리가 주어지면 Few-shot prompting을 사용하여 LLM이 해당 쿼리에 답하는 가상의 문서를 생성하도록 유도합니다. 이를 위해 지시어와 함께 4개의 정답 쌍을 예시로 제공하여 문맥을 이해시킴
Sparse Retrieval (BM25) 적용 전략: 일반적으로 사용자의 쿼리가 생성된 가상 문서보다 훨씬 짧기 때문에 가중치 불균형이 발생할 수 있습니다. 이를 해결하기 위해 원본 쿼리를 5번 반복(기본값)하여 쿼리 단어의 가중치를 높인 후 가상 문서와 결합
Dense Retrieval 적용 전략: 임베딩 기반의 모델을 사용할 때는 원본 쿼리와 생성된 가상 문서를 단순히 [SEP] 토큰(구분자)으로 구분하여 결합함으로써 하나의 확장된 쿼리를 생성
주요 기여
성능의 획기적 향상: 제안된 기법은 모델을 추가로 미세 조정(Fine-tuning)하지 않고도 MS-MARCO 및 TREC DL 데이터셋에서 기존 BM25 대비 3%~15%의 괄목할 만한 성능 향상을 이끌어냄
넓은 범용성과 적용 용이성: Sparse retriever뿐만 아니라 DPR, SimLM, E5와 같은 최신 Dense retriever에서도 일관된 성능 개선을 보였습니다. 기존의 훈련 파이프라인이나 모델 구조를 전혀 변경하지 않고도 쉽게 적용할 수 있다는 점이 큰 장점이 존재
LLM의 잠재력 입증: LLM을 직접 훈련시키지 않고 프롬프팅(Prompting) 기법만으로도 LLM이 웹 스케일 데이터에서 학습한 방대한 지식을 검색 시스템에 효과적으로 통합할 수 있음을 보여줌