Teaching

Lab Seminars

 

[2026.02.23] Query2doc: Query Expansion with Large Language Models 논문 리뷰

작성자 차예성 날짜 2026-02-24 13:27:24 조회수 13

논문제목:

  • Query2doc: Query Expansion with Large Language Models

 

Overview:

  • 연구 배경:
  1. 정보 검색(Information Retrieval, IR)은 사용자의 쿼리가 주어졌을 때 대규모 코퍼스(말뭉치)에서 관련성 높은 문서를 찾아내는 것을 목표로 하는 핵심 기술
  2. IR의 주요 패러다임으로는 단어의 빈도를 따지는 Sparse retrieval(예: BM25)과 임베딩 벡터를 활용하는 Dense retrieval이 존재
  3. 사용자의 검색 쿼리는 종종 짧고 모호하기 때문에, 실제 문서와의 어휘적 차이(Lexical Gap)를 줄이고 검색 성능을 높이기 위해 쿼리 확장(Query Expansion) 기술이 오랫동안 활용
  • 기존 한계:
  1. 기존의 RM3와 같은 쿼리 확장 방식은 모델 구조의 복잡성이 증가하는 것에 비해 Dense retriever의 벡터 공간에서는 유의미한 성능 향상을 보장하지 못하는 등 효율성이 낮음
  2. 이로 인해 최근의 최첨단 Dense retriever 모델들은 대부분 이러한 전통적인 쿼리 확장 기술을 채택하지 않고 있음.
  • 연구 목표:
  1. 본 연구는 대형 언어 모델(LLM)을 활용한 간단하면서도 매우 효과적인 쿼리 확장 기법인 'Query2doc'을 제안하여, Sparse 및 Dense 검색 시스템 양쪽 모두의 성능을 끌어올리는 것을 목표

 

핵심 방법론 및 기여:

  • 가상 문서(Pseudo-document) 생성: 원본 쿼리가 주어지면 Few-shot prompting을 사용하여 LLM이 해당 쿼리에 답하는 가상의 문서를 생성하도록 유도합니다. 이를 위해 지시어와 함께 4개의 정답 쌍을 예시로 제공하여 문맥을 이해시킴
  • Sparse Retrieval (BM25) 적용 전략: 일반적으로 사용자의 쿼리가 생성된 가상 문서보다 훨씬 짧기 때문에 가중치 불균형이 발생할 수 있습니다. 이를 해결하기 위해 원본 쿼리를 5번 반복(기본값)하여 쿼리 단어의 가중치를 높인 후 가상 문서와 결합
  • Dense Retrieval 적용 전략: 임베딩 기반의 모델을 사용할 때는 원본 쿼리와 생성된 가상 문서를 단순히 [SEP] 토큰(구분자)으로 구분하여 결합함으로써 하나의 확장된 쿼리를 생성

 

주요 기여

  • ​​​​​​​성능의 획기적 향상: 제안된 기법은 모델을 추가로 미세 조정(Fine-tuning)하지 않고도 MS-MARCO 및 TREC DL 데이터셋에서 기존 BM25 대비 3%~15%의 괄목할 만한 성능 향상을 이끌어냄
  • 넓은 범용성과 적용 용이성: Sparse retriever뿐만 아니라 DPR, SimLM, E5와 같은 최신 Dense retriever에서도 일관된 성능 개선을 보였습니다. 기존의 훈련 파이프라인이나 모델 구조를 전혀 변경하지 않고도 쉽게 적용할 수 있다는 점이 큰 장점이 존재
  • LLM의 잠재력 입증: LLM을 직접 훈련시키지 않고 프롬프팅(Prompting) 기법만으로도 LLM이 웹 스케일 데이터에서 학습한 방대한 지식을 검색 시스템에 효과적으로 통합할 수 있음을 보여줌

댓글 (0)

등록된 댓글이 없습니다.
보안 문자 이미지