인공지능응용연구실

*제목
*작성자 이름
*비밀번호
상단 고정	상단 고정으로 설정 게시판 목록 상단에 고정 표시됩니다.
비밀글	비밀글로 설정
*내용	<p><strong>논문제목:</strong></p> <ul> <li>Query2doc: Query Expansion with Large Language Models</li> </ul> <p> </p> <p><strong>Overview:</strong></p> <ul> <li><strong>연구 배경:</strong></li> </ul> <ol> <li>정보 검색(Information Retrieval, IR)은 사용자의 쿼리가 주어졌을 때 대규모 코퍼스(말뭉치)에서 관련성 높은 문서를 찾아내는 것을 목표로 하는 핵심 기술</li> <li>IR의 주요 패러다임으로는 단어의 빈도를 따지는 Sparse retrieval(예: BM25)과 임베딩 벡터를 활용하는 Dense retrieval이 존재</li> <li>사용자의 검색 쿼리는 종종 짧고 모호하기 때문에, 실제 문서와의 어휘적 차이(Lexical Gap)를 줄이고 검색 성능을 높이기 위해 쿼리 확장(Query Expansion) 기술이 오랫동안 활용</li> </ol> <ul> <li><strong>기존 한계:</strong></li> </ul> <ol> <li>기존의 RM3와 같은 쿼리 확장 방식은 모델 구조의 복잡성이 증가하는 것에 비해 Dense retriever의 벡터 공간에서는 유의미한 성능 향상을 보장하지 못하는 등 효율성이 낮음</li> <li>이로 인해 최근의 최첨단 Dense retriever 모델들은 대부분 이러한 전통적인 쿼리 확장 기술을 채택하지 않고 있음.</li> </ol> <ul> <li><strong>연구 목표:</strong></li> </ul> <ol> <li>본 연구는 대형 언어 모델(LLM)을 활용한 간단하면서도 매우 효과적인 쿼리 확장 기법인 'Query2doc'을 제안하여, Sparse 및 Dense 검색 시스템 양쪽 모두의 성능을 끌어올리는 것을 목표</li> </ol> <p> </p> <p><strong>핵심 방법론 및 기여:</strong></p> <ul> <li><strong>가상 문서(Pseudo-document) 생성:</strong> 원본 쿼리가 주어지면 Few-shot prompting을 사용하여 LLM이 해당 쿼리에 답하는 가상의 문서를 생성하도록 유도합니다. 이를 위해 지시어와 함께 4개의 정답 쌍을 예시로 제공하여 문맥을 이해시킴</li> <li><b data-index-in-node="0" data-path-to-node="11,1,1,0">Sparse Retrieval (BM25) 적용 전략</b>: 일반적으로 사용자의 쿼리가 생성된 가상 문서보다 훨씬 짧기 때문에 가중치 불균형이 발생할 수 있습니다. 이를 해결하기 위해 원본 쿼리를 5번 반복(기본값)하여 쿼리 단어의 가중치를 높인 후 가상 문서와 결합</li> <li><strong>Dense Retrieval 적용 전략:</strong> 임베딩 기반의 모델을 사용할 때는 원본 쿼리와 생성된 가상 문서를 단순히 [SEP] 토큰(구분자)으로 구분하여 결합함으로써 하나의 확장된 쿼리를 생성</li> </ul> <p> </p> <p><strong>주요 기여</strong></p> <ul> <li>성능의 획기적 향상: 제안된 기법은 모델을 추가로 미세 조정(Fine-tuning)하지 않고도 MS-MARCO 및 TREC DL 데이터셋에서 기존 BM25 대비 3%~15%의 괄목할 만한 성능 향상을 이끌어냄</li> <li>넓은 범용성과 적용 용이성: Sparse retriever뿐만 아니라 DPR, SimLM, E5와 같은 최신 Dense retriever에서도 일관된 성능 개선을 보였습니다. 기존의 훈련 파이프라인이나 모델 구조를 전혀 변경하지 않고도 쉽게 적용할 수 있다는 점이 큰 장점이 존재</li> <li>LLM의 잠재력 입증: LLM을 직접 훈련시키지 않고 프롬프팅(Prompting) 기법만으로도 LLM이 웹 스케일 데이터에서 학습한 방대한 지식을 검색 시스템에 효과적으로 통합할 수 있음을 보여줌</li> </ul>
첨부파일	20260223_Seminar_ChaYeseong.pdf (1.4 MB)
*자동입력방지 코드

Teaching

Lab Seminars