인공지능응용연구실

*제목
*작성자 이름
*비밀번호
상단 고정	상단 고정으로 설정 게시판 목록 상단에 고정 표시됩니다.
비밀글	비밀글로 설정
*내용	<p><meta charset="utf-8" /></p> <h3 dir="ltr"> </h3> <hr /> <p><span style="font-size:18px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">논문 1: Donut (Document understanding transformer)</b></span></p> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">논문제목: OCR-free Document Understanding Transformer</b></span></p> <p> </p> <p dir="ltr"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">링크: <a href="https://arxiv.org/abs/2111.15664">https://arxiv.org/abs/2111.15664</a></b></p> <p> </p> <p dir="ltr"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">Overview 외부의 광학 문자 인식(OCR) 엔진에 의존하지 않고, 이미지에서 곧바로 구조화된 정보(JSON)를 추출해내는 종단간(End-to-End) 트랜스포머 기반의 시각적 문서 이해(VDU) 모델을 제안한 연구. 연구 배경 영수증, 청구서 등 상업용 문서에서 정보를 추출하기 위한 시각적 문서 이해(VDU) 작업은 산업적으로 매우 중요함. 기존의 VDU 모델(예: LayoutLM 등)들은 먼저 기성 OCR 엔진을 사용해 텍스트와 위치(Bounding Box)를 추출한 뒤, 그 결과를 바탕으로 문서를 이해하는 파이프라인 방식을 채택함.</b></p> <p dir="ltr"> </p> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">기존 한계</b></span></p> <ul> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">비용 및 유연성 부족: 무거운 외부 OCR 엔진을 거쳐야 하므로 계산 비용이 높고, 새로운 언어나 특수 도메인 문서에 적용하기 위해서는 OCR 모델 자체를 다시 학습해야 하는 유연성 문제가 존재함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">오류 전파(Error Propagation): OCR 단계에서 발생한 오타나 인식 오류가 후속 문서 이해 모듈로 그대로 전달되어 전체 시스템의 성능을 저하시킴.</b><br />  </p> </li> </ul> <p dir="ltr"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">연구 목표 OCR 엔진에 대한 의존성으로 인해 발생하는 비용 및 오류 전파 문제를 해결하기 위해, 순수 트랜스포머 구조만으로 문서 이미지를 직접 읽고 이해하는 빠르고 정확한 'OCR-free' 모델(Donut)을 구축.</b></p> <p> </p> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">핵심 방법론 및 기여</b></span></p> <ul> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">OCR-free 인코더-디코더 구조: Swin Transformer를 시각 인코더로 사용하여 이미지의 특징을 추출하고, 다국어 BART(mBART)를 텍스트 디코더로 사용하여 토큰 시퀀스를 직접 생성함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">직접적인 JSON 생성: 토큰 시퀀스 생성 시 [START_] 및 [END_]와 같은 특수 토큰을 삽입하여, 모델의 최종 출력을 원하는 구조의 JSON 포맷으로 곧바로 변환할 수 있도록 설계함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">효율적인 2단계 학습: 모델이 먼저 이미지 속 글자를 읽는 법을 배우는 '사전 학습(Pre-training)'을 거친 뒤, 추출할 정보의 구조(JSON 레이아웃)를 파악하는 '미세 조정(Fine-tuning)' 단계를 거침.</b></p> </li> </ul> <p> </p> <ul> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">합성 문서 생성기(SynthDoG) 도입: 다국어 스캔 문서 데이터가 부족한 문제를 해결하기 위해, 위키백과 텍스트와 다양한 질감을 합성하여 무한대로 훈련 데이터를 생성할 수 있는 SynthDoG를 개발하여 사전 학습에 활용함.</b><br />  </p> </li> </ul> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">주요 기여 (Contribution)</b></span></p> <ul> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">종단간(End-to-End) 방식으로 훈련된 최초의 OCR-free 트랜스포머 기반 VDU 모델을 제시함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">무거운 외부 OCR을 사용하는 기존 모델(LayoutLMv2 등)보다 파라미터가 작고 추론 속도는 빠르면서도 다양한 벤치마크(CORD 등)에서 SOTA(최고 수준) 정확도를 달성함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">SynthDoG를 통해 외부 OCR 엔진 재학습 없이 다국어(한국어, 일본어, 중국어 등) 문서 환경으로 모델을 쉽게 확장할 수 있음을 입증함.</b><br />  </p> </li> </ul> <h3 dir="ltr"> </h3> <hr /> <p><span style="font-size:18px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">논문 2: GOT-OCR 2.0</b></span></p> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">논문제목: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model</b></span></p> <p> </p> <p dir="ltr"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">링크: <a href="https://www.google.com/search?q=https://arxiv.org/abs/2409.01704v1&authuser=4">https://arxiv.org/abs/2409.01704v1</a></b></p> <p> </p> <p dir="ltr"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">Overview 단순한 일반 텍스트를 넘어 수학/화학 수식, 표, 악보, 기하학적 도형, 차트 등 사람이 만든 모든 인공적인 광학 신호를 하나의 거대한 엔드투엔드 모델로 인식해내는 5억 8천만(580M) 파라미터 크기의 통합 OCR-2.0 모델(GOT)을 제안한 연구. 연구 배경 전통적인 OCR 시스템(OCR-1.0)은 텍스트 감지, 영역 자르기, 인식 등으로 나뉜 복잡한 파이프라인을 가짐. 최근 대형 비전-언어 모델(LVLM)들이 OCR 능력을 보여주고 있으나, 이들은 시각적 인식(Perception)보다는 시각적 추론(Reasoning, 예: VQA)에 최적화되어 작동함.</b></p> <p> </p> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">기존 한계</b></span></p> <ul> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">OCR-1.0의 한계: 복잡한 모듈 구성으로 인해 유지 보수 비용이 높고, 특정 작업(예: 논문 수식 인식)마다 각각 다른 모델을 사용해야 하는 번거로움과 범용성 부족 문제가 있음.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">LVLM의 한계: 언어 모델(LLM)에 이미지 토큰을 정렬시키는 방식은 문자 밀도가 높은 문서에서 토큰 낭비(압축률 저하)를 초래하며, 파라미터 크기가 수십억 개에 달해 가벼운 OCR 기능 추가를 위한 반복 학습 및 배포 비용이 지나치게 높음.</b><br />  </p> </li> </ul> <p dir="ltr"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">연구 목표 낮은 유지보수 비용(End-to-End), 저렴한 훈련 및 추론 비용(적절한 파라미터), 그리고 광범위한 범용성(다양한 인공 광학 신호 처리)을 갖춘 '일반 OCR 이론(OCR-2.0)'을 정립하고, 이를 구현한 GOT 모델을 개발.</b></p> <p> </p> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">핵심 방법론 및 기여</b></span></p> <ul> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">고압축 인코더 & 긴 문맥 디코더: 약 80M 파라미터의 VitDet 기반 인코더를 사용하여 <em>1024 X 1024</em> 해상도 이미지를 <em>256 X1024</em> 차원의 적은 토큰으로 강하게 압축하고, 최대 8K의 긴 토큰 길이를 지원하는 Qwen-0.5B 디코더를 결합하여 밀도 높은 문서에 대응함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">3단계 다중 학습 전략: 1단계로 가벼운 디코더(OPT-125M)를 붙여 시각 인코더만 강력하게 사전 학습하고, 2단계에서 Qwen 디코더를 붙여 일반 광학 신호를 결합 훈련하며, 3단계에서는 디코더만 미세 조정하여 새로운 기능(다중 페이지 등)을 추가함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">범용 데이터 엔진 렌더링: LaTeX, Mathpix, TikZ, Verovio, Matplotlib 등 다양한 렌더링 툴을 활용하여 악보, 차트, 기하학 도형, 분자식 등 수백만 건의 고품질 합성 데이터를 자체적으로 구축하여 학습에 사용함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">고급 대화형/실용적 OCR 기능: 좌표나 색상을 기반으로 특정 영역만 인식하는 세밀한 OCR(Fine-grained OCR), 거대한 이미지를 잘라서 처리하는 동적 해상도(Dynamic Resolution), 여러 장의 PDF를 한 번에 입력하는 다중 페이지(Multi-page) 기능을 구현함.</b></p> </li> </ul> <p dir="ltr"> </p> <p dir="ltr"><span style="font-size:16px;"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">주요 기여 (Contribution)</b></span></p> <ul> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">기존 텍스트 인식의 한계를 뛰어넘어, 모든 인공 광학 신호를 포괄하는 통합된 'OCR-2.0' 개념과 아키텍처를 새롭게 제시함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">단 580M이라는 가벼운 모델 크기에도 불구하고, 수식, 차트, 악보 등의 복잡한 마크다운/포맷 생성 작업에서 수백억 파라미터를 가진 거대 LVLM이나 기존 특화 모델들을 능가하는 탁월한 성능을 입증함.</b><br />  </p> </li> <li aria-level="1" dir="ltr"> <p dir="ltr" role="presentation"><b id="docs-internal-guid-5ea5acd9-7fff-3995-e46d-0908cb4ba85c">다양한 포맷의 합성 데이터 파이프라인과 동적 해상도 처리 기법을 오픈소스로 제안하여, 실무 환경에서 즉시 적용 가능한 실용성을 확보함.</b></p> </li> </ul>
첨부파일	02_23_세미나_VLM(OCR-free)_여지민,박상빈.pdf (9.2 MB)
*자동입력방지 코드

Teaching

Lab Seminars