논문 1: Donut (Document understanding transformer)
논문제목: OCR-free Document Understanding Transformer
링크: https://arxiv.org/abs/2111.15664
Overview 외부의 광학 문자 인식(OCR) 엔진에 의존하지 않고, 이미지에서 곧바로 구조화된 정보(JSON)를 추출해내는 종단간(End-to-End) 트랜스포머 기반의 시각적 문서 이해(VDU) 모델을 제안한 연구. 연구 배경 영수증, 청구서 등 상업용 문서에서 정보를 추출하기 위한 시각적 문서 이해(VDU) 작업은 산업적으로 매우 중요함. 기존의 VDU 모델(예: LayoutLM 등)들은 먼저 기성 OCR 엔진을 사용해 텍스트와 위치(Bounding Box)를 추출한 뒤, 그 결과를 바탕으로 문서를 이해하는 파이프라인 방식을 채택함.
기존 한계
비용 및 유연성 부족: 무거운 외부 OCR 엔진을 거쳐야 하므로 계산 비용이 높고, 새로운 언어나 특수 도메인 문서에 적용하기 위해서는 OCR 모델 자체를 다시 학습해야 하는 유연성 문제가 존재함.
오류 전파(Error Propagation): OCR 단계에서 발생한 오타나 인식 오류가 후속 문서 이해 모듈로 그대로 전달되어 전체 시스템의 성능을 저하시킴.
연구 목표 OCR 엔진에 대한 의존성으로 인해 발생하는 비용 및 오류 전파 문제를 해결하기 위해, 순수 트랜스포머 구조만으로 문서 이미지를 직접 읽고 이해하는 빠르고 정확한 'OCR-free' 모델(Donut)을 구축.
핵심 방법론 및 기여
OCR-free 인코더-디코더 구조: Swin Transformer를 시각 인코더로 사용하여 이미지의 특징을 추출하고, 다국어 BART(mBART)를 텍스트 디코더로 사용하여 토큰 시퀀스를 직접 생성함.
직접적인 JSON 생성: 토큰 시퀀스 생성 시 [START_*] 및 [END_*]와 같은 특수 토큰을 삽입하여, 모델의 최종 출력을 원하는 구조의 JSON 포맷으로 곧바로 변환할 수 있도록 설계함.
효율적인 2단계 학습: 모델이 먼저 이미지 속 글자를 읽는 법을 배우는 '사전 학습(Pre-training)'을 거친 뒤, 추출할 정보의 구조(JSON 레이아웃)를 파악하는 '미세 조정(Fine-tuning)' 단계를 거침.
합성 문서 생성기(SynthDoG) 도입: 다국어 스캔 문서 데이터가 부족한 문제를 해결하기 위해, 위키백과 텍스트와 다양한 질감을 합성하여 무한대로 훈련 데이터를 생성할 수 있는 SynthDoG를 개발하여 사전 학습에 활용함.
주요 기여 (Contribution)
종단간(End-to-End) 방식으로 훈련된 최초의 OCR-free 트랜스포머 기반 VDU 모델을 제시함.
무거운 외부 OCR을 사용하는 기존 모델(LayoutLMv2 등)보다 파라미터가 작고 추론 속도는 빠르면서도 다양한 벤치마크(CORD 등)에서 SOTA(최고 수준) 정확도를 달성함.
SynthDoG를 통해 외부 OCR 엔진 재학습 없이 다국어(한국어, 일본어, 중국어 등) 문서 환경으로 모델을 쉽게 확장할 수 있음을 입증함.
논문 2: GOT-OCR 2.0
논문제목: General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
링크: https://arxiv.org/abs/2409.01704v1
Overview 단순한 일반 텍스트를 넘어 수학/화학 수식, 표, 악보, 기하학적 도형, 차트 등 사람이 만든 모든 인공적인 광학 신호를 하나의 거대한 엔드투엔드 모델로 인식해내는 5억 8천만(580M) 파라미터 크기의 통합 OCR-2.0 모델(GOT)을 제안한 연구. 연구 배경 전통적인 OCR 시스템(OCR-1.0)은 텍스트 감지, 영역 자르기, 인식 등으로 나뉜 복잡한 파이프라인을 가짐. 최근 대형 비전-언어 모델(LVLM)들이 OCR 능력을 보여주고 있으나, 이들은 시각적 인식(Perception)보다는 시각적 추론(Reasoning, 예: VQA)에 최적화되어 작동함.
기존 한계
OCR-1.0의 한계: 복잡한 모듈 구성으로 인해 유지 보수 비용이 높고, 특정 작업(예: 논문 수식 인식)마다 각각 다른 모델을 사용해야 하는 번거로움과 범용성 부족 문제가 있음.
LVLM의 한계: 언어 모델(LLM)에 이미지 토큰을 정렬시키는 방식은 문자 밀도가 높은 문서에서 토큰 낭비(압축률 저하)를 초래하며, 파라미터 크기가 수십억 개에 달해 가벼운 OCR 기능 추가를 위한 반복 학습 및 배포 비용이 지나치게 높음.
연구 목표 낮은 유지보수 비용(End-to-End), 저렴한 훈련 및 추론 비용(적절한 파라미터), 그리고 광범위한 범용성(다양한 인공 광학 신호 처리)을 갖춘 '일반 OCR 이론(OCR-2.0)'을 정립하고, 이를 구현한 GOT 모델을 개발.
핵심 방법론 및 기여
고압축 인코더 & 긴 문맥 디코더: 약 80M 파라미터의 VitDet 기반 인코더를 사용하여 1024 X 1024 해상도 이미지를 256 X1024 차원의 적은 토큰으로 강하게 압축하고, 최대 8K의 긴 토큰 길이를 지원하는 Qwen-0.5B 디코더를 결합하여 밀도 높은 문서에 대응함.
3단계 다중 학습 전략: 1단계로 가벼운 디코더(OPT-125M)를 붙여 시각 인코더만 강력하게 사전 학습하고, 2단계에서 Qwen 디코더를 붙여 일반 광학 신호를 결합 훈련하며, 3단계에서는 디코더만 미세 조정하여 새로운 기능(다중 페이지 등)을 추가함.
범용 데이터 엔진 렌더링: LaTeX, Mathpix, TikZ, Verovio, Matplotlib 등 다양한 렌더링 툴을 활용하여 악보, 차트, 기하학 도형, 분자식 등 수백만 건의 고품질 합성 데이터를 자체적으로 구축하여 학습에 사용함.
고급 대화형/실용적 OCR 기능: 좌표나 색상을 기반으로 특정 영역만 인식하는 세밀한 OCR(Fine-grained OCR), 거대한 이미지를 잘라서 처리하는 동적 해상도(Dynamic Resolution), 여러 장의 PDF를 한 번에 입력하는 다중 페이지(Multi-page) 기능을 구현함.
주요 기여 (Contribution)
기존 텍스트 인식의 한계를 뛰어넘어, 모든 인공 광학 신호를 포괄하는 통합된 'OCR-2.0' 개념과 아키텍처를 새롭게 제시함.
단 580M이라는 가벼운 모델 크기에도 불구하고, 수식, 차트, 악보 등의 복잡한 마크다운/포맷 생성 작업에서 수백억 파라미터를 가진 거대 LVLM이나 기존 특화 모델들을 능가하는 탁월한 성능을 입증함.
다양한 포맷의 합성 데이터 파이프라인과 동적 해상도 처리 기법을 오픈소스로 제안하여, 실무 환경에서 즉시 적용 가능한 실용성을 확보함.