Teaching

Lab Seminars

 

[2026.02.02] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale / TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 논문 리뷰

작성자 여지민 날짜 2026-02-02 16:00:25 조회수 13

논문 1: ViT (Vision Transformer)

논문제목:

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

링크:

https://arxiv.org/abs/2010.11929

Overview

NLP(자연어 처리) 분야를 제패한 Transformer 구조를 이미지 인식(Vision) 분야에 최소한의 수정만으로 직접 적용하여, 대규모 데이터 사전 학습 시 CNN(합성곱 신경망)을 능가하는 성능을 입증한 기념비적인 연구.

연구 배경

  • Transformer는 NLP 분야의 표준이 되었으나, Computer Vision에서는 여전히 CNN(ResNet 등)이 지배적이었음.

  • 이전 연구들은 Transformer를 CNN에 결합하거나 복잡한 Attention 메커니즘을 사용하여 효율성과 확장성(Scalability) 측면에서 한계가 있었음.

기존 한계

  • CNN은 이미지 특화된 편향(Inductive Bias)을 가지지만, 대규모 데이터 학습 시 오히려 모델의 용량(Capacity)과 일반화 성능을 제한하는 요소로 작용할 수 있음.

  • 기존의 Vision용 Attention 모델들은 픽셀 단위 연산 등으로 인해 연산 비용이 매우 높았음.

연구 목표

  • 이미지를 텍스트(단어)처럼 패치(Patch) 단위로 쪼개어, 순수 Transformer 구조(Pure Transformer)만으로 이미지 분류 작업을 수행.

  • 대규모 데이터셋(JFT-300M 등)을 이용한 사전 학습(Pre-training)이 Vision 작업에서 어떤 효율성을 갖는지 증명.

핵심 방법론 및 기여

  1. Patch Partitioning: 이미지를 16 X16 크기의 고정된 패치로 분할하고, 이를 1차원 벡터로 변환(Flatten)하여 시퀀스 데이터처럼 처리.

  2. Linear Projection of Flattened Patches: CNN 없이 선형 투영(Linear Layer)만으로 패치 임베딩을 생성하여 차원을 맞춤.

  3. Learnable Position Embedding: 이미지의 위치 정보를 학습 가능한 1D 벡터 형태로 더해주어 공간적 정보 보존.

  4. Class Token ([CLS]): BERT의 방식을 차용하여, 이미지 전체의 특징을 요약하는 학습 가능한 클래스 토큰 사용.

  5. Data Scale Efficiency: 데이터 양이 적을 땐 CNN이 우세하지만, 데이터 규모가 커질수록(14M~300M 장) Transformer가 CNN의 성능을 압도함을 실험적으로 증명.

주요 기여 (Contribution)

  • Vision 분야에서 "합성곱(Convolution) 없이도 SOTA 달성이 가능함"을 증명하여 패러다임을 전환.

  • 이미지를 패치 시퀀스로 다루는 단순하고 확장 가능한(Scalable) 구조 제안.

  • 대규모 데이터 사전 학습(Large-scale Pre-training)이 Vision 모델의 성능 향상에 결정적임을 입증.


논문 2: TrOCR

논문제목:

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

링크:

https://arxiv.org/abs/2109.10282

Overview

기존의 복잡한 CNN+RNN 기반의 OCR 파이프라인을 탈피하고, 사전 학습된 Vision Transformer(Encoder)와 Language Model(Decoder)을 결합하여 종단간(End-to-End) 방식으로 텍스트를 인식하는 모델.

연구 배경

  • 기존의 텍스트 인식(Text Recognition) 모델은 주로 CNN(특징 추출) + RNN(시퀀스 모델링) + CTC(정렬)의 하이브리드 구조를 사용함.

  • 이러한 구조는 구성 요소가 복잡하고, 각 모듈을 따로 튜닝해야 하거나 비효율적인 경우가 많았음.

기존 한계

  • 복잡성: CNN 백본과 RNN 헤드 간의 연결 구조가 복잡하며 유지 보수가 어려움.

  • 사전 학습의 부재: 이미지 모델과 언어 모델이 각각 강력한 사전 학습 모델들이 존재함에도, 기존 OCR 모델들은 이를 통합적으로 활용하지 못하고 바닥부터(Scratch) 학습하는 경우가 많았음.

연구 목표

  • CNN이나 RNN 없이, 오직 Transformer 구조만 사용하여 이미지에서 텍스트를 생성하는 단순하고 강력한 모델 구축.

  • 이미 검증된 대규모 사전 학습 모델(ViT 계열, RoBERTa 등)의 가중치를 가져와 OCR 작업에 효과적으로 전이 학습(Transfer Learning).

핵심 방법론 및 기여

  1. Encoder-Decoder 구조:

    • Encoder: ViT(DeiT, BEiT 등)를 사용하여 입력 이미지를 패치 단위로 처리하고 시각적 특징을 추출.

    • Decoder: RoBERTa와 같은 사전 학습된 언어 모델 구조를 사용하여, Encoder의 출력을 바탕으로 텍스트(Character/Subword)를 순차적으로 생성(Auto-regressive).

  2. Pre-trained Model 활용: 바닥부터 학습하는 대신, ImageNet 등으로 학습된 Vision 모델과 텍스트 코퍼스로 학습된 언어 모델을 초기 가중치로 사용하여 수렴 속도와 성능을 비약적으로 향상.

  3. No CNN/RNN: 합성곱 신경망이나 순환 신경망 없이 완전한 Transformer 기반으로만 구성.

주요 기여 (Contribution)

  • OCR 분야에서 최초로 사전 학습된 Vision 및 Language Transformer 모델을 결합한 End-to-End 솔루션 제안.

  • 복잡한 후처리나 정렬 알고리즘(CTC 등) 없이도, 주요 벤치마크 데이터셋에서 SOTA(State-of-the-Art) 성능 달성.

  • 단순한 구조 덕분에 구현과 배포가 용이하며, 다양한 언어나 손글씨 인식 등으로 확장이 쉬움.

댓글 (0)

등록된 댓글이 없습니다.
보안 문자 이미지