논문제목:
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale
링크:
https://arxiv.org/abs/2010.11929
Overview
NLP(자연어 처리) 분야를 제패한 Transformer 구조를 이미지 인식(Vision) 분야에 최소한의 수정만으로 직접 적용하여, 대규모 데이터 사전 학습 시 CNN(합성곱 신경망)을 능가하는 성능을 입증한 기념비적인 연구.
연구 배경
Transformer는 NLP 분야의 표준이 되었으나, Computer Vision에서는 여전히 CNN(ResNet 등)이 지배적이었음.
이전 연구들은 Transformer를 CNN에 결합하거나 복잡한 Attention 메커니즘을 사용하여 효율성과 확장성(Scalability) 측면에서 한계가 있었음.
기존 한계
CNN은 이미지 특화된 편향(Inductive Bias)을 가지지만, 대규모 데이터 학습 시 오히려 모델의 용량(Capacity)과 일반화 성능을 제한하는 요소로 작용할 수 있음.
기존의 Vision용 Attention 모델들은 픽셀 단위 연산 등으로 인해 연산 비용이 매우 높았음.
연구 목표
이미지를 텍스트(단어)처럼 패치(Patch) 단위로 쪼개어, 순수 Transformer 구조(Pure Transformer)만으로 이미지 분류 작업을 수행.
대규모 데이터셋(JFT-300M 등)을 이용한 사전 학습(Pre-training)이 Vision 작업에서 어떤 효율성을 갖는지 증명.
핵심 방법론 및 기여
Patch Partitioning: 이미지를 16 X16 크기의 고정된 패치로 분할하고, 이를 1차원 벡터로 변환(Flatten)하여 시퀀스 데이터처럼 처리.
Linear Projection of Flattened Patches: CNN 없이 선형 투영(Linear Layer)만으로 패치 임베딩을 생성하여 차원을 맞춤.
Learnable Position Embedding: 이미지의 위치 정보를 학습 가능한 1D 벡터 형태로 더해주어 공간적 정보 보존.
Class Token ([CLS]): BERT의 방식을 차용하여, 이미지 전체의 특징을 요약하는 학습 가능한 클래스 토큰 사용.
Data Scale Efficiency: 데이터 양이 적을 땐 CNN이 우세하지만, 데이터 규모가 커질수록(14M~300M 장) Transformer가 CNN의 성능을 압도함을 실험적으로 증명.
주요 기여 (Contribution)
Vision 분야에서 "합성곱(Convolution) 없이도 SOTA 달성이 가능함"을 증명하여 패러다임을 전환.
이미지를 패치 시퀀스로 다루는 단순하고 확장 가능한(Scalable) 구조 제안.
대규모 데이터 사전 학습(Large-scale Pre-training)이 Vision 모델의 성능 향상에 결정적임을 입증.
논문제목:
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models
링크:
https://arxiv.org/abs/2109.10282
Overview
기존의 복잡한 CNN+RNN 기반의 OCR 파이프라인을 탈피하고, 사전 학습된 Vision Transformer(Encoder)와 Language Model(Decoder)을 결합하여 종단간(End-to-End) 방식으로 텍스트를 인식하는 모델.
연구 배경
기존의 텍스트 인식(Text Recognition) 모델은 주로 CNN(특징 추출) + RNN(시퀀스 모델링) + CTC(정렬)의 하이브리드 구조를 사용함.
이러한 구조는 구성 요소가 복잡하고, 각 모듈을 따로 튜닝해야 하거나 비효율적인 경우가 많았음.
기존 한계
복잡성: CNN 백본과 RNN 헤드 간의 연결 구조가 복잡하며 유지 보수가 어려움.
사전 학습의 부재: 이미지 모델과 언어 모델이 각각 강력한 사전 학습 모델들이 존재함에도, 기존 OCR 모델들은 이를 통합적으로 활용하지 못하고 바닥부터(Scratch) 학습하는 경우가 많았음.
연구 목표
CNN이나 RNN 없이, 오직 Transformer 구조만 사용하여 이미지에서 텍스트를 생성하는 단순하고 강력한 모델 구축.
이미 검증된 대규모 사전 학습 모델(ViT 계열, RoBERTa 등)의 가중치를 가져와 OCR 작업에 효과적으로 전이 학습(Transfer Learning).
핵심 방법론 및 기여
Encoder-Decoder 구조:
Encoder: ViT(DeiT, BEiT 등)를 사용하여 입력 이미지를 패치 단위로 처리하고 시각적 특징을 추출.
Decoder: RoBERTa와 같은 사전 학습된 언어 모델 구조를 사용하여, Encoder의 출력을 바탕으로 텍스트(Character/Subword)를 순차적으로 생성(Auto-regressive).
Pre-trained Model 활용: 바닥부터 학습하는 대신, ImageNet 등으로 학습된 Vision 모델과 텍스트 코퍼스로 학습된 언어 모델을 초기 가중치로 사용하여 수렴 속도와 성능을 비약적으로 향상.
No CNN/RNN: 합성곱 신경망이나 순환 신경망 없이 완전한 Transformer 기반으로만 구성.
주요 기여 (Contribution)
OCR 분야에서 최초로 사전 학습된 Vision 및 Language Transformer 모델을 결합한 End-to-End 솔루션 제안.
복잡한 후처리나 정렬 알고리즘(CTC 등) 없이도, 주요 벤치마크 데이터셋에서 SOTA(State-of-the-Art) 성능 달성.
단순한 구조 덕분에 구현과 배포가 용이하며, 다양한 언어나 손글씨 인식 등으로 확장이 쉬움.