인공지능응용연구실

작성자 여지민 날짜 2026-02-02 16:00:25 조회수 13

논문제목:

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

링크:

https://arxiv.org/abs/2010.11929

Overview

NLP(자연어 처리) 분야를 제패한 Transformer 구조를 이미지 인식(Vision) 분야에 최소한의 수정만으로 직접 적용하여, 대규모 데이터 사전 학습 시 CNN(합성곱 신경망)을 능가하는 성능을 입증한 기념비적인 연구.

연구 배경

Transformer는 NLP 분야의 표준이 되었으나, Computer Vision에서는 여전히 CNN(ResNet 등)이 지배적이었음.
이전 연구들은 Transformer를 CNN에 결합하거나 복잡한 Attention 메커니즘을 사용하여 효율성과 확장성(Scalability) 측면에서 한계가 있었음.

기존 한계

CNN은 이미지 특화된 편향(Inductive Bias)을 가지지만, 대규모 데이터 학습 시 오히려 모델의 용량(Capacity)과 일반화 성능을 제한하는 요소로 작용할 수 있음.
기존의 Vision용 Attention 모델들은 픽셀 단위 연산 등으로 인해 연산 비용이 매우 높았음.

연구 목표

이미지를 텍스트(단어)처럼 패치(Patch) 단위로 쪼개어, 순수 Transformer 구조(Pure Transformer)만으로 이미지 분류 작업을 수행.
대규모 데이터셋(JFT-300M 등)을 이용한 사전 학습(Pre-training)이 Vision 작업에서 어떤 효율성을 갖는지 증명.

핵심 방법론 및 기여

Patch Partitioning: 이미지를 16 X16 크기의 고정된 패치로 분할하고, 이를 1차원 벡터로 변환(Flatten)하여 시퀀스 데이터처럼 처리.
Linear Projection of Flattened Patches: CNN 없이 선형 투영(Linear Layer)만으로 패치 임베딩을 생성하여 차원을 맞춤.
Learnable Position Embedding: 이미지의 위치 정보를 학습 가능한 1D 벡터 형태로 더해주어 공간적 정보 보존.
Class Token ([CLS]): BERT의 방식을 차용하여, 이미지 전체의 특징을 요약하는 학습 가능한 클래스 토큰 사용.
Data Scale Efficiency: 데이터 양이 적을 땐 CNN이 우세하지만, 데이터 규모가 커질수록(14M~300M 장) Transformer가 CNN의 성능을 압도함을 실험적으로 증명.

주요 기여 (Contribution)

논문제목:

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models

링크:

https://arxiv.org/abs/2109.10282

Overview

기존의 복잡한 CNN+RNN 기반의 OCR 파이프라인을 탈피하고, 사전 학습된 Vision Transformer(Encoder)와 Language Model(Decoder)을 결합하여 종단간(End-to-End) 방식으로 텍스트를 인식하는 모델.

연구 배경

기존의 텍스트 인식(Text Recognition) 모델은 주로 CNN(특징 추출) + RNN(시퀀스 모델링) + CTC(정렬)의 하이브리드 구조를 사용함.
이러한 구조는 구성 요소가 복잡하고, 각 모듈을 따로 튜닝해야 하거나 비효율적인 경우가 많았음.

기존 한계

복잡성: CNN 백본과 RNN 헤드 간의 연결 구조가 복잡하며 유지 보수가 어려움.
사전 학습의 부재: 이미지 모델과 언어 모델이 각각 강력한 사전 학습 모델들이 존재함에도, 기존 OCR 모델들은 이를 통합적으로 활용하지 못하고 바닥부터(Scratch) 학습하는 경우가 많았음.

연구 목표

CNN이나 RNN 없이, 오직 Transformer 구조만 사용하여 이미지에서 텍스트를 생성하는 단순하고 강력한 모델 구축.
이미 검증된 대규모 사전 학습 모델(ViT 계열, RoBERTa 등)의 가중치를 가져와 OCR 작업에 효과적으로 전이 학습(Transfer Learning).

핵심 방법론 및 기여

Encoder-Decoder 구조:
- Encoder: ViT(DeiT, BEiT 등)를 사용하여 입력 이미지를 패치 단위로 처리하고 시각적 특징을 추출.
- Decoder: RoBERTa와 같은 사전 학습된 언어 모델 구조를 사용하여, Encoder의 출력을 바탕으로 텍스트(Character/Subword)를 순차적으로 생성(Auto-regressive).
Pre-trained Model 활용: 바닥부터 학습하는 대신, ImageNet 등으로 학습된 Vision 모델과 텍스트 코퍼스로 학습된 언어 모델을 초기 가중치로 사용하여 수렴 속도와 성능을 비약적으로 향상.
No CNN/RNN: 합성곱 신경망이나 순환 신경망 없이 완전한 Transformer 기반으로만 구성.

주요 기여 (Contribution)

첨부파일	02_02_세미나_ViT_OCR_여지민_박상빈.pdf (7.9 MB)

등록된 댓글이 없습니다.

Teaching