인공지능응용연구실

*제목
*작성자 이름
*비밀번호
상단 고정	상단 고정으로 설정 게시판 목록 상단에 고정 표시됩니다.
비밀글	비밀글로 설정
*내용	<h3 data-path-to-node="2"><b data-index-in-node="0" data-path-to-node="2">논문 1: ViT (Vision Transformer)</b></h3> <p data-path-to-node="3"><b data-index-in-node="0" data-path-to-node="3">논문제목:</b></p> <p data-path-to-node="3">An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale</p> <p data-path-to-node="4"><b data-index-in-node="0" data-path-to-node="4">링크:</b></p> <p data-path-to-node="4"><a _ngcontent-ng-c771733522="" _nghost-ng-c1008476091="" data-hveid="0" data-ved="0CAAQ_4QMahgKEwjh87Oy2rmSAxUAAAAAHQAAAAAQ-AQ" decode-data-ved="1" externallink="" href="https://arxiv.org/abs/2010.11929" jslog="197247;track:generic_click,impression,attention;BardVeMetadataKey:[["r_efc36b15383969c6","c_8eecf30bae27be6b",null,"rc_a55ccc57b9225f06",null,null,"ko",null,1,null,null,1,0]]" rel="noopener" target="_blank">https://arxiv.org/abs/2010.11929</a></p> <p data-path-to-node="5"><b data-index-in-node="0" data-path-to-node="5">Overview</b></p> <p data-path-to-node="5">NLP(자연어 처리) 분야를 제패한 Transformer 구조를 이미지 인식(Vision) 분야에 최소한의 수정만으로 직접 적용하여, 대규모 데이터 사전 학습 시 CNN(합성곱 신경망)을 능가하는 성능을 입증한 기념비적인 연구.</p> <p data-path-to-node="6"><b data-index-in-node="0" data-path-to-node="6">연구 배경</b></p> <ul data-path-to-node="7"> <li> <p data-path-to-node="7,0,0">Transformer는 NLP 분야의 표준이 되었으나, Computer Vision에서는 여전히 CNN(ResNet 등)이 지배적이었음.</p> </li> <li> <p data-path-to-node="7,1,0">이전 연구들은 Transformer를 CNN에 결합하거나 복잡한 Attention 메커니즘을 사용하여 효율성과 확장성(Scalability) 측면에서 한계가 있었음.</p> </li> </ul> <p data-path-to-node="8"><b data-index-in-node="0" data-path-to-node="8">기존 한계</b></p> <ul data-path-to-node="9"> <li> <p data-path-to-node="9,0,0">CNN은 이미지 특화된 편향(Inductive Bias)을 가지지만, 대규모 데이터 학습 시 오히려 모델의 용량(Capacity)과 일반화 성능을 제한하는 요소로 작용할 수 있음.</p> </li> <li> <p data-path-to-node="9,1,0">기존의 Vision용 Attention 모델들은 픽셀 단위 연산 등으로 인해 연산 비용이 매우 높았음.</p> </li> </ul> <p data-path-to-node="10"><b data-index-in-node="0" data-path-to-node="10">연구 목표</b></p> <ul data-path-to-node="11"> <li> <p data-path-to-node="11,0,0">이미지를 텍스트(단어)처럼 패치(Patch) 단위로 쪼개어, 순수 Transformer 구조(Pure Transformer)만으로 이미지 분류 작업을 수행.</p> </li> <li> <p data-path-to-node="11,1,0">대규모 데이터셋(JFT-300M 등)을 이용한 사전 학습(Pre-training)이 Vision 작업에서 어떤 효율성을 갖는지 증명.</p> </li> </ul> <p data-path-to-node="12"><b data-index-in-node="0" data-path-to-node="12">핵심 방법론 및 기여</b></p> <ol data-path-to-node="13" start="1"> <li> <p data-path-to-node="13,0,0"><b data-index-in-node="0" data-path-to-node="13,0,0">Patch Partitioning:</b> 이미지를 <em>16 X16</em> 크기의 고정된 패치로 분할하고, 이를 1차원 벡터로 변환(Flatten)하여 시퀀스 데이터처럼 처리.</p> </li> <li> <p data-path-to-node="13,1,0"><b data-index-in-node="0" data-path-to-node="13,1,0">Linear Projection of Flattened Patches:</b> CNN 없이 선형 투영(Linear Layer)만으로 패치 임베딩을 생성하여 차원을 맞춤.</p> </li> <li> <p data-path-to-node="13,2,0"><b data-index-in-node="0" data-path-to-node="13,2,0">Learnable Position Embedding:</b> 이미지의 위치 정보를 학습 가능한 1D 벡터 형태로 더해주어 공간적 정보 보존.</p> </li> <li> <p data-path-to-node="13,3,0"><b data-index-in-node="0" data-path-to-node="13,3,0">Class Token ([CLS]):</b> BERT의 방식을 차용하여, 이미지 전체의 특징을 요약하는 학습 가능한 클래스 토큰 사용.</p> </li> <li> <p data-path-to-node="13,4,0"><b data-index-in-node="0" data-path-to-node="13,4,0">Data Scale Efficiency:</b> 데이터 양이 적을 땐 CNN이 우세하지만, 데이터 규모가 커질수록(14M~300M 장) Transformer가 CNN의 성능을 압도함을 실험적으로 증명.</p> </li> </ol> <p data-path-to-node="14"><b data-index-in-node="0" data-path-to-node="14">주요 기여 (Contribution)</b></p> <ul data-path-to-node="15"> <li> <p data-path-to-node="15,0,0">Vision 분야에서 "합성곱(Convolution) 없이도 SOTA 달성이 가능함"을 증명하여 패러다임을 전환.</p> </li> <li> <p data-path-to-node="15,1,0">이미지를 패치 시퀀스로 다루는 단순하고 확장 가능한(Scalable) 구조 제안.</p> </li> <li> <p data-path-to-node="15,2,0">대규모 데이터 사전 학습(Large-scale Pre-training)이 Vision 모델의 성능 향상에 결정적임을 입증.</p> </li> </ul> <hr data-path-to-node="16" /> <h3 data-path-to-node="17"><b data-index-in-node="0" data-path-to-node="17">논문 2: TrOCR</b></h3> <p data-path-to-node="18"><b data-index-in-node="0" data-path-to-node="18">논문제목:</b></p> <p data-path-to-node="18">TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models</p> <p data-path-to-node="19"><b data-index-in-node="0" data-path-to-node="19">링크:</b></p> <p data-path-to-node="19"><a _ngcontent-ng-c771733522="" _nghost-ng-c1008476091="" data-hveid="0" data-ved="0CAAQ_4QMahgKEwjh87Oy2rmSAxUAAAAAHQAAAAAQ-QQ" decode-data-ved="1" externallink="" href="https://arxiv.org/abs/2109.10282" jslog="197247;track:generic_click,impression,attention;BardVeMetadataKey:[["r_efc36b15383969c6","c_8eecf30bae27be6b",null,"rc_a55ccc57b9225f06",null,null,"ko",null,1,null,null,1,0]]" rel="noopener" target="_blank">https://arxiv.org/abs/2109.10282</a></p> <p data-path-to-node="20"><b data-index-in-node="0" data-path-to-node="20">Overview</b></p> <p data-path-to-node="20">기존의 복잡한 CNN+RNN 기반의 OCR 파이프라인을 탈피하고, 사전 학습된 Vision Transformer(Encoder)와 Language Model(Decoder)을 결합하여 종단간(End-to-End) 방식으로 텍스트를 인식하는 모델.</p> <p data-path-to-node="21"><b data-index-in-node="0" data-path-to-node="21">연구 배경</b></p> <ul data-path-to-node="22"> <li> <p data-path-to-node="22,0,0">기존의 텍스트 인식(Text Recognition) 모델은 주로 CNN(특징 추출) + RNN(시퀀스 모델링) + CTC(정렬)의 하이브리드 구조를 사용함.</p> </li> <li> <p data-path-to-node="22,1,0">이러한 구조는 구성 요소가 복잡하고, 각 모듈을 따로 튜닝해야 하거나 비효율적인 경우가 많았음.</p> </li> </ul> <p data-path-to-node="23"><b data-index-in-node="0" data-path-to-node="23">기존 한계</b></p> <ul data-path-to-node="24"> <li> <p data-path-to-node="24,0,0"><b data-index-in-node="0" data-path-to-node="24,0,0">복잡성:</b> CNN 백본과 RNN 헤드 간의 연결 구조가 복잡하며 유지 보수가 어려움.</p> </li> <li> <p data-path-to-node="24,1,0"><b data-index-in-node="0" data-path-to-node="24,1,0">사전 학습의 부재:</b> 이미지 모델과 언어 모델이 각각 강력한 사전 학습 모델들이 존재함에도, 기존 OCR 모델들은 이를 통합적으로 활용하지 못하고 바닥부터(Scratch) 학습하는 경우가 많았음.</p> </li> </ul> <p data-path-to-node="25"><b data-index-in-node="0" data-path-to-node="25">연구 목표</b></p> <ul data-path-to-node="26"> <li> <p data-path-to-node="26,0,0">CNN이나 RNN 없이, 오직 Transformer 구조만 사용하여 이미지에서 텍스트를 생성하는 단순하고 강력한 모델 구축.</p> </li> <li> <p data-path-to-node="26,1,0">이미 검증된 대규모 사전 학습 모델(ViT 계열, RoBERTa 등)의 가중치를 가져와 OCR 작업에 효과적으로 전이 학습(Transfer Learning).</p> </li> </ul> <p data-path-to-node="27"><b data-index-in-node="0" data-path-to-node="27">핵심 방법론 및 기여</b></p> <ol data-path-to-node="28" start="1"> <li> <p data-path-to-node="28,0,0"><b data-index-in-node="0" data-path-to-node="28,0,0">Encoder-Decoder 구조:</b></p> <ul data-path-to-node="28,0,1"> <li> <p data-path-to-node="28,0,1,0,0"><b data-index-in-node="0" data-path-to-node="28,0,1,0,0">Encoder:</b> ViT(DeiT, BEiT 등)를 사용하여 입력 이미지를 패치 단위로 처리하고 시각적 특징을 추출.</p> </li> <li> <p data-path-to-node="28,0,1,1,0"><b data-index-in-node="0" data-path-to-node="28,0,1,1,0">Decoder:</b> RoBERTa와 같은 사전 학습된 언어 모델 구조를 사용하여, Encoder의 출력을 바탕으로 텍스트(Character/Subword)를 순차적으로 생성(Auto-regressive).</p> </li> </ul> </li> <li> <p data-path-to-node="28,1,0"><b data-index-in-node="0" data-path-to-node="28,1,0">Pre-trained Model 활용:</b> 바닥부터 학습하는 대신, ImageNet 등으로 학습된 Vision 모델과 텍스트 코퍼스로 학습된 언어 모델을 초기 가중치로 사용하여 수렴 속도와 성능을 비약적으로 향상.</p> </li> <li> <p data-path-to-node="28,2,0"><b data-index-in-node="0" data-path-to-node="28,2,0">No CNN/RNN:</b> 합성곱 신경망이나 순환 신경망 없이 완전한 Transformer 기반으로만 구성.</p> </li> </ol> <p data-path-to-node="29"><b data-index-in-node="0" data-path-to-node="29">주요 기여 (Contribution)</b></p> <ul data-path-to-node="30"> <li> <p data-path-to-node="30,0,0">OCR 분야에서 최초로 사전 학습된 Vision 및 Language Transformer 모델을 결합한 End-to-End 솔루션 제안.</p> </li> <li> <p data-path-to-node="30,1,0">복잡한 후처리나 정렬 알고리즘(CTC 등) 없이도, 주요 벤치마크 데이터셋에서 SOTA(State-of-the-Art) 성능 달성.</p> </li> <li> <p data-path-to-node="30,2,0">단순한 구조 덕분에 구현과 배포가 용이하며, 다양한 언어나 손글씨 인식 등으로 확장이 쉬움.</p> </li> </ul>
첨부파일	02_02_세미나_ViT_OCR_여지민_박상빈.pdf (7.9 MB)
*자동입력방지 코드

Teaching

Lab Seminars