논문제목: An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
링크: https://arxiv.org/abs/1507.05717 (IEEE TPAMI 2016)
Overview: 연구 배경
자연 영상 속 텍스트(Scene Text)는 왜곡, 블러, 조명 변화, 다양한 폰트 등 복잡한 배경을 가지고 있어 기존의 OCR 기술로는 인식에 어려움이 있음. 특히 텍스트는 길이가 가변적인 시퀀스 데이터라는 특성이 있어, 고정된 크기의 입력을 받는 일반적인 심층 신경망(DNN)을 바로 적용하기 어려움.
기존 한계
기존 방식들은 글자를 개별적으로 잘라내어(Segmentation) 인식하거나, 수작업 특징(Hand-crafted features)에 의존하는 경우가 많고, 구성 요소들을 개별적으로 학습시켜야 했기 때문에 최적화가 어렵고 파이프라인이 복잡함.
연구 목표
이미지 내의 시퀀스 형태 객체(텍스트 등)를 인식하기 위해, 특징 추출부터 시퀀스 예측까지 모든 과정을 하나의 신경망으로 통합하여 End-to-End로 학습 가능한 모델을 제안.
핵심 방법론 및 기여
본 논문은 CRNN (Convolutional Recurrent Neural Network)이라는 새로운 아키텍처를 제안.
Convolutional Layers: 입력 이미지로부터 시각적 특징 시퀀스를 추출. (VGG 기반)
Recurrent Layers (BiLSTM): 추출된 특징 시퀀스의 문맥(Context) 정보를 양방향으로 파악하여 각 프레임의 라벨 분포를 예측.
Transcription Layer (CTC Loss): 예측된 프레임 시퀀스를 최종 글자 시퀀스로 변환하며, 이 과정에서 정렬(Alignment) 정보 없이도 학습이 가능.
주요 기여 (Contribution)
End-to-End 학습: 전처리(Binarization, Segmentation) 없이 이미지와 텍스트 라벨만으로 전체 네트워크 학습이 가능.
가변 길이 처리: 입력 시퀀스의 길이에 제한이 없으며, 다양한 길이의 텍스트를 유연하게 처리.
경량화 및 범용성: 모델 파라미터 수가 적어 실용적이며, 텍스트뿐만 아니라 악보 인식(Optical Music Recognition) 등 다른 시퀀스 인식 문제에도 높은 성능을 보임.
논문제목: Character Region Awareness for Text Detection
링크: https://arxiv.org/abs/1904.01941 (CVPR 2019)
Overview: 연구 배경
딥러닝 기반의 텍스트 탐지(Detection) 기술이 발전했으나, 휘어지거나(Curved), 기울어지거나, 변형된 형태의 불규칙한 텍스트를 정확하게 탐지하는 것은 여전히 어려운 과제.
기존 한계
기존의 Regression 기반(Rigid Box 예측) 방식은 불규칙한 모양의 텍스트를 사각형으로 감싸면서 불필요한 배경을 많이 포함하거나 탐지에 실패하는 경우가 많음. 또한, 기존 Segmentation 방식은 인접한 글자들을 하나의 덩어리로 뭉뚱그려 인식하여 개별 글자를 분리하지 못하는 문제가 있음.
연구 목표
텍스트를 단어 단위가 아닌 개별 글자(Character) 단위로 탐지하고 이들 사이의 연결 관계를 파악함으로써, 형태가 아무리 복잡하게 변형된 텍스트라도 유연하고 강건하게 탐지할 수 있는 방법을 제안.
핵심 방법론 및 기여
본 논문은 CRAFT (Character Region Awareness for Text)라는 Segmentation 기반 모델을 제안.
Character Region Score: 이미지 내의 각 픽셀이 '글자의 중심'일 확률을 예측.
Affinity Score: 각 픽셀이 '글자와 글자 사이를 연결하는 공간'일 확률을 예측.
Weakly-Supervised Learning: 실제 데이터셋(단어 단위 라벨)에는 글자 단위 위치 정보가 없으므로, 합성 데이터(Synthetic Data)를 활용한 약지도 학습을 통해 글자 단위 탐지 능력을 확보.
주요 기여 (Contribution)
유연한 탐지 능력: Region과 Affinity 정보를 결합하여 직선, 곡선, 회전 등 어떠한 형태의 텍스트도 강건하게 탐지(Polygon 형태)할 수 있음.
개별 글자 분리: 인접한 텍스트가 서로 붙어 있어도 Affinity Score를 통해 명확하게 분리해낼 수 있음.
높은 성능: ICDAR 등 주요 벤치마크 데이터셋에서 당시 최고 수준(State-of-the-art)의 성능을 달성하였으며, 가장 널리 쓰이는 오픈소스(EasyOCR)의 기반 기술이 되었음.
발표 자료: 하단 첨부