논문 제목
Overview
- 배경 : 기존의 신경망 기계 번역(NMT) 모델들은 계산 복잡도 등의 이유로 보통 3만~5만 단어 정도의 고정된 어휘 사전(Vocabulary)을 사용함. 그러나 실제 번역은 새로운 이름, 복합어 등이 끊임없이 등장하는 개방형 어휘(Open-Vocabulary) 문제.
- 기존 한계 : 어휘 사전에 없는 단어(OOV)를 처리하기 위해 'UNK'로 대체하거나 외부 사전(Back-off dictionary)을 참조하는 방식을 사용했으나, 이는 1:1 매핑이 불가능한 복합어나 형태소 변형, 음역(Transliteration)이 필요한 경우에는 한계가 명확함.
- 연구 가설 : 희귀한 단어라도 그 구성 요소(이름의 음절, 복합어의 형태소 등)는 번역 가능한 단위일 것이다. 따라서 단어보다 작은 단위(Subword units)로 쪼개어 입력한다면, 외부 사전 없이도 모델이 스스로 희귀 단어를 번역하거나 생성할 수 있을 것임.
- 목표 : 데이터 압축 알고리즘인 BPE(Byte Pair Encoding)를 단어 분절(Segmentation)에 도입하여, NMT 모델이 희귀/미지 단어를 서브워드 시퀀스로 처리하게 함으로써 진정한 Open-Vocabulary 번역을 실현하는 것.
핵심 방법론 및 기여
1) BPE(Byte Pair Encoding) 알고리즘의 NMT 도입
- 알고리즘 적응 : 원래 데이터 압축을 위해 고안된 BPE를 단어 분절에 적용. 모든 단어를 문자(Character) 단위로 분리한 뒤, 전체 코퍼스에서 가장 빈번하게 등장하는 문자 쌍(Bigram)을 반복적으로 병합하는 방식을 사용.
- 효과 : 빈번한 단어는 하나의 토큰으로 유지되고, 희귀한 단어는 여러 개의 서브워드(Subword)로 쪼개짐. 이를 통해 고정된 크기의 어휘 사전만으로도 가변 길이의 거의 모든 단어를 표현할 수 있게 됨.
2) Joint BPE 제안 및 성능/수렴성 입증
- Joint BPE : 소스(Source)와 타겟(Target) 언어의 어휘 사전을 합쳐서(Union) BPE를 학습하는 방식 제안. 이는 두 언어 간의 **분절 일관성(Consistency)**을 높여주며, 특히 이름이나 외래어의 음역(Transliteration) 학습을 용이하게 함.
- 성능 향상 : WMT 15 영어→독일어, 영어→러시아어 번역 태스크에서 기존의 Back-off Dictionary 방식 대비 BLEU 점수가 각각 1.1점, 1.3점 향상됨.
- 희귀 단어 처리 : 빈도수가 낮은 희귀 단어(Rare words)와 미등록 단어(OOV)에 대한 번역 성능(Unigram F1)이 압도적으로 향상됨을 입증.
- 정성적 분석 : 모델이 훈련 데이터에 없던 새로운 복합어(예: 독일어 compounds)를 생성하거나, 알파벳이 다른 언어 간의 이름(예: 러시아어 names)을 음역하는 능력을 갖추게 됨을 확인.
발표 자료 : 하단 첨부