논문 정보
- 논문명: Combining Autoregressive Models and Phonological Knowledge Bases for Improved Accuracy in Korean Grapheme-to-Phoneme Conversion
- 저자 소속:
- 최성기: 부산대학교 정보융합공학과 박사과정
- 권혁철: 부산대학교 정보컴퓨터공학부 교수
- 김민호: 한국해양대학교 인공지능공학부 조교수 (교신저자)
- 게재지: IEEE Access (SCIE, JCR Q2)
- ISSN: 2169-3536
- DOI: http://dx.doi.org/10.1109/ACCESS.2025.3581981
연구 내용
본 연구는 한국어 음소변환(Grapheme-to-Phoneme, G2P) 시스템의 정확도를 향상시키기 위해 자기회귀(Autoregressive) 모델과 음운학적 지식 베이스를 통합한 새로운 접근법을 제안합니다. 한국어의 복잡한 음운 변화(연음, 초성법칙, 자음동화 등)를 효과적으로 처리하기 위해 ELECTRA 기반 AR 모델과 음절 제약사항 및 사전 분석 사전을 결합하였습니다.
주요 성과
- 최첨단 성능 달성
- ELECTRA-BiLSTM-LSTM 모델이 음소 오류율(PER) 0.2%, 단어 오류율(WER) 0.68%, 문장 정확도 95.16% 달성
- 기존 규칙 기반 방법(24.51% 문장 정확도) 대비 큰 폭의 성능 향상
- AR vs NAR 모델 체계적 비교
- 동일 데이터셋에서 AR 모델이 NAR 변형보다 3.12-8.04% 우수한 문장 정확도 달성
- 한국어의 순차적 음운 처리 필요성을 실증적으로 입증
- 음운 지식 베이스 통합 효과 검증
- 음절 제약사항 적용 시 문장 정확도 95.41%로 향상 (p < 0.05)
- 235,939개 항목의 사전 분석 사전으로 신조어 및 고유명사 처리 개선
- 실용적 TTS 시스템 적용 가능성
- 정확도와 추론 속도 간 트레이드오프 분석
- 실시간 음성 합성 시스템을 위한 실용적 구현 방향 제시