접미 형태소열 기반 미등록어 인식 확률 모델

Kyoung-Soo Han,Hansol Ji,Hyuck-Jun Hong

doi:10.9728/dcs.2019.20.4.843

Abstract

인간의 언어는 생산성이 높아 고유명사, 외래어, 전문용어 등 다양한 새로운 단어들이 생성되고 있다. 기존의 말뭉치, 사전 등이 이런 모든 단어를 미리 포함하고 있을 수 없으므로 효과적인 자연어처리를 위해서는 미등록어 인식이 필수적이다. 본 연구에서는 미등록어 인식과 관련된 기존 연구들에서 활용되어 왔던 다양한 정보들을 포괄할 수 있는 확률 모델을 제안한다. 제안하는 모델은 명사 뒤에 등장하는 형식 형태소열의 특징, 이들과 미등록어 후보 간의 결합 관계, 미등록어 후보의 웹 출현 빈도, 미등록어 후보의 처리 대상 문서에서의 출현 빈도 등을 활용하여 후보 단어가 미등록어일 확률을 추정한다. 일반 뉴스와 경제 뉴스에서 실험한 결과 제안한 모델이 우수한 성능을 보였다.

Full Text