Abstract

인간의 언어는 생산성이 높아 고유명사, 외래어, 전문용어 등 다양한 새로운 단어들이 생성되고 있다. 기존의 말뭉치, 사전 등이 이런 모든 단어를 미리 포함하고 있을 수 없으므로 효과적인 자연어처리를 위해서는 미등록어 인식이 필수적이다. 본 연구에서는 미등록어 인식과 관련된 기존 연구들에서 활용되어 왔던 다양한 정보들을 포괄할 수 있는 확률 모델을 제안한다. 제안하는 모델은 명사 뒤에 등장하는 형식 형태소열의 특징, 이들과 미등록어 후보 간의 결합 관계, 미등록어 후보의 웹 출현 빈도, 미등록어 후보의 처리 대상 문서에서의 출현 빈도 등을 활용하여 후보 단어가 미등록어일 확률을 추정한다. 일반 뉴스와 경제 뉴스에서 실험한 결과 제안한 모델이 우수한 성능을 보였다.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call