Korean Part-of-Speech Tagging using Disambiguation Rules for Each Ambiguous Word

Kwang-Mo Ahn,Yong-Seok Lee,Young-Hoon Seo

doi:10.21184/jkeia.2009.12.3.4.34

Abstract

본 논문에서는 어휘별 중의성 해소 규칙을 이용한 한국어 품사 태깅을 기술한다. 이를 위해 세종 천만 어절 균형 형태소 태그 말뭉치에서 중의성의 50%를 차지하는 상위 500여 어절 각각에 대해 중의성 해소 규칙을 정의하였다. 각 규칙은 자신과 주변 어절의 통사 및 의미 정보를 이용하여 정의된다. 어휘별 중의성 해소 규칙을 적용하고, 중의성이 해소되지 않은 경우에는 어절 단위 trigram 정보를 이용한 HMM을 적용했을 경우 태깅 정확률이 98.28%로 평가되었다. 어휘별 중의성 해소 규칙을 적용하지 않고 HMM만을 적용했을 경우는 94.79%였다. 이것은 신뢰성 있는 규칙을 적용범위가 넓도록 잘 정의하면 통계기반 태깅의 한계를 극복할 수 있다는 사실을 보여준다.

Full Text