Abstract

복합명사구는 단일어보다 명확한 의미를 갖기 때문에 의미적 정보처리에서 중요한 요소로 사용된다. 하지만 명사구의 표현형태의 다양성 때문에 같은 의미를 갖고 있다 할지라도 그 동일성을 판단하기 어렵다. 이에 본 연구에서는 이러한 구문 다양성 해소를 위해 복합명사구 색인 방법을 제안한다. 본 연구의 최종목적은 다양한 형태로 표현된 동일한 의미의 명사구를 동일한 형태의 색인어로 표현하는 것이며, 이를 위해 다음과 같은 과정을 따른다. 먼저 복합명사구 인식을 위한 규칙 템플릿을 생성하고, 국내학술논문 집합에 적용하여 복합명사구들을 추출한다. 일반적으로 복합명사구는 특정성이 크다. 이에 이를 고려한 색인어 합성규칙을 제안하고, 추출된 명사구에 적용한다. 본 연구의 성능을 객관적으로 평가하기 위해 HANTEC 2.0 테스트셋을 이용하였으며, 그 결과를 기준모델과 비교하였다. 실험과 비교를 통해 본 논문에서 제안하는 색인방법이 검색 정확률 향상에 긍정적으로 영향을 미치며, 정보검색의 성능을 향상시킬 수 있음을 확인하였다. Compound noun phrase (CNP) is important factor for semantic information process because the meaning of the CNP is more disambiguous than that of single word. However, the CNP can be expressed in various types even though it expresses same meaning. It is called syntactic diversity. It makes information system difficult to grasp sense identity. In order to resolve the syntactic diversity in this research, we propose an indexing method for compound noun phrase. The main purpose is to make identical index term for various types of CNPs which has same meaning. To do so, the research follows next steps. For the first, we make rule template and utilize the template to extract CNPs from set of domestic research papers. In general, the CNP has a unique meaning. Considering the characteristic, we suggest synthesis rules of index terms and apply the rule to CNPs extracted in previous step. For the objective performance evaluation of the research, a test set, HANTEC 2.0, was utilized and the result was compared to baseline model. Through the experiment and the evaluation, we have confirmed that the indexing method suggested in this paper could positively affect retrieval precision and improve performance of the information retrieval.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call