Abstract

키워드 추출은 주어진 문서로부터 문서의 주제나 내용에 관련된 단어들을 추출해내는 방법으로 대량의 문서를 다루는 텍스트마이닝 연구들이 전처리에서 공통적으로 거치는 대표 자질 추출에서 중요하게 활용될 수 있다. 본 논문에서는 하나의 문서의 주제에 적합한 키워드를 추출하기 위해 문서에 출현한 단어들 사이의 동시출현관계, 동시출현 단어 쌍 사이의 출현 종속 관계, 단어들 사이의 공통 부분단어 관계 등의 다양한 관계들을 특징으로 활용하여 구축한 계층적 그래프 모델을 제안하고, 그래프를 구성하는 정점(Vertex)들의 중요도를 평가할 때 입력 간선(Edge)에 의한 영향뿐만 아니라 출력 간선에 의한 영향도 고려한 새로운 중요도 산출 방법을 제안하며, 이를 토대로 점진적으로 키워드를 추출해내는 방안을 제안한다. 그리고 제안한 방법의 정확성과 주제적 포괄성 검증을 위해 다양한 분야의 주제를 가진 문서 데이터에 다양한 평가방법을 적용해 기존의 방법보다 전체적으로 더 나은 성능을 보임을 확인하였다.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.