Abstract

본 논문에서는 상품평의 효율적인 분석을 위한 평가 항목 추출 시스템을 제안한다. 시스템은 크게 상품평 수집-보정과 평가 항목 추출의 두 단계로 구성된다. 상품평 수집-보정에서는 인터넷 쇼핑몰에서 상품평을 수집하고 상품평 특유의 구어체 표현과 맞춤법 오류 등을 처리한다. 평가 항목 추출에서는 스커트 상품 카테고리의 경우 ‘사이즈', ‘스타일'과 같이 상품을 평가하는 기준이 되는 항목을 상품평과 인터넷 상의 웹 문서를 활용하여 자동으로 추출한다. 상품평에 나타나는 명사들을 평가 항목 후보로 설정하고, 각 후보 명사의 상품평에서의 어휘 통계인 내부연관도와, 후보 명사와 상품 카테고리명의 웹 문서에서의 공기 빈도에 기반하여 계산된 외부연관도를 결합하여 상품과 평가 항목 후보의 연관도를 계산한다. 본 논문의 평가 항목 추출 방식은 평균 재현율 90%를 보여 기존 연구보다 우수한 결과를 보였다. In this paper, we introduce an automatic product feature extracting system that improves the efficiency of product review analysis. Our system consists of 2 parts: a review collection and correction part and a product feature extraction part. The former part collects reviews from internet shopping malls and revises spoken style or ungrammatical sentences. In the latter part, product features that mean items that can be used as evaluation criteria like 'size' and 'style' for a skirt are automatically extracted by utilizing term statistics in reviews and web documents on the Internet. We choose nouns in reviews as candidates for product features, and calculate degree of association between candidate nouns and products by combining inner association degree and outer association degree. Inner association degree is calculated from noun frequency in reviews and outer association degree is calculated from co-occurrence frequency of a candidate noun and a product name in web documents. In evaluation results, our extraction method showed an average recall of 90%, which is better than the results of previous approaches.

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.