Abstract

LDA 토픽 모델링으로 텍스트 자료의 토픽을 추출하고 그에 따라 문서를 분류하고자 할 때, 설정하는 토픽 수는 토픽 분류의 정확성과 타당성에 큰 영향을 미친다. 본 연구는 LDA에서 적정한 토픽 수를 정하는 방법으로 조화평균을 사용하는 방식과 혼잡도를 사용하는 방식을 비교 검토하였다. 이에 논문 초록, 뉴스 기사, 그리고 소설 자료를 대상으로 적정 토픽 수를 추출하였으며, 추출된 토픽 수에 대한 신뢰성과 적정성을 비교함으로써 적정한 토픽 수를 보다 합리적으로 정하는 방법이 무엇인지 탐색하였다. 토픽 선정의 적정성을 판정하는 데 있어서 통계적 정보를 바탕으로 결정할 수 있을 때 보다 적절하다는 관점에서 접근하였고, 반복 시행에 의해서도 수리적으로 안정된 토픽의 수를 정할 수 있을 때 더 신뢰성이 높다고 평가하였다. 적정성 평가 준거로는 LDA 모델의 𝛾 분포와 𝛽 분포를 검토하여 확률적으로 평가하였다. 연구 결과 첫째, 조화평균 방식이 혼잡도 방식보다 연구자의 주관적 판단에 의존하는 정도가 낮았다. 또한, 조화평균 방식은 LDA 모델의 α를 조절하여 토픽이 과대 추출되는 경향을 줄일 수 있었다. 둘째, 조화평균 방식은 𝛾 분포와 𝛽 분포 측면에서도 더 독립적이고 적정한 토픽 군집으로 분류할 수 있었다. 셋째, 조화평균 방식을 적용함에 있어서 코퍼스를 구성하는 문서 자료의 특성을 고려하여 적정한 α를 정해야 함을 알 수 있었다. 이와 같은 연구 결과를 바탕으로, 조화평균 방식의 특징과 확장 가능성, 연구의 제한점 등을 논의하였다.

Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call