범주 불균형 분류 문제를 위한 동적 비용 민감 학습 방법

Chang-Uk Shin,Jinyoung Oh,Jeong-Won Cha

doi:10.5626/ktcp.2020.26.4.211

Abstract

학습 데이터셋 내 분류 범주 불균형은 그 데이터셋으로 학습된 분류 모형에 편향을 야기한다. 본 연구에서는 주어진 범주 불균형 데이터셋을 이용해 분류 모형을 학습하는 두 가지 새로운 비용 민감학습 방법을 제안한다. 첫 번째 비용 민감 학습 방법은 학습 코퍼스 내 범주별 발생 빈도와 디리클레 분포를 이용한다. 동적 가중치 부여 방법이라 명명한 이 방법은 디리클레 분포에서 표본을 추출하여 모델학습의 가중치로써 사용한다. 두 번째 방법은 학습 코퍼스 내 범주별 발생 빈도로 정답 표현을 변경하여 비용 민감 학습을 수행한다. 이 방법은 퍼지 정답 표현이라 명명하였다. 대화에서 발화의 감정과 화행을 분류하는 문제에 제안 방법을 적용하였을 때, MAP(Macro Average Precision) 기준 화행 약 1.1～2.2%p, 감정 약 0.9～3.6%p 가량의 성능 향상을 얻을 수 있었다. 실험 결과를 통해, 제안 방법이 범주 불균형 데이터셋의 학습에 효과적임을 확인하였다.

Full Text