Abstract

학습 데이터셋 내 분류 범주 불균형은 그 데이터셋으로 학습된 분류 모형에 편향을 야기한다. 본 연구에서는 주어진 범주 불균형 데이터셋을 이용해 분류 모형을 학습하는 두 가지 새로운 비용 민감학습 방법을 제안한다. 첫 번째 비용 민감 학습 방법은 학습 코퍼스 내 범주별 발생 빈도와 디리클레 분포를 이용한다. 동적 가중치 부여 방법이라 명명한 이 방법은 디리클레 분포에서 표본을 추출하여 모델학습의 가중치로써 사용한다. 두 번째 방법은 학습 코퍼스 내 범주별 발생 빈도로 정답 표현을 변경하여 비용 민감 학습을 수행한다. 이 방법은 퍼지 정답 표현이라 명명하였다. 대화에서 발화의 감정과 화행을 분류하는 문제에 제안 방법을 적용하였을 때, MAP(Macro Average Precision) 기준 화행 약 1.1~2.2%p, 감정 약 0.9~3.6%p 가량의 성능 향상을 얻을 수 있었다. 실험 결과를 통해, 제안 방법이 범주 불균형 데이터셋의 학습에 효과적임을 확인하였다.

Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.