Abstract

In order to remain competitive today in the telecommunications business, it is necessary to identify customers who are dissatisfied with the services provided. Therefore, forecasting subscriber churn has become an essential issue in this area. This article overviews different machine learning techniques including Decision Trees (DT), Naive Bayes Classifier (NB), Random Forest (RF), Artificial Neural Network (NN), KNearest Neighbors (KNN), Linear Discriminant Analysis (LDA), Support Vector Machine (SVM) and their ensembles (bagging and boosting) in order to demonstrate the superiority of the CatBoost technology in gaging the effectiveness of classifiers. To achieve the goal, data was classified and the specific advantages, when compared to others, of the CatBoost method were revealed based on obtained results. For the study, we analyzed four databases: 3 datasets are in open access and 1 dataset was provided by a Russian mobile company. Often, the dimension of these databases is high, which leads to a number of problems (including class imbalances, parameter correlations), which are solved by employing the dimensionality reduction method: Principal Component Analysis (PCA). The results obtained are compared with each other as well as with the results presented by other researchers based on open databases. The effectiveness of classifiers is evaluated using measures such as the area under the curve (AUC), accuracy, F1 -measure, and time.

Highlights

  • Возникающих в процессе определения поведения абонента — это определение принадлежности клиента к одному из двух классов: лояльных к компании и склонных к уходу

  • Идея метода [5] состоит в том, чтобы найти разделющую объекты пространства Rn гиперплоскость, расстояние от которой до точек обоих классов максимально

  • Также для каждого клиента было известно, ушел ли он за отчетный период от оператора

Read more

Summary

ВВЕДЕНИЕ

С развитием бизнеса [6] высокое качество услуг перестало быть единственным фактором, гарантирующим предприятию стойкие позиции на рынке, так как зачастую клиент оценивает компанию по многим критериям, от которых зависит его лояльность: связь отделов (продаж, маркетинга и т. д.) и их успешная совместная работа, определение желаний клиентов на всех стадиях взаимодействия, удачная реклама и др. Возникающих в процессе определения поведения абонента — это определение принадлежности клиента к одному из двух классов: лояльных к компании и склонных к уходу (задача бинарной классификации). В статье [6] представляется использование науки о данных для прогнозирования оттока клиентов на датасете пакистанской телекоммуникационной компании. Получены дополнительные результаты с помощью анализа причинно-следственных связей для выявления наиболее влияющих факторов. В статье [7] также исследуется проблема оттока клиентов. В работе используются следующие методы классификации: DT, логистическая регрессия, KNN, RF и Bagging DT. С помощью метрик Precision, Recall и F1-меры проводится сравнительный анализ методов DT, RF, KNN и NB. Проводится балансировка классов, а также используется решетчатый поиск (GS) для выбора параметров c наилучшим результатом по оценкам. Используются метрики Accuracy и AUC для выбора лучших способов классификации

СПОСОБЫ ОЦЕНКИ ЭФФЕКТИВНОСТИ
Точность и полнота
F -мера
Метод k-ближайших соседей
Наивный байесовский классификатор
Дерево принятия решений
Случайный лес
Метод опорных векторов
Многослойный перцептрон
Линейный дискриминантный анализ
CatBoost
КРОСС-ВАЛИДАЦИЯ
Кросс-валидация по k блокам
Валидация случайным семплированием
ПОДГОТОВКА ДАННЫХ
СРАВНЕНИЕ РАЗЛИЧНЫХ НАБОРОВ ДАННЫХ
Сравнение с результатами других статей
ЗАКЛЮЧЕНИЕ
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.