Abstract

The paper is devoted to methods for construction of socio-demographic profile of Internet users. Gender, age, political and religion views, region, relationship status are demographic attributes. This work is a survey of methods that detect demographic attributes from user’s profile and messages. The most of observed works are devoted to gender detection. Age, political views and region are also interested researches. The most of solutions are based on supervised machine learning. Each step of solution is observed in this work: data collection, feature extraction, feature selection, classifiers, evaluation of methods

Highlights

  • The paper is devoted to methods for construction of socio-demographic profile of Internet users

  • The most of solutions are based on supervised machine learning

  • Machine learning allows to find target values dependencies from input data and use them to predict the value of the target attribute for the new data

Read more

Summary

Введение

Многие ресурсы в сети Интернет позволяют своим пользователям принимать активное участие в создании контента. Многие интернет-магазины, новостные сайты и другие подобные сервисы позволяют пользователям оставлять комментарии, отзывы. Эта информация включает в себя имя, пол, возраст, интересы, контактные и другие данные. В статье рассматривается задача составления социо-демографических профилей пользователей сети Интернет. В связи с этим возникает задача предсказания неизвестных социо-демографических атрибутов, таких как пол, возраст, политические предпочтения, по имеющейся информации о пользователе. Методы автоматического определения демографических атрибутов пользователей могут использоваться для исследования определенных групп пользователей, даже если не все пользователи указывают значения атрибутов. Полученные с помощью таких методов значения атрибутов могут применяться в рекомендательных системах [1], для таргетированной рекламы [2], а также в других приложениях. Третий раздел посвящен решению задачи с использованием методов машинного обучения.

Данные
Сбор данных
Машинное обучение
Извлечение признаков
Используемые алгоритмы машинного обучения
Оценка качества
Заключение
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call