Наведено нові методи та рішення щодо побудови моделі поведінки користувачів, які дадуть змогу виявити закономірності планування зустрічей друзів на підставі аналізу їхнього щоденного руху. Для цього попередньо проаналізовано низку методів і алгоритмів кластеризації даних і виокремлено особливості їхнього застосування. З'ясовано, що основними перевагами методів кластеризації даних на підставі їхньої щільності є можливість виявлення кластерів вільної форми різного розміру та стійкості до шуму та викидів. Однак до недоліків цих методів можна віднести високу чутливість до встановлення вхідних параметрів, не чіткий опис класів і непридатність для кластеризації даних великих розмірів. З'ясовано, що основною проблемою всіх алгоритмів кластеризації є їх масштабованість із збільшенням обсягу оброблених даних. Встановлено, що основними проблемами більшості з них є складність налаштування оптимальних вхідних параметрів (для алгоритмів щільності, сітки чи моделі), ідентифікація кластерів різної форми та щільності (алгоритми розподілу, алгоритми на підставі сітки), нечіткі критерії завершення (ієрархічний, розділовий та на підставі моделі). Оскільки процедура кластеризації є тільки одним із етапів оброблення даних системи загалом, обраний алгоритм повинен бути простим у використанні та простим для налаштування вхідних параметрів. Дослідження показують, що ієрархічні методи кластеризації містять ряд алгоритмів, придатних як для оброблення даних невеликого обсягу, так і для аналізу великих даних, що є актуальним у галузі соціальних мереж. На підставі виконаного аналізу даних, зібрано інформацію для заповнення розумного профілю користувача. Значну увагу приділено дослідженню асоціативних правил, на підставі чого запропоновано алгоритм для вилучення асоціативних правил, що дало змогу знаходити статистично значущі правила, а також шукати тільки залежності, визначені загальним набором вхідних даних, та має високу обчислювальну складність, якщо існує багато правил класифікації. Розроблено підхід, що орієнтований на створення та розуміння моделей поведінки користувачів, прогнозування майбутньої поведінки за допомогою створеного шаблону. Досліджено методи моделювання попереднього оброблення даних (кластеризація) та виявлено закономірності планування зустрічей друзів на підставі аналізу щоденного руху людей та їхніх друзів. Наведено методи створення та розуміння моделей поведінки користувачів, застосовано алгоритм k-means для групування користувачів, що дало змогу визначити, наскільки добре кожен об'єкт знаходиться у своєму кластері. Введено поняття правил асоціації, розроблено метод пошуку залежностей, оцінено точність моделі.
Read full abstract