Abstract

The analysis of the structure of the website, which has a hierarchical organization of sections, is carried out. The hierarchical structure the division of all information into separate categories by topic is involved. The hypertext model of a website is represented by a mathematical model in the form of an oriented unweighted web graph. Web pages are vertices of a graph, and hyperlinks between them are edges of a graph. A hypothesis is put forward about the thematic coherence of pages that link to each other. Groups of related pages are thought to form a cluster. Using local information about hyperlinks between site pages, site pages are clustered. As a clustering quality metric the modularity functional is used. Modularity characterizes the difference between the fraction of edges within a cluster at a given partition and the fraction of edges if they were generated in the graph at random. A random graph as the zero model is chosen. The Louvain method to maximize the values of the modularity functional is used. A greedy scheme of the algorithm, which reduces the problem to a sequence of local optimization problems, is developed. It is proposed to select vertex-cluster pairs, the connection of which leads to an increase in the value of the modularity functional. For an arbitrary vertex of the graph, the target cluster is found based on the analysis of the lists of adjacency of the vertex. Using the principles of functional programming application software that implements the algorithm is developed. The software to analyze the structure of the online store site is used. The dependence of the value of the modularity functional on the number of partition clusters and the parameters of the iterative process is investigated. Analysis of the content of the website pages within the cluster, which revealed their thematic similarity, was performed. For most clusters the formation of a semantic description is possible. The results of clustering are compared with the expert partition. The values of accuracy and completeness of division into clusters are calculated.

Highlights

  • У роботі здійснюється аналіз структури веб-сайту, який має ієрархічну організацію розділів

  • Процес повторюється послідовно для всіх вершин доти, доки вдається досягти збільшення значення модулярності при переміщенні вершини у кластер

  • Це забезпечення виконання ефективних процедур перевірки моделі на

Read more

Summary

АНАЛІЗ СТРУКТУРИ САЙТУ З ВИКОРИСТАННЯМ ПОНЯТТЯ МОДУЛЯРНОСТІ

У роботі здійснюється аналіз структури веб-сайту, який має ієрархічну організацію розділів. Для оцінки якості кластеризації використовується функціонал модулярності, який характеризує різницю між долею ребер у середині кластеру при заданому розбитті та долею ребер, якщо б вони були сгенеровані в графі випадковим чином. Аналіз структури сайту дозволяє виявляти помилки в логічній організації веб-ресурсу, визначати, чи якісно налаштовано внутрішні зв'язки між сторінками ресурсів, чи зручно для користувачів знаходити необхідну інформацію. Для аналізу структури веб-простору або веб-сайту застосовується кластеризація, з використанням якої здійснюється розбиття множини вершин графу на підмножини відповідно до деяких ознак. У роботі для аналізу структури веб-сайту пропонується використовувати локальну інформацію про веб-граф, а саме посилання між сторінками. На основі інформації про посилання необхідно виконати кластеризацію сторінок веб-ресурсу шляхом максимізації функціоналу модулярності. Оскільки i, j дорівнює 1 тільки у тому випадку, коли вершини i та j знаходяться в одному кластері, значення модулярності можна отримати шляхом підсумовування значень модулярності по кожному кластеру окремо

Вводячи позначення did j di dj di
Семантичний опис кластеру
Опис кластеру групи товарів Кавуни ни в графі
Значення метрик якості для досліджуваного графу
ANALYSIS OF THE SITE STRUCTURE USING THE CONCEPT OF MODULARITY
ВИСОКОПРОДУКТИВНІ ОБЧИСЛЕННЯ ДЛЯ МОДЕЛЮВАННЯ ФІЛЬТРАЦІЙНОГО МАСОПЕРЕНОСУ
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call