Methodolo- gical Aspects of Semantic Relationship Extraction for Automatic Thesaurus Generation

N S Lagutina,K V Lagutina,I V Paramonov,E I Mamedov

doi:10.18255/1818-1015-2016-6-826-840

Abstract

The paper is devoted to analysis of methods for automatic generation of a specialized thesaurus. The main algorithm of generation consists of three stages: selection and preprocessing of a text corpus, recognition of thesaurus terms, and extraction of relations among terms. Our work is focused on exploring methods for semantic relation extraction. We developed a test bench that allow to test well-known algorithms for extraction of synonyms and hypernyms. These algorithms are based on diﬀerent relation extraction techniques: lexico-syntactic patterns, morpho-syntactic rules, measurement of term information quantity, general-purpose thesaurus WordNet, and Levenstein distance. For analysis of the result thesaurus we proposed a complex assessment that includes the following metrics: precision of extracted terms, precision and recall of hierarchical and synonym relations, and characteristics of the thesaurus graph (the number of extracted terms and semantic relationships of diﬀerent types, the number of connected components, and the number of vertices in the largest component). The proposed set of metrics allows to evaluate the quality of the thesaurus as a whole, reveal some drawbacks of standard relation extraction methods, and create more eﬃcient hybrid methods that can generate thesauri with better characteristics than thesauri generated by using separate methods. In order to illustrate this fact, one of such hybrid methods is considered in the paper. It combines the best standard algorithms for hypernym and synonym extraction and generates a specialized medical thesaurus. The hybrid method leaves the thesaurus quality on the same level and ﬁnds more relations between terms than well-known algorithms.

Highlights

В данной работе авторы не исследуют алгоритмы для выделения терминов, поэтому для выделения ключевых слов во всех экспериментах по выделению семантических отношений был выбран единственный метод TextRank [8] вида обучение без учителя
Авторы не использовали в данном исследовании обучаемые алгоритмы, так как алгоритмы без учителя не нуждаются в текстах с выбранными вручную ключевыми словами и поэтому представляют разумный компромисс для поставленной задачи максимально автоматизировать построение тезауруса, поскольку показывают результаты лишь немного хуже, чем обучаемые алгоритмы
В данном исследовании все тексты объединены общей темой, и TextRank достаточно хорошо подходит для поставленной задачи

Summary

Общая схема построения тезауруса

Формальное определение тезауруса может выглядеть следующим образом:. Здесь D множество всех терминов тезауруса. Чаще всего ассоциативными отношениями называются отношения между дескрипторами предметной области, не являющиеся иерархическими или синонимическими. Задача выделения терминов для тезауруса обычно рассматривается как задача выделения ключевых фраз из корпуса текстов [4]. Для оценки качества работы методов выделения терминов или отношений между ними практически во всех научных работах используются три статистические характеристики: точность, полнота и F-мера [5]. Для оценки данной характеристики введем граф тезауруса G = (D, R), где множество вершин D это множество всех терминов тезауруса, определенное ранее, а множество ребер R = Rs ∪ Rh ∪ Ra это множество всех связей между терминами. Число выделенных терминов и отношений между ними самые грубые метрики, по которым можно оценить размер тезауруса. Общее число терминов не должно быть маленьким, число вертикальных и горизонтальных связей должно быть больше числа терминов, так как практически все термины имеют хотя бы один гипероним и несколько синонимов или ассоциаций. Комплексная оценка тезауруса как единого целого позволяет построить более эффективные гибридные методы, дающие возможность найти компромиссное решение

Методы выделения терминов тезауруса

Методы выделения связей между терминами тезауруса

Методы определения ассоциативных связей

Методы определения гипонимо-гиперонимических связей

Методы определения синонимических связей

Методы определения нескольких типов связей

Общий алгоритм работы стенда

Эксперименты на стенде: стандартные методы

Extraction methods for hypernyms synonyms

Findings

Эксперименты на стенде: гибридный метод

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Journal: Modeling and Analysis of Information Systems	Publication Date: Jan 1, 2016
Citations: 4	License type: cc-by

R Discovery Prime

R Discovery Prime

Methodolo- gical Aspects of Semantic Relationship Extraction for Automatic Thesaurus Generation

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Modeling and Analysis of Information Systems

Lead the way for us

Similar Papers

Semi-Automatic Corpus Expansion and Extraction of Uyghur-Named Entities and Relations Based on a Hybrid Method
Ayiguli Halike ... Tuergen Yibulayin
Information | VOL. 11
Ayiguli Halike, et. al.Ayiguli Halike ... Tuergen Yibulayin
06 Jan 2020
Information | VOL. 11

Axiom-Based Feedback Cycle for Relation Extraction in Ontology Learning from Text
Witold Abramowicz ... Maria Vargas-Vera
-
Witold Abramowicz, et. al.Witold Abramowicz ... Maria Vargas-Vera
01 Sep 2008
01 Sep 2008

Zero-Shot Relation Triple Extraction with Prompts for Low-Resource Languages
Ayiguli Halike ... Tuergen Yibulayin
Applied Sciences | VOL. 13
Ayiguli Halike, et. al.Ayiguli Halike ... Tuergen Yibulayin
06 Apr 2023
Applied Sciences | VOL. 13

A Method of Relation Extraction Using Pre-training Models
Yu Wang ... Yichen Wu
-
Yu Wang, et. al.Yu Wang ... Yichen Wu
01 Dec 2020
01 Dec 2020

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Methodolo- gical Aspects of Semantic Relationship Extraction for Automatic Thesaurus Generation

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Modeling and Analysis of Information Systems