Abstract

The materials of the article substantiate the urgency of solving the problem of identifying meaningful links in electronic text documents in order to further compare their content and improve the operation of plagiarism detection systems. An important step is to assess the reliability of the formed formal models. Therefore, the aim of this article is to study the algorithm of automatic analysis of logic and linguistic models of electronic text documents for the reproduction of textual information, which combines the basic properties of the text and its components. The logic and linguistic model of a text document reflects the main relationships between structural components; it is an ordered quadruple and an array of logic and linguistic models of sentences of natural language, which are included in the text. The author proposes several ways of restoration of textual information, starting from the structure of the logic and linguistic model of an electronic text document, which contains a linguistic and semantic-syntactic component. The article describes the schemes of text information recovery, it chooses the combined method, which provides the analysis of semantic-syntactic component in parallel with the analysis of the text base, in particular, its components - a set of sentences containing connections between logic and linguistic models of sentences of the text within electronic text document. It has been developed an algorithm for recovery of textual information presented in the form of a formal logic and linguistic model of an electronic text document, and there have been described the stages of abovementioned algorithm. All steps of the algorithm are demonstrated on the example of analysis of a specific given logic and linguistic model of a fragment of an electronic text document. The author conducted experiments on the restoration of textual information for scientific style texts. During experiments, it was revealed, that the main factors influencing the restoration of textual information include the removal of homonymy, as well as different interpretations of synonymous constructions and invariant forms of logic and linguistic models of sentences of natural language.

Highlights

  • Незважаючи на велику кількість різноманітних систем та он-лайн сервісів здійснення порівняльного аналізу електронних текстових документів, сьогодні в мережі Інтернет та серед академічних робіт продовжує зростати кількість неунікального контенту.

  • Тому метою статті є дослідження алгоритму автоматичного аналізу логіко-лінгвістичних моделей електронних текстових документів для відтворення текстової інформації, що дасть змогу оцінювати точність побудови формальних логічних моделей текстів для їх порівняння за змістом.

  • Існує декілька шляхів відновлення текстової інформації: – аналіз параметрів лінгвістичної складової з подальшим відновленням тексту за масивом логіко-лінгвістичних складових, на основі чого спочатку відновлюється структура складних синтаксичних частин, кількість абзаців та логічні зв’язки між реченнями, а після цього в уже відновлену структуру тексту підставляється текст речень з семантико-синтаксичної складової

Read more

Summary

Introduction

Незважаючи на велику кількість різноманітних систем та он-лайн сервісів здійснення порівняльного аналізу електронних текстових документів, сьогодні в мережі Інтернет та серед академічних робіт продовжує зростати кількість неунікального контенту. Тому метою статті є дослідження алгоритму автоматичного аналізу логіко-лінгвістичних моделей електронних текстових документів для відтворення текстової інформації, що дасть змогу оцінювати точність побудови формальних логічних моделей текстів для їх порівняння за змістом. Існує декілька шляхів відновлення текстової інформації: – аналіз параметрів лінгвістичної складової з подальшим відновленням тексту за масивом логіко-лінгвістичних складових, на основі чого спочатку відновлюється структура складних синтаксичних частин, кількість абзаців та логічні зв’язки між реченнями, а після цього в уже відновлену структуру тексту підставляється текст речень з семантико-синтаксичної складової

Objectives
Results
Conclusion
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.