Abstract

The article presents an electronic text documents marking algorithm based on the identification information embedding by changing the values of the intervals between words (interwords distance shifting). The algorithm development is aimed at increasing the documents containing text information security from leakage through the channel due to the transfer of documents printed on paper, as well as the corresponding electronic copies of paper documents. In the marking algorithm developing process, an existing tools analysis of protecting paper documents from leakage was carried out, practical solutions in the field of protecting text documents were considered, their advantages and disadvantages were determined. The interwods distance shifting algorithm acts as an approach to the information embedding in electronic documents. Changing the values of interwords distance is based on embedding the normalized space in the selected areas of text lines and adjusting the remaining values of the spacing between words by the calculated values. To invariance ensure of the embedded marker for printing and subsequent scanning or photographing, formation algorithms of embedding regions and embedding matrix have been developed. In the embedding regions forming process from the text lines of the source document, arrays of spaces are formed, consisting of pairs: four and two spaces or two spaces. By means of the embedded information in the formed areas, the places where the normalized space is inserted is determined. In the embedding a marker process, an embedding matrix is formed, containing the values of the word displacement, and it is embedded in the original document in the process of printing. The developed marking algorithm usage makes it possible to introduce a marker into the electronic document text structure that is invariant to the format transformation of an electronic document into a paper one and vice versa. In addition, the developed marking algorithm features and limitations are presented. Directions for further research identified.

Highlights

  • Для устранения указанного недостатка могут быть применены DLP-системы, осуществляющие идентификацию конфиденциальных данных, направляемых в другие сети, находящиеся в распределенных репозиториях, а также хранящихся у конечного пользователя [6,7,8,9]

  • The article presents an electronic text documents marking algorithm based on the identification information embedding by changing the values of the intervals

  • The algorithm development is aimed at increasing the documents containing text information security from leakage

Read more

Summary

Введение

Совершенствование средств защиты информации является одним из наиболее актуальных направлений развития подходов к обеспечению информационной безопасности. Для устранения указанного недостатка и повышения защищенности бумажных документов, а также соответствующих электронных копий от утечки необходимо разработать алгоритм маркирования текстовых документов, подготовленных к печати, обеспечивающий инвариантность встроенной информации к осуществлению преобразования формата и возможность извлечения встроенного маркера только из подписанного документа. По аналогии с исследованием [16], в работе Алаттара [15] представлена схема маркирования электронных текстовых документов за счет изменения величин интервалов между словами, позволяющая осуществлять извлечение встроенной информации, как из электронных документов, так и из соответствующих им бумажных копий. Проведенный анализ разработанных подходов к маркированию электронных документов, основанных на изменении интервалов межу словами, позволяет сделать вывод о наличии ограничений в процессе защиты бумажных документов от утечки, обусловленной преобразованием формата бумажного документа в электронный вид посредством применения операции "печать-сканирование" или "печать-фотографирование". На втором этапе (шаг 2 алгоритма маркирования) осуществляется формирование текстовых областей изображения и выделение строк текста Lines посредством функции TextDetection

Выделение строк текста в текстовых областях изображения
Формирование областей встраивания
Особенности формирования встраиваемого маркера
Формирование матрицы встраивания
Особенности разработанного алгоритма маркирования
Findings
Заключение
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.