Abstract
Logical structure extraction from various documents has been a longstanding research topic because of its high influence on a wide range of practical applications. A huge variety of different types of documents and, as a consequence, the variety of possible document structures make this task particularly difficult. The purpose of this work is to show one of the ways to represent and extract the structure of documents of a special type. We consider scanned documents without a text layer. This means that the text in such documents cannot be selected or copied. Moreover, you cannot search for the content of such documents. However, a huge number of scanned documents exist that one needs to work with. Understanding the information in such documents may be useful for their analysis, e. g. for the effective search within documents, navigation and summarization. To cope with a large collection of documents the task should be performed automatically. The paper describes the pipeline for scanned documents processing. The method is based on the multiclass classification of document lines. The set of classes include textual lines, headers and lists. Firstly, text and bounding boxes for document lines are extracted using OCR methods, then different features are generated for each line, which are the input of the classifier. We also made available dataset of documents, which includes bounding boxes and labels for each document line; evaluated the effectiveness of our approach using this dataset and described the possible future work in the field of document processing.
Highlights
В одном из таких соревнований [5] производилось извлечение структуры из книг, содержимое которых было получено с помощью оптического распознавания символов
Командам был дан набор pdf-документов, xml-файлов с выделенными блоками документов, а также набор признаков для каждого блока: является ли шрифт блока жирным, курсивом, состоит ли текст
Для проверки одинакового и правильного понимания задания аннотаторами необходимо измерить их согласованность: 1. предложить нескольким аннотаторам независимо выполнить разметку одного и того же множества заданий; 2. вычислить специальную статистику, показывающую, насколько согласована разметка; 3. в случае низкой согласованности рекомендуется разобрать спорные ситуации и обновить манифест, лучше прописав правила для спорных ситуаций и добавив примеров
Summary
Информация о логической структуре полезна для автоматического анализа документа. Такая информация помогает читателю лучше понимать структуру документа, автоматическая система также должна учитывать эти признаки. Научные статьи, финансовые отчёты, законы могут состоять из разных структурных элементов (законы имеют главы, статьи, пункты, подпункты; научные статьи состоят из введения, аннотации, списка литературы). Форматирование и язык документов также могут быть различны (законы, как правило, пишут в 1 колонку, научные статьи – в 1-2 колонки). В связи с описанным выше разнообразием можно сделать вывод, что для выделения логической структуры лучше подходят методы машинного обучения. Для выделения признаков может быть необходима метаинформация, такая как размер и тип шрифта, отступы, междустрочные интервалы и т. 2 содержит обзор различных подходов, с помощью которых решается задача выделения структуры документа; в разд. 5 показаны результаты экспериментальной проверки метода, сравнение различных методов машинного обучения, анализ ошибок и анализ важности признаков, а в разд. Статья организована следующим образом: разд. 2 содержит обзор различных подходов, с помощью которых решается задача выделения структуры документа; в разд. 3 раскрывается процесс составления обучающего набора данных, в частности описывается набор документов, используемый при реализации и проверке метода и манифест для разметки данных; в разд. 4 рассматривается реализованный метод; в разд. 5 показаны результаты экспериментальной проверки метода, сравнение различных методов машинного обучения, анализ ошибок и анализ важности признаков, а в разд. 6 представлены краткие выводы и предлагаются возможности для дальнейшей работы и исследований
Published Version (Free)
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have