Abstract

The problem of preprocessing training samples to improve the efficiency of trainable recognition systems is considered in the paper. A new method for solving the problem of outliers removal based on constructing weighted reduced samples of w-objects is proposed. The wGridDC method for constructing the weighted sample of w-objects by superimposing the grid features on the space and constructing weighted objects of new sample by analyzing the contents of cells is used as a basis for the proposed method.Within the proposed method, two outliers removal algorithms are developed. The algorithm for constructing the weighted training sample of w-objects with simultaneous outliers removal at a given filtering threshold is focused on the use in the tasks that require not only filtering the original data, but also controlling the size of the sample. Herewith, filtering threshold is user-defined. The algorithm for constructing the weighted training sample of w-objects with simultaneous outliers removal at automatic filtering threshold detection is focused on the tasks that require constructing samples, providing the highest efficiency of the system.Analysis of the effectiveness of the proposed method has shown that the main advantage of the threshold filtering algorithm is the ability to control the size of the sample. The main advantage of the non-threshold filtering algorithm is the ability to automatically select the value of the filtering threshold that provides the greatest efficiency of the recognition system as a whole. Thus, the proposed method in general and both its constituent algorithms allow to obtain the samples, providing high efficiency of trainable recognition systems.

Highlights

  • ВведениеПроблема качества данных является на сегодняшний день одной из важнейших проблем, решаемых при построении интеллектуальных систем [1,2,3].

  • Особенно остро данная проблема проявляется при построении обучающихся систем распознавания как самостоятельных систем или подсистем сложных интеллектуальных систем [4].

  • Предобработка данных в системах распознавания является итеративным процессом и включает [1]:.

Read more

Summary

Введение

Проблема качества данных является на сегодняшний день одной из важнейших проблем, решаемых при построении интеллектуальных систем [1,2,3]. Особенно остро данная проблема проявляется при построении обучающихся систем распознавания как самостоятельных систем или подсистем сложных интеллектуальных систем [4]. Предобработка данных в системах распознавания является итеративным процессом и включает [1]:. − очистку данных, которая заключается в удалении шума, пропусков в данных и данных низкого качества;. Построение современных систем распознавания предполагает выполнение одного или нескольких этапов предобработки данных за одну или несколько итераций. В большинстве систем предобработка данных заключается в их очистке, при выполнении которой наибольшее внимание уделяется удалению шума (выбросов) и данных низкого качества [1, 4]

Постановка проблемы и анализ литературы
Постановка задачи
Рассчитывается шаг клетки по формуле s
Анализ результатов экспериментальных исследований
Выводы
Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.