Abstract

Сьогодні існує багато методів відновлення пропущених параметрів у даних, але для кожної області застосування використовують різні методи заповнення пропусків. У роботі проаналізовано такі методи оброблення пропусків: видалення елементів з пропусками, метод зважування та заповнення пропущених параметрів. Описано механізми утворення пропущених параметрів, за яких ймовірність пропусків для кожного запису набору однакова, за яких ймовірність пропусків визначається на основі іншої наявної інформації без пропусків та за яких дані відсутні залежно від невідомих чинників. Проаналізовано методи заповнення пропущених параметрів у даних екологічного моніторингу, такі як: методи середнього значення, наївного прогнозу та регресійного моделювання. Описано такі методи відновлення пропусків на основі регресійного моделювання: багатошаровий персептрон; Adaptive Boosting; метод опорних векторів; Random Forest та метод лінійної регресії з використанням стохастичного градієнтного спуску. Виконано порівняння найпростіших методів заповнення пропусків та методів відновлення пропусків на основі регресійних моделей. Експериментально доведено, що попередньо розроблений метод заповнення пропусків на основі нейроподібної структури моделі послідовних геометричних перетворень є найефективнішим методом, оскільки показує найточніші результати.

Highlights

  • other studies face the problem of processing missing data

  • Traditional reasons that lead to the emergence of gaps

  • implementation of the minimum number of measurements allowed by the state standards

Read more

Summary

Виділення не вирішених раніше частин загальної

Інформація про авторів: Міщук Олександра Сергіївна, асистент, кафедра інформаційних технологій видавничої справи. Методи заповнення пропусків у даних екологічного моніторингу можуть містить в собі такі прості алгоритми: заповнення пропущених параметрів за допомогою середнього значення; інтерполяція за сусідніми точками; середнє за n сусідніми точками; медіана N за найближчими значеннями; метод наївного прогнозу; заповнення пропусків з використанням лінійної регресії. У дослідженні додатково до найпростіших методів заповнення пропусків середнім значенням та методом наївного прогнозу, також застосовано такі методи регресійного моделювання: багатошаровий персептрон; Random Forest; Adaptive Boosting; метод опорних векторів та метод лінійної регресії з використанням стохастичного градієнтного спуску. 3 наведено результати порівняння роботи розробленого фреймворку із найпростішими методами заповнення пропусків: середнім значенням, методом наївного прогнозу та простими методами регресійного моделювання; на основі середньої абсолютної відсоткової похибки. У разі використання середньої абсолютної похибки незадовільні результати демонструють методи на основі машини опорних векторів, AdaBoost, наївного прогнозу та метод середнього значення. Наступні дослідження будуть виконуватися щодо аналізу нових алгоритмів оброблення пропущених параметрів у даних екологічного моніторингу для знаходження мінімальної похибки заповнення пропусків

Перелік використаних джерел
OF PROCESSING AND FILLING OF MISSING PARAMETERS IN ECOLOGICAL MONITORING DATA

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.