Abstract
Збільшення потоків інформації веде за собою необхідність розробки спеціалізованих інтелектуальних засобів та методів для обробки величезної кількості даних. Так популярність соціальних мереж, різного роду месенджерів вимагає створення спеціалізованих засобів для обробки потоку текстових повідомлень. Дане дослідження присвячене дослідженню та розробці методу виявлення аномальних елементів в потоках текстових даних. Особлива увага присвячена підтримці україномовних текстів.
Highlights
An anomaly detection approach based on isolation forest algorithm for streaming data using sliding window
Existing anomalies detection approaches based on distance
These approaches do not take into account data stream features
Summary
«Системні технології» 2 (127) 2020 «System technologies» Для подальшого використання методів визначення аномалій необхідно виконати попередню обробку тексту[6], що включає токенізацію та сегментацію даних, видалення шуму та нормалізацію даних. Видалення шуму використовується для покращення якості даних перед їх обробкою. При оброці елементів в текстових потоках даних очистка даних потрібна для: а) усунення нерелевантних символів (наприклад, будь-які символи окрім цифр та букв); б) видалення нерелевантних слів (таких як згадування в соціальних мережах та посилання на інші ресурси); в) переведення усіх символів в нижній реєстр. Для нормалізації даних використовується стемінг та лематизація. «Системні технології» 2 (127) 2020 «System technologies» Для виділення додаткових ознак з текстових документів використовується модель “Bag of word” та метрика TF-IDF TF – term frequency, IDF – inverse document frequency) статистична міра, що використовується для оцінки важливості слова в контексті документа, що є частиною колекції документів або корпусу. Словник ВЕСУМ (великий електронний словник української мови)[11] містить слова та їхні парадигми з відповідними тегами, а також іншу інформацію, зокрема: додаткові теги, зв’язок між базовими та порівняльними формами прикметників, керування відмінками для прикметників
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.