Abstract

Збільшення потоків інформації веде за собою необхідність розробки спеціалізованих інтелектуальних засобів та методів для обробки величезної кількості даних. Так популярність соціальних мереж, різного роду месенджерів вимагає створення спеціалізованих засобів для обробки потоку текстових повідомлень. Дане дослідження присвячене дослідженню та розробці методу виявлення аномальних елементів в потоках текстових даних. Особлива увага присвячена підтримці україномовних текстів.

Highlights

  • An anomaly detection approach based on isolation forest algorithm for streaming data using sliding window

  • Existing anomalies detection approaches based on distance

  • These approaches do not take into account data stream features

Read more

Summary

Попередня обробка тексту

«Системні технології» 2 (127) 2020 «System technologies» Для подальшого використання методів визначення аномалій необхідно виконати попередню обробку тексту[6], що включає токенізацію та сегментацію даних, видалення шуму та нормалізацію даних. Видалення шуму використовується для покращення якості даних перед їх обробкою. При оброці елементів в текстових потоках даних очистка даних потрібна для: а) усунення нерелевантних символів (наприклад, будь-які символи окрім цифр та букв); б) видалення нерелевантних слів (таких як згадування в соціальних мережах та посилання на інші ресурси); в) переведення усіх символів в нижній реєстр. Для нормалізації даних використовується стемінг та лематизація. «Системні технології» 2 (127) 2020 «System technologies» Для виділення додаткових ознак з текстових документів використовується модель “Bag of word” та метрика TF-IDF TF – term frequency, IDF – inverse document frequency) статистична міра, що використовується для оцінки важливості слова в контексті документа, що є частиною колекції документів або корпусу. Словник ВЕСУМ (великий електронний словник української мови)[11] містить слова та їхні парадигми з відповідними тегами, а також іншу інформацію, зокрема: додаткові теги, зв’язок між базовими та порівняльними формами прикметників, керування відмінками для прикметників

Автоматична реферація текстів
Метод Isolation Forest для виявлення аномалій в потоках текстових даних
13. Dataset for data analysing Mode of access

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.