Підхід до виявлення аномалій в потоках тектових даних

Elena Afanasyeva,Georgy Arshakyan,Yuriy Oliynyk

doi:10.34185/1562-9945-2-127-2020-10

Abstract

Збільшення потоків інформації веде за собою необхідність розробки спеціалізованих інтелектуальних засобів та методів для обробки величезної кількості даних. Так популярність соціальних мереж, різного роду месенджерів вимагає створення спеціалізованих засобів для обробки потоку текстових повідомлень. Дане дослідження присвячене дослідженню та розробці методу виявлення аномальних елементів в потоках текстових даних. Особлива увага присвячена підтримці україномовних текстів.

Highlights

An anomaly detection approach based on isolation forest algorithm for streaming data using sliding window
Existing anomalies detection approaches based on distance
These approaches do not take into account data stream features

Summary

Попередня обробка тексту

«Системні технології» 2 (127) 2020 «System technologies» Для подальшого використання методів визначення аномалій необхідно виконати попередню обробку тексту[6], що включає токенізацію та сегментацію даних, видалення шуму та нормалізацію даних. Видалення шуму використовується для покращення якості даних перед їх обробкою. При оброці елементів в текстових потоках даних очистка даних потрібна для: а) усунення нерелевантних символів (наприклад, будь-які символи окрім цифр та букв); б) видалення нерелевантних слів (таких як згадування в соціальних мережах та посилання на інші ресурси); в) переведення усіх символів в нижній реєстр. Для нормалізації даних використовується стемінг та лематизація. «Системні технології» 2 (127) 2020 «System technologies» Для виділення додаткових ознак з текстових документів використовується модель “Bag of word” та метрика TF-IDF TF – term frequency, IDF – inverse document frequency) статистична міра, що використовується для оцінки важливості слова в контексті документа, що є частиною колекції документів або корпусу. Словник ВЕСУМ (великий електронний словник української мови)[11] містить слова та їхні парадигми з відповідними тегами, а також іншу інформацію, зокрема: додаткові теги, зв’язок між базовими та порівняльними формами прикметників, керування відмінками для прикметників

Автоматична реферація текстів

Метод Isolation Forest для виявлення аномалій в потоках текстових даних

13. Dataset for data analysing Mode of access

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Підхід до виявлення аномалій в потоках тектових даних

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: System technologies

Lead the way for us

Journal: System technologies	Publication Date: Feb 24, 2020
License type: cc-by

Similar Papers

Using of NLP Methods in Intelligent Educational Systems
Kostiantyn Tkachenko
Digital Platform: Information Technologies in Sociocultural Sphere | VOL. 7
Kostiantyn TkachenkoKostiantyn Tkachenko
10 Jun 2024
Digital Platform: Information Technologies in Sociocultural Sphere | VOL. 7

Current Trends in the Use of Machine Learning for Error Correction in Ukrainian Texts
Rostyslav Fedchuk ... Victoria Vysotska
Qeios | VOL. -
Rostyslav Fedchuk, et. al.Rostyslav Fedchuk ... Victoria Vysotska
13 May 2024
Qeios | VOL. -

Запозичення з польської мови в українських пам’ятках XVI–XVII ст.

-

29 Nov 2016
29 Nov 2016

A Novel Anomaly Detection for Streaming Data using LSTM Autoencoders
Aju D ... Dibyajyoti Roy
International Journal of Recent Technology and Engineering (IJRTE) | VOL. 10
Aju D, et. al.Aju D ... Dibyajyoti Roy
30 Jul 2021
International Journal of Recent Technology and Engineering (IJRTE) | VOL. 10

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Підхід до виявлення аномалій в потоках тектових даних

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: System technologies