Abstract
The subject of this work is a neural network, the parameters of its architecture and the data array (dataset) for its training. The aim of the work is the software implementation of part of the DLP-system (Data Leak Prevention), which allows to monitor the traffic of a corporate network and to control the transfer of confidential data over this network using a neural network. The entire development process is represented by five stages: theory, design, preparation of data for training the neural network, training the neural network and testing the implemented system. There is a brief overview of the market for such solutions in the article. The parameters used to construct the neural network architecture used to solve the problem of text data classification are described in detail. The result of the work is a functioning part of the DLP system, which allows monitoring the traffic of a corporate network via a web-interface and controlling the transfer of confidential data over this network using a one-dimensional convolutional neural network 1D CNN.
Highlights
The aim of the work is the software implementation of part of the DLP-system (Data Leak Prevention), which allows to monitor the traffic of a corporate network and to control the transfer of confidential data over this network using a neural network
Introduction to ForcepointLearning. https://www.websense.com/content/support/library/data/v84/machine_learning/first.aspx (дата обращения: 20.10.2019). 10. InfoWatch Traffic Monitor. URL: https://www.infowatch.ru/products/traffic_monitor (дата обращения: 11. Системы защиты от утечек конфиденциальной информации (DLP). URL: https://www.antimalware.ru/security/data-leak-protection (дата обращения: 20.10.2019). 12. Машинное обучение для людей. URL: https://vas3k.ru/blog/machine_learning/ (дата обращения: 13. Report on Text Classification using CNN, RNN & HAN. URL: https://medium.com/jatana/report-on-textclassification-using-cnn-rnn-han-f0e887214d5f (дата обращения: 26.02.2020). 14. Python. URL: https://www.python.org/ (дата обращения: 20.10.2019). 15. Keras: The Python Deep Learning library. URL: https://keras.io/ (дата обращения: 20.10.2019). 16. TensorFlow - an end-to-end open source machine learning platform. URL: https://www.tensorflow.org/ (дата обращения: 20.10.2019). 17. Почтовая кухня #2: SMTP. URL: https://habr.com/ru/post/51772/ (дата обращения: 26.02.2020). 18. Flask против Django: почему Flask может быть лучше. URL: https://python-scripts.com/flask-vs-django (дата обращения: 26.02.2020). 19. A Word2Vec Keras tutorial. URL: https://adventuresinmachinelearning.com/word2vec-keras-tutorial/ (дата обращения: 26.02.2020). 20. Keras. Text Preprocessing. Tokenizer. URL: https://keras.io/preprocessing/text/ (дата обращения: REFERENCES: [1] Searchinform information security. URL: https://searchinform.ru/informatsionnaya-bezopasnost/dlp-sistemy/ (accessed: 20.10.2019). [2] Reviews for Enterprise Data Loss Prevention. URL: https://www.gartner.com/reviews/market/enterprise-dataloss-prevention/vendors (accessed: 20.10.2019). [3] Review Symantec Data Loss Prevention 12.5. URL: https://www.antimalware.ru/reviews/Symantec_Data_Loss_Prevention_12_5 (accessed: 20.10.2019). [4] Symantec DLP products. URL: https://www.symantec.com/products/dlp (accessed: 20.10.2019). [5] Symantec Data Loss Prevention. URL: https://vido.com.ua/article/2530/symantec-data-loss-prevention/ [6] McAfee Total Protection for Data Loss Prevention. URL: http://www.azone-it.ru/mcafee-dlp (accessed: [7] McAfee Total Protection for DLP. URL: https://www.mcafee.com/enterprise/ru-ru/products/total-protectionfor-data-loss-prevention.html (accessed: 20.10.2019). [8] Forcepoint DLP products. URL: https://www.forcepoint.com/product/dlp-data-loss-prevention (accessed: [9] Introduction to https://www.websense.com/content/support/library/data/v84/machine_learning/first.aspx (accessed: [10] InfoWatch Traffic Monitor. URL: https://www.infowatch.ru/products/traffic_monitor (accessed: 20.10.2019). [11] Systems of protection against leaks of confidential information (DLP). URL: https://www.antimalware.ru/security/data-leak-protection (accessed: 20.10.2019). [12] Machine learning for people. URL: https://vas3k.ru/blog/machine_learning/ (accessed: 20.10.2019). [13] Report on Text Classification using CNN, RNN & HAN. URL: https://medium.com/jatana/report-on-textclassification-using-cnn-rnn-han-f0e887214d5f (accessed: 26.02.2020). [14] Python. URL: https://www.python.org/ (accessed: 20.10.2019). [15] Keras: The Python Deep Learning library. URL: https://keras.io/ (accessed: 20.10.2019). [16] TensorFlow - an end-to-end open source machine learning platform. URL: https://www.tensorflow.org/ [17] Mail kitchen #2: SMTP. URL: https://habr.com/ru/post/51772/ (accessed: 26.02.2020). [18] Flask vs Django: why Flask could be better. URL: https://python-scripts.com/flask-vs-django (accessed: 26.02.2020). [19] A Word2Vec Keras tutorial. URL: https://adventuresinmachinelearning.com/word2vec-keras-tutorial/ (accessed: 26.02.2020). [20] Keras. Text Preprocessing. Tokenizer. URL: https://keras.io/preprocessing/text/ (accessed: 20.10.2019). Поступила в редакцию – 13 декабря 2019 г. Окончательный вариант – 29 февраля 2020 г. Received – December 13, 2019. The final version – February 29, 2020
Summary
В данной статье для проектируемого модуля DLP-системы используется архитектура одномерной свёрточной нейронной сети 1D CNN (Convolutional Neural Network) Девятый слой – ещё один полносвязный слой (Dense), имеющий аргументы: - «units = 2» – размерность данных на выходе; - «activation = 'sigmoid'» – функция активации (в данном случае функцией активации является сигмоида). 2. Подготовка данных и составление датасета Для обучения и проверки нейронной сети необходимо иметь датасет, разделённый на необходимые классы: в данном случае это файлы, содержащие и не содержащие конфиденциальную информацию (например, персональные данные). Итоговый объём датасета для обучения нейронной сети составляет более 3000 текстовых файлов с расширением «.txt». Затрачиваемого на составление датасета, и аппаратной мощности для работы с нейронной сетью, возможно увеличение как объёма датасета, так и количества слов в каждом файле. Пример текстового содержимого файлов датасета и назначенных им классов (0 – не содержит конфиденциальную информацию, 1 – содержит)
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.