Классификация последовательностей на основе коротких мотивов

Е П Офицеров

doi:10.22405/2226-8383-2018-19-1-187-199

Е П Офицеров

Open Access

https://doi.org/10.22405/2226-8383-2018-19-1-187-199

Copy DOI

Abstract

Задачи, связанные с классификацией последовательностей символов некоторого алфавита, часто возникают в таких областях, как биоинформатика и обработка естественного языка. Методы глубокого обучения, в особенности модели на основе рекуррентных нейронных сетей, в последние несколько лет зарекомендовали себя как наиболее эффективный способ решения подобных задач. Однако существующие подходы имеют серьезный недостаток — низкую интерпретируемость получаемых результатов. Крайне сложно установить какие именно свойства входной последовательности ответственны за её принадлежность к тому или иному классу. Упрощение же таких моделей с целью повышения их интерпретируемости, в свою очередь, приводит к снижению качества классификации. Такие недостатки ограничивают применение современных методов машинного обучения во многих предметных областях. В настоящей работе мы представляем принципиально новую, интерпретируемую архитектуру нейронных сетей, основанную на поиске набора коротких подпоследовательностей — мотивов, наличие которых влияет на принадлежность последовательности к определенному классу. Ключевой составляющей предлагаемого решения является разработанный нами алгоритм дифференцируемого выравнивания, являющийся дифференцируемым аналогом таких классических способов сравнения строк, как редакционное расстояние Левенштейна и алгоритм Смита–Ватермана. В отличие от предыдущих работ, посвященных классификации последовательностей на основе мотивов, новый метод позволяет не только выполнять поиск в произвольной части строки, но и учитывать возможные вставки.

Highlights

In this work we propose a novel interpretable deep learning architecture based on extraction of principal sets of short substrings — sequence motifs
Batch normalization: Accelerating deep network training by reducing internal covariate shift // arXiv:1502.03167

Summary

Введение

Методы глубокого обучения показали свою эффективность в задачах, связанных с классификацией последовательностей. Этот недостаток ограничивает использование глубокого обучения в задачах классификации биологических последовательностей, где важна не только точность получаемой модели, но и возможность проанализировать какие особенности входной строки влияют на решение классификатора. При построении классификаторов такого типа, предполагается, что ключевым признаком, влияющим на принадлежность последовательности к определенному классу, является наличие в ней некоторой короткой подстроки — мотива. Важным недостатком такого решения является неспособность предложенной архитектуры учитывать возможные разрывы в мотиве (таблица 1). Как и в сверточной сети, мотивы кодируются в виде коэффициентов — параметров модели, организованных в матрицы размера G × K, где G — мощность алфавита, а K — длина мотива. Однако в отличие от предыдущих работ, поиск мотива в последовательности и формирование карты признаков выполняется не с помощью операции свертки, а с использованием алгоритма дифференцируемым выравнивания мотива, что позволяет естественным образом учитывать возможные разрывы

Дифференцируемое выравнивание

Прямой и обратный ход

Классификация синтетических данных

Заключение

Deep motif

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

R Discovery Prime

R Discovery Prime

Классификация последовательностей на основе коротких мотивов

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Чебышевский сборник

Lead the way for us

Journal: Чебышевский сборник	Publication Date: Oct 14, 2018
License type: cc-by

Similar Papers

Implementation and Use of Disease Diagnosis Systems for Electronic Medical Records Based on Machine Learning: A Complete Review
Jahanzaib Latif ... Azhar Imran
IEEE Access | VOL. 8
Jahanzaib Latif, et. al.Jahanzaib Latif ... Azhar Imran
01 Jan 2020
IEEE Access | VOL. 8

Evaluating established deep learning methods in constructing integrated remote sensing drought index: A case study in China
Zhenheng Xu ... Jinhua Gao
Agricultural Water Management | VOL. 286
Zhenheng Xu, et. al.Zhenheng Xu ... Jinhua Gao
11 Jun 2023
Agricultural Water Management | VOL. 286

Analysis of Micro Facial Expression by Machine and Deep Learning Methods: Haar, CNN, and RNN
Dibakar Raj Pant ... Rolisha Sthapit
Journal of the Institute of Engineering | VOL. 16
Dibakar Raj Pant, et. al.Dibakar Raj Pant ... Rolisha Sthapit
12 Apr 2021
Journal of the Institute of Engineering | VOL. 16

Deep Learning Techniques for miRNA Sequence Analysis
Saswati Mahapatra ... David Correa Martins-Jr
-
Saswati Mahapatra, et. al.Saswati Mahapatra ... David Correa Martins-Jr
16 Aug 2021
16 Aug 2021

Editage

Paperpal

R Discovery

Mind the Graph

R Discovery Prime

R Discovery Prime

Классификация последовательностей на основе коротких мотивов

Abstract

Highlights

Summary

Talk to us

Similar Papers

More From: Чебышевский сборник