Abstract
Задачи, связанные с классификацией последовательностей символов некоторого алфавита, часто возникают в таких областях, как биоинформатика и обработка естественного языка. Методы глубокого обучения, в особенности модели на основе рекуррентных нейронных сетей, в последние несколько лет зарекомендовали себя как наиболее эффективный способ решения подобных задач. Однако существующие подходы имеют серьезный недостаток — низкую интерпретируемость получаемых результатов. Крайне сложно установить какие именно свойства входной последовательности ответственны за её принадлежность к тому или иному классу. Упрощение же таких моделей с целью повышения их интерпретируемости, в свою очередь, приводит к снижению качества классификации. Такие недостатки ограничивают применение современных методов машинного обучения во многих предметных областях. В настоящей работе мы представляем принципиально новую, интерпретируемую архитектуру нейронных сетей, основанную на поиске набора коротких подпоследовательностей — мотивов, наличие которых влияет на принадлежность последовательности к определенному классу. Ключевой составляющей предлагаемого решения является разработанный нами алгоритм дифференцируемого выравнивания, являющийся дифференцируемым аналогом таких классических способов сравнения строк, как редакционное расстояние Левенштейна и алгоритм Смита–Ватермана. В отличие от предыдущих работ, посвященных классификации последовательностей на основе мотивов, новый метод позволяет не только выполнять поиск в произвольной части строки, но и учитывать возможные вставки.
Highlights
In this work we propose a novel interpretable deep learning architecture based on extraction of principal sets of short substrings — sequence motifs
Batch normalization: Accelerating deep network training by reducing internal covariate shift // arXiv:1502.03167
Summary
Методы глубокого обучения показали свою эффективность в задачах, связанных с классификацией последовательностей. Этот недостаток ограничивает использование глубокого обучения в задачах классификации биологических последовательностей, где важна не только точность получаемой модели, но и возможность проанализировать какие особенности входной строки влияют на решение классификатора. При построении классификаторов такого типа, предполагается, что ключевым признаком, влияющим на принадлежность последовательности к определенному классу, является наличие в ней некоторой короткой подстроки — мотива. Важным недостатком такого решения является неспособность предложенной архитектуры учитывать возможные разрывы в мотиве (таблица 1). Как и в сверточной сети, мотивы кодируются в виде коэффициентов — параметров модели, организованных в матрицы размера G × K, где G — мощность алфавита, а K — длина мотива. Однако в отличие от предыдущих работ, поиск мотива в последовательности и формирование карты признаков выполняется не с помощью операции свертки, а с использованием алгоритма дифференцируемым выравнивания мотива, что позволяет естественным образом учитывать возможные разрывы
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.