Abstract

В статье рассматривается задача прогнозирования стадий компенсации и декомпенсации сахарного диабета у детей и подростков методами машинного обучения. Для проведения исследования разработано несколько математических моделей: логистическая регрессия, деревья решений и градиентный бустинг.Информационное обеспечение моделей представлено «обезличенными» данными медицинского обследования детей и подростков Алтайского края, страдающих сахарным диабетом.Выходным параметром моделей является стадия компенсации сахарного диабета, который может принимать значения: 0 — компенсация сахарного диабета, 1 — декомпенсация сахарного диабета. Задача прогнозирования стадии компенсации сахарного диабета у детей и подростков есть задача бинарной классификации.В результате проведенного исследования сделано следующее: построены модели прогнозирования стадий компенсации и декомпенсации сахарного диабета у детей и подростков на высокоуровневом языке программирования Python, подобраны оптимальные значения параметров для каждой модели, проведена оценка качества построенных моделей с помощью следующих метрик: точность, полнота, F-мера, чувствительность и специфичность.Результаты данного исследования могут быть использованы специалистами для дополнительной диагностики детей и подростков Алтайского края, страдающих сахарным диабетом.DOI 10.14258/izvasu(2018)4-15

Highlights

  • Dp mДый последующий добавленный алгоритм, используя данные об ошибках, стремится компенсировать недостатки композиции всех предыдущих классификатогде f — признак, по которому выполняется расщепле- ров.

  • Модель градиентного бустинга строится в виде ние, Dp — набор данных родительского узла, DJ — набор данных дочернего узла, I — критерий расщепления, N p — общее число объектов в родительском узле, N j — число объектов в дочернем узле, j= 1,...,m.

  • Состоящая в максимизации прироста информации при каждом суммы деревьев решений: M f ( x=) h0 + v∑hj ( x) , j =1.

Read more

Summary

Dp m

Дый последующий добавленный алгоритм, используя данные об ошибках, стремится компенсировать недостатки композиции всех предыдущих классификатогде f — признак, по которому выполняется расщепле- ров. Модель градиентного бустинга строится в виде ние, Dp — набор данных родительского узла, DJ — набор данных дочернего узла, I — критерий расщепления, N p — общее число объектов в родительском узле, N j — число объектов в дочернем узле, j= 1,...,m. Состоящая в максимизации прироста информации при каждом суммы деревьев решений: M f ( x=) h0 + v∑hj ( x) , j =1. ] где h0 — начальное приближение грессионные деревья решений, v (∈ко(н0с;1тан—тап)а, рhаx—мертер-, расщеплении: регулирующий скорость обучения. В процессе реализации алгоритма градиентного бустинга новые деревья добавляются путем минимизации эмпирического риска, заданного функцией потерь:. В бинарных деревьях решений обычно используются следующие критерии расщепления: 1) энтропия. Для бинарной классификации функция потерь имеет вид: здесь p(i | t) — доля объектов, принадлежащих классу i для отдельно взятого узла t;. Каждый алгоритм классификации содержит несколько настраиваемых параметров оптимизации. В таблице 1 представлены оптимальные значения параметров моделей, которые подбирались «вручную» в результате многократного запуска и сравнения результатов работы моделей

Классификатор Логистическая регрессия Деревья решений Градиентный бустинг
Градиентный бустинг
Оценка чувствительности и специфичности моделей
Библиографический список
Full Text
Published version (Free)

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call