Abstract
The paper proposes a hybrid method for training convolutional neural networks. The method consists of combining second and first-order methods for different elements of the architecture of a convolutional neural network. The hybrid convolution neural network training method allows to achieve significantly better convergence compared to Adam; however, it requires fewer computational operations to implement. Using the proposed method, it is possible to train networks on which learning paralysis occurs when using first-order methods. Moreover, the proposed method could adjust its computational complexity to the hardware on which the computation is performed; at the same time, the hybrid method allows using the mini-packet learning approach. The analysis of the ratio of computations between convolutional neural networks and fully connected artificial neural networks is presented. The mathematical apparatus of error optimization of artificial neural networks is considered, including the method of backpropagation of the error, the Levenberg-Marquardt algorithm. The main limitations of these methods that arise when training a convolutional neural network are analyzed. The analysis of the stability of the proposed method when the initialization parameters are changed. The results of the applicability of the method in various problems are presented.
Highlights
Метод заключается в объединении методов второго и первого порядка для разных элементов архитектуры сверточной нейронной сети
Основную трудность при обучении нейронных сетей составляют как раз методы выхода из локальных минимумов: каждый раз выходя из локального минимума снова ищется следующий локальный минимум тем же методом обратного распространения ошибки до тех пор, пока найти из него выход уже не удаётся
The paper proposes a hybrid method for training convolutional neural networks
Summary
Методы обучения сверточных нейронных сетей как первого, так и второго порядков, используют понятие градиента, через которое могут быть связанны. 3. Схема вычисления отклика без активации для одного сверточного ядра и одной карты признаков входных данных. 5. Схема вычисления отклика без активации для одного сверточного ядра и одной карты признаков входных данных в виде полносвязного слоя. Как видно из рисунка 5, операцию вычисления для одного сверточного ядра и одной карты признаков входных данных можно представить как разреженный полносвязный слой. Определим оператор M , преобразующий вычисление для одного сверточного ядра и одной карты признаков входных данных к вычислению разреженного полносвязного слоя:. Где C – конкретная карта признаков входных данных; F – ядро для данной карты. 4), получим вычисление одного сверточного ядра и одной карты признаков входных данных к вычислению разреженного полносвязного слоя: C s1.
Talk to us
Join us for a 30 min session where you can share your feedback and ask us any queries you have
Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.