web address of the page
http://jnas.nbuv.gov.ua/article/UJRN-0001268748
Cybernetics and Systems Analysis А - 2019 /
Issue (2021, Т. 57, № 5)
Norkin V. I.
Stochastic generalized gradient methods for training nonconvex nonsmooth neural networks
The paper observes a similarity between the stochastic optimal control of discrete dynamical systems and the learning multilayer neural networks. It focuses on contemporary deep networks with nonconvex nonsmooth loss and activation functions. The machine learning problems are treated as nonconvex nonsmooth stochastic optimization problems. As a model of nonsmooth nonconvex dependences, the so-called generalized-differentiable functions are used. The backpropagation method for calculating stochastic generalized gradients of the learning quality functional for such systems is substantiated basing on Hamilton–Pontryagin formalism. Stochastic generalized gradient learning algorithms are extended for training nonconvex nonsmooth neural networks. The performance of a stochastic generalized gradient algorithm is illustrated by the linear multiclass classification problem. © 2021, Springer Science+Business Media, LLC, part of Springer Nature.
Keywords: deep learning, machine learning, multilayer neural networks, nonsmooth nonconvex optimization, stochastic generalized gradient, stochastic optimization, Deep learning, Dynamical systems, Gradient methods, Learning algorithms, Multilayer neural networks, Multilayers, Optimization, Deep learning, Generalized gradients, Gradient's methods, Neural-networks, Nonconvex, Nonsmooth nonconvex optimization, Stochastic generalized gradient, Stochastic optimal control, Stochastic optimizations, Stochastics, Stochastic systems
Відмічено подібність між стохастичним оптимальним керуванням дискретними динамічними системами та навчанням багатошарових нейронних мереж. Роботу зосереджено на дослідженні сучасних глибоких мережах з неопуклими негладкими функціями втрат та активації. Проблеми машинного навчання розглянуто як неопуклі негладкі задачі стохастичної оптимізації. Як модель негладких неопуклих залежностей використано так звані узагальнено диференційовні функції. Метод зворотного обчислення стохастичних узагальнених градієнтів функціоналу якості навчання для таких систем обгрунтовано на основі формалізму Гамільтона - Понтрягіна. Стохастичні узагальнені алгоритми градієнтного навчання поширено для навчання неопуклих негладких нейронних мереж. Ефективність стохастичного узагальненого градієнтного алгоритму проілюстровано прикладом лінійної багатокласової класифікаційної задачі.
https://doi.org/10.1007/s10559-021-00397-z
Scopus
Cite:
Norkin. (2021). Stochastic generalized gradient methods for training nonconvex nonsmooth neural networks. Cybernetics and Systems Analysis, 57 (5), 54–71. doi: https://doi.org/10.1007/s10559-021-00397-z http://jnas.nbuv.gov.ua/article/UJRN-0001268748