A Geometric Modeling of Occam's Razor in Deep Learning
Почему глубокие нейронные сети (ГНС) выигрывают от очень высокоразмерных пространств параметров? Их огромная сложность по количеству параметров при этом сочетается с впечатляющими результатами на практике, что вызывает особое интерес и не может быть полностью объяснено стандартной теорией выбора модели для обычных моделей. В этой работе предлагается подход, основанный на геометрических и информационно-теоретических идеях, для изучения этого явления. Исходя из предположения, что простота связана с лучшей обобщающей способностью, что подкрепляется теорией минимальной длины описания, целью нашего анализа является исследование и ограничение сложности ГНС. Мы вводим понятие локально меняющейся размерности пространства параметров нейронных сетей, рассматривая число значимых измерений матрицы Фишера, и моделируем пространство параметров как многообразие, используя рамки сингулярной полуримановой геометрии. В результате получаются меры сложности модели, которые позволяют получать короткие описания для моделей глубоких нейронных сетей на основе анализа их сингулярностей, что помогает объяснить их хорошую производительность несмотря на большое число параметров.
https://arxiv.org/abs/1905.11027
Почему глубокие нейронные сети (ГНС) выигрывают от очень высокоразмерных пространств параметров? Их огромная сложность по количеству параметров при этом сочетается с впечатляющими результатами на практике, что вызывает особое интерес и не может быть полностью объяснено стандартной теорией выбора модели для обычных моделей. В этой работе предлагается подход, основанный на геометрических и информационно-теоретических идеях, для изучения этого явления. Исходя из предположения, что простота связана с лучшей обобщающей способностью, что подкрепляется теорией минимальной длины описания, целью нашего анализа является исследование и ограничение сложности ГНС. Мы вводим понятие локально меняющейся размерности пространства параметров нейронных сетей, рассматривая число значимых измерений матрицы Фишера, и моделируем пространство параметров как многообразие, используя рамки сингулярной полуримановой геометрии. В результате получаются меры сложности модели, которые позволяют получать короткие описания для моделей глубоких нейронных сетей на основе анализа их сингулярностей, что помогает объяснить их хорошую производительность несмотря на большое число параметров.
https://arxiv.org/abs/1905.11027
arXiv.org
A Geometric Modeling of Occam's Razor in Deep Learning
Why do deep neural networks (DNNs) benefit from very high dimensional parameter spaces? Their huge parameter complexities vs stunning performance in practice is all the more intriguing and not...
Пока запад благополучно загнивает, в российской науке — весна.
https://www.tg-me.com/ArtemROganov/2013
https://www.tg-me.com/ArtemROganov/2013
Telegram
Artem. R. Oganov
Артем Оганов: сегодня мы наблюдаем весну российской науки
Один из самых цитируемых ученых мира, кристаллограф Артем Оганов, объясняет Антону Красовскому, что такое индекс Хирша, зачем нужна Российская академия наук и почему Китай — достойный соперник не…
Один из самых цитируемых ученых мира, кристаллограф Артем Оганов, объясняет Антону Красовскому, что такое индекс Хирша, зачем нужна Российская академия наук и почему Китай — достойный соперник не…