Telegram Web Link
🔎 Влияет ли выбор оптимизатора (SGD, Momentum, Adam) на стратегию планирования learning rate

Да, оптимизатор определяет, какой тип scheduler лучше работает:
🔹 Чистый SGD: очень чувствителен к величине шага. Часто применяют ступенчатое или постоянное убывание.
🔹 SGD с momentum / Nesterov: за счёт сглаживания колебаний позволяет использовать более агрессивные схемы — например, экспоненциальный decay.
🔹 Adam / RMSProp: хотя они адаптируют шаг для каждого параметра, глобальный learning rate всё равно важен. Обычно применяют полиномиальные или экспоненциальные schedules, но стартовое значение LR берут меньше, чем для SGD.

🐸 Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
2025/09/21 02:39:14
Back to Top
HTML Embed Code: