动量法


Vincent
发布于 2024-04-07 / 4 阅读 / 0 评论 /
动量法 在上面,我们详述了如何执行随机梯度下降,即在只有嘈杂的梯度可用的情况下执行优化时会发生什么。 对于嘈杂的梯度,我们在选择学习率需要格外谨慎。 如果衰减速度太快,收敛就会停滞。 相反,如果太宽松,我们可能无法收敛到最优解。 基础 本节将探讨更有效的优化算法,尤其是针对实验中常见的某些类型的优化