SGD的算法时步长:适应性和收敛性|李晓宇

算法小时
-旧金山,CA

视频:

李晓宇是波士顿大学的一名博士生,她在那里接受弗朗西斯科·奥拉博纳教授的建议。她获得了中国科技大学数学和应用数学的学士学位。她是石溪大学的博士候选人,在诺基亚贝尔实验室实习。她的主要研究兴趣在于随机优化和理论机器学习。她目前致力于理解和设计机器学习中的优化方法,特别是随机梯度下降及其变体、自适应梯度方法和动量方法。

谈话摘要:

随机梯度下降(SGD)是训练大规模机器学习模型的常用工具。然而,它的性能变化很大,很大程度上取决于步长的选择。这激发了各种调整步长和研究自适应步长的策略。然而,它们大多缺乏理论保证。在本次演讲中,我将介绍一种具有自适应步长的广义AdaGrad方法和SGD的两种启发式步长计划:指数步长和余弦步长。第一次,我们为它们提供了理论支持,推导了收敛保证,并表明这些步长允许自动适应随机梯度的噪声水平。我还将讨论它们的经验性能和一些相关的优化方法。

发这个帖子! 在LinkedIn上发布
188滚球注册平台

来和我们一起工作吧!

我们是一个多元化的团队,致力于打造卓越的产品,我们希望您的帮助。您是否希望与卓越的同行一起打造卓越的产品?加入我们吧!

Baidu