专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
机器之心  ·  小米语音首席科学家 Daniel ... ·  15 小时前  
黄建同学  ·  吴恩达Andrew NG预测:AI ... ·  昨天  
宝玉xp  ·  自从买了 AI ... ·  昨天  
黄建同学  ·  一起回顾2024年的AI大事件,期待2025 ... ·  2 天前  
爱可可-爱生活  ·  [LG]《Resource-Constrai ... ·  2 天前  
51好读  ›  专栏  ›  机器学习研究会

【干货】深度学习必备:随机梯度下降(SGD)优化算法及可视化

机器学习研究会  · 公众号  · AI  · 2017-04-04 21:53

正文



点击上方“机器学习研究会”可以订阅哦


摘要
 

转自:新智元

梯度下降算法是机器学习中使用非常广泛的优化算法,也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。但是,它们就像一个黑盒优化器,很难得到它们优缺点的实际解释。这篇文章旨在提供梯度下降算法中的不同变种的介绍,帮助使用者根据具体需要进行使用。

这篇文章首先介绍梯度下降算法的三种框架,然后介绍它们所存在的问题与挑战,接着介绍一些如何进行改进来解决这些问题,随后,介绍如何在并行环境中或者分布式环境中使用梯度下降算法。最后,指出一些有利于梯度下降的策略。


目录


  • 三种梯度下降优化框架

       批量梯度下降

          随机梯度下降

          小批量梯度下降

  • 问题与挑战

  • 梯度下降优化算法

         Momentum

         Nesterov accelerated gradient

         Adagrad

         Adadelta

         RMSprop

         Adam

  • 算法的可视化

  • 选择哪种优化算法?

  • 并行与分布式SDG

         Hogwild!

         Downpour SGD

         Delay-tolerant Algorithms for SGD

         TensorFlow

         Elastic Averaging SGD

  • 更多的SDG优化策略

         训练集随机洗牌与课程学习

         批规范化

         Early Stopping

         Gradient noise

  • 总结

  • 引用


原文链接:

http://mp.weixin.qq.com/s/5utbOLwOy2RwyrI1OfJjDQ

“完整内容”请点击【阅读原文】
↓↓↓