最近新出的一篇论文《On the Variance of the Adaptive Learning Rate and Beyond》火了,文章提出了一种基于 Adam 的改进版优化器 Rectified Adam (RAdam),提供全自动的、动态的 learning rate 自调整。RAdam 声称对于任何 AI 架构较传统的 Adam 都有所提升。
如下图是在 CIFAR 数据集上的测试,左上角是 RAdam 的测试准确率,可以看到不论初始 learning rate 是多少,使用 RAdam 最终都可以收敛到稳定水平。
用 FastAI 在 ImageNette 上进行测试后,RAdam 同样可以达到很高的准确率。和以往一些其他优化器的论文不一样,有些优化器只针对特定的数据集有效,而 RAdam 貌似针对所有的问题都较 Adam 有所提升。
下图是 RAdam 和 XResNet50 在 ImageNette 上 5 个 epoch 就可以达到 86% 的准确率:
除了 CNN,RAdam 在 RNN 上也会有所提升。
RAdam 的官方实现是基于 PyTorch 的,地址 https://github.com/LiyuanLucasLiu/RAdam。
如果对 RAdam 的内部原理感兴趣的,可以参看原始论文。
本站微信群、QQ群(三群号 726282629):