请选择 进入手机版 | 继续访问电脑版
查看: 842|回复: 4

中国博士生提出最先进AI训练优化器,收敛快精度高,网友...

  [复制链接]

26

主题

26

帖子

308

积分

版主

Rank: 7Rank: 7Rank: 7

积分
308
有风的冬 发表于 2019-8-20 20:50:34 | 显示全部楼层 |阅读模式
作者:量子位
链接:https://zhuanlan.zhihu.com/p/78426679
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

找到一种快速稳定的优化算法,是所有AI研究人员的目标。
但是鱼和熊掌不可兼得。Adam、RMSProp这些算法虽然收敛速度很快,当往往会掉入局部最优解的“陷阱”;原始的SGD方法虽然能收敛到更好的结果,但是训练速度太慢。
最近,一位来自UIUC的中国博士生Liyuan Liu提出了一个新的优化器RAdam
它兼有Adam和SGD两者的优点,既能保证收敛速度快,也不容易掉入局部最优解,而且收敛结果对学习率的初始值非常不敏感。在较大学习率的情况下,RAdam效果甚至还优于SGD。
RAdam意思是“整流版的Adam”(Rectified Adam),它能根据方差分散度,动态地打开或者关闭自适应学习率,并且提供了一种不需要可调参数学习率预热的方法。
一位Medium网友Less Wright在测试完RAdam算法后,给予了很高的评价:
RAdam可以说是最先进的AI优化器,可以永远取代原来的Adam算法了。
目前论文作者已将RAdam开源,FastAI现在已经集成了RAdam,只需几行代码即可直接调用。
补众家之短想造出更强的优化器,就要知道前辈们的问题出在哪:
像Adam这样的优化器,的确可以快速收敛,也因此得到了广泛的应用。
但有个重大的缺点是不够鲁棒,常常会收敛到不太好的局部最优解 (Local Optima) ,这就要靠预热 (Warmup)来解决——
最初几次迭代,都用很小的学习率,以此来缓解收敛问题。
为了证明预热存在的道理,团队在IWSLT’14德英数据集上,测试了原始Adam带预热的Adam
结果发现,一把预热拿掉,Transformer语言模型的训练复杂度 (Perplexity) ,就从10增到了500。
另外,BERT预训练也是差不多的情况。
为什么预热、不预热差距这样大?团队又设计了两个变种来分析:
缺乏样本,是问题根源一个变种是Adam-2k
在前2000次迭代里,只有自适应学习率是一直更新的,而动量 (Momentum) 和参数都是固定的。除此之外,都沿袭了原始Adam算法。
实验表明,在给它2000个额外的样本来估计自适应学习率之后,收敛问题就消失了:
另外,足够多的样本可以避免梯度分布变扭曲 (Distorted) :




这些发现证明了一点:早期缺乏足够数据样本,就是收敛问题的根源
下面就要证明,可以通过降低自适应学习率的方差来弥补这个缺陷。
降低方差,可解决问题一个直接的办法就是:


把ψ-cap里面的ϵ增加。假设ψ-cap(. ) 是均匀分布,方差就是1/12ϵ^2。

这样就有了另一个变种Adam-eps。开始把ϵ设成一个可以忽略的1×10^-8,慢慢增加,到不可忽略的1×10^-4。
从实验结果看,它已经没有Adam原本的收敛问题了:
这就证明了,真的可以通过控制方差来解决问题。另外,它和Adam-2k差不多,也可以避免梯度分布扭曲。

然而,这个模型表现比Adam-2k带预热的Adam差很多。
推测是因为ϵ太大,会给自适应学习率带来重大的偏差 (Bias) ,也会减慢优化的过程。
所以,就需要一个更加严格的方法,来控制自适应学习率。
论文中提出,要通过估算自由度ρ来实现量化分析。
RAdam定义RAdam算法的输入有:步长αt;衰减率{β1, β2},用于计算移动平均值和它的二阶矩。
输出为θt。
首先,将移动量的一阶矩和二阶矩初始化为m0,v0,计算出简单移动平均值(SMA)的最大长度ρ∞←2/(1-β2)-1。
然后按照以下的迭代公式计算出:第t步时的梯度gt,移动量的二阶矩vt,移动量的一阶矩mt,移动偏差的修正和SMA的最大值ρt。
如果ρ∞大于4,那么,计算移动量二阶矩的修正值和方差修正范围:


如果ρ∞小于等于4,则使用非自适应动量更新参数:

以上步骤都完成后,得出T步骤后的参数θT。
测试结果RAdam在图像分类任务CIFAR-10和ImageNet上测试的结果如下:
尽管在前几个周期内整流项使得RAdam比Adam方法慢,但是在后期的收敛速度是比Adam要更快的。
尽管RAdam在测试精度方面未能超越SGD,但它可以带来更好的训练性能。
此外,RAdam算法对初始学习率是具有鲁棒性的,可以适应更宽范围内的变化。在从0.003到0.1一个很宽的范围内,RAdam表现出了一致的性能,训练曲线末端高度重合。

亲测过的网友Less Wright说,RAdam和他今年测试的许多其它论文都不一样。
其他方法常常是在特定数据集上有良好的效果,但是放在新的数据集上往往表现不佳。
而RAdam在图像分类、语言建模,以及机器翻译等等许多任务上,都证明有效。
(也侧面说明,机器学习的各类任务里,广泛存在着方差的问题。)
Less Wright在ImageNette上进行了测试,取得了相当不错的效果(注:ImageNette是从ImageNet上抽取的包含10类图像的子集)。在5个epoch后,RAdam已经将准确率快速收敛到86%。
如果你以为RAdam只能处理较小数据集上的训练,或者只有在CNN上有较好的表现就大错特错了。即使大道有几十亿个单词的数据集的LSTM模型,RAdam依然有比Adam更好的表现。
总之,RAdam有望提供更好的收敛性、训练稳定性,以及几乎对所有AI应用都用更好的通用性



回复

使用道具 举报

51

主题

129

帖子

675

积分

版主

Rank: 7Rank: 7Rank: 7

积分
675
seefun 发表于 2019-8-20 21:53:42 | 显示全部楼层
开源地址https://github.com/LiyuanLucasLiu/RAdam
回复 支持 反对

使用道具 举报

105

主题

194

帖子

741

积分

版主

Rank: 7Rank: 7Rank: 7

积分
741
若羽AI 发表于 2019-8-22 13:49:30 | 显示全部楼层
没那么厉害。
我做的笔记:
https://note.youdao.com/web/#/fi ... eaba294ed1ac9a39d8/
回复 支持 反对

使用道具 举报

105

主题

194

帖子

741

积分

版主

Rank: 7Rank: 7Rank: 7

积分
741
若羽AI 发表于 2019-8-22 13:49:38 | 显示全部楼层
没那么厉害。
我做的笔记:
https://note.youdao.com/web/#/fi ... eaba294ed1ac9a39d8/
回复 支持 反对

使用道具 举报

105

主题

194

帖子

741

积分

版主

Rank: 7Rank: 7Rank: 7

积分
741
若羽AI 发表于 2019-8-22 13:52:03 | 显示全部楼层
国内人工智能媒体,可能是拿了投资人的钱,急于扩大影响,特别是吹捧华人学生的成果,动不动Adam可以退休了,SGD可以滚粗了。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

发表主题
    741
    积分
    194
    帖子
    105
    主题
快速回复 返回顶部 返回列表