来自 Meta AI 和 Samsung 的研究人员介绍了两种新的 AI 方法,Prodigy 和 Resetting,用于学习速率适应,这些方法改进了现有最先进的 D-适应方法的适应速率
现代机器学习在计算机视觉、自然语言处理和强化学习等领域中,很大程度上依赖于优化来提供有效的答案。快速收敛和高质量解的难度很大程度上取决于所选择的学习率。应用程序中有许多代理,每个代理都有自己的优化器,使得学习率调整更加困难。一些手动调整的优化器表现良好,但这些方法通常需要专业技能和繁琐的工作。因此,近年来,“无参数”自适应学习率方法,如 D-Adaptation 方法,在学习率自由优化中变得越来越受欢迎。
三星人工智能中心和 Meta AI 的研究团队引入了两个独特的变化到 D-Adaptation 方法中,称为 Prodigy 和 Resetting,以改善 D-Adaptation 方法的最坏非渐近收敛速度,从而实现更快的收敛速度和更好的优化结果。
作者引入了两个新颖的改变来改进 D-Adaptation 方法的最坏非渐近收敛速度。他们通过调整自适应学习率方法来增强算法的收敛速度和解决方案质量表现。建立了任何调整到解决方案距离的方法的下限,以验证所提出的调整。他们进一步证明,相对于具有指数有界迭代增长的其他方法,增强方法在最坏情况下是最优的,直到常数因子。然后进行了大量测试,以展示增强的 D-Adaptation 方法快速调整学习率,从而实现更优秀的收敛速度和优化结果。
该团队的创新策略涉及使用 Adagrad 类型的步长来调整 D-Adaptation 的误差项。研究人员现在可以放心地采取更大的步骤,同时保持主要误差项不变,使得改进的方法更快地收敛。当步长中的分母增长太大时,算法会减速。因此,他们额外添加了梯度旁边的权重,以防万一。
研究人员在实证研究中使用所提出的技术来解决凸逻辑回归和严峻的学习挑战。在多项研究中,Prodigy 显示出比任何其他已知方法更快的收敛速度;带有重置的 D-Adaptation 可以达到与 Prodigy 相同的理论速度,同时采用比 Prodigy 或 D-Adaptation 更简单的理论。此外,所提出的方法经常优于 D-Adaptation 算法,并且可以实现与手动调整的 Adam 相当的测试精度。
最近提出的两种方法已经超越了 D-Adaptation 学习率自适应方法。广泛的实验证据表明,加权的 D-Adaptation 变体 Prodigy 比现有方法更具适应性。第二种方法是带有重置的 D-Adaptation,可以与远比 Prodigy 更简单的理论相匹配。