优化器的作用_3_华宇注册-华宇娱乐-华宇商务站

优化器的作用_3

更新时间：2024-03-04

优化器的作用：

用来更新和计算影响模型训练和模型输出的网络参数，使其逼近或达到最优值，从而最小化(或最大化)损失函数。在深度学习中，几乎所有流行的优化器都基于梯度下降。这意味着他们反复估计给定的损失函数L的斜率，并将参数向相反的方向移动(因此向下爬升到一个假设的全局最小值)。

1、在SGD中，优化器基于一个小batch估计最陡下降的方向，并在这个方向前进一步。由于步长是固定的，SGD会很快陷入平坦区或陷入局部极小值。

2、带动量的SGD的更新规则，使用了动量，SGD可以在持续的方向上进行加速（这就是为什么也被叫做“重球方法”）。这个加速可以帮助模型摆脱平坦区，使它更不容易陷入局部最小值。

3、AdaGrad是首个成功的利用自适应学习率的方法之一(因此得名)。AdaGrad根据梯度的平方和的倒数的平方根来衡量每个参数的学习速率。这个过程将稀疏梯度方向上的梯度放大，从而允许在这些方向上执行更大的步骤。其结果是：AdaGrad在具有稀疏特征的场景中收敛速度更快。

4、RMSprop是一个未发布的优化器，在过去几年中被过度使用。这个想法与AdaGrad相似，但是梯度的重新缩放不那么激进：梯度的平方的总和被梯度平方的移动平均值所取代。RMSprop通常与动量一起使用，可以理解为Rprop对mini-batch设置的适应。

5、Adam将AdaGrad，RMSprop和动量法结合在一起。步长方向由梯度的移动平均值决定，步长约为全局步长的上界。此外，梯度的每个维度都被重新缩放，类似于RMSprop。Adam和RMSprop(或AdaGrad)之间的一个关键区别是，矩估计m和v被纠正为偏向于零。Adam以通过少量的超参数调优就能获得良好性能而闻名。

6、LARS是使用动量的SGD的一种扩展，具有适应每层学习率的能力。它最近引起了研究界的注意。原因是由于可用数据量的稳步增长，机器学习模型的分布式训练已经流行起来。其结果是批大小开始增长。然而，这导致了训练中的不稳定。Yang等人认为，这些不稳定性源于某些层的梯度范数和权重范数之间的不平衡。因此，他们提出了一个优化器，该优化器基于一个“trust”参数η < 1和该层的梯度的范数的倒数，对每一层的学习率进行缩放。

【返回列表页】

关于华宇娱乐

本站为华宇娱乐，华宇平台永久招商，任何平台的新老会员、代理都可以联系华宇主管申请为总代理、直属，了解详情待遇请加QQ或微信。客户：为客户提供高质量和最大价值的专业化产品和服务，以真诚和实力赢得客户的理解、尊重和支持。市场：为客户降低采购成本和风险，为客户投资提供切实保障。发展：追求永续发展的目标，并把它建立在客户满意的基础上。关于“为合作伙伴创造价值”公司认为客户、供应商、公司股东、公司员工等一切和自...

联系我们

电话：400-123-4657

邮箱：admin@youweb.com

地址：广东省广州市天河区88号

传真：+86-123-4567