pytorch 动态调整学习率重点-程序员宅基地

深度炼丹如同炖排骨一般，需要先大火全局加热，紧接着中火炖出营养，最后转小火收汁。
本文给出炼丹中的 “火候控制器”-- 学习率的几种调节方法，框架基于 pytorch

1. 自定义根据 epoch 改变学习率。

这种方法在开源代码中常见，此处引用 pytorch 官方实例中的代码 adjust_lr

def adjust_learning_rate(optimizer, epoch):
    """Sets the learning rate to the initial LR decayed by 10 every 30 epochs""" lr = args.lr * (0.1 ** (epoch // 30)) for param_group in optimizer.param_groups: param_group['lr'] = lr

注释：在调用此函数时需要输入所用的 optimizer 以及对应的 epoch ，并且 args.lr 作为初始化的学习率也需要给出。

使用代码示例:

optimizer = torch.optim.SGD(model.parameters(),lr = args.lr,momentum = 0.9)
for epoch in range(10):
    adjust_learning_rate(optimizer,epoch)
    train(...)
    validate(...)

2. 针对模型的不同层设置不同的学习率

当我们在使用预训练的模型时，需要对分类层进行单独修改并进行初始化，其他层的参数采用预训练的模型参数进行初始化，这个时候我们希望在进行训练过程中，除分类层以外的层只进行微调，不需要过多改变参数，因此需要设置较小的学习率。而改正后的分类层则需要以较大的步子去收敛，学习率往往要设置大一点以 resnet101 为例，分层设置学习率。

model = torchvision.models.resnet101(pretrained=True)
large_lr_layers = list(map(id,model.fc.parameters()))
small_lr_layers = filter(lambda p:id(p) not in large_lr_layers,model.parameters())
optimizer = torch.optim.SGD([
            {
         "params":large_lr_layers}, {
          "params":small_lr_layers,"lr":1e-4} ],lr = 1e-2,momenum=0.9)

注：large_lr_layers 学习率为 1e-2，small_lr_layers 学习率为 1e-4，两部分参数共用一个 momenum

3. 根据具体需要改变 lr

以前使用 keras 的时候比较喜欢 ReduceLROnPlateau 可以根据损失或者准确度的变化来改变 lr。最近发现 pytorch 也实现了这一个功能。

class torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

以 acc 为例，当 mode 设置为 “max” 时，如果 acc 在给定 patience 内没有提升，则以 factor 的倍率降低 lr。

使用方法示例：

optimizer = torch.optim.SGD(model.parameters(), lr=0.1, momentum=0.9)
scheduler = ReduceLROnPlateau(optimizer, 'max',verbose=1,patience=3) for epoch in range(10): train(...) val_acc = validate(...) # 降低学习率需要在给出 val_acc 之后 scheduler.step(val_acc)

4. 手动设置 lr 衰减区间

使用方法示例

def adjust_learning_rate(optimizer, lr):
    for param_group in optimizer.param_groups: param_group['lr'] = lr for epoch in range(60): lr = 30e-5 if epoch > 25: lr = 15e-5 if epoch > 30: lr = 7.5e-5 if epoch > 35: lr = 3e-5 if epoch > 40: lr = 1e-5 adjust_learning_rate(optimizer, lr)

5. 余弦退火

论文: SGDR: Stochastic Gradient Descent with Warm Restarts

使用方法示例

epochs = 60
optimizer = optim.SGD(model.parameters(),lr = config.lr,momentum=0.9,weight_decay=1e-4) 
scheduler = lr_scheduler.CosineAnnealingLR(optimizer,T_max = (epochs // 9) + 1)
for epoch in range(epochs):
    scheduler.step(epoch)

目前最常用的也就这么多了，当然也有很多其他类别，详情见 how-to-adjust-learning-rate

参考文献

标签: pytorch

转载于:https://www.cnblogs.com/jfdwd/p/11242992.html

本文链接：https://blog.csdn.net/weixin_30511039/article/details/99645088

智能推荐

sysfs_create_group创建sysfs接口-程序员宅基地

文章浏览阅读2.8k次，点赞2次，收藏17次。在编写驱动程序时，需要对驱动里的某些变量进行读写，或函数调用，再或者驱动某个开关量。可通过sysfs接口创建驱动对应的属性，便可以在用户空间通过sysfs接口的show和store函数与硬件交互；DEVICE_ATTR宏定义在include/linux/device.h中1、函数原型是：#define DEVICE_ATTR(_name, _mode, _show, _s..._sysfs_create_group

Java m3u8直播流截取视频并获取帧图片_java m3u8抓图-程序员宅基地

文章浏览阅读4k次。Java m3u8直播流截取视频并获取帧图片一.下载m3u8,合成视频//测试类 String rootPath = "D:\\videodir";//存放视频和截图的地址，先放在本地 String originUrlpath = "";//这个是m3u8直播地址 String preUrlPath =""; String fileName = ""; File targetFile = new File(rootPath)_java m3u8抓图

vulnhub DC-5 靶机渗透测试_dc-5靶机-程序员宅基地

文章浏览阅读199次。我们把这个文件复制出来 /usr/share/exploitdb/exploits/linux/local/41154.sh。进入shell模式，输入命令find / -perm /4000 2>/dev/null，查找具有SUID权限的命令。发现这下面的时间是在变的，每次刷新都不一样，这里和footer.php的php是一样的，所以我们推测是文件包含漏洞。注意，请不要在kali里面编译，亲测编译后的程序在靶机运行会报错，我是在Centos中编译的。发现一个footer.php，发现每次访问都不一样。_dc-5靶机

关于Python 向pdf添加印章效果的思考及实现_如何在pdf中查找文字并添加电子印章 python-程序员宅基地

文章浏览阅读4.7k次。最近做的一个关于向pdf中加入背景透明的印章图片思路历程第一阶段思路历程第二阶段好了，这里大概讲完了我的思路，因为图片的合成，基本就是用的我给的连接的方法，就不放代码了。思路历程第一阶段1.首先，肯定是想有一个函数可以直接实现，因为印章图片已经是去掉背景后的png图片了，即32bit（也就是RGBA格式），所以就想直接把图片放到指定位置不就可以了，然后去百度python中的做法，最后没有发现可..._如何在pdf中查找文字并添加电子印章 python

自定义Cell总结(注册Cell)（registerNib: 与 registerClass: 的区别）_cell register 中单元标记名称是什么-程序员宅基地

文章浏览阅读653次。自定义UITableViewCell大致有两类方法：使用nib 1、xib中指定cell的Class为自定义cell类型（注意不是设置File's Owner的class） 2、调用 tableView 的 registerNib:forCellReuseIdentifier:方法向数据源注册cell 复制代码[_tableVi_cell register 中单元标记名称是什么

Java中静态方法和非静态方法的选择_java 静态方法非静态方法-程序员宅基地

文章浏览阅读249次。因为，在多线程中使用同一个静态方法时，每个线程都共享一个静态字段(static field)。所以说，如果该静态方法不去操作一个静态字段，只在方法内部使用实例字段(instance field)，不会引起安全性问题。但是，如果该静态方法操作了一个静态字段，则有可能会引起线程安全问题.静态方法内的临时变量是每个线程都有一份的,因而是安全的.那么,在多线程中使用静态方法是否有线程安全问题?_java 静态方法非静态方法

随便推点

REDIS 学习笔记_hmset 丢数据-程序员宅基地

文章浏览阅读241次。NOSQL 数据库之REDIS一、Nosql1、简介Nosql(not only sql),泛指非关系型数据库特点：Nosql通常是以key->value形式存储不支持sql语句，没有表结构优缺点优点：高并发读写性能强悍大数据量的扩展（分布式存储）强悍配置简单灵活、高效的操作与数据模型低廉的成本缺点：没有正式的官方支持没有统一的标准各种产品还不算成熟常见的nosql产品Redis（新浪微博）MONGDB(优酷视频，视觉中国网站)._hmset 丢数据

手势识别与健身活动识别推理库20bn-realtimenet_数字人手势开源模型-程序员宅基地

文章浏览阅读1.1k次。之前在盘点CVPR 2020 动作识别相关论文的时候，发现研究动作识别的真不少，但不清楚有没有相关的正真落地的技术，感觉人体动作太多了，也许面向垂直领域的技术实用化的可能性较大。今天向大..._数字人手势开源模型

菜刀php提权,利用千月 tp框架漏洞直接提权-程序员宅基地

文章浏览阅读292次。分享本文至：教程简单小白易懂本教程全网首发！我们是利用千月tp框架漏洞直接注入提权，网上的千月影视基本都没修复这个漏洞。1.域名/+?s=/index/think\app/invokefunction&function=call_user_func_array&vars[0]=file_put_contents&vars[1][]=shell2.php&vars[1..._tp框架提权

SharedPreferences存储简单的封装单例拿去用_android sharedpreferences 单例-程序员宅基地

文章浏览阅读232次。public class SharedPreferencesDanLi { private String filename; private Context context; private android.content.SharedPreferences SharedPreferences; public SharedPreferencesDanLi(String filename, Context context) { this.filename..._android sharedpreferences 单例

input输入框限制只能输入数字，然后在输入中文后导致双向绑定失效_el-form input限制只能输入数字,输入中文后,触发校验-程序员宅基地

文章浏览阅读717次，点赞2次，收藏2次。element input 限制中文、输入中文导致数据报错_el-form input限制只能输入数字,输入中文后,触发校验

NA555、NE555、SA555和SE555系列精密定时器-程序员宅基地

文章浏览阅读1k次，点赞22次，收藏13次。需要注意的是，这些特性是典型的，不是最大或最小值，也不是生产测试的参数。设计者和工程师应确保在这些推荐的操作条件下设计和使用NA555、NE555、SA555和SE555系列定时器，以确保器件的最佳性能和可靠性。这些应用信息为设计者和工程师提供了如何利用NA555、NE555、SA555和SE555系列定时器的多功能性和灵活性来满足特定应用需求的实用指导。这份文件为工程师和技术人员提供了NA555、NE555、SA555和SE555系列精密定时器的详细技术规格和操作指南，以便于在设计和应用中使用这些器件。