Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

训练batch_size对结果的影响 #14

Open
Family-Liao opened this issue May 31, 2024 · 9 comments
Open

训练batch_size对结果的影响 #14

Family-Liao opened this issue May 31, 2024 · 9 comments

Comments

@Family-Liao
Copy link

因为设备原因,我训练的批大小是4,将训练出来的模型进行评估得到的结果如下图所示
4
与你们预训练出来的模型结果相差得有点大,请问这是正常现象吗,下图是用我的设备跑你们的预训练模型的结果
16

这个结果差距是正常现象吗?

@MasterIzumi
Copy link
Collaborator

@Family-Liao 这个肯定是有影响的。batch size 和 lr 需要相互适配,缩小bs应该也调小lr(*)。但由于优化器内部动量等问题,无法通过等比例缩放实现相同的效果,不过你可以调小lr试试。

(*) He, Tong, et al. "Bag of tricks for image classification with convolutional neural networks." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.

A similar issue is mentioned in #9.

@Family-Liao
Copy link
Author

@Family-Liao 这个肯定是有影响的。batch size 和 lr 需要相互适配,缩小bs应该也调小lr(*)。但由于优化器内部动量等问题,无法通过等比例缩放实现相同的效果,不过你可以调小lr试试。

(*) He, Tong, et al. "Bag of tricks for image classification with convolutional neural networks." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.

A similar issue is mentioned in #9.

感谢回复

@Family-Liao
Copy link
Author

Family-Liao commented Jun 3, 2024

作者你好,我回顾一下论文,论文中写到:“使用Adam优化器并且学习率在开始时设置为1e-3,在40个epoch后渐渐地下降为1e-4”,我在代码中找到了这两个数值,如下图红色框:
Snipaste_2024-06-03_16-12-27
请问,那如果我需要调整学习率的话,是应该两个数值都修改吗
@MasterIzumi

@MasterIzumi
Copy link
Collaborator

@Family-Liao 这里和论文略微有一点不太一样,我们这里使用了polyline形式的lr scheduler,让它先从小lr开始warm up,然后固定若干epoch,最后再减小lr。你可以尝试修改图中中间那个文件77行中的参数,将init_lr和后面的values都改小。

@Family-Liao
Copy link
Author

@Family-Liao 这里和论文略微有一点不太一样,我们这里使用了polyline形式的lr scheduler,让它先从小lr开始warm up,然后固定若干epoch,最后再减小lr。你可以尝试修改图中中间那个文件77行中的参数,将init_lr和后面的values都改小。

谢谢你的耐心解答 @MasterIzumi

@RenWeiwei123
Copy link

作者你好,我回顾一下论文,论文中写到:“使用Adam优化器并且学习率在开始时设置为1e-3,在40个epoch后渐渐地下降为1e-4”,我在代码中找到了这两个数值,如下图红色框: Snipaste_2024-06-03_16-12-27 请问,那如果我需要调整学习率的话,是应该两个数值都修改吗 @MasterIzumi

你好,请问你找到合适的学习率了吗

@Family-Liao
Copy link
Author

作者你好,我回顾一下论文,论文中写到:“使用Adam优化器并且学习率在开始时设置为1e-3,在40个epoch后渐渐地下降为1e-4”,我在代码中找到了这两个数值,如下图红色框: Snipaste_2024-06-03_16-12-27 请问,那如果我需要调整学习率的话,是应该两个数值都修改吗 @MasterIzumi

你好,请问你找到合适的学习率了吗

始终还是调不出来与原码训练后的得到的评估指标,放弃了,时间成本太高了

@Family-Liao
Copy link
Author

作者你好,我回顾一下论文,论文中写到:“使用Adam优化器并且学习率在开始时设置为1e-3,在40个epoch后渐渐地下降为1e-4”,我在代码中找到了这两个数值,如下图红色框: Snipaste_2024-06-03_16-12-27 请问,那如果我需要调整学习率的话,是应该两个数值都修改吗 @MasterIzumi

你好,请问你找到合适的学习率了吗

如果您调出来与源码相近的评估指标后,能不能把学习率和对应的批次分享出来

@RenWeiwei123
Copy link

RenWeiwei123 commented Jun 17, 2024 via email

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants