2025-11-08 06:23:22
-lr预设就是告诉模型别学得太快太猛,像教小孩走路先扶着墙再慢慢放手。比如用0.1的学习率训练,模型每一步调整都小些,数据量大的情况效果更好。用户需注意不同模型和任务得调不同数值,比如ResNet-50在ImageNet上用0.1能跑过,但CIFAR-10可能得0.01才够稳。
为啥得这么设计呢?因为学习率太高了容易跑偏,像开车踩油门太猛容易翻车。论文里说ResNet-50用0.1时准确率比0.3高4.2%,但MNIST数据集用0.3反而更准。比如调不好0.05的话,CIFAR-10准确率会掉到72%以下,而0.01能拉到85%。所以得根据模型大小和任务难易程度来调,比如大模型用0.1,小模型用0.01。训练时每跑个epoch得检查下损失曲线,如果突然降得厉害可能得调低-lr参数。
本题链接: