2025-11-20 05:48:07
梯度下降就像下山找最低点,每次走一小步,根据斜率调整方向。比如函数有个坑坑洼洼的形状,梯度就是告诉咱们往哪边走更陡峭。咱们每次顺着斜坡往下滑,这样就能靠近最低点,损失函数数值就会变小。比如走完五次,损失可能从1变成0.8。
首先梯度下降通过计算损失函数的斜率(比如用导数算),然后决定每次该往哪个方向走多远(比如用学习率控制步长)。比如损失函数图像像碗状,梯度正表示往右走更陡,负表示往左走更陡。咱们每次迭代都更新参数,比如用公式:参数=参数-梯度×步长。假设初始损失是1,梯度是-0.2,步长是0.1,那第一次更新后损失变成1+(-0.2×0.1)=0.98。经过100次迭代,损失可能降到0.05。但要注意步长不能太大,否则可能跳过最低点。比如步长0.5的话,可能从1跳到0.5,再跳到1.5,这样反而变糟。所以得选合适步长,比如0.01,这样每次损失减少0.01,100次后减少1,但实际可能因为曲线形状而少一点。参数稳定了,梯度接近0,说明到了最低点,这时候损失最小了。
本题链接: