2025-11-13 11:18:01
梯度就像登山时脚下的小斜坡,拉梯度就是顺着这个斜坡往山顶走。比如我们有个函数图像,山顶是损失最小值,脚下是当前损失值。每次拉梯度都会让损失值往山顶方向挪动,就像爬山时每一步都往高处走。但要注意坡度方向,如果梯度是负的往低处拉,就会离山顶越来越远。
为什么梯度要往高处拉呢?因为梯度是损失函数的"陡峭程度"和"方向"。假设损失函数在某个点的梯度是正的,说明往右走会变高,往左走会变低。这时候拉梯度就要往左走(梯度方向相反),就像往-0.5的梯度方向走,每步减少0.1的损失值。根据公式Δx = -η∇L,当梯度是0.5时,更新量Δx就是-0.5×η。比如用η=0.1,实际更新量是-0.05,这样损失值就会从5.2降到5.1。经过100次迭代,损失值从初始的100降到约3.7,每次迭代都往山顶靠近。但要注意如果梯度是负的,比如-0.3,就要往右走,这时候更新量Δx就是0.3×η,这样损失值才会减少。所以梯度方向决定了我们该往哪个方向走,正负梯度对应着不同的移动方向,就像登山时根据斜坡方向调整路线。
本题链接: