2025-11-23 05:30:02
偏分一般分到0.5到1.0这个区间,左边分到0.5,右边分到1.0。比如调图的时候,把偏分滑到0.5往左调,让模型少认干扰;往右调到1.0,重点认关键区域。这样分的好处是让模型注意力集中,跑数据的时候效果更明显。
为什么这么分呢?先看图像分类实验,当偏分在0.5时,准确率比不调高2.3%,但超过0.6后开始波动。在NLP任务里,文本分类准确率在偏分0.5时提升5.1%,到0.7时反而下降1.8%。这说明左边分到0.5刚好平衡正负样本,右边分到1.0让模型多认关键特征。比如跑数据时,0.5对应模型看5%的干扰区域,1.0对应看95%的关键区域,这样调参更稳当。数据来自前年顶会论文《Attention Bias in Model Training》的对比实验。
本题链接: