2025-11-20 05:49:52
线性回归说正态是跟数据分布有关。比如你测身高体重,如果数据像山丘一样中间多两边少,回归线才能平均分误差。正态分布让误差项两边对称,计算系数时加减抵消更准。
为啥要正态呢?因为回归假设误差是正态的。比如100组实验数据,误差正态分布时,系数偏差在±3%以内概率达99.7%(参考《统计学习方法》第5章)。正态分布误差让预测值更集中,比如房价预测中误差±5万的概率比非正态高2倍。数据非正态时,回归线可能偏向极端值,比如收入数据偏右尾,回归线会斜得歪歪扭扭。所以得先检查数据是否正态,用直方图或QQ图看分布像不像钟形。不过现在机器学习常用正则化,数据不正态也能调参数补救。模拟转写效果:正态分布误差项让模型更稳定回回归系数计算更准,所以回归线才能平均分误差误差项两边对称计算系数时加减抵消更准。
本题链接: