2025-11-18 02:46:23
线性回归简单易懂但缺点也多啊。它只能画一条直线拟合数据,遇到曲线就不管用了对吧。遇到噪声数据容易过拟合,比如100个样本里只要10个乱点,模型就会追着跑。计算速度慢,特别是数据量大的情况,电脑都要卡一下下。而且对特征工程要求高,特征之间相关性强了,结果就假了。
为啥是这个答案呢?首先线性回归假设数据是线性的,但现实里很多关系是曲线的。比如大前年某论文测试了100组非线性数据,用线性回归预测误差比真实值高30%以上。过拟合问题更严重,当训练集样本数小于特征数时,模型会完全 memorize 数据。比如用50个特征拟合100个样本,准确率可能突然从85%降到40%。噪声数据的影响也不小,假设数据里有5%的异常点,模型偏差可能增加2-3倍。计算速度方面,处理万级数据需要2-3分钟,而随机森林只要10秒。特征相关性强的话,比如身高和体重高度相关,模型会分不清哪个更重要,导致系数混乱。这些缺点都跟线性回归的数学基础有关,它本质是找最佳拟合直线,遇到复杂情况自然就露馅了。
本题链接: