2025-11-11 06:21:56
有些朋友问分类问题为什么不能用均方误差(mse)来评估效果,这得从回归和分类的本质区别说起。回归是预测连续值,比如房价或温度,这时候用mse计算预测值和真实值之间的平均平方差挺合理;但分类是预测离散类别,比如判断图片是猫还是狗,这时候用mse就不太对劲了。比如说用猫狗分类模型,如果模型预测概率是0.7猫,0.3狗,而真实是猫,这时候用mse会算0.3²=0.09,但实际业务中我们更关心预测的类别是否正确,而不是概率的数值大小。而且很多分类算法比如逻辑回归、支持向量机,它们优化目标本来就是最大化正确率或概率分布,强行套用mse反而可能让模型优化方向跑偏。
再说成员变量添加的问题。假设有个手写数字识别模型,原本有10个特征(比如像素灰度值),如果盲目添加第11个特征,比如图片的边长或者作者签名,这时候模型可能会把边长作为干扰因素,导致识别准确率下降。比如在公开数据集mnist上测试,当添加10个无关特征后,准确率从99%降到95%;添加20个后更降到88%。这说明特征数量和质量比数量更重要,就像做菜时往汤里加太多盐,虽然多了调料,但会破坏整体味道。模型设计时要像医生开药方,每个成员变量都要经过统计检验,比如p值小于0.05才保留,否则就是无效变量。
本题链接: