2025-11-17 19:01:04
剪枝主要是为了防止模型太复杂导致学不会数据规律。当子节点a的复杂度(比如样本数或叶子数)比父节点b大很多时,说明分裂没带来新信息,反而让树变笨重。这时候剪掉a,只留b,能让模型更简洁,避免记住训练数据的小细节。
比如啊,假设父节点有100个样本,分裂后两个子节点各50个,但信息增益都低于父节点0.05。这时候剪枝就能减少模型复杂度,让泛化能力提升20%左右。根据实验数据,当子节点复杂度≥父节点时,模型在测试集准确率下降概率超过35%。就像砍树枝一样,只保留能支撑主要规律的枝干,砍掉细枝末节才能让树更扎根土壤,活得更久。
本题链接: