2025-11-20 05:55:38
测试集主要是检验模型在实际应用中会不会“死记硬背”。比如你学数学题,老师会拿新题考你,而不是用你刷过的题。训练集就像你刷过的题,模型可能记住答案但不会解题。测试集要保证模型真正掌握了规律,不能总拿老题考它。
为什么不能只用训练集?因为模型在训练时会偷偷记住数据特征,就像学生背答案。有研究显示,只用训练集测试,准确率可能虚高5-10%。比如某图像分类模型,用训练集测试准确率98%,但换到测试集只剩85%。这是因为测试集数据没出现过,模型才能展示真实能力。训练集越干净,测试集数据分布越接近真实场景,就能更准确评估模型。比如数据科学家发现,训练集和测试集样本差异超过15%,模型在实际用的时候就会掉链子。所以必须分开验证,就像考试要换新题。
本题链接: