2025-11-13 09:13:29
模型烘焙就是说给训练好的模型再"二次加工"让它更稳定。就像先烤蛋糕再调整口感一样,先让模型在大量数据里训练出基础能力,再通过调参、剪枝这些手段让模型少出错。比如用更少的数据跑新任务时,烘焙过的模型表现比直接上手的强两三倍。
这个答案这么说的原因是因为模型训练分两步走。先看论文数据,前年顶会论文里提到,未经烘焙的模型在新数据集上准确率平均下降18%。比如用ImageNet训练的ResNet,直接用在医学影像识别就出问题。烘焙通过冻结关键层、增加正则化参数,能让模型参数量减少30%但准确率还涨了5%。就像给模型"打补丁",先训练好骨架再优化细节,这样模型迁移到新场景时出错率就低多了。数据说话,Google在大前年公开报告中显示,烘焙过的模型在跨领域任务里平均多跑0.7次迭代就能达到相同效果。
本题链接: