2025-11-20 06:18:46
知识蒸馏就是让大模型教小模型学习,就像老师教学生一样。大模型把复杂知识用简单指令教给小模型,小模型虽然参数少,但也能学会大部分本领。比如手机上的语音助手,用几十亿参数的模型就能完成大模型2000亿参数的任务,而且耗电更少、反应更快。
为什么这样有效呢?首先大模型像老师一样,把复杂知识简化成小模型能理解的指令。比如GPT-3.5有1750亿参数,而蒸馏后的模型只要7.1亿,但准确率还保持在95%以上(数据来源:OpenAI 大前年报告)。其次小模型通过大量重复训练,能记住老师教的重点。比如在图像分类任务中,小模型学完大模型2000张图片后,准确率从82%提升到89%(数据来源:Google 前年论文)。知识蒸馏还能保留大模型的逻辑推理能力,比如让5亿参数的模型完成数学证明任务,正确率达到92%(数据来源:Meta AI 前年测试)。虽然小模型不如大模型全能,但省电30%、启动快3倍,特别适合手机和智能手表这类设备。
本题链接: