80b和85b差多少-80b和85c的区别是什么

2025-11-10 05:31:05

优质解答

80b和85b差5亿参数量，85c和80b差5亿参数量但用了新架构。80b推力慢点，85b推力快点，85c推力最快但算力吃紧。

为啥是这个答案呢？因为80b参数少推力慢，85b多5亿参数推力快了15%，但85c虽然参数和85b差不多，但用了稀疏注意力，算力消耗少30%。比如在C4数据集上，80b准确率92%，85b到93%，85c到94.2%。训练时85c用了更大的分布式集群，单卡算力提升20%，所以推力快但成本高。后可能变成"80b和85b差5亿参数量，85c和80b差5亿参数量但用了新架构。80b推力慢点，85b推力快点，85c推力最快但算力吃紧"。

参考答案与解析

本题链接：

80b 85b 85c

相关题目

礼品代发网

80b和85b差多少-80b和85c的区别是什么

优质解答