2025-11-10 05:31:05
80b和85b差5亿参数量,85c和80b差5亿参数量但用了新架构。80b推力慢点,85b推力快点,85c推力最快但算力吃紧。
为啥是这个答案呢?因为80b参数少推力慢,85b多5亿参数推力快了15%,但85c虽然参数和85b差不多,但用了稀疏注意力,算力消耗少30%。比如在C4数据集上,80b准确率92%,85b到93%,85c到94.2%。训练时85c用了更大的分布式集群,单卡算力提升20%,所以推力快但成本高。后可能变成"80b和85b差5亿参数量,85c和80b差5亿参数量但用了新架构。80b推力慢点,85b推力快点,85c推力最快但算力吃紧"。
本题链接: