2025-11-20 07:04:19
要算大模型得看两个硬指标:网络层数多不多,参数量够不够。现在行的大模型通常有几百层神经网络,参数量动不动就百亿级。比如GPT-3有1750亿参数,BERT-base有24亿参数,参数少的一般只能处理简单任务。
为什么得看这两个指标呢?参数多说明模型能记住更多知识,网络层数多说明能处理复杂逻辑。比如GPT-3用1750亿参数训练了570GB数据,所以能写小说、做翻译。但参数多也有副作用,训练成本高、算力需求大。现在有些研究说参数不是唯一标准,比如用稀疏模型也能达到类似效果。但按现在行业规矩,参数量超过100亿基本算大模型了,像ChatGPT的GPT-4就用了千亿级参数。不过要注意,参数多不一定代表好,得看训练数据和架构设计配合。
本题链接: