大模型训练参数是越大越好吗 -中国科普网

历时一年有余，大模型话题的热度依然不减。在国内，通用大模型格局初定后，行业大模型如雨后春笋，带动着资本和创业团队涌入这一新兴领域。空前的竞争态势之下，行业逐渐进入到用训练参数衡量大模型能力的“狂飙”模式。

但在猎豹移动董事长兼CEO傅盛看来，大模型并非训练参数越大就越好用。“大模型创新，除了套壳之外想要做深并不容易，特别是面对千亿级参数大模型时，不能不跟，但也不能太冒进。”

大模型正陷进参数怪圈

自ChatGPT横空出世以来，不论是通用大模型还是行业模型，千亿级训练参数一直被认为是商业化应用的最佳方案。事实确实如此，大模型的训练参数越大，模型的能力可能会越强。

新壹科技CEO雷涛告诉记者，大模型热衷于大参数训练，是为了更好地捕捉和处理复杂的语义连接，提高生成内容的连贯性和准确性。“不过，参数规模并非唯一决定模型能力的因素，包括模型的结构、深度、训练方法、优化算法、数据质量等，也影响着大模型的能力。”

对于当前大模型创业热潮，傅盛说他一直心存着“跟不跟和怎么跟”的焦虑。他认为，目前大模型的创新其实是在找到不同的路，以更少的投入换取更大的产出。“在全行业顺着谷歌指引的路线一起卷的时候，AI技术发展的瓶颈依然没有被突破。ChatGPT的出现其实更像是哥伦布航海，不是这个舰队有多强大，而是走了别人不敢走的路。”

基于这种认知，猎豹旗下的猎户星空日前带着140亿参数的大模型产品姗姗来迟。傅盛认为，行业大模型还是要从应用出发，千亿级训练参数大模型应该是头部大公司该干的，如果能从应用出发找到好的场景，小参数模型也是一个非常好的机会。在他看来，“百亿参数的模型加上私有数据和应用打磨，在专业领域可以约等于甚至大于千亿参数大模型。”

行业大模型将百花盛开

傅盛的反行业潮流观点，居然得到与之决裂16年的360创始人周鸿祎的认同。周鸿祎认为，很多用户要的也许并不是GPT-4，而只是需要一个能写古诗又能写文言文，还能回答奥数问题的应用模型。“这种百亿级训练参数的大模型因为有了专门针对应用的训练，使用体验甚至会强过GPT-4。”

其实，OPPO日前发布的70亿参数端侧大模型智能手机Find X7系列就验证了这一观点。在相同的应用场景下，这款仅70亿参数端侧大模型对标千亿参数云端大模型之时，在保障用户隐私安全的前提下，为用户带来了响应快、处理能力强、生成质量高的本地AI体验。

雷涛认为，虽然增加模型参数可以提升模型的复杂度和表达能力，但是过大的模型参数反而可能对专有特有领域数据不敏感，且参数越大模型训练结果也可能不稳定。“基于计算、训练和存储等综合考量，大模型未来的机遇更多会在产业垂直赛道。”

在周鸿祎看来，大模型的发展一定会是两极分化。“一方面千亿、万亿级别大模型会出现并越做越大，就像超算一样；另一方面是将大模型做小，以细分场景做出具体应用，应用于具体场景。”

展望2024年，傅盛预测千亿大模型中过半会凋零，而百亿大模型会百花盛开。“真正面向消费者端原生大模型应用的繁荣，可能还需要一到两年的时间。”