大模型训练参数是越大越好吗

□ 科普时报记者 陈 杰

  • 来源:科普时报
  • 作者:
  • 2024-03-02 17:56

历时一年有余,大模型话题的热度依然不减。在国内,通用大模型格局初定后,行业大模型如雨后春笋,带动着资本和创业团队涌入这一新兴领域。空前的竞争态势之下,行业逐渐进入到用训练参数衡量大模型能力的“狂飙”模式。

但在猎豹移动董事长兼CEO傅盛看来,大模型并非训练参数越大就越好用。“大模型创新,除了套壳之外想要做深并不容易,特别是面对千亿级参数大模型时,不能不跟,但也不能太冒进。”

大模型正陷进参数怪圈

自ChatGPT横空出世以来,不论是通用大模型还是行业模型,千亿级训练参数一直被认为是商业化应用的最佳方案。事实确实如此,大模型的训练参数越大,模型的能力可能会越强。

新壹科技CEO雷涛告诉记者,大模型热衷于大参数训练,是为了更好地捕捉和处理复杂的语义连接,提高生成内容的连贯性和准确性。“不过,参数规模并非唯一决定模型能力的因素,包括模型的结构、深度、训练方法、优化算法、数据质量等,也影响着大模型的能力。”

对于当前大模型创业热潮,傅盛说他一直心存着“跟不跟和怎么跟”的焦虑。他认为,目前大模型的创新其实是在找到不同的路,以更少的投入换取更大的产出。“在全行业顺着谷歌指引的路线一起卷的时候,AI技术发展的瓶颈依然没有被突破。ChatGPT的出现其实更像是哥伦布航海,不是这个舰队有多强大,而是走了别人不敢走的路。”

基于这种认知,猎豹旗下的猎户星空日前带着140亿参数的大模型产品姗姗来迟。傅盛认为,行业大模型还是要从应用出发,千亿级训练参数大模型应该是头部大公司该干的,如果能从应用出发找到好的场景,小参数模型也是一个非常好的机会。在他看来,“百亿参数的模型加上私有数据和应用打磨,在专业领域可以约等于甚至大于千亿参数大模型。”

行业大模型将百花盛开

傅盛的反行业潮流观点,居然得到与之决裂16年的360创始人周鸿祎的认同。周鸿祎认为,很多用户要的也许并不是GPT-4,而只是需要一个能写古诗又能写文言文,还能回答奥数问题的应用模型。“这种百亿级训练参数的大模型因为有了专门针对应用的训练,使用体验甚至会强过GPT-4。”

其实,OPPO日前发布的70亿参数端侧大模型智能手机Find X7系列就验证了这一观点。在相同的应用场景下,这款仅70亿参数端侧大模型对标千亿参数云端大模型之时,在保障用户隐私安全的前提下,为用户带来了响应快、处理能力强、生成质量高的本地AI体验。

雷涛认为,虽然增加模型参数可以提升模型的复杂度和表达能力,但是过大的模型参数反而可能对专有特有领域数据不敏感,且参数越大模型训练结果也可能不稳定。“基于计算、训练和存储等综合考量,大模型未来的机遇更多会在产业垂直赛道。”

在周鸿祎看来,大模型的发展一定会是两极分化。“一方面千亿、万亿级别大模型会出现并越做越大,就像超算一样;另一方面是将大模型做小,以细分场景做出具体应用,应用于具体场景。”

展望2024年,傅盛预测千亿大模型中过半会凋零,而百亿大模型会百花盛开。“真正面向消费者端原生大模型应用的繁荣,可能还需要一到两年的时间。”

相关新闻

  • TEL:010-58884104
  • E-Mail:kepu@kepu.gov.cn
  • 如果您有任何意见或建议,请联系我们!
  • 版权所有:中国科普网