大模型创新的另一种可能

□ 陈 杰

  • 来源:科普时报
  • 作者:
  • 2025-01-24 10:04

热点观察

自ChatGPT横空出世,算力便被视作大模型产业创新的核心驱动力。这一趋势使得GPU(图形加速芯片)的地位急速攀升,甚至成为AI产业发展的关键制约因素,也就是我们常常听到的“卡脖子”。

然而,这种趋势却被我国一家成立仅一年半的人工智能创业公司深度求索(下称DeepSeek)终结。近日,DeepSeek仅凭借2048张英伟达GPU加速卡,在短短两个月内成功训练出拥有6710亿参数的开源大模型DeepSeek-V3,着实让刚高呼着进入“万卡”时代(1万张以上的加速卡组成的算力系统)的AI大模型产业界惊掉了一地的“下巴”。

从测评数据来看,相对于全球公认的顶级大模型GPT-4o,DeepSeek-V3的训练成本仅为其二十分之一、输入+输出的售价也只有GPT-4o的十分之一,性能已然赶超GPT-4o。

还处在研发阶段的GPT-5,或许更强。但OpenAI立项GPT-5已经一年半有余,目前也只做了两轮训练,且每轮训练仅计算成本就接近5亿美元。这也意味着,人们所期待的新一代通用大模型训练成本已经达到十数亿美元,甚至还会更高。产业界估计,按照这种传统的训练路径,未来3年内大模型的训练成本将上升至100亿美元,甚至上不封顶。

这种大参数、大算力、大投入的研发模式,对于实力稍弱的AI企业来说,无疑是一道难以逾越的门槛。即便能“组局”成功,这种成本结构下产出的大模型产品,又有多少人能用得起呢?

再来看DeepSeek-V3,它证明了即使在硬件资源有限的情况下,通过数据与算法层面的优化创新,依然能够高效利用算力,实现一流的大模型性能,同时还能大幅降低应用成本。其实,早在去年5月发布的DeepSeek-V2,就成功以“价格屠夫”的方式杀入市场,让一众大模型产品不得不跟进降价。“AI界拼多多”的称号,绝非浪得虚名。

性价比方面,DeepSeek已经甩了OpenAI等业界大佬好几条街了。在AI领域,一直有这样的说法:硅谷企业擅长从0到1的创新,而中国企业则在从1到10的应用拓展上更具优势,因为中国拥有广阔的应用市场。

对于大模型产业而言,性价比已成为阻碍产业规模化应用的关键因素,DeepSeek的出现为解决这一难题提供了新思路。

当前,AI大模型仍处于技术创新的爆发阶段,距离应用的全面爆发还有一段路要走,这也意味着产业发展充满变数与机遇。不可否认,今天的英伟达市值逆天、GPU产品也供不应求,但如果DeepSeek的成功可以复制,产业界不再执着于万卡集成的研发路径时,GPU的主导地位还能持续多久呢?

大模型创新的另一种可能,不仅出现在AI产业,通信、芯片、量子计算等前沿科技领域也正悄然发生着改变。科技创新的魅力在于,它永远蕴含着无限的可能性,并不断突破边界。

相关新闻

  • TEL:010-58884104
  • E-Mail:kepu@kepu.gov.cn
  • 如果您有任何意见或建议,请联系我们!