在过去的一周中,中国的人工智能大模型是硅谷乃至全世界科技人士热议的话题。而引爆这一讨论的是中国的人工智能初创公司深度求索(DeepSeek)。
该公司上周发布的推理大模型DeepSeek-R1因其可比肩OpenAI o1的性能、极低的服务价格,以及代码和模型架构的完全开源,震惊业界。
多位知名科技人士均对DeepSeek近期取得的成就表示赞叹。
AI科技初创公司Scale AI的创始人亚历山大·王(Alexandr Wang)称,过去十年来,美国可能一直在人工智能竞赛中领先于中国,但DeepSeek的AI大模型发布可能会“改变一切”。
加州大学伯克利分校计算机科学教授伊恩·斯托伊卡(Ion Stoica)对第一财经记者表示,DeepSeek-R1和DeepSeek-V3已经表明,只需花费训练GPT、Gemini和 Claude等现有大模型的一小部分成本即可获得最先进的结果。他还表示在该校的大模型排行榜中,DeepSeek-R1在包括开源模型和专有模型的所有模型中排名第三。
更重要的是,这一成就是在美国对华芯片出口管制加强的背景下实现的。
“限制条件和资源匮乏往往会激发创新,这里的情况似乎就是如此。”斯托伊卡对第一财经记者表示。
DeepSeek为何“震惊”硅谷?
受到规模定律(Scaling Law,即计算规模越大、训练数据量越多,模型越智能)的影响,全球AI大模型的开发长期以来陷入了一场关于顶尖人才、先进算力和巨额投资的“军备竞赛”。
各大科技公司大量囤积芯片以确保充足的算力。市场调研公司Omdia的最新报告显示,微软是英伟达的第一大买家,购买了48.5万块英伟达旗舰产品Hopper芯片,占后者过去一年收入的20%。Meta排第二,去年购买了22.4万块GPU;而亚马逊和谷歌预计分别购买19.6万和16.9万颗Hopper芯片。
然而越来越多科学家开始对堆数据、堆算力这一“大力出奇迹”的做法产生怀疑时,中国量化交易公司幻方量化(High-Flyer)旗下的人工智能初创公司DeepSeek横空出世,以“四两拨千斤”的方式快速突进。
而为了训练模型,幻方量化在美国芯片出口限制之前获得了超过1万块英伟达GPU,尽管有说法称DeepSeek大约有5万颗H100芯片,但尚未得到公司官方证实。
早在去年12月,该公司推出的DeepSeek-V3通过优化模型架构和基础设施等方式,展现了极致性价比。从该团队正式发布的技术报告来看,包括预训练、上下文长度外推和后训练在内,DeepSeek-V3完整训练只需2.788M H800 GPU小时,其训练成本仅为557万美元,但该模型实现了与GPT-4o和Claude Sonnet 3.5(来自美国人工智能企业Anthropic)等顶尖模型相媲美的性能。
当时著名人工智能科学家卡帕西(Andrej Karpathy)就发文表示,这种级别的能力通常需要接近16000颗GPU的集群,而目前市场上的集群规模更是达到了10万颗GPU左右。
尽管尚不清楚最新发布的DeepSeek-R1的训练成本,但其在服务价格上,相较性能相当的OpenAI的o1也有明显优势。DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/ 4元(缓存未命中),分别是OpenAI o1的2%和3.6%。
外界普遍认为,美国尖端芯片出口管制等限制并没有削弱中国的AI能力,反而似乎在推动DeepSeek等初创公司以优先考虑效率、资源池和协作的方式进行创新。
卡内基国际和平基金会的人工智能研究员马特·希恩(Matt Sheehan)表示:“美国的出口管制实际上将中国公司逼入了绝境,它们必须利用有限的计算资源提高效率。未来我们可能会看到大量与计算资源匮乏相关的整合。”
中欧国际工商学院决策科学与管理信息系统教授谭寅亮曾在斯坦福大学人工智能研究院和数字经济实验室担任访问学者,他对第一财经记者表示:“对华的芯片管制从未停止,而中国的企业创新也没有因此停滞。Deepseek团队的成功很好地印证了这一点。”
“开源的胜利”
除了极致性价比,让DeepSeek的大模型脱颖而出的是其代码和训练方法的完全开源。
开源即将模型的源代码和技术细节公开,并允许用户根据其自身需要对模型进行任意使用和修改,这被认为有提高技术透明度,让用户更容易、更便宜地使用,惠及开发者降低迭代成本,防止垄断等好处。而闭源模型的源代码和技术细节则完全被其提供商控制,不对外进行公开,也不允许用户对这些模型本身进行更改。
目前,DeepSeek-R1已经一跃成为开源社区Hugging Face上下载量最高的大模型,下载量达10.9万次,这意味着全球的开发人员正在试图了解这一模型以辅助他们自己的AI开发。DeepSeek的服务器也于26日出现了局部服务波动。这一问题在数分钟内得到解决,或与新模型发布后的访问量激增有关。
上海交通大学副教授、生成式人工智能研究组负责人刘鹏飞对第一财经记者表示,DeepSeek-V3和DeepSeek-R1的发布对高校研究者是一个利好,因为公开了技术细节后让整个过程更加透明,也使得学术界的研究者可以进入并发现技术栈中可以优化的部分,定义新的问题。
DeepSeek创始人梁文锋在接受媒体采访时也表示:“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。”
梁文锋认为:“开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。”
根据中国信息通信研究院去年发布的白皮书,全球人工智能大型语言模型数量已达 1328个,其中36%来自中国。这使中国成为仅次于美国的第二大人工智能技术贡献者。阿里云已发布100多个新的开源AI模型,支持29种语言,并满足各种应用需求,包括编码和数学。同样,中国的Minimax和01.AI(零一万物)等初创公司也开源了它们的模型。
Meta首席人工智能科学家杨立昆(Yann LeCun)也在社交媒体表示,DeepSeek成功的最大收获不是来自中国竞争对手的加剧威胁,而是保持人工智能模型开源的价值,以便任何人都能受益。
“他们有了新的想法,并在其他人的工作基础上加以实现。由于他们的工作成果已发表并开源,因此每个人都可以从中受益。”杨立昆表示,“这就是开放研究和开源的力量。”
中美科技差异缩小
随着中国公司陆续发布兼具性能与价格优势甚至开源的大模型,中美在人工智能上的差距正在缩小。斯托伊卡表示,“我认为这一趋势已经非常明显了。根据LLM Arena的结果,在过去的一年里,中国的开源模型从垫底者一跃成为排行榜上的佼佼者,至少在Meta发布其新的Llama模型之前是这样。”
很多反馈显示,DeepSeek的动作让Meta的生成式AI团队“陷入恐慌”。Meta CEO扎克伯格宣布加速研发Llama 4,计划投资650亿美元扩建数据中心,并部署130万枚GPU以“确保2025年Meta AI成为全球领先模型”。
不过,多名接受第一财经记者采访的专家表示,仍需要关注中国的人工智能实现“从0到1”的能力。
以DeepSeek-V3为例,根据其技术报告,该模型的正式训练成本约为558万美元,但这一数据并不包括架构、算法、数据相关的前期研究和消融实验的成本。而对于大模型训练来说,尽管无效路径和探索会浪费大量算力,但没有这种“浪费”也难以取得最后的突破。
刘鹏飞表示,目前看来DeepSeek的大模型起到了加速创新的作用,但这种创新目前只在对从1到10的“复现”类工作得到验证。
“中国的复现是很快的。” 刘鹏飞表示“复现”的难度低于做“新发现”级别的难度。未来中国的人工智能研究者需要更加关注从0到1的工作。
也如清华大学计算机系长聘副教授刘知远所说:“AGI新技术还在加速演进,未来发展路径还不明确。接下来如何在迷雾中开拓新路,才是更大的挑战。”
谭寅亮也对第一财经表示,中国跟美国目前在人工智能上的差距,在最前沿大模型上,存在着6个月到9个月的差距,但多种大模型之间的良性竞争,能更好地促进人工智能在全世界的使用。
(本文来自第一财经)
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com