作者/新摘 豆包
2023年,OpenAI凭借具有颠覆性的ChatGPT,站在了AI行业的C位上。当时,国内的头部公司和OpenAI的差距只有2-3个月,也有人说是3-5年,甚至有人认为是10年。2-3个月也好,10年也罢,中国企业在大模型领域的位置一直都没变,始终处于追赶状态。
2025年,情况出现了变化,DeepSeek凭借质价比模式,站在了AI行业的C位上。1月11日前后,DeepSeek在全球范围内上线了App,据Sensor Tower数据显示,DeepSeek在发布的18天内累计下载量高达1600万次,而在同一时间段,ChatGPT的下载量为900万次。截至2月5日,DeepSeek 的全球下载量接近4000万,ChatGPT则为4100万。日活方面,DeepSeek在1月31日取得了2215万的成绩,相当于ChatGPT的41.6%。
DeepSeek虽然在总用户量和日活上和ChatGPT有差距,但他的增速已经足以刺激到包括后者在内的所有大模型厂商。与此同时,所有人都在问,DeepSeek是怎么做到的?
另外在今日,百度集团执行副总裁、百度智能云事业群总裁沈抖在全员会上提到,DeepSeek在短期内会对百度产生影响,但长期来看是利大于弊的。他表示,面对DeepSeek的来势汹汹,首当其冲的AI产品,沈抖认为,是字节跳动的豆包,理由是其训练成本和投流成本都很高 ,那么DeepSeek崛起,到底谁将受益?谁又受伤害最大?
一、关于DeepSeek的真相与谣言
不同于OpenAI,DeepSeek的成立时间很短,其背后的运营主体是杭州深度求索人工智能基础技术研究有限公司,该公司成立于2023年7月17日。如果算上和深度求索关系密切的幻方量化,他的历史比OpenAI久一些。
不过,在科技行业,历史长短并不是一家企业技术能力高低的决定性因素,深度求索用两个模型证明了这一点。
2024年底,深度求索发布了新一代大语言模型V3。当时的测试结果显示,V3的多项评测成绩超越了一些主流开源模型,而且还具有成本优势。今年1月24日,深度求索又发布了R1,R1是深度求索引发全球关注的主要原因。据深度求索介绍,R1模型在技术上实现了重要突破—用纯深度学习的方法让AI自发涌现出推理能力,在数学、代码、自然语言推理等任务上,性能比肩OpenAI的o1模型正式版。
更重要的是,R1延续了V3的高性价比特点,其模型训练成本只有600万美元,而OpenAI、谷歌等公司的投入规模为数亿美元乃至数十亿美元。
性能不弱+成本更低,这两个buff让DeepSeek吸引了全球的关注,同时也引来了争议,第一个争议,也是最主要的争议就是—成本真的有这么低吗?
在DeepSeek之前,行业的模式是通过大规模堆料,也就是算力、数据,获得性能更强的大模型。在这种逻辑的指导下,大模型一直被认为是巨头的游戏,随着各巨头豪掷千金,逻辑被进一步强化,而DeepSeek打破了这个逻辑。
目前广为流传的成本数据是600万美元,严格来说,这600万美元指的只是预训练过程中 GPU的花费,这只是总成本中的一部分。众所周知,英伟达是训练大模型GPU的主要提供者,为了应对法规要求,英伟达推出了不同版本的H100(如H800、H20),目前中国公司只能使用H20,深度求索的主力GPU应是H20,其他还包括H800和H100。
据知名半导体研究机构 Semianalysis推算,深度求索大约拥有大约10000个H800和10000个H100,以及数量更多的H20,其服务器资本支出约为16亿美元,其中与运营这些集群相关的成本高达9.44亿美元。也就是说,深度求索的投入规模也是亿级,即便如此,其成本还是大幅低于OpenAI、谷歌等。对于用了多少GPU,深度求索其实也给出了数据—用2048块GPU即可训练R1,这个成本也比OpenAI低。
查询成本的“物美价廉”也说明了DeepSeek具有成本优势。目前,DeepSeek R1模型的每百万个token(符元,AI时代最基础的运算单位)的查询成本为0.14美元,OpenAI的成本为7.50美元。
关于DeepSeek的第二个争议是,是否使用了OpenAI的数据,提出质疑的是OpenAI和微软。
1月31日, OpenAI表示已经发现证据,证明DeepSeek利用他们的模型进行训练,这涉嫌侵犯知识产权。具体来说,他们发现了DeepSeek“蒸馏”OpenAI模型的迹象,即使用更大模型的输出来提高较小模型的性能,从而以较低成本在特定任务上取得类似结果。微软则表示正在调查DeepSeek是否使用了OpenAI的API。
对于这一点,两者的做法虽然有依据,但并不符合行业主流趋势。
OpenAI的服务条款有规定,任何人都可以注册使用OpenAI的API,但是不能使用输出数据训练对OpenAI造成竞争威胁的模型,也就是说DeepSeek可以调用OpenAI的数据,但不可以用来训练大模型。不过,这个规定被很多人认为是“双标”,因为OpenAI在训练大模型使用了大量数据,其中的一部分就没有得到数据所有者的授权,而且使用蒸馏数据是行业内的普遍做法。
相比之下,微软的做法更能说明这一质疑是否站得住脚,他在指控DeepSeek涉嫌侵权的几个小时后,就在自家的AI平台上就接入了DeepSeek。
二、DeepSeepk有什么过人之处?
超低的成本带来超高的性能,是DeepSeek带给AI行业最大的震撼。回顾中国企业在其他行业的发展轨迹,他们一直善于做质价比,因此DeepSeek能脱颖而出其实是必然的。
前面提到,大模型行业此前存在算力信仰,无论是谁,如果想开发出性能更强的产品,都只能选择堆算力和数据这一条路。诚然,这个策略开启了大模型时代,海外的OpenAI和国内的百度、字节等都受益于此。这种策略虽然仍在发挥作用,但边际效应可能正在递减。
以OpenAI为例,从2012年到2020年,其算力消耗平均每3.4个月就翻倍一次,8年间算力增长了30万倍。OpenAI首席执行官Sam Altman接受公开采访表示,GTP-4参数量为GTP-3的20倍,需要的计算量为GTP-3的10倍;GTP-5在2024年底至2025年发布,它的参数量为GTP-3的100倍,需要的计算量为GTP-3的200-400倍。
如果每一代的性能都能有巨大的提升,那高昂的成本是可以接受的,问题在于,如果GPT-5今年还做不出来,或者性能成本提高10倍性能只提升10%、20%,那这种模式的追随者就会大大减少。
导致这种情况出现的原因在于,OpenAI陷入了创新者窘境,他是行业开创者,背负了巨大的成本包袱,此时选择闭源策略是合理的。如果GPT能持续大幅提高性能,市场就会持续买单。
而DeepSeek在技术上采取了开源的策略,所谓开源指的是软件的源代码可以在网络上免费提供,以便进行修改和再分发。如果GPT-5的性能真的只提升了10%,那就会有很多人选择开源,进而帮助DeepSeek成为AI时代的安卓。因此,在性能接近的前提下,DeepSeek的策略更具有普适性。
简单来说,DeepSeek并没有带来颠覆性创新,但他的策略给行业提供了一个更有普适性的方向,让大家不必再去堆算力也能做出高性能的大模型。
Stability AI前研究主管Tanishq Mathew Abraham,在近期的博文中强调了DeepSeek的三个创新点。
首先是多头注意力机制,大语言模型通常是基于Transformer架构,使用所谓的多头注意力(MHA)机制。DeepSeek团队开发了一种MHA机制的变体,这种机制既能更高效地利用内存,又能获得更好的性能表现。其次是可验证奖励的GRPO,DeepSeek证明了一个非常简单的强化学习(RL)流程实际上可以达到类似GPT-4的效果。更重要的是,他们开发了一种称为GRPO的PPO强化学习算法变体,这种算法更加高效且性能更好。最后是DualPipe,在多GPU环境下训练AI模型时,需要考虑很多效率相关的因素。DeepSeek团队设计了一种称为DualPipe的新方法,这种方法的效率和速度都显著提高。
金沙江创投董事总经理朱啸虎则表示,DeepSeek的核心是不再需要人类干预,本来是RLHF(人类反馈强化学习),现在直接做RL(强化学习)了,所以成本可以做得很低。
综合来看,DeepSeek的创新在于推理环节,通过工程创新,优化了大模型在推理环节上存在的痛点,让产品性能实现了大幅提升。而这其实是早已经注定的结果,从日用百货到手机、汽车,中国企业一直都擅长做质价比,DeepSeek在大模型领域延续了这一传统。
三、到底谁将受益?谁会受冲击?
毫无疑问,DeepSeek作为继OpenAI之后第二个对行业产生重大影响的大模型,必将会让一部分人受益,也会冲击一部分人的利益。
目前来看,受冲击较大的是提供GPU的英伟达,其市值因为DeepSeek一度下跌超过6000亿美元。不过,这只是表面现象,受DeepSeek冲击最大的其实是以OpenAI为首的闭源大模型厂商。
对英伟达来说,DeepSeek的另辟蹊径在一定程度上打破了大模型的唯算力论。但是,不管是DeepSeek还是OpenAI,在做训练时依然需要他的GPU,即便是其他大模型厂商转向DeepSeek的策略,也要依靠英伟达。瓦特在1759年改良蒸汽机后,更高效的蒸汽机开始广泛应用,这没有降低对煤炭的需求,英国的煤炭总消耗指数反而出现了上升,这种现象也适用于算力市场。
相比之下,DeepSeek对OpenAI为首的闭源大模型厂商的冲击更大。前面提到,如果OpenAI不能证明这种万卡集群模式能持续地帮助大模型大幅提升性能,那他不仅要被投资人质疑,还会被用户抛弃,如此一来,其商业模式就很难走通。
DeepSeek也将对传统搜索厂商产生冲击,这其实在OpenAI爆火后就出现过一次,当时的逻辑是大模型的高效和低成本将侵蚀谷歌的搜索市场的份额。在PC互联网时代,搜索是第一个杀手级应用,业内普遍认为,AI时代的第一个杀手级应用也是搜索。
与此同时,随着DeepSeek加快了人工智能从“训练阶段”到“推理阶段”的周期,这会增加对推理芯片的需求。
具体来说,推理指的是使用人工智能根据新的信息作出预测或决策的行为,这是DeepSeek的优势和创新点。不少行业人士认为,随着客户采用和构建DeepSeek的开源模型,对推理芯片和计算的需求会越来越大。
人工智能芯片初创公司d-Matrix的首席执行官Sid Sheth表示,DeepSeek已经证明,较小的开源模型可以训练得与大型专有模型一样强大,甚至更强大,而且成本很低。随着小型功能模型的广泛使用,他们催化了推理的时代。因此,随着成本的降低,AI应用的采用可能会呈指数级增长,推理环节的算力需求或将爆发。
值得注意的是,尽管DeepSeek的模式有独到之处,由于采取了开源的策略,对手也可以用他的技术开发出相似的产品,这对他的商业化提出了挑战。目前,李飞飞和斯坦福大学、华盛顿大学的研究人员已经以不到50美元(只是云计算服务费)的成本,成功训练出了类似R1的s1,s1在数学和编码能力测试中的表现,与OpenAI的O1和R1不相上下。
DeepSeek的成绩是值得关注的,但长期来看,他还需要找到一个合适的商业化模式,才能走得更远。