上周,中国 AI 初创公司 DeepSeek 宣布其最新语言模型 DeepSeek-R1 似乎以远低于常规的成本达到了美国顶级 AI 系统的性能水平,这一消息震动了整个 AI 界。这一宣布不仅导致 Nvidia 市值蒸发近 6000 亿美元,还引发了关于 AI 未来发展的激烈讨论。

  人们很快形成了一种说法:DeepSeek 从根本上改变了开发高级 AI 系统的经济规律,据称仅用 600 万美元就实现了美国公司投入数十亿美元才能达到的水平。这种解读在硅谷引起了轩然大波,因为像 OpenAI、Anthropic 和 Google 这样的公司一直通过在计算基础设施上的巨额投资来保持技术优势。

  然而,在市场动荡和轰动性头条之中,Anthropic 联合创始人、现代大型语言模型 (LLM) 的开创性研究者之一 Dario Amodei 发表了一份深入分析,对 DeepSeek 的成就提供了更为细致的见解。他的博文摒弃了表面喧嚣,深入剖析了 DeepSeek 的实际成就及其对 AI 发展未来的意义。

  以下是 Amodei 分析中的四个关键发现,它们重塑了我们对 DeepSeek 公告的理解:

  1. "600 万美元模型"的说法忽略了关键背景

  Amodei 指出,我们需要用更宽广的视角来看待 DeepSeek 报告的开发成本。他直接挑战了流行的说法:

  "DeepSeek 并不是'用 600 万美元做到了美国 AI 公司投入数十亿美元才能做到的事'。就 Anthropic 而言,Claude 3.5 Sonnet 是一个中等规模的模型,训练成本在数千万美元级别(具体数字不便透露)。而且,与某些传言相反,3.5 Sonnet 的训练并未依赖更大或更昂贵的模型。"

  这个出人意料的揭示从根本上改变了人们对 DeepSeek 成本效率的认知。考虑到 Sonnet 是在 9-12 个月前训练的,并且在许多任务上仍然优于 DeepSeek 的模型,这一成就更像是 AI 开发成本自然演进的结果,而不是一个革命性的突破。

  DeepSeek 以更低的成本(但远没有人们说的那么低)生产出了一个接近 7-10 个月前美国模型水平的产品。

  时机和背景也至关重要。按照 AI 开发成本降低的历史趋势——Amodei 估计每年约 4 倍——DeepSeek 的成本结构基本符合这一趋势,而不是大幅领先于曲线。

  2. DeepSeek-V3,而不是 R1,才是真正的技术突破

  尽管市场和媒体高度关注 DeepSeek 的 R1 模型,但 Amodei 指出该公司更重要的创新出现在更早之前。

  "DeepSeek-V3 才是真正的创新,也是一个月前就应该引起关注的成果(我们当时确实注意到了)。作为预训练模型,它在某些重要任务上接近美国最先进模型的性能水平,同时大幅降低了训练成本。"

  区分 V3 和 R1 对于理解 DeepSeek 真正的技术进步至关重要。V3 代表了真正的工程创新,特别是在管理模型的 "Key-Value cache" 和推进混合专家 (MoE) 方法方面。

  这一见解有助于解释为什么市场对 R1 的剧烈反应可能有失偏颇。R1 本质上只是在 V3 的基础上增加了强化学习能力——这是目前多家公司都在对其模型采取的步骤。

  3. 企业总投资揭示了不同的图景

  Amodei 分析中最具启发性的可能是关于 DeepSeek 在 AI 开发上的总体投资。

  "据报道——虽然无法确认真实性—— DeepSeek 拥有 50,000 个 Hopper 一代芯片,我估计这大约是主要美国 AI 公司持有量的 2-3 倍以内。这些 Hopper 芯片的成本大约在 10 亿美元左右。因此,从公司整体支出来看(区别于单个模型的训练成本),DeepSeek 与美国 AI 实验室的差距并不大。"

  这一揭示彻底改变了人们对 DeepSeek 资源效率的认知。虽然该公司在单个模型训练方面可能取得了令人瞩目的成果,但其在 AI 开发上的总体投入与美国同行相差无几。

  模型训练成本与企业总投资之间的区别突显了雄厚资源在 AI 开发中的持续重要性。这表明虽然可以提高工程效率,但要在 AI 领域保持竞争力仍然需要大量资本投入。

  4. 当前的"交叉点"只是暂时的

  Amodei 将 AI 发展的当前阶段描述为独特但短暂的。

  "我们正处在一个有趣的'交叉点',暂时出现了多家公司都能开发出优秀推理模型的情况,"他写道。"但随着各公司在这些模型上继续向上攀升扩展曲线,这种情况很快就会消失。"

  这一观察为理解 AI 竞争的当前状态提供了重要背景。多家公司在推理能力方面都能达到类似水平,这只是一种暂时现象,而不是一个新的常态。

  这对 AI 发展的未来有重要启示。随着各公司继续扩大模型规模,特别是在资源密集的强化学习领域,行业可能会再次出现分化,而关键因素将是谁能在训练和基础设施上投入更多资源。这表明,尽管 DeepSeek 确实达到了一个重要里程碑,但并没有从根本上改变高级 AI 开发的长期经济规律。

  以下是原文的全文翻译:

  几周前,我提出应该加强美国对中国的芯片出口管制。而在这之后,中国 AI 公司 DeepSeek 以较低的成本在某些领域达到了接近美国顶尖 AI 模型的性能水平。

  本文不会讨论 DeepSeek 是否对 Anthropic 等美国 AI 公司构成威胁 (虽然我认为有关它们威胁美国 AI 领导地位的说法被严重夸大了)。相反,我想探讨 DeepSeek 的出现是否削弱了实施芯片出口管制的必要性。我的答案是否定的。事实上,我认为现在的出口管制比一周前更加重要,甚至关乎生存。

  出口管制有着至关重要的目的:确保民主国家在 AI 发展中保持领先地位。需要说明的是,这并非逃避中美竞争的手段。如果我们想要取得胜利,美国和其他民主国家的 AI 公司必须开发出比中国更优秀的模型。但在可能的情况下,我们不应该把技术优势拱手让给中国。

  理解 AI 发展的三个基本规律

  在展开政策论述之前,我想先解释三个关于 AI 系统的基本规律:

  扩展法则。这是 AI 的一个基本特性——我和联合创始人在 OpenAI 工作时最早发现了这一点:在其他条件相同的情况下,增加 AI 系统的训练规模,会让它在各类认知任务上的表现稳步提升。

  比如,投入 100 万美元的模型可能解决 20% 的重要编程任务,投入 1000 万美元可能解决 40%,投入 1 亿美元可能解决 60%,以此类推。这些差异在实践中影响巨大——再增加 10 倍投入可能就是本科生和博士生水平的差距——这就是为什么各公司都在大规模投资训练模型。

  曲线位移。这个领域不断涌现大大小小的创新,提高效率:可能是模型架构的改进 (对目前所有模型使用的基础 Transformer 架构的调整),或者只是优化模型在硬件上的运行方式。新一代硬件也能带来类似效果。

  这些创新通常会推动效率曲线向前:如果某个创新带来 2 倍的"计算倍增" (CM,compute multiplier),那么原本需要 1000 万美元才能在编程任务上达到 40% 的成功率,现在只需要 500 万美元;原本需要 1 亿美元才能达到 60% 的成功率,现在只需要 5000 万美元,依此类推。

  每家顶尖 AI 公司都在不断发现这样的 CM:小型的 (约 1.2 倍) 较常见,中型的 (约 2 倍) 偶尔出现,大型的 (约 10 倍) 则很罕见。

  由于更智能的系统价值极高,这种曲线位移反而会让公司投入更多而不是更少:效率提升带来的所有收益都用于训练更智能的模型,只受限于公司的财力。人们往往会想当然地认为"东西总是先贵后便宜"——仿佛 AI 是一个质量恒定的产品,价格下降就意味着可以用更少的芯片来训练。

  但关键在于扩展曲线:当曲线向前推移时,我们只是更快地攀登它,因为终点的价值实在太高。2020 年,我的团队发表论文指出,算法进步每年带来约 1.68 倍的曲线位移。这个速度可能已经明显加快;而且还没有考虑效率和硬件因素。

  我估计现在每年大约是 4 倍。这里还有另一种估算方法。训练曲线的位移也会带动推理曲线移动,这就是为什么多年来在模型性能不变的情况下,价格一直在大幅下降。例如,比 GPT-4 晚 15 个月推出的 Claude 3.5 Sonnet 在几乎所有测试中都优于 GPT-4,而 API 价格却低了约 10 倍。

  范式转换。有时,扩展的基本对象会发生变化,或者训练过程会增加新的扩展维度。2020-2023 年间,主要扩展的是预训练模型:主要用互联网文本训练,辅以少量其他训练。到了 2024 年,使用强化学习 (RL) 训练模型生成思维链的方法成为了新的扩展重点。

  Anthropic、DeepSeek 和许多其他公司 (最引人注目的可能是在 9 月发布 o1-preview 模型的 OpenAI) 发现,这种训练方法大大提升了模型在特定、可客观衡量的任务 (如数学、编程竞赛) 以及类似推理任务上的表现。这种新范式是先有常规的预训练模型,然后在第二阶段用 RL 增强推理能力。

  重要的是,由于这种 RL 方法很新,我们还处在扩展曲线的早期:所有参与者在第二阶段 RL 上的投入都很少。投入从 10 万美元增加到 100 万美元就能带来巨大进步。各公司现在正在快速将第二阶段的投入扩大到数亿乃至数十亿美元,但关键是要理解我们正处在一个独特的"交叉点":一个强大的新范式正处于扩展曲线的早期,因此可以快速取得重大突破。

  解读 DeepSeek 的模型

  通过上述三个动态规律,我们可以更好地理解 DeepSeek 最近发布的模型。大约一个月前,DeepSeek 发布了纯预训练模型 "DeepSeek-V3"——也就是前文第三点提到的第一阶段模型。上周,他们又发布了增加了第二阶段训练的 "R1" 模型。虽然从外部无法完全了解这些模型的细节,但以下是我对这两次发布的理解。

  真正的创新其实是 DeepSeek-V3,它才是一个月前就应该引起关注的模型(我们当时确实注意到了)。作为预训练模型,它在某些重要任务上的表现接近美国最先进的模型,但训练成本大幅降低(不过,我们发现在实际编程等某些关键任务上,Claude 3.5 Sonnet 仍然保持着明显优势)。

  DeepSeek 团队通过一些真正令人印象深刻的创新实现了这一点,主要是在工程效率方面。他们在 "Key-Value cache" 管理方面的改进特别创新,并且将 "mixture of experts" 方法推进到了前所未有的程度。

  然而,我们需要更深入地分析:

  -DeepSeek 并不是 "用 600 万美元做到了美国 AI 公司投入数十亿美元才能做到的事"。就 Anthropic 而言,Claude 3.5 Sonnet 是一个中等规模的模型,训练成本在数千万美元级别(具体数字不便透露)。此外,与某些传言相反,3.5 Sonnet 的训练并未依赖更大或更昂贵的模型。

  Sonnet 的训练是在 9-12 个月前完成的,而 DeepSeek 的模型是在去年 11/12 月训练的,但在许多内部和外部评测中,Sonnet 仍然保持领先。因此,更准确的说法应该是 "DeepSeek 以更低的成本(但远没有人们说的那么低)生产出了一个接近 7-10 个月前美国模型水平的产品"。

  - 如果成本曲线每年下降约 4 倍,那么按照正常的业务发展趋势——就像 2023 年和 2024 年发生的成本下降——现在出现比 3.5 Sonnet/GPT-4o 便宜 3-4 倍的模型是完全正常的。由于 DeepSeek-V3 比这些美国顶尖模型要差——即使我们很宽容地认为在扩展曲线上只差约 2 倍——那么如果 DeepSeek-V3 的训练成本比一年前开发的美国模型低约 8 倍,这完全符合正常趋势。

  我不会给出具体数字,但从前面的分析可以看出,即使按照表面价值接受 DeepSeek 的训练成本,他们充其量只是符合趋势,甚至可能还达不到。例如,这比原始 GPT-4 到 Claude 3.5 Sonnet 的 API 价格降幅(10 倍)还小,而且 3.5 Sonnet 的性能还优于 GPT-4。

  所有这些都说明,DeepSeek-V3 并不是一个独特的突破,也没有从根本上改变 LLM 的经济规律;它只是持续成本下降曲线上的一个预期点。这次唯一的不同是,首先展示预期成本降低的是一家中国公司。这在历史上还是第一次,具有重要的地缘政治意义。不过,美国公司很快也会跟上——不是通过复制 DeepSeek,而是因为他们也在实现常规的成本降低。

  - DeepSeek 和美国 AI 公司现在都比训练其主打模型时拥有更多的资金和芯片。这些额外的芯片用于研发模型背后的创新理念,有时也用于训练更大的实验性模型(或需要多次尝试才能达到预期效果的模型)。

  据报道——虽然无法确认真实性—— DeepSeek 拥有 50,000 个 Hopper 一代芯片,我估计这大约是主要美国 AI 公司持有量的 2-3 倍以内(例如,比 xAI "Colossus" 集群少 2-3 倍)。这些 Hopper 芯片的成本大约在 10 亿美元左右。因此,从公司整体支出来看(区别于单个模型的训练成本),DeepSeek 与美国 AI 实验室的差距并不大。

  - 需要注意的是,"扩展曲线"分析可能过于简化了,因为不同模型有各自的优势和劣势;扩展曲线上的数字只是一个粗略的平均值,忽略了许多细节。就 Anthropic 的模型而言,正如我前面提到的,Claude 在编程和人机交互设计方面表现出色(很多人用它来获取个人建议或支持)。在这些领域和其他一些特定任务上,DeepSeek 根本无法与之相比。这些优势在扩展数字中是无法体现的。

  上周发布的 R1 模型虽然引发了公众的热议(导致 Nvidia 股价下跌约 17%),但从创新或工程角度来看,远不如 V3 有趣。它增加了第二阶段训练——前文第三点提到的强化学习——本质上是复制了 OpenAI 在 o1 上的工作(它们似乎在相似规模下获得了相似的结果)。

  不过,由于我们还处在扩展曲线的早期阶段,只要有一个强大的预训练模型作为基础,几家公司都能开发出这类模型。有了 V3 的基础后,开发 R1 的成本可能很低。因此,我们正处在一个有趣的"交叉点",暂时出现了多家公司都能生产出优秀推理模型的情况。但随着各公司在这些模型上继续向上攀升扩展曲线,这种情况很快就会消失。

  关于出口管制

  以上内容只是引出我的核心关注点:对中国的芯片出口管制。基于前面的分析,我对当前形势的看法如下:

  目前存在一个持续的趋势:尽管曲线周期性移动,训练特定水平 AI 模型的成本在快速下降,但各公司在训练强大 AI 模型上的投入却在不断增加。这是因为训练更智能模型的经济价值太大了,以至于任何成本节省几乎立即就被消耗殆尽——它们被用来训练更智能的模型,投入规模与原计划相当。

  美国实验室如果还没有发现这些创新,DeepSeek 开发的效率创新很快就会被美中两国的实验室用于训练数十亿美元级别的模型。这些模型会比他们之前计划的表现更好——但仍然需要投入数十亿美元。这个数字会持续增长,直到我们开发出在几乎所有领域都超越人类的 AI。

  要开发出这样的 AI,需要数百万枚芯片,至少数百亿美元的投入,最有可能在 2026-2027 年实现。DeepSeek 的发布并未改变这一点,因为它们大致符合预期的成本下降曲线,这在之前的计算中已经考虑在内。

  这意味着到 2026-2027 年,我们可能会面临两种截然不同的局面。在美国,多家公司必定会拥有所需的数百万枚芯片(投入数百亿美元)。关键问题是中国能否也获得数百万枚芯片。

  如果中国能获得这些芯片,我们将生活在一个两极世界,美中两国都拥有强大的 AI 模型,推动科技飞速发展——我称之为"数据中心里的天才国家"。但这种两极平衡不一定能长期维持。即使美中两国在 AI 系统上势均力敌,中国也可能会将更多人才、资金和精力投入到技术的军事应用中。再加上其庞大的工业基础和军事战略优势,这可能帮助中国在全球舞台上取得主导地位,不仅是在 AI 领域,而是在所有方面。

  如果中国无法获得数百万枚芯片,我们将(至少暂时)生活在一个单极世界,只有美国及其盟友拥有这些模型。虽然不清楚这种单极格局能持续多久,但至少存在一种可能:由于 AI 系统最终能帮助开发更智能的 AI,暂时的领先可能会转化为持久优势。在这种情况下,美国及其盟友可能会在全球舞台上获得长期的主导地位。

  严格执行的出口管制是唯一能阻止中国获得数百万枚芯片的手段,因此也是决定我们最终进入单极还是两极世界的最重要因素。

  DeepSeek 的表现并不意味着出口管制失败了。如前所述,DeepSeek 拥有相当数量的芯片,所以他们能够开发并训练出一个强大的模型并不令人意外。他们面临的资源限制并不比美国 AI 公司严重多少,出口管制也不是促使他们"创新"的主要原因。他们只是非常优秀的工程师,这也表明了为什么中国是美国的强劲竞争对手。

  DeepSeek 的案例也不能说明中国总能通过走私获得所需的芯片,或者管制总存在漏洞。我认为出口管制的初衷就不是要阻止中国获得几万枚芯片。10 亿美元的经济活动可以隐藏,但要隐藏 1000 亿美元甚至 100 亿美元就很难了。走私一百万枚芯片在物理上也可能很困难。

  仔细分析 DeepSeek 目前据报道拥有的芯片也很有启发意义。根据 SemiAnalysis 的分析,他们总共拥有 5 万枚芯片,包括 H100、H800 和 H20。H100 自发布以来就被列入出口管制清单,所以如果 DeepSeek 拥有任何 H100,这些一定是走私的(注意 Nvidia 已经声明 DeepSeek 的进展"完全符合出口管制规定")。

  H800 在 2022 年初期的出口管制下是允许的,但在 2023 年 10 月管制更新时被禁止,所以这些可能是在禁令前购入的。H20 在训练效率上较低,但在推理效率上较高——目前仍允许出口,尽管我认为应该禁止。所有这些都表明,DeepSeek 的 AI 芯片库存中相当大一部分是由尚未被禁止(但应该被禁止)的芯片、在禁令前购入的芯片,以及一些很可能是走私的芯片组成。

  这恰恰表明出口管制正在发挥作用并不断完善:漏洞正在被堵上;否则,他们可能已经拥有一整套最顶级的 H100 芯片。如果我们能够足够快地堵住这些漏洞,我们可能就能阻止中国获得数百万枚芯片,增加实现美国领先的单极世界的可能性。

  鉴于我对出口管制和美国国家安全的关注,我想说明一点。我不认为 DeepSeek 本身是对手,重点也不是针对他们。从他们的采访来看,他们似乎是聪明、富有求知欲的研究人员,只是想开发有用的技术。

  出口管制是我们防止这种情况发生的最有力工具之一,认为技术变得更强大、更具性价比就是取消出口管制的理由,这完全说不通。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com