Nature:世界科学家涌向DeepSeek

DeepSeek 模型可通过聊天机器人应用程序访问。图片来源:Mladen Antonov/AFP via Getty

科学家们纷纷涌向DeepSeek-R1,这是一种廉价而强大的人工智能 (AI) “推理”模型,自上周一家中国公司发布以来,美国股市就出现螺旋式上涨。

反复的测试表明,DeepSeek-R1 解决数学和科学问题的能力与加州旧金山 OpenAI 于 9 月发布的o1 模型相媲美,该模型的推理模型被认为是行业领先者。

Nature:世界科学家涌向DeepSeek

人工智能幻觉无法被阻止,但这些技术可以限制其损害

尽管 R1 在研究人员希望它执行的许多任务上仍然存在缺陷,但它为世界各地的科学家提供了训练旨在解决其学科问题的定制推理模型的机会。

“基于其出色的性能和低成本,我们相信 Deepseek-R1 将鼓励更多科学家在日常研究中尝试 LLM,而不必担心成本,”哥伦布俄亥俄州立大学的人工智能研究员 Huan Sun 表示。“几乎每位从事人工智能工作的同事和合作者都在谈论它。”

开放季节

对于研究人员来说,R1 的廉价性和开放性可能会改变游戏规则:他们可以使用该模型的应用程序编程接口 (API) 以专有竞争对手的一小部分成本查询该模型,或者免费使用其在线聊天机器人 DeepThink。他们还可以将模型下载到自己的服务器上并免费运行和构建 - 而这对于竞争对手的封闭模型(例如 o1)来说是不可能的。

温哥华不列颠哥伦比亚大学的人工智能研究员 Cong Lu 表示,自 R1 于 1 月 20 日推出以来,“大量研究人员”一直在研究如何训练自己的推理模型,这些模型基于 R1 并受到其启发。这得到了 Hugging Face 数据的支持,Hugging Face 是一个托管 DeepSeek-R1 代码的人工智能开放科学存储库。自推出以来的一周内,该网站记录了超过 300 万次不同版本的 R1 下载,包括独立用户已经构建的版本。

Nature:世界科学家涌向DeepSeek

ChatGPT 如何“思考”?心理学和神经科学破解 AI 大型语言模型

科学任务

Sun 表示,在对 R1 的数据驱动科学任务能力进行初步测试时(测试内容来自生物信息学、计算化学和认知神经科学等主题的真实论文),该模型的表现与 o1 相当。她的团队要求两种人工智能模型完成他们创建的一组名为 ScienceAgentBench 的问题中的 20 项任务。这些任务包括分析和可视化数据等。两种模型都只正确解决了约三分之一的挑战。Sun 指出,使用 API 运行 R1 的成本要低 13 倍,但其“思考”时间比 o1 慢。

R1 在数学领域也显示出了良好的前景。英国牛津大学数学家兼计算机科学家 Frieder Simon 挑战了这两种模型,要求它们在抽象的泛函分析领域提出证明,并发现 R1 的论证比 o1 的更有前景。但他表示,鉴于此类模型会犯错,要想从中获益,研究人员需要具备分辨好证明和坏证明等技能。

R1 之所以受到广泛关注,很大程度上是因为它以“开放权重”的形式发布,这意味着其算法不同部分之间习得的连接可供继续使用。下载 R1 或 DeepSeek 发布的较小“精简”版本之一的科学家可以通过额外训练(称为微调)提高其在各自领域的性能。孙教授表示,只要有合适的数据集,研究人员就可以训练模型,使其在特定于科学过程的编码任务中有所改进。

Nature:世界科学家涌向DeepSeek

中国廉价、开放的人工智能模型 DeepSeek 让科学家兴奋不已

Sun 表示,能够下载 R1 并将其部署到本地系统也是保护隐私的一大优势,因为它允许科学家控制他们的数据和研究结果。“这对于涉及敏感和隐私数据的学科(例如医学研究)尤其重要。”

推理飞跃

旧金山人工智能公司 Anthropic 的联合创始人杰克·克拉克 (Jack Clark) 表示,DeepSeek 也在人工智能研究领域掀起了波澜,因为它展示了改进无数其他模型的方法。该公司的模型名为 Claude。

DeepSeek 通过将其“推理”能力传授给其他 LLM(例如 Meta 的 Llama)来创建其精炼模型。该公司于 1 月 22 日在 arXiv 上发表的预印本1表明,它通过用 DeepSeek-R1 创建的 800,000 个分步“思路链”响应精选示例来训练这些 LLM。

“现在互联网上流传着一个开放权重模型,你可以用它来引导任何其他足够强大的基础模型成为人工智能推理机,”克拉克在他的时事通讯《Import AI》中写道。“全球人工智能能力只是单向前进。”

研究人员也在应用强化学习——用于创建 DeepSeek-R1 的试错和奖励技术——但根据具体任务对其进行了改进,Lu 表示,他去年与他人共同创建了“AI Scientist”,该模型可以执行机器学习中的一整套研究任务,从扫描文献、创建假设到撰写论文。他说,通过定义适当的“奖励信号”,科学家可以针对任何目标训练模型。

Nature:世界科学家涌向DeepSeek

“敬畏”:最新的 ChatGPT 模型给科学家留下了深刻印象 o1

但 DeepSeek-R1 远非完美。聊天机器人 DeepThink 在一些相对简单的任务上失败了,比如计算包含字母 W 的美国州名的数量,而这些任务通常都会让 o1 等法学硕士犯难。“也许人们认为它可以把水变成酒,这只是炒作,但就其本身而言,它是最好的,”卢说。

与其他中国模型一样,研究人员注意到,DeepSeek-R1 拒绝回答政治敏感问题,例如有关天安门广场的历史事件,尽管目前尚不清楚这是内置在模型中还是应用于其界面。“从我所看到的一切来看,审查制度似乎是一个笨拙的附加功能,而不是固有的东西,”坦佩亚利桑那州立大学的计算机科学家 Subbarao Kambhampati 说。

机构编号: https://doi.org/10.1038/d41586-025-00275-0

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com