世界模型正凭借对物理规律的内化、动态场景的预判能力,重塑AI与现实世界的交互逻辑,成为巨头争抢的技术制高点。它跳出大模型的符号牢笼,赋予智能体主动推理与规划能力,推动具身智能等领域突破瓶颈。尽管面临仿真与现实差异、决策可解释性等挑战,但其对通用人工智能的突破性价值,使其有望成为下一个技术奇点。


从深度学习的突破到大语言模型的爆发,这一轮可以让普通人感知到方便的人工智能浪潮,已经狂飙7年。今天以语言、图像、视频为突破口的人工智能,随着机器人技术的智能化发展,带来了一个巨大的蓝海空间———以空间感知为突破口的人工智能。如何将一张二维的图片扩展成三维的物体,如何让机器像人一样理解视频图像中物体的远近深浅,以及以常识补足未见部分的样子?
从最近人工智能的行业发展和技术迭代方向来看,可以让机器理解物理世界的世界模型开始脱颖而出。今年年初,英伟达推出Cosmos模型,正式入局世界模型领域。继英伟达之后,谷歌旗下DeepMind组建世界模型研究团队,聘请Sora核心人员TimBrooks掌舵。同时,“AI教母”李飞飞的WorldLabs、初创公司Decart、Odyssey也都涉足其中。国内像商汤王晓刚2024年就发布了面向量产的“开悟”世界模型,另外,腾讯、昆仑万维、智源研究院等企业和机构也深耕于此。
由此看来,世界模型有望成为下一个技术奇点。不过,现实复杂性建模、未知场景应对、商业化落地等难题仍待破解。若能突破这些瓶颈,它将推动AI从工具升级为自主决策者,从而重塑产业逻辑与生活方式,从而成为引爆下一轮技术革命的核心奇点。
为什么是“世界模型”
商汤科技联合创始人、执行董事,大晓机器人董事长王晓刚表示,大语言模型可以理解为人类语言的翻译家,它只能处理文本信息,输入和输出都是文字,仅仅局限于数字世界中。生成式模型是创作家,它可以处理文字、图片、视频信息,并生成单一模态的内容,例如文生图,但不会理解和生成符合物理规律的信息。进入物理AI时代,AI需要充分理解物理常识,与物理世界交互,从而填平物理世界与数字世界的鸿沟。“世界模型是AI发展的必然阶段,是AI从虚拟走进物理世界的实训场。”王晓刚说。
商汤科技联合创始人、执行董事,大晓机器人董事长王晓刚
Aixllent国际算力网首席架构师、沃尔沃集团前数字产品总监季彬表示,用通俗的语言定义“世界模型”,就是让AI“在脑子里演电影”。你问ChatGPT:“如果我把咖啡泼在键盘上会怎样?”它会给你一段基于训练数据的文字描述。但世界模型不一样:它先会在内部模拟液体怎么扩散?键盘缝隙怎么吸水?电路会不会短路?按键会不会失灵?然后告诉你:“键盘大概率会损坏,建议立刻断电。”所以,大语言模型是“高级复读机”,生成式AI是“全能画家”,而世界模型,是一个能自己构建现实、预测未来、并据此做决策的虚拟大脑。

Aixllent国际算力网首席架构师、沃尔沃集团前数字产品总监季彬
在季彬看来,世界模型是人工智能技术发展的必然阶段。他表示,在过去的十年,我们把AI训练得越来越会“说”,但越来越不会“想”。你让一个模型控制机器人开门,它能从1000个视频里模仿动作,但一旦门把手换成新的设计,它就懵了。为什么?因为它没理解“门”是什么,它只记住了“拉”这个动作。因此,世界模型不是锦上添花,它是AI从“反应式”走向“前瞻性”的唯一路径。没有它,我们永远在给AI喂答案,而不是教它思考。
世界模型是技术演进的必然,而不是偶然。随着模型能力提升,单靠统计相关性(只学“表面”)已不能满足需要实际交互的应用。要做到可靠操作,必须理解物理因果,这推动了世界模型的发展。另外,在现实场景中,真实交互代价高(时间、风险、成本),所以需要在“脑内”先试错———这正是世界模型要解决的问题。

如何实现“因果判定”
从技术的角度来看,世界模型实现因果判定的核心在于通过因果关系建模和环境动态预测,结合强化学习或监督学习框架,区分相关性与因果性。
王晓刚表示,物理因果一致性是世界模型发展的一大难题。物理因果一致性是具身智能实现真实世界自主决策与可靠行动的核心基石。而要让机器人明白物理因果一致性,机器人就得像人一样收集各种感官信息,而不是当前简单的几个模态信息融合就行,并且机器人能够思考和预测,做出最符合世界运行逻辑的动作。
王晓刚发布的“开悟”世界模型是“多模态理解—生成—预测”一体化的模型。在理解阶段,过往模型只有互联网视频数据,而开悟世界模型是一个多模态的大模型,除了上述数据,还可以通过Puffin模型,为世界模型输入相机位姿等信息。此外,还有人和物体的3D轨迹、触觉、摩擦力等多模态信息融合。随着输入的信息越多,世界模型对真实世界的物理规律理解越充分。
对此,季彬表示,一个真正的“世界模型”实际上由四个核心模块组成,它们构成了一个完整的“感知→建模→预测→行动”的闭环认知架构。其中,感知层不是简单识别图像,而是将摄像头、雷达、语音,甚至文本描述,统一编码成一个“世界状态向量”;建模层用神经网络学习物理规律、社会规则、目标驱动———比如“人不会穿过墙”“水往低处流”;预测引擎用Transformer+时序扩散模型,往前推演几秒、几分钟,甚至几小时;在行动层,模型不是旁观者,它会“想象”自己做不同动作后的结果,然后选最优解。
“在这一过程中,最关键的突破,其实是‘不依赖完美数据的自监督建模’。以前我们总想给AI喂‘完美标注的物理仿真数据’,但现实世界哪有那么多标注?我们现在的突破是让模型自己从无标签的视频流里,发现‘什么变化是稳定的’‘什么变化是偶然的’。例如,看1000个小孩扔球的视频,它自己就能推出‘重力存在’———这不是人告诉它的,是它从模式里‘悟’出来的,这才是真正的学习。”季彬如此说道。
哪些场景将率先落地
事实上,每一个新的技术方向出来,大家更为关注的是它能够在哪些场景落地,以及产生什么样的效果。对于世界模型,从行业峰会到研发实验室,从自动驾驶实测到家庭服务场景,人们都在紧盯它的落地进展情况。
目前,世界模型虽仍处于发展初期,但已在以下领域展现潜力:例如,在自动驾驶领域,特斯拉的通用世界模型、蔚来世界模型NWM(NIOWorldMode)、王晓刚发布的“开悟”世界模型等,通过环境建模与状态推演,提升自动驾驶中路径规划、避障与决策能力;在具身智能领域,世界模型可作为“脑内模拟器”,帮助机器人在复杂环境中预演行动结果,提高决策效率与可靠性。特别是在具身智能中,世界模型常被视为比语言模型更适合担任机器人的“决策中枢”;在游戏与科研仿真领域,可用于推演角色行为、物体轨迹,以及模拟蛋白质折叠、粒子运动等复杂过程。
王晓刚表示,如今,“开悟”世界模型已经应用于上海自动驾驶实训场,通过模拟真实世界驾驶场景,生成真实、可控、多元、长时一致的高清仿真数据,赋能训练数据生成和闭环仿真测试。在场景应用上,“开悟”世界模型应用了前沿的算法,可打通具身智能和智能驾驶场景,可生成动态交互和静态交互场景。而且通过对动静态场景分别建模可以精准控制场景内各类元素,对动态目标更换类型、颜色、光照条件等,有别于只做单一场景的主流世界模型,极大提升了世界模型的应用广度。作为首个可直接用于生产的世界模型,“开悟”世界模型目前已在多家企业落地,迈出了世界模型商业化的第一步。
季彬表示,最令其兴奋的是,世界模型在工业预测性维护和自动驾驶仿真上的表现。例如,一家汽车零部件厂,用世界模型预测注塑机的异常振动模式,提前72小时预警故障,把停机时间缩短了67%———他们以前靠老师傅“听声音”,现在AI听的是“整个物理系统的演化轨迹”。再比如一家自动驾驶公司用世界模型生成“极端场景”———暴雨中突然冲出一个穿黑衣的行人,或者前方卡车掉落的钢卷滚到路中间———这些场景在真实路测中十年都碰不到一次,但世界模型一天能够生成一万种。
是否会再一次出现行业垄断
关于世界模型领域是否会再一次出现垄断行为,王晓刚表示,世界模型的研发需要投入大量资源,以及必须具备长期技术积累。在大模型发展历程中,中国科研成果始终走开源路线,大晓机器人始终坚持开源路线,例如,“开悟”世界模型不仅构建了适配国产芯片、打通云平台服务商的合作生态,还提供领先的产品平台,向全行业开放算力、API,让所有企业都可以使用“开悟”世界模型工具链,助力千行万业的发展,推动各类轻量化、定制化具身智能产品快速涌现,促进应用生态发展。
业内专家认为,随着世界模型的进一步演进,行业将产生分层化的竞争格局,而非单一垄断:底层基础能力(大型世界模型、标准评测、基线数据)更倾向被少数有资源的企业或联盟主导,这类似“操作系统内核”的角色。但上层应用、行业定制、机器人硬件集成、场景专化则有很大机会留给中小企业与初创团队。
中小团队的机会包括:深耕行业专用场景;提供数据采集、标注与安全回流服务;在边缘部署、低延迟推理和传感器融合上做工程优化;用差异化硬件或轻量化模型做“落地最后一公里”解决方案。

作者:路沙
编辑:高珊珊
监制:刘晶
友情提示
本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!
联系邮箱:1042463605@qq.com