哪些企业的自动驾驶方案使用了世界模型，用法有啥区别？

科创之家 2026-05-19 共9284人围观

[首发于智驾最前沿微信公众号]自动驾驶行业在经历了规则驱动、模仿学习两个阶段之后，正在集体转向一个关键方向，即让AI理解物理世界本身的运行规律。这个方向在业内被称为世界模型，它不再只是让模型看到什么就反应什么，而是要求模型能够在内部对场景进行推演，回答如果我这样做，接下来会发生什么这类因果性问题。

2025年10月，特斯拉AI部门副总裁Ashok Elluswamy在计算机视觉顶会ICCV上详细介绍了FSD的技术框架，多摄像头图像、导航地图、车辆运动信息和音频信号被输入一个统一的端到端神经网络，经海量数据训练后直接输出控制信号。Elluswamy明确指出端到端AI才是自动驾驶的未来，并首次公开了特斯拉的神经世界模拟器，该模拟器不预测动作，而是根据当前状态与下一步动作来合成未来状态，从而与车端模型形成闭环评估。

几乎在同一时期，华为、蔚来、Momenta、轻舟智航、地平线、商汤绝影、Wayve等企业先后亮出了各自的世界模型方案。虽然大家把这项技术都叫世界模型，但具体怎么用、放在哪里、解什么问题，各家差异相当大。

世界模型到底是个什么思路？

要理解各家对于世界模型应用的差异，得先把世界模型的底层逻辑搞清楚。

传统自动驾驶系统采用感知、预测、规划、控制的级联架构，每一环都依赖人类工程师定义的规则或标注数据来衔接。这一方案存在一个问题，那就是这些中间环节之间的信息传递是有损耗的，上游漏掉的东西下游无法补救。Elluswamy在ICCV演讲中明确提出，模块化方法中感知、预测和规划之间的接口定义不明确，而在端到端架构中，梯度从控制一直流向传感器输入，可以整体优化整个网络。

世界模型则尝试在模型内部建立一个对外部环境的压缩表示，这个表示不但包含了空间几何和语义信息，还编码了因果上下文。在这个内部表示空间中，模型能够根据候选动作推演未来的场景演化，其中不只是会预测将会发生什么，还能做到如果我采取这个动作，其他交通参与者会如何反应这类的判断，这意味着模型具备了在决策之前预演的能力。

图片源自：网络

需要说明的是，世界模型与端到端并不是互斥概念。卓驭科技首席科学家陈晓智在2025年云栖大会上专门强调，世界模型、VLA、一段式端到端等概念并非互斥的技术路线。实际上，当前多数企业的做法是将世界模型的能力嵌入到一个更大的技术体系中，有的侧重云端仿真，有的侧重车端推理。

世界模型一般会覆盖3类任务，即未来物理世界生成、行为规划与决策、联合预测与规划。在实际落地中，有的企业侧重云端的数据生成和仿真训练，有的将世界模型部署到车端参与实时推理，还有的专门用它来做安全评估和验证。

AI驾校还是随车大脑，云端与车端的路线区分

虽然很多企业都在研究世界模型，但各家对世界模型的部署位置和功能定位存在分歧，这也反映了不同的技术判断，即是让世界模型在云端做好幕后工作，还是把它直接装进车端参与毫秒级的实时决策。

华为乾崑智驾的WEWA架构是云车分工的代表。2025年底，华为智能汽车解决方案BU CEO靳玉志详细介绍了这一架构，它包含云端运行的World Engine（世界引擎）和车端运行的World Action Model（世界行为模型）两个核心部分。

WEWA架构，图片源自：网络

世界引擎被定位为云端驾校，它基于真实道路数据，通过扩散生成模型构建难例场景，如一段原本空旷的道路可以在仿真中叠加突然窜出的行人、侧前车Cut-in、前车急刹等组合工况，难例密度相比真实世界提高1000倍，且所有模拟都遵循物理世界规律。

车端的世界行为模型则是业内首个智驾原生基模型，具有全模态感知能力，能根据不同场景调用不同能力，ADS 4系统采用该架构后端到端时延降低50%，通行效率提升20%，重刹率降低30%。

特斯拉的做法在理念上与华为有相似之处，但实现路径更激进。Elluswamy透露，特斯拉FSD架构面临维度灾难，以7个摄像头×36FPS×500万像素×30秒的视觉输入，加上导航地图和运动数据，综合起来约有20亿个输入token，神经网络需要将这20亿个token精简为2个输出（转向和加速）。

图片源自：网络

特斯拉的解法是利用海量车队数据从中总结出关键token，通过稀疏化和聚合保留最有用的信息。在仿真侧，特斯拉开发了神经世界模拟器，基于自建海量数据集训练，能够根据当前状态与下一步动作生成未来状态，与车端的端到端基础模型构成闭环，既用于评估也用于强化学习训练。该模拟器还能让AI在一天内学习相当于人类500年驾驶经验。

蔚来的NWM（NIO World Model）则将重心放在车端实时推演上。2025年5月，蔚来自主研发的NWM首个版本正式启动推送，覆盖超过40万台搭载Banyan榕智能系统的车型。NWM是一个多元自回归生成式模型，具备空间理解能力和时间理解能力，空间上通过生成模型重构传感器输入来泛化地抽取信息，时间上通过自回归模型自动建模长时序环境变化。

图片源自：网络

它能在100毫秒内推演出216种可能轨迹并寻找最优路径，然后在下一个100毫秒继续根据外界信息输入更新内部模型，再次预测216种可能性，持续寻找最优解。NWM之外，蔚来还构建了生成式仿真模型NSim，两者配合组成闭环仿真测试能力。

Momenta的R7强化学习世界模型则采用三层递进架构。据Momenta合伙人、研发SVP夏炎介绍，第一层是世界模型预训练，通过海量真实驾驶数据让模型习得物理常识；第二层是闭环仿真，通过虚拟仿真推演极端场景；第三层是强化学习，在高度拟真环境中让AI反复试错寻优。

Momenta CEO曹旭东在2026年北京车展上宣布R7实现量产首发，提出世界模型与强化学习构成物理AI的两大核心支柱。这种分层设计把物理常识学习和驾驶行为优化解耦开来，预训练负责懂物理，强化学习负责开得好。

轻舟智航则采用VLA+世界模型+强化学习的统一架构，并明确提出了安全的端到端理念，即将已得到量产验证的时空联合规划经验融入One Model设计中，同时在离线训练阶段构建基于运动模拟的世界模型。其运动模拟世界模型的特点是生成的仿真视频更加可控，能保证时序、空间位置、物体几何、物理规则的一致性和正确性，这一点与传统世界模型侧重生成视觉逼真度有所不同。

训练伙伴还是安全考官？

在云端应用层面，各企业对世界模型的功能定位同样分化出了不同方向。

商汤绝影的绝影开悟世界模型侧重生成能力。商汤绝影CEO王晓刚在2025年9月提出，智能驾驶正从规则式智驾1.0、经端到端智驾2.0，迈入生成式智驾3.0阶段。在2025年WAIC上，商汤绝影全新升级了行业首个已量产、可交互的“绝影开悟”世界模型，发布了生成式世界模型产品平台及业内最大规模的生成式驾驶数据集WorldSim-Drive。王晓刚将世界模型的价值概括为三个突破，即突破数据瓶颈（生成无限长尾场景）、确立更确定的技术安全边界（在仿真中不断尝试）、通过自主进化达到超越人类驾驶的体验。

图片源自：网络

Wayve的GAIA-3则走了一条与众不同的路，它把世界模型定位成安全考官。2025年12月，Wayve正式发布GAIA-3，一个参数规模达150亿的生成式世界模型，规模是前代GAIA-2的两倍，视频分词器同样翻倍，预训练数据量提升十倍，覆盖多个大洲、车型、环境与驾驶条件。

GAIA-3具备安全关键场景生成能力，可支持离线环境下的what-if反事实推理测试，并具备embodiment transfer功能，能在不同传感器配置间做一致性评估。Wayve首席科学家Jamie Shotton表示，GAIA-3将世界建模从视觉合成推进到真正的自动驾驶评估与验证。早期研究显示，GAIA-3的仿真测试结果与实际路测高度一致，并将合成测试的拒绝率降低了五分之四。这一思路把生成和评测合并进了同一个世界模型框架，让安全验证不再依赖有限的实际路测里程。

学术界的探索也在推动世界模型的通用化。中科院自动化所提出的Drive-WM是第一个与现有端到端规划模型兼容的驾驶世界模型，论文发表于CVPR 2024。Drive-WM采用多视图联合时空建模，通过扩散模型生成高保真的多视图驾驶视频，并结合多视图预测与端到端规划，为规划器提供奖惩反馈以优化轨迹选择。卓驭科技在2025年底也首次对外发布了全新的多模态端到端世界模型，宣告其数据驱动的空间智能移动基座正式成型。

端到端里的世界模型与VLA，并行的技术判断

在世界模型路线逐渐成型的同时，VLA（视觉—语言—动作模型）也在快速发展，行业围绕两条路线的关系产生了不少讨论。

华为的立场很明确。WEWA架构中没有引入语言模型作为中间层，而是让世界行为模型直接处理多模态感知输入并输出驾驶动作。华为认为，在驾驶决策链中增加语言推理模块会带来信息损耗，真正的自动驾驶应该让模型直接理解物理世界。

部分企业则走的是VLA与世界模型并行的路线。小鹏汽车在2025年4月披露了720亿参数的小鹏世界基座模型，以大语言模型为骨架网络，具备视觉理解能力、长思维链式推理能力和动作生成能力。小鹏的做法是通过基座模型知识蒸馏上车，突破车端模型参数量有限的问题。其技术路径遵循世界模型理解—推演—生成的框架，模型在内部重构数字形式的物理世界，预测不同决策下环境的变化，选择最优路径后直接生成控制动作。这种方案试图在世界模型的空间推理能力和语言模型的常识推理能力之间找到一个结合点。

图片源自：网络

地平线HSD则选择了让VLM（视觉语言模型）只承担辅助性角色，仅用于识别路牌等文字信息，不通过大语言模型来理解交通状况本身，驾驶决策的主体仍然是端到端的视觉模型加上在世界模型中的强化学习。HSD采用一段式端到端+强化学习架构，实现从光子输入到轨迹输出，通过强化学习在世界模型中自我探索与交互，增强场景理解与推理能力。

值得留意的是，这种路线并行很可能只是过渡状态。商汤绝影CEO王晓刚指出，端到端自动驾驶的瓶颈在于人类行为就是智能的天花板，同时依赖大量高质量数据，而世界模型和强化学习的组合有望突破这个上限。随着世界模型在物理常识建模和因果推理能力上的提升，纯视觉推演有望逐步覆盖当前需要语言模型来补充的场景理解功能。反过来，如果大语言模型的多模态推理能力持续进化，也可能进一步模糊两条路线的边界。

绕开具体路线的争论，行业在一个根本问题上其实是没有分歧的，那就是让AI真正懂得物理世界的规律，并在安全的虚拟环境里不断试错和成长，是通向高阶自动驾驶绕不开的一步。

审核编辑黄宇