Scaling Law首次在自动驾驶赛道被验证！小鹏汽车CVPR演讲详解

贾浩楠发自凹非寺

量子位 | 公众号 QbitAI

CVPR 2025，自动驾驶传来重大进展：

Scaling Law首次在这条赛道被验证！

来自中国的小鹏汽车，完整拿出了技术方案和AI司机“智能涌现”的成果。

自动驾驶的“ChatGPT时刻”，真的要来了吗？

CVPR 2025，小鹏汽车拿出了什么成果

今年的CVPR线下会议在美国田纳西州纳什维尔举办，日期是6.11-6.15。观众老爷们看这篇推送的时候，CVPR才刚刚结束几个小时——新鲜出炉

CVPR的自动驾驶分论坛（Workshop on Autonomous Driving），历年都是业内极具影响力的技术风向标和盛会。比如2022年的WAD，Wayve首次披露了自己低传感器端到端路线方案，马上成为自动驾驶赛道炙手可热的明星公司；再比如，特斯拉最早在CVPR WAD上详细分享了占用网络技术，随后成为业内悉数跟进的量产方案……

今年的WAD，中国的小鹏汽车是唯一一家受邀发表主题演讲的车企

小鹏在演讲前一天，刚刚开启了最新SUVG7的预售，创造了量产L3级AI算力第一车的纪录，单车算力超过2200TOPS，何小鹏将G7定义为“真正的AI汽车”。

随之而来也有争议：预售价23.58万的G7不给激光雷达，智能辅助驾驶靠谱吗？

其实答案就在小鹏CVPR的演讲中。

先看实验结果。几个月前，小鹏汽车在后装算力的车端部署了新一代自动驾驶基座模型，实现了无任何规则代码托底情况下，基座模型直接控车并安全完成一系列驾驶任务。

比如丝滑地加减速、变道绕行、转弯掉头、等待红绿灯等等：

整个自动驾驶系统全流程模型化，其实就是马斯克宣讲多年的AI司机，其最重要的特征是展现出对环境、路况的全局理解和思考。

比如这个场景下，直行道上，先是前方大车切出后，然后又看到了里边临停车，但系统全程没有任何“紧急避险”的举措，而是从容有序的减速绕行，丝滑通过场景：

再比如这个场景：系统首先提前变道，避让施工区，但就在转向过程中，又突遇从小路汇入主路的大货车：

再比如雨天的窄路弯道，道路一侧已经被各种违停车占满，行进途中又突遇临时上下客的网约车，系统没有丝毫犹豫，直接发起绕行：

并且在绕行过程中，还避让了一连串在机动车道上逆行的低速电驴。

所有场景主打的是决策果断、路线合理，体验丝滑。

小鹏解释，同样的场景传统技术方案也有概率能通过，但熟练丝滑大打折扣，乘坐体感也不行。

目前市面上几乎所有量产智能辅助驾驶，一旦周围目标的距离、速度相对本车达到一定区间（比如突然汇入的大车、迎面而来的电驴，极度狭窄的道路空间等），必然首先触发紧急刹车，车内乘员一顿前俯后仰之后，可能仍然需要接管……

至于一些极端场景，是这些传统方案很容易“宕机摆烂”的。比如这个位于福州的路口，马路对面的主干道上有两棵大树伫立，车道竟然就在这两棵大树之间……不是本地司机，可能根本搞不明白该怎么走。

但小鹏的系统竟能准确辨识出车道，顺利通过。这对目前的量产系统来说属于“惊喜”，对于今后要上车的下一代模型来说就是“基操”。

小鹏世界基座模型负责人刘先明说，这就属于典型的CoT场景，车端模型在整个过程中不断实时推理：

“我在哪？发生了什么？要怎么走？第一原则是安全，首先要判断车道线宽度，绿灯亮了之后，再缓行通过……

链式思考能力（CoT，Chain of Thought），背后的基础是小鹏自研的“自动驾驶基座模型”——物理世界模型。

既非行业常见的模拟训练世界模型，也不是单一的VLA、VLM，更超出了端到端“一段或两段”的争论……

押注新技术路线背景下，小鹏最新的量产方案也和其他所有玩家产生了明显不同。

小鹏的自动驾驶基座模型，到底是什么？

上面道路实测的小鹏自动驾驶基座模型，其实就是4月小鹏公布的“下一代自动驾驶基座模型”的早期车端实测版本。

对于真正的自动驾驶模型，小鹏的理解和实践与绝大多数业内玩家不同

现阶段主流的“车端模型”，其实主体就是端到端算法，从传感器取数据，然后输出路线规划，一般还会有一些强制规则安全兜底。

但小鹏认为，这种传统模式尽管一定程度上AI化了，但端到端本质仍然是“小脑”，对输入的道路信息做出的反应是被动式、条件反射式的关键这种“条件反射”还是黑盒，过程难以把握

其实也是L4玩家质疑L2路线的核心依据：不会思考的模型，数据量再大也只能模仿人类行为，无法真正超越人类达到“自动驾驶”的层级。

小鹏认为问题出在了现行的技术方案上：只局限在车端算力的一亩三分地，模型大小是受限的，能真正消化的数据也是受限的。

只有超越车端芯片算力的限制，应用更大的模型、更海量的数据，才能真正实现车端的智能

小鹏“世界基座模型”本身是以大语言模型为骨干网络，使用海量优质驾驶数据训练的VLA大模型，参数量高达720亿，部署在云端。

VLA，全称Vision-Language-Action，一般同时包含视觉编码器、语言编码器、跨模态融合模块、动作生成模块，能同时理解视觉图像、自然语言，并生成动作控制指令的AI模型架构。

2023年谷歌Robotics团队的RT-1打响VLA第一枪，用人类操作示范构建多模态训练集，以图像、语言指令和连续控制信号作为输入，训练机器人理解语言并直接输出动作。后续RT-2又把CLIP等视觉语言基础模型引入控制流程中，基本奠定了“图像+语言+动作”统一建模的VLA基线，成为具身智能和自动驾驶的新希望。

VLA特别之处在于，不再是分模块“各自为政”，而是通过建立视觉信号、语言指令与物理动作之间的关联映射，实现环境理解到行为输出的闭环决策。

简单说，过去一个任务需要分别训练图像识别模型、语义理解模型、控制策略模型；而现在，VLA一个模型就能从图片和语言中“看懂任务”，并“动手完成”。

基座模型完成预训练、监督精调（SFT）之后，就进入强化训练阶段。强化学习是小鹏基模训练最大的特点，也是模型能力的隐形护城河。

小鹏自研开发的强化学习奖励模型主要从三个方向上去激发基模潜能：安全、效率、合规。实际上也是人类驾驶行为中的几个核心原则。

比如遇到不认识的障碍物要绕行是为了安全、路上遇到特别慢的车适时变道超车是为了通行效率、按照红绿灯车道线道路标牌的指示开车是为了合规…….

刘先明还透露，小鹏已在开发世界模型(World Model），今后会用于基座模型的强化训练。

世界模型被认为是自动驾驶“专用Sora”，用来生成各种交通场景的corner case，源源不断产生高价值训练数据。

但刘先明认为自动驾驶的世界模型远远不是今天的“仿真建模”，它应该是一种实时建模和反馈系统，能够基于动作信号模拟真实环境状态，渲染场景，更重要的是，能生成场景内其他智能体（也即交通参与者）的响应，也就是说，所有智能体都不是NPC，都需要通过跟其他智能体的交互产生博弈行为。这样的世界模型，才算得上一个闭环的反馈网络。

最后，云端模型将通过知识蒸馏方式生产小尺寸模型，部署到车端，成为“AI汽车”全新的大脑。模型在车端部署之后，持续获取新的驾驶数据和用户反馈，又能继续用于云端基模的训练，让基模不断迭代。这个过程被小鹏汽车称为持续在线学习（Online Learning），由VLA和OL构成的这套技术架构，将让基模常训常新。

你可能会问，为什么不用相同的数据，去直接训练一个可在车端直接部署的小模型呢？

小鹏提到了在实践中，同样的数据在10亿、30亿、70亿、720亿参数上看到了非常明显的Scaling Law效果：随着参数规模越大，模型的能力越强

目前基座模型累计吃下了2000多万条视频片段（每条时长30秒）。在不断扩大训练数据量的过程中，研发团队同样清晰地看到了规模法则（Scaling Law）的显现：

这是大模型浪潮以来，行业内首次明确验证规模法则（Scaling Law）在自动驾驶VLA模型上持续生效

而要想把大模型的能力尽可能延续到车端相对较小的模型上，知识蒸馏是目前最好的方法。这比直接训练一个车端小模型更难，但上限也更高

因为模型参数的利用率是有限的，云端有更多的数据，能学到更多的东西，智能涌现效应更强。再蒸馏到车端的小模型上，可以让小模型有更强的表现。

另外，自动驾驶本身具有“多模态”或者说“多解输出”的特点，容易遇到“模态不统一”的困境。意思是同一个驾驶场景可能会有多种路径选择，而且它们都是对的。当模型使用的数据量增大，就会出现越来越多的“相似场景，多种解法”的训练数据，对于参数量不足（智商不足）的小模型来说，可行解法越来越多，可能造成模型的confusion，导致模态坍塌。因此，直接训练车端小模型，实际上并不能通过数据的增加实现scaling law。

但如果本身云端训练了更大的模型，作为老师，去教车端的模型学习，就会有“模态统一”的优势。