文 | 最话FunTalk,作者 | 林书,编辑 | 刘宇翔
2025年 8 月的最后一个星期,中国智能驾驶被骤然按下快进键——从算法底座到整车 OTA,行业在短短几天内,呈现出了“VLA齐爆发”的景观。
VLA,即Vision-Language-Action,视觉-语言-行动模型。VLA的快速商业化落地,正在重新定义“高阶智驾”的技术门槛。
首先是理想汽车借纯电旗舰 i8 上市窗口,首次向全量用户推送「VLA 司机大模型」;元戎启行于 8 月 26 日正式发布自研 VLA 大模型,推出名为 DeepRoute IO 2.0 的新平台,确定将在 5 款车型上使用,覆盖累计约 20 万台车。
紧接着,小鹏汽车在 8 月 27 日的新 P7 发布会上端出新一代 VLA 架构,宣称时延
与此同时,华为代表的另一大路线——WA(世界行为模型),也正在紧密地酝酿中。ADS 4.0 将在 9 月随问界 M9 年度改款 OTA,试图重新划定城区智驾的体验基线。

而之所以“VLA 上车潮”发生在 2025 年,从商业的角度来看,是因为今年处于城市 NOA 规模化交付(L2++)与 Robotaxi 商业化(L4)之间的“空档期”。谁先完成 VLA 量产,谁就能在下一阶段用户体验与融资叙事上占据先手,错过 2025,技术红利将被稀释,成本优势也将被供应链摊平。
VLA掀起的新一轮竞争,不仅将决定中国车企的未来竞争地位,更可能引发整个智驾产业的重新洗牌。
新的门槛
如果要对VLA路线的技术优势,做一个简单的概述,这样的优势大致就是:
与传统端到端路线相比,VLA通过用语言和文字这一中间环节,将具象化的路况、图像,进行归类,并进行“抽象化”,而不只是单纯地对看过的数据“死记硬背”,从而让模型能取得更好的泛化能力。
同时,在具备思维链(CoT)能力后,VLA模型能分解驾驶决策为逻辑连贯的中间步骤,增强决策逻辑性、系统可解释性及泛化能力。
当人类驾驶员面对突发路况时,会本能地完成"观察→判断→动作"的连贯认知过程。

VLA(视觉-语言-动作模型)正是通过模拟这一逻辑,构建起“视觉感知-语言推理-动作输出”的闭环系统,实现对几十秒长时序路况的预判能力,尤其在施工路段等长尾场景中展现出更强的泛化能力。
然而,由于多了“语言”这一层数据,VLA 对算力与数据的胃口,已把“上车”门槛抬高到传统方案无法企及的高度。算力侧,训练端需吞吐 22 T token 级多模态数据,单次训练即等价于 DeepSeek-V3 1.5 倍规模;
数据侧,VLA 需同步采集并标注视觉-语言-动作三元组,理想训练所用的数据,90 % 来自 29.3 亿 km 实车日志,10 % 由生成式仿真补足,长尾极端场景(雨夜、施工、异形障碍物)需额外 5-10 倍数据密度才能收敛,导致单车数据成本与端到端时代相比陡然增加。
在算力方面,理想、小鹏分别动用 13 EFLOPS 与 8 EFLOPS 云端集群,仅千卡周级调度才能满足 30 B-72 B 参数模型的收敛窗口。公开数据显示,国内中小车企云端训练集群普遍停留在 0.2–0.6 EFLOPS,仅为理想 5.39 EFLOPS 的十分之一,更遑论特斯拉 Dojo 年底 100 EFLOPS 的量级。
以哪吒为例,其乌兰察布 GPU 集群峰值 180 PFLOPS,尚不足以在 30 天内完成一次 7 B 参数 VLA 模型收敛;若租用公有云,按当前 A100/H100 现货价折算,单次训练即需 1.2–1.5 亿元人民币,相当于其 2024 年全年研发预算的 40 %。
这意味着,VLA 的量产落地是“千卡训练云+千 TOPS 车端+千亿级数据”三线并进的极限工程,任何一环缺口都会把 ROI 拉成负值。
对于年销量仅十余万辆的中小车企而言,如此高昂的投入难以通过规模化摊薄,且失败风险高企。正如元戎启行CEO周光指出,一家智驾公司需交付10万辆级量产车,才具备搭建VLA架构的基本数据基础。
更重要的是,从规则时代到 VLA 的跃迁并不是一次可折叠的跨越,而是一段必须在工程实践中逐级“淬火”的链式反应。
行业洗牌
在VLA路线所需的高昂成本面前,中小车企面临的生存困境愈发明显,除了算力与数据方面的差距外,从规则时代到端到端1.0积累的先发优势构建的技术护城河,也是多数二线品牌难以复现的关键环节。
最初,规则算法用显式代码与人工先验,把驾驶任务拆解为可验证的模块,给团队留下可解释、可追责的体系化思维与场景分类框架;
进入端到端 1.0 后,系统首次用大规模标注数据替代人工规则,逼迫组织完成数据闭环、工具链、DevOps 的原始积累,同时暴露出长尾场景对数据密度的极端需求;
最终在迈向 VLA 时,团队需要把前两阶段沉淀的工程学积累整体迁移到新框架里,才能形成“视觉—语言—行动”的高度统一。

理想汽车李想也曾直言,若企业连规则算法都做不好,则根本无从知晓如何训练VLA模型。
在这样的差距下,VLA路线的降临,无疑会让行业迎来一次“大洗牌”。中低端车企、品牌,要么难以在新时代生存,要么只能沦为“方案外购者”,或成为车企的富士康”,成为低端代工,利润被芯片厂和算法公司两头吃。
在端到端1.0时代,虽然绝大多数中低端车在“数据-模型-芯片”三件套中,极少能完全自研,本质上是“拼积木”式集成。
但过去车企可以掏钱买 Orin、买算法、买标注,大家都能活得不错。
例如哪吒、零跑、宝骏等普遍采用英伟达 Orin-X 或地平线征程 5 的“公版域控”;数据方面,零跑 C10 的 2.1 亿公里有效里程中,60 % 标注任务由 Momenta、觉非科技完成;
但是到了端到端2.0时代,“外包式生存”在 2.0 时代被上游供应商自己“关门”了——由于VLA路线导致的算力、数据成本骤增,现在这三样变成了“限量款”,而且限量权掌握在极少数巨头手里。
例如英伟达今年首批Thor-U的40 万片产能,早已被理想、蔚来、小鹏在 2024 年就签完长期锁价锁量协议,拿走 32 万片,只留 8 万片现货需要溢价 30 % 竞拍。
原本“谁掏钱谁就能买到”的开放供应链,在 2025 年因为芯片缺货、模型架构改变导致的算法改捆绑、被压缩成“少数玩家内部闭环”,中小车企连“买方案”这条退路都被截断。
再此情况下,中小车企面临的生存困境愈发明显,当头部企业通过"芯片-数据-模型"的闭环能力构建起技术壁垒时,中小车企便陷入一个死循环:买芯片没配额,买模型要持续分成,攒数据没钱也没人。
中小车企唯一还能做的,就是融入供应链,把整车制造、冲压焊接、总装测试这些传统环节做到极致良率和极致成本——这正是富士康在手机行业扮演的角色。
头部之变
尽管现在的VLA模型十分火热,但在智驾方面,并不是所有车企都认可这一路线。
除了VLA路线,目前华为和蔚来主推的是另一条路线:世界模型(WA)。其核心思路,是“海量使用云端模拟的数据、来让大模型‘理解’世界而学会驾驶”。
例如华为的World Action Model模型(WA),用扩散生成模型批量“造”Corner case,
也就是通过AI生成的大量的视频案例,来让模型明白何为物理规则。
而蔚来的NIO World Model(NWM),则通过将激光雷达+视觉压缩成 3D token;再通过自回归模型一次推演 5 秒后的多帧场景,从而“想象”出从未见过的路况。
而WA与VLA两条路线的区别,或许可以概述为:世界模型是“理想主义的未来豪赌”,VLA是“实用主义的当下生存”。
但在华为看来,语言模型擅长文本推理,却缺乏对三维空间的精确感知与运动推演能力。
而车,毕竟是在真实空间中运动的物体,毫厘之差可能就意味着风险。
唯有让模型真正理解物理规则,才能从根本上解决端到端模型“只会模仿、不会思考”的瓶颈。
但尽管世界模型看上去更“终极”,但VLA这条更“务实”的路线,对理想、小鹏等车企来说,仍然有着“改命”的意义。

一方面,2024 年理想以 50 万辆交付量登顶新势力,但单车毛利率从 21.5% 下滑至 19.8%,增程市场被华为、蔚来、小鹏全面围剿(如华为问界 M8、蔚来乐道直指 L7/L8)。对理想来说,冰箱彩电大沙发已不再亮眼,必须用智能化重新定义产品。
而小鹏目前在纯电市场追赶比亚迪、特斯拉,其正在推进的机器人也需要通用 AI 基座。小鹏选择 VLA 混合架构,本质是“一箭双雕”:其72B 云端基座模型,本质是 VLA 的超大型版本,既服务汽车,也为将来的机器人铺路。
对二者来说,VLA 是“唯一能把长尾一口气吃掉”的可行框架,并且,理想、小鹏积累的数据密度已经足够让 VLA 越过“冷启动死亡谷”,这是后来者无法复制的壁垒。
从市场的角度看,虽然华为与 Momenta 已占据 2025 年智驾市场 90% 份额。这样的双寡头地位难以撼动。且华为现在的智驾地位,靠的不是单模型大小、强弱,而是“数据 + 软硬一体 + 车厂”绑定三位一体的护城河。
然而,VLA 大模型的普及,会显著改变竞争格局,形成技术路线分化、市场份额重组。
传统智驾模型是:你给多少场景、多少样本,模型就记住多少,每新增一个少见场景都得补数据。华为在这层面确实通过规模碾压了竞争对手。
但是 VLA 模型不同。它的魔力在于多模态学习和推理能力——一方面通过“视觉 + 语言 + 行为”三种输入,让模型“理解”得更深刻,不只是记住,而是学会类人推理;这使理想、小鹏等车企,在长尾场景上也能获得接近华为的表现。
所以,在新一轮的智驾竞争中,现有的格局不会立刻翻盘,但 VLA 已经打开了一个新的窗口。
可以说,随着新一轮技术升级的到来,中小车企的危局,以及头部之间差距的缩小,将成为一种愈发显著的趋势。
2025年既可能华为、特斯拉的“巅峰时刻”,也可能是理想、小鹏等VLA实践者的“逆袭元年”。
在这场智能主权的争夺中,只有那些率先突破核心壁垒、构建差异化优势的企业,才能最终杀出重围。