界面新闻记者 | 周姝祺

很长一段时间里,理想汽车都难以接住华为问界在智能驾驶上的宣传攻势。这项原本不被纳入消费者购车决策前三的选项,成为了两家汽车品牌在一线竞争中的关键角色。

理想汽车销售人员会通过座舱体验等其他产品功能,遮掩智驾相对落后的事实,甚至避免直接提及华为。彼时,与理想L系列车型直接对标的问界新M7打开了用户对于智驾功能的认知,也带动品牌销量以令行业震惊的速度高涨。

但今年剧情的走向出现反转。理想汽车成为了继华为之后,第二家“全国都能开”的汽车制造商,反超了原本领先的蔚来和小鹏。

理想汽车销售也开始主动向用户推售带高阶智驾软件的MAX版本车型。最新的数据是,用户选购AD Max的定单占比从5月份的37%提升至7月的49%,其中L9 MAX版本的选购率达到75%。

让一些竞争对手感到不安的是,理想汽车似乎在极短时间里,快速弥补了智驾短板。这位后来者在传统人工书写规则的时代没有表现出领先优势,却在切换至业内前沿的端到端技术后,突然逆袭,这让外界备受关注。

业内对理想智驾的态度正在发生微妙的转变。一位华为智驾工程师向界面新闻透露,过去内部只关注特斯拉和小鹏汽车的研发进展,但现在理想汽车也被纳入了讨论话题圈。

理想汽车曾是“蔚小理”里最不被看好的一家,所坚持的增程式路线被诟病技术落后。但现在它的销量位居新势力榜首,而增程路线也在被越来越多汽车公司采纳。

智能驾驶领域复制了一样的剧情。理想汽车智能驾驶研发副总裁郎咸朋和智能驾驶研发负责人贾鹏接受界面新闻等媒体采访时复盘,智驾“差生”是如何在不到两年时间里,迭代三代版本,最终将与特斯拉的差距缩短至半年以内。

由于起步时期对利润和效益的极致追求,理想汽车在智驾领域的投入保守,一直是业内追随者的姿态。

拉长时间线来看,在理想汽车刚刚成立那年,华为即启动了自动驾驶技术研发。而当2021年理想汽车开始自研智驾之时,同期蔚来汽车和小鹏汽车已经落地了高速领航辅助驾驶功能(NOA)。

在去年行业忙着城区NOA的比赛时,理想汽车CEO李想在9月召开的秋季战略会上反思,理想汽车在智驾上全力投入偏晚。他第一次明确,智能驾驶是公司核心战略,要在2024年成为智驾的绝对头部。

理想汽车开始大规模招人,成为当时为数不多能够给出高薪资和多岗位的企业。当时理想汽车认为学习华为的军团作战模式,可以通过人才的密度换取研发的速度。

但实际落地进程并不顺利。一年时间里,理想汽车先后尝试了神经先验网络(NPN)和无图两个方案,投入大量人力迭代、更新和测试,始终无法达到拟人程度。

接连切换技术路线,让郎咸朋很快意识到技术路线的瓶颈。在他看来,面对无穷的真实场景,人永远无法提前对所有情况都进行定义。要想从根本解决问题,端到端是当下的最优技术路径。

不同于传统自动驾驶系统分为感知、规划、定位和决策等多个模块,端到端架构强调感知决策一体化,其最大优势是减少模块间信息传递损失,提高智驾能力上限。自动驾驶开始真正依靠人工智能而不是详尽的地图绘制和编码来取得进步。

特斯拉是率先切换这一前沿技术的汽车公司,紧接着是国内智能电动汽车厂商和华为等自动驾驶供应商。在“开城竞赛”的同时,汽车公司在端到端上掀起新一轮的比拼。理想汽车在新技术路线上再一次尝试。

在实际落地过程中,小鹏汽车和华为采用“分段式端到端”,将感知和规控用分别的模型取代,而特斯拉和理想汽车是更为激进的“One Model”(一个大模型)。为了安全冗余,理想汽车没有把控制模块包含在内。

但只有端到端是不够的。郎咸朋告诉界面新闻,不管是端到端还是传统的感知决策模型,都是根据已知的数据,训练或者人工设计规则去满足场景条件。这蕴含的潜在问题是,如果是没见过的场景,系统即无法很好工作。

一个典型的实践是贾鹏在美国体验特斯拉全自动驾驶软件FSD V12.3版本。他发现FSD在东西海岸城市的用户体验差异明显。从波士顿到纽约,特斯拉在不熟悉和道路工况更复杂的城市上,智驾表现急剧下降,接管率大幅提升。

国内的道路场景比纽约要更加多变。在车端芯片算力有限的前提下,单独的端到端模型难以保证无瑕疵运转。想要让自动驾驶真正像人一样思考,理想汽车引入了VLM视觉语言模型,并从去年9月开始了端到端+VLM双系统的预研。

李想在今年6月召开的中国汽车重庆论坛上,首次向公众披露了双系统的概念。系统1运行端到端模型,解决行驶过程中需要及时响应的路况信息;系统2可以像人类一样读懂导航地图等信息内容,处理复杂和需要逻辑推演的泛化场景。

贾鹏进一步向界面新闻表示,VLM在整套架构中承担的角色是,将决策结果和参考轨迹提供给系统1,但端到端模型不一定会采用这个推理信息。这保证了系统1的唯一决策权,避免了两套系统运行打架。

不过,所有投入端到端的智驾团队还需要解决同一个问题:怎么测试和验证端到端模型的能力。

端到端架构使用的神经网络大模型是“黑盒”,VLM也是“黑盒”,两者最大的弊端在于失效模式不清晰。这让架构的上限远高于传统规控时代,但同样也会出现低级错误,难以为安全兜底。

由于没有类目清晰的代码,这些问题的筛选查找也更为麻烦。一位智驾研发人员向界面新闻解释,如果不知道端到端模型运行中哪里有问题,就无法针对性采集数据制定训练策略。

理想汽车的解题思路是引入世界模型,对系统1和系统2进行考试。这个用来验收训练成果的考试模型在理想团队内部被称作系统3。

系统3的题库一方面来自精挑细选的理想汽车车主实际驾驶过程中的“真题”和“错题”,且能够提供这部分“题目”的车主比例不到3%;另一方面,理想汽车会通过重建和生成的方式形成“模拟题”,覆盖更多的场景。只有模型通过测验获得高分后,才将被逐步推送给用户。

理想汽车利用系统3取代了过去铺研发人员,实地驾驶成百上千公里的传统路测方式。这不仅加快了模型迭代速度,且节省了高昂的人力成本。

同样利用虚拟仿真能力的还有蔚来汽车。这家新势力上个月向外界释放了国内首个智能驾驶世界模型。该模型具备空间重建和时间推演能力,在100毫秒内推演出216种可能发生的场景,寻找到最优决策。

贾鹏指出,如果效仿SORA纯生成视频的方式,会造成较多的幻觉,生产场景没有办法直接拿来使用。理想汽车是把真实场景重建后,在这基础上进行泛化生成,并提供可参考的,符合物理规律的场景。

进入到自动驾驶时代,各家汽车公司比拼的不仅是人才深度,还有数据和算力,这将直接影响端到端的上限能力。

郎咸朋提到,理想汽车相似的车型结构,让所有车上摄像头配置、安装位置都一致,可以实现数据共用。并且,理想汽车从2019年第一代理想ONE开始进行数据闭环研发,有效累积训练数据量超过12亿公里,比另外两家头部新势力更早,也更多。

小鹏汽车CEO何小鹏提出的一个观点是,数据多并不代表能够做好自动驾驶。郎咸朋同样指出,除了数据的数量和质量,更难的是数据的配比。

今年刚开始投入双系统项目研发时,理想智驾团队发现,测试车在等红灯时,总想变到其他车道。后来他们才知道,导致问题的原因是删除了用户在红灯前长时间等待的数据。这一原本被忽视的数据,却是让模型学会分辨等红灯和堵车两种不同等待场景的关键信息。

事实上,能够快速发现并解决这一问题,还在于理想汽车在云端建立了数据挖掘模型、场景理解模型等多个小模型。这套完整的工具链和基础能力建设,是自动驾驶里进行数据筛选和清洗的重要一环。

郎咸朋认为,这就好比去医院看病,一个问题场景出现后在内部有个“分诊台”,自动分析归属于哪个场景问题,给到模型分诊建议,然后再拿着分诊建议找到相类似的场景数据,补充到训练样本里,进行下一步迭代。

在贾鹏看来,将来大部分智驾工程师是在做数据和模型测试这一头一尾的工作,反而中间模型本身的结构设计,可能不需要过多工程师。

随着业务模式发生改变,理想汽车调整了人力配置和组织架构。传统自动驾驶模块化的组织架构体系里,从场景设计到研发、测试、交付和问题修改,都需要大量人力投入,但转为端到端后,数据搜集、样本制作、自动化训练以及自动化迭代等领域,人的参与度大幅降低。

理想汽车智驾团队经历了一轮扩张后,又裁退了不少人。郎咸朋解释说:“当时我们要扩张智驾团队,是从流程看,全国各地都要铺得很大,需要更多研发工程师以及测试人员。但是再往后走,即使我可以投资源招到这些人,但是招到之后我依然解决不了往后走到更高能力的问题。”

当前理想汽车智驾团队按照RD (Research Development) 和PD(Product Development)两条脉络研发。前者负责技术预研,探索下一代人工智能发展方向,后者则进行量产工作,针对现行版本向用户交付和维护。

在外界看来,理想汽车智驾进步速度突飞猛进,但从去年9月开始,包括智驾团队在内的工程师每周都有人工智能周例会,固定和李想分享关于自动驾驶、智能空间等人工智能相关话题。关于双系统的讨论,就是这样 “慢慢聊出来的”。

理想汽车的快速进步让外界怀疑,关于智能驾驶的故事剧本里,不存在领先者恒定的高枕无忧。但郎咸朋指出,后来者参与游戏的难度实际上正变得越来越高。自动驾驶比拼的不仅是技术,更是资金,是企业的盈利能力。

一个最直观的数据是,理想汽车目前仅是在算力的租卡投入上,一年的开销要达到10亿元人民币,而未来进入到更高级别自动驾驶研发,一年的训练算力花销将高达10亿美金。据悉,理想汽车和小鹏汽车智驾云端最新算力储备分别是4.5EFLOPS和2.51EFLOPS。

过去国内新势力都是摸索特斯拉的技术演进方向,步步跟随。但在特斯拉不再对外披露技术方案,理想汽车提供了破除端到端迷雾的一套全新方法论。上述华为研发人员向界面新闻表示, 这将有利于中国智驾不再沿着特斯拉的路径,亦步亦趋的模仿。

但也有不少智驾工程师怀疑双系统模式。在他们看来,通过数据和算力的不断提升,可以解决解决极端场景或者未知问题,不需要绕弯路利用VLM模型来辅助,并且VLM模型在实践中能够起到多大的作用也存疑。

端到端是不是走向更高级别自动驾驶的的技术终解,郎咸朋以及投身于国内智驾热潮中的先行者,可能都没有办法给出回答。

而对于真正购车的用户来说,采用何种自动驾驶技术从来不是关注的重点,安全、可靠、好用和稳定等实际体验指标才是他们评判优劣的恒定标准。

界面新闻节选了与郎咸朋和贾鹏的对话内容,在不影响原意情况下有所编辑:

站在了无人区的边缘

Q:目前理想这套端到端+VLM的智驾架构,是基于什么想法设计的,未来发展如何

郎咸朋:去年战略会时期,我们参考了包括特斯拉FSD在内的智驾方案,发现想要实现自动驾驶的目标,存在很大的挑战。不管是端到端,还是传统的感知决策模型,他的做法都是给大量数据,根据已知的数据,训练或者人工设计规则去满足这些场景条件,这样潜在问题是,如果没见过的场景,系统就不能很好的工作。

基于让系统能正确地处理复杂或者未知的场景,我们探索怎么样能让车辆,有像人一样的思考和决策或者判断推理的能力。我们采用了跟人类大脑的思考和认知方式比较类似的双系统架构。系统1我们用的是端到端模型,系统2用了VLM模型。将来有没有其他的实现方式,我们也在迭代当中,但是现在来看,这套框架和实验方式是比较适合后面做自动驾驶的。

贾鹏:我们试驾特斯拉FSD V12.3版本时,发现它在东西海岸表现差异非常大,这促进我们思考,在国内做自动驾驶,车端芯片算力有限的情况下,单独一个模型不是那么有效。我们当时想法是在端到端的基础上再加一个真正有泛化能力,有逻辑思考能力的一套系统,自然而然就想到了VLM,虽然它不直接控车,但是会提供决策。

往后发展,随着算力提升,模型规模变大,系统1和系统2能够做到比较紧耦合。也可以借鉴现在多模态模型的大模型发展趋势,统一语音,视觉和激光雷达。这套范式可以支撑我们做到L4,可能是我们实现真正人工智能的终极答案。再往后,可能就真的到了无人区,实现自动驾驶真的大规模量产,但目前还没有看到哪一家跑出来。

Q:端到端和VLM这两个系统是怎么协作的?

贾鹏:这俩系统一直都在实时运行。一块跑端到端,因为模型小一些,帧率比较高,比如跑个十几赫兹。另外VLM模型规模参数量就大的多,是22亿参数,目前能跑到大概3.4赫兹3至4赫兹。VLM一直都在,只不过它是把决策结果和参考的轨迹扔给系统1,端到端模型推理后,决定是否用这个信息。

Q:现在VLM是必须的吗,在这里面的必要性的程度大概是有多少?

郎咸朋:我们在L3起主要的支撑作用还是端到端,它是代表这个人正常的行为下的驾驶能力,但到了L4一定是VLM或者大模型,这里面起到更重要的作用。可能90%以上的时间它不起作用,但它起作用这些内容,是决定这个系统到底是L3还是L4的一个关键点,是能真正的能去应对这种未知的场景。

Q:怎么测试和验证端到端模型,形成固定向用户推送的周期?

郎咸朋:端到端时代一个很大的挑战是,它对于能力的评价和测试是不确定性的。除了系统1和系统2,我们用端到端和VLM来落地之外,还有一个试验模型叫系统3。这个试验模型实际上是一个考试系统,是用试验模型的能力重建或者生成考题。

这个考题我们有自己的真题库,人在路上驾驶的正确行为。它的设计是根据用户,产品和整车的主观评价团队,跟我们内部的一些老司机共同制定的老司机标准。我们的80万车主里面,每个人都打了分数,90分以上的我们称之为老司机,这个比例大概是占我们所有司机的3%左右。

在正常的测试和开车过程中,用户的接管和退出,这些是我们的错题库。我们还要生成一些模拟题。我们会对每一版模型根据它的考试分数去决定它是否可以迭代到车上去,进行下一步验证。‘’

贾鹏:有特别长尾的问题,这样的数据就没办法去真实获取,有一部分生成的工作。我们的世界模型不是纯生成,我们觉得纯生成式模型幻觉很多很多,没办法真的拿去用,我们是重建加生成结合在一起,生成的是符合世界规律的,也是符合物理规律的。

比规模和质量更重要的,是数据配比

Q:在数据这一块,打算怎么采集或者说一些更高效的方式?

郎咸朋:我们的车L789长得都挺像,但这里有巨大的本质好处是我们的数据可以共用,所有车上摄像头配置,包括安装位置都大体一致。而且从2019年第一代理想one开始,就做数据闭环研发。到了L789阶段,我们有80万车主,积累了超过12亿公里的有效训练数据量,是国内最多的没有之一。

小鹏最早是在2021年开始做这件事情,它的车型也有很多的变化,有轿车、SUV、MPV,它形态都不太一样。蔚来是从ET7开始,之前都是供应商方案,它会更晚一点,大概在2022年左右。

Q:怎么考虑做数据的筛选和清理,现在大部分的精力是投入到数据这一块的工作,大概会占什么样的精力?

郎咸朋:我们现在发现,训练端到端模型,跟古代炼丹没什么区别,怎么配比让自动驾驶的体验会更好。今年比较早期做项目,我们发现模型训练出来等红灯的时候,车的行为比较怪异,总是想变到旁边的车道。后来明白我们在训练时候,删除了很多在红灯之前等待的数据,我们觉得等了几十秒或者一分钟的数据没有用。但后来发现这份数据非常重要,它教会了这个模型,有的时候是需要等待的,不是一旦你慢下来就要插空,就要变道。

Q:你们现在发现红绿灯的问题,然后去定位红绿灯的数据缺失,跟以前的方式,难度是差不多的吗?

郎咸朋:我们有一套工具链,发现一个badcase,这case回来之后,内部有一个“分诊台”系统。一个场景问题上来,会自动分析它应该属于哪一类的场景问题,会给一个模型的分诊建议,然后再拿着分诊建议去找到相类似的场景。其实最终还是回归到需要补充或者替代什么样的数据到我们现在的训练样本里,然后再进行下一步的训练。

贾鹏:模型主要两个方面,一是数据的配方,类似的场景到底要加多少,能把问题解决掉,这是一个know-how,不同的场景对数据的要求不一样。第二点是模型的超参,加入新的数据后,模型参数如何调整,一般情况下有5至6版模型会同时提交训练,然后看哪一版解决了问题,同时得分也高。

Q:算力现在到了什么规模?

贾鹏:云端算力,我觉得各家口径不太一样。至少云供应商的数据我们应该是最多的,这个跟每年的花费有关系,一年下来小10个亿,你得有利润。

郎咸朋:我们明年就会有一个指数上升。到了世界模型,理论上来说想恢复物理世界上所有东西,它的量可能是没法估计的。我们预计,如果做到 L3和L4自动驾驶,一年的训练算力花销得到10亿美金,将来我们拼的就是算力和数据,背后拼的是钱,还是盈利能力。