元戎启行刘轩：人工智能让资本对智能驾驶商业化重拾信心|界面新闻 · 科技

界面新闻记者 | 李如嘉
界面新闻编辑 | 宋佳楠

近日，自动驾驶公司元戎启行公布了一轮约一亿美金的C1战略融资，由国内某头部主机厂独家投资。元戎启行表示，本轮融资将用于夯实国内量产项目，拓展海外业务，同时为探索Robotaxi（无人驾驶出租车）商业化运营和布局VLA（视觉语言动作模型）等前沿技术提供资金支撑。

虽然元戎启行并没有公布该主机厂的名字，但据界面新闻了解，本轮融资为长城汽车集团独家投资。今年一季度，元戎启行依靠端到端辅助驾驶方案成为长城供应商，而今年8月发布的长城新蓝山上，已搭载了由元戎启行提供的智驾方案。

包括C1轮在内，元戎启行已完成6轮融资，累计融资金额超5亿美元，股东包括复星锐正、云启资本、阿里巴巴、耀途资本和东风资产等。

推荐阅读：

气候大会就《巴黎协定》第六条全球碳市场机制等议题达成成果|界面新闻 · 快讯

最近两年，智能驾驶赛道融资进入冷静期，融资金额和数量都有所降低，但今年以来，一波小热潮悄然出现，不少智驾公司都宣布了新的融资。

在接受界面新闻专访时，元戎启行副总裁、技术合伙人刘轩表示，促成本次融资的主要因素之一是“元戎启行更具有AI基因”。

“现在的资本对于人工智能成分更高的行业和场景会更加青睐。”刘轩说，大语言模型热潮涌现后，市场普遍认为人工智能能力的提升，会对产品落地的形态带来革命性的影响，在智能驾驶领域也是如此。

据他所述，元戎启行是国内较早布局“无图”方案、端到端模型的智能驾驶企业。目前，公司已成功将端到端模型应用上车，成为国内少有能提供城区NOA（自动辅助导航驾驶）并实现量产的企业。

刘轩进一步解释称，以往在智能驾驶领域，搭载高精地图、采用规则驱动方案的企业获得的投资会比较多，但现在业内越来越多人认为，采用端到端技术、利用深度神经网络才能更好地实现自动驾驶大规模铺开，从而用更低的成本，做出性能更好的产品，实现商业闭环。

智能驾驶赛道目前已经进入淘汰洗牌期。在刘轩看来，未来行业会进一步整合，能够留下来的公司首先需要技术能力够强、不断做技术创新，并且对技术的预判力要好，是引领者而不是跟随者的角色；其次是能够做到商业闭环，有自我造血的能力，这里面最重要的是能够量产，让消费者去为产品买单。

他判断，届时能够在高阶智驾领域留下的玩家不会太多，大概只有两三家。新的玩家事实上已经很难再进入赛道的第一梯队，这不仅需要其技术能力够强，也要车企愿意“赌一个可能性”，去培养一个新的供应商，在中国市场这么卷的情况下是尤其难的。

本次元戎拿到的投资来自于头部主机厂，这不仅令其有了资金弹药，也会获得相应的车企项目支持。

目前，元戎启行的高阶智驾平台DeepRoute IO已成功搭载上车，与车企共同打造的量产车已超20000台。预计到2024年底，至少会有三款搭载元戎启行智能驾驶系统的车辆进入消费者市场。同时，该公司也在积极推进与多家主流车企的十余款智能汽车的量产合作。

刘轩指出，现阶段公司与车企的合作质量，一个是看定点数量，每个定点都会有相应开发费，但更重要的是看定点销量。方案商的稳定和高质量收入，其实来源于每卖出一辆车所产生的车辆授权费。定点数量多并不代表销量高，而且多个项目也会让业务和人员更加分散，所以智能驾驶方案商更希望能在一个定点做出“爆款车”，这样也可以拿到更多数据来训练模型。

高阶智驾量产的最大挑战在于，要让上千台、上万台车在全国都能顺畅行驶，性能上要求具备统一性，并且足够安全。为了做到这点，需要大量的极限泛化测试。

据界面新闻了解，元戎启行在实现量产项目的几个月时间里，在全国大小城市、乡村的各种天气条件下都进行了测试。其中，CTO曹通易还带队做了许多极限测试，例如从河北一路智驾到成都，在悬崖路段进行测试等。当积累了这些优质数据后，技术的迭代速度变得更快。

如何让量产交付符合汽车行业传统的安全生产流程和标准也是一个挑战，因为汽车行业历史已久，有着成熟且严格的安全标准。但人工智能行业与其存在诸多不同，如果完全按照以前的流程是无法保证交付速度和效率的。方案商需要和车企深度合作，探索一套新的，既能够保证安全性，又能做到快速量产交付的流程。

元戎启行第一个量产项目花了八个月，第二个缩短至五个月。刘轩表示，未来项目的周期会更短。

量产之外，其在技术上也有新进展。今年9月，元戎启行CEO周光提出，基于英伟达Thor芯片，公司进行了VLA模型的研发，预计将于2025年正式推出。通过VLA模型，智能驾驶系统拥有更高阶的思考能力，能够理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。

“我们也可以称VLA模型是元戎的端到端2.0模型。”刘轩说，现阶段的端到端1.0仍然面临几个问题，一个是模型的可解释性会比较差，依然是一个黑盒状态，无法解释驾驶决策逻辑，且存在一定幻觉。此外，碰到潮汐车道、限行时段等罕见路标、边缘场景难以用常识理解读懂，这种情况下很难推理出好的驾驶决策。

而VLA具有场景理解能力，能通过语音、文字形式，对自己的驾驶行为和推理进行描述，并采用多模态训练，除了视频数据训练，还引入了语言模态训练、行为模态训练。VLA模型可以通过预训练的方式，从大量的未批注数据中进行训练，学习语料的通用特征，拥有更多常识。传统的规则式架构只能预测1、2秒之后的物体运动，目前的端到端1.0大概只能推理到7秒以后。一旦VLA上车，元戎启行认为其可以推理到物体几十秒或者1分钟以后的物体运动。

刘轩告诉界面新闻，作为融合了视觉、语言和动作的多模态模型，VLA模型可提高模型的泛化能力和判断推理能力。不仅限于汽车，VLA还能移植到机器人等更多载体上，实现物理世界的通用人工智能。

而VLA的实现离不开数据的浇灌。周光曾经提到，一个智驾公司至少要交付上万台的车辆，才能做端到端1.0，而如果想要做到一个模块的VLA架构，需要10万台级的量产车。

元戎启行预计，在今年年底，其交付到用户手中的量产车会超过3万台，而明年能够达到20万台的目标。随着高阶智驾、端到端的芯片量产，高阶智驾的成本还有可能进一步下探，明后年，就可以覆盖到15万元以上的车型，这也会加速销量的提升。

未来，该公司计划用端到端系统走出两条商业化落地路径，第一条是量产业务，跟车企深度合作，将端到端模型应用上车，共同开发智能驾驶车辆；第二条是以开放的态度，基于端到端模型、量产车，去跟车企或第三方运营商平台合作实现Robotaxi的规模化运营。

“传统基于高精地图和规则式的Robotaxi是很难回本的。”刘轩表示，高精地图要定期维护，车辆上也需要搭载昂贵的传感器。未来，搭载“无图”端到端模型，用面向用户的乘用量产车打造的Robotaxi在时间和经济成本上更具优势，可以实现全域打车，更有助于市场普及和加快Robotaxi的落地进程。

你可能想看：

两位“AI奠基人”获年度诺贝尔物理学奖：最担心人工智能反噬人类|界面新闻 · 天下