在智能驾驶领域,竞争焦点已发生多次演变。起初,比拼的是硬件配置,如激光雷达、摄像头数量及算力(TOPS)。随后进入大模型时代,竞争转向端到端、VLA(视觉-语言-行为)及World Model(世界模型)等技术路线。
如今,许多公司意识到,单纯拥有更大的模型已不足以形成代际优势,真正决定技术上限的是模型、数据、算力和芯片能否构建一个持续迭代的闭环。这促使越来越多的汽车制造商走向自主研发。
特斯拉在数据采集、训练基础设施、FSD模型、Dojo超算以及自研芯片等环节均实现了全覆盖。在中国,小鹏、蔚来和理想等车企也在不断向下游技术领域延伸。
理想汽车在2023年推出的L8和L9车型中,已搭载了自研的马赫M100芯片。这款采用数据流架构的芯片被理想视为AI领域的重要技术方向。同时,理想也在马赫M100上运行了自研的马赫VLA模型。
然而,对于行业而言,更关键的问题并非“是否自研”,而是这些投入能够解决哪些实际问题。
围绕这一疑问,我们与理想汽车自动驾驶负责人詹锟及芯片负责人谢炎进行了深入交流。他们阐述了理想对下一代自动驾驶技术路线的判断,并解释了自研芯片、数据体系和AI基础设施背后的设计理念。以下为访谈内容的编辑整理:
问:为实现第四季度达到特斯拉FSD V14的效果,理想汽车还需要在哪些方面努力?
**詹锟:**我认为在追赶FSD方面,可以从两个层面来看。
首先是基础体验,这主要体现在安全感、效率和舒适度是否能与FSD达到同等水平。FSD在这三方面表现出色,具备扎实的基本功。即使不挑战极端路况,也能在这些基础体验上达到同等水平。
其次是能力层面,这方面追赶难度很大。例如,特斯拉在礼让特殊车辆、在极窄路段的感知精度、以及识别交警指挥等方面的能力非常突出。
能力上的突破可能源于架构的升级。为何只有特斯拉拥有这些能力?这可能与以往的范式限制有关,也与架构和数据因素有关。我们在这些方面进行了大量探索。
问:我理解马赫VLA是一套技术体系,而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language语言)的部分?
**詹锟:**当前自动驾驶架构有一个共同趋势,即整合VLA(视觉-语言-行为模型)和World Model(世界模型)。
从长远来看,所有技术路线都会朝着这个方向发展。无论是VLA还是World Model,其中的提示(Prompt)都需要用到语言。因此,语言是必然存在的,关键在于如何使用它。
在机器智能领域,我认为基于视觉(Vision Based)的方案更为合理,它能更好地理解空间、感知三维空间并服务于环境。语言在理解环境、交通、指令以及进行复杂决策方面具有重要价值。
从长远来看,基于视觉和语言的通用基础模型,可能代表未来的发展趋势。
**谢炎:**如果目标是L3、L4级别自动驾驶,需要解决更泛化的问题,那么模型必须具备类似人类的思考能力。在这种情况下,语言的重要性将愈发凸显,这也是未来需要巨大算力的原因。
如果模型仅具备视觉和行为(Vision and Action)能力,即使拥有海量数据,在遇到分布外的情况时也会束手无策。就像动物即使学会了所有常见情况,面对从未见过的情形也无所适从。
我们认为,越是走向L3、L4,所解决的问题越是接近90%、95%、98%之后的问题——即那些前所未见的问题,需要模型具备像人类一样的思考能力。而实现类似人类的推理和思考能力,其来源是语言模型。例如,理解交警的手势含义,这并非简单通过收集或生成数据就能解决。
问:随着理想汽车车队规模的扩大,内部是否感知到数据边际效应的递减?你们是如何定义价值数据的?
**詹锟:**首先,数据的规模必须足够庞大,核心在于收集更多长尾场景(Corner Case)。目前,业界有多种方法在车端实现优秀的神经网络触发器(neural trigger),用以判断场景的难易程度,并将关键数据回传。这也是特斯拉目前强大的原因之一。
其次,数据质量至关重要,尤其体现在行为质量上。当前,业界逐渐趋向于端到端范式,无论是VLA、World Model还是Vision-Action模型,都离不开对行为(Action)的准确把握。因此,行为的质量、干净程度和一致性变得尤为重要。
至于数据规模扩大后边际效应是否递减,首先,只要模型持续提升,能力向100分迈进,数据效果必然呈现“对数曲线”增长,而非线性增长,这是所有AI公司都会遇到的情况。尽管后期数据收敛速度会放缓,但我们仍希望通过规模效应来加速这一进程。
问:马赫M100可应用于多种AI场景。展望五年后或更远的未来,理想汽车车内的算力中心是否可能全部采用自研的马赫芯片?
**谢炎:**尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,其他部分是否一体并非关键。座舱系统和AI智能驾驶系统可以完全独立,但AI算力集中在一起,能够显著提升分配效率。
我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都在此进行计算。这类似于在笔记本上运行某些应用,实际计算在云端服务器上进行。车内也类似,将有一个“Token Server”。
这个“Token Server”的优势在于:第一,效率极高;第二,能够实现不同任务的隔离,互不干扰。例如,智能驾驶任务的确定性,无论是内存还是带宽,都能保证不被其他任务影响,这是软硬件协同设计才能实现的。
问:是否因为M100采用数据流架构的AI推理芯片,其对带宽的需求低于其他厂商的自动驾驶芯片,而对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实较低,但这并非设计SRAM容量(非显存)的直接原因。当前HBM(高带宽内存)备受关注,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管成本来实现,最终的设计是基于成本/综合性能等多方面权衡的结果。
不同架构的设计,仅凭一两个指标进行简单对比,既不合理也不专业。这就像拳击比赛,身高和体重都有各自优势,但胜负并非由单一指标决定,最终比拼的是比赛的整体表现。
问:为何当前大算力芯片方案(如英伟达、小鹏、理想自研)普遍未实现芯片级舱驾融合,而高通却在低算力芯片上进行了尝试?
**谢炎:**本质上,座舱和驾驶是两个独立的系统。特别是对于高端L3向L4的演进,智能驾驶需要一个更高确定性的系统,其内存和计算资源是专属的,此时融合的意义就大大降低。因为资源无法实时切换,实时切换会影响确定性。如果方向是越来越趋向独占,融合的价值就不大了——即使将两个芯片集成在一起,资源仍是独立的,不会带来成本降低,甚至可能影响效率。
目前市面上的舱驾融合系统,其功能依然是分开的。如果无法做到“一会儿跑这个,一会儿跑那个”,那么将两个芯片集成到一块,晶体管数量可能不变,只是节省了封装成本。对中低端芯片而言,这部分成本可以节省,但幅度有限。
我的观点是,随着智能驾驶向更高端发展,舱驾融合的意义可能并不大。如果能将这些芯片做得更靠近,在一块板上实现高度集成的小体积方案,这是可行的,不一定非要集成到一块芯片,也可以是多块芯片的集成。
问:自研芯片需要哪些条件,例如销量、营收和研发投入?鉴于当前自动驾驶迭代速度快,芯片的持续迭代需要具备哪些条件?
**谢炎:**芯片的初期投入确实不菲,可能每年需要数亿元。
第一个条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少10%,即每年有几十亿到上百亿的投入,才足以支撑芯片的研发。第二个条件是,所研发的芯片必须能显著提升产品的能力。
许多人认为芯片需要巨大的出货量。实际上,芯片的成本与面积相关。一辆车上的智能驾驶芯片,例如Livis采用两颗马赫M100,总面积约800平方毫米。而一款高端手机芯片的面积约为100平方毫米。因此,一辆车的智能驾驶芯片面积相当于8台手机的芯片面积。
如此计算,数十万辆车的需求量所需要的晶圆面积非常庞大,足以摊薄成本。因此,成本不能仅以单颗芯片的数量来衡量。
问:动态数据流编译器究竟难在哪里?攻克它花费了多长时间?
**谢炎:**在芯片流片前,甚至在设计阶段,我们就已经开始了编译器的工作,并在流片前完成了许多模型的运行验证。
数据流是一种完全不同的架构,它要解决的问题与超级计算机或大规模计算机集群非常相似——当规模扩展到几十万台计算机、上百万个核心时,它们之间的通信和协作,无法由一个中央管理员来统一调度。传统的冯·诺依曼架构调度方式在此规模下已不可行,这是一个超大规模并行调度问题。