追赶FSD V14,理想在补哪些课?|最前线 - 赏金女王平台
过去几年,智能驾驶领域的竞争焦点发生了显著变化。起初,竞争集中在硬件层面,例如激光雷达的配置、摄像头的数量以及算力(TOPS)的提升。随后,随着大模型技术的兴起,竞争转向了端到端、VLA(视觉-语言-行为)以及World Model(世界模型)等技术路径。
当前,越来越多的企业认识到,仅拥有更大的模型已不足以形成代际优势。真正决定技术上限的是模型、数据、算力和芯片之间能否构建一个持续优化的闭环系统。
这也是促使更多汽车制造商走向自研的原因。特斯拉几乎涵盖了从数据采集、训练基础设施、FSD模型到Dojo超级计算机和自研芯片的全部环节。在中国,小鹏、蔚来及理想等车企也在不断向更底层技术进行延伸。
理想汽车在其今年发布的L8和L9车型上已经采用了自研的马赫M100芯片。这款采用数据流架构的芯片被理想汽车视为AI领域的重要技术方向。同时,理想汽车也在马赫M100芯片上运行其自研的马赫VLA模型。
然而,对于整个行业而言,更关键的问题并非“是否进行自研”,而是这些投入究竟能解决哪些实际问题。
带着这一疑问,我们与理想汽车自动驾驶负责人詹锟以及芯片负责人谢炎进行了深入交流。他们分享了理想汽车对下一代自动驾驶技术路线的判断,并阐述了自研芯片、数据体系及AI基础设施背后的设计理念。以下是访谈的部分内容摘要,经过编辑整理:
问:为达到特斯拉FSD V14在第四季度(的水平),理想汽车还需要在哪些方面努力?
**詹锟:**我认为要追赶FSD,需要关注两个层面。
首先是基础体验,具体体现在安全感、效率和舒适度是否能达到FSD的同等水平。FSD在这三个方面表现出色,安全感十足,效率高,且乘坐体验舒适。即使不挑战极端路况,我们也要确保在这些基础功上达到同等水平。
其次是能力层面,这方面追赶难度更大。例如,特斯拉能够主动礼让特殊车辆,能在极窄的道路上实现精准感知,并能识别交警的指挥手势,这些能力非常强大。
在能力方面,存在架构升级的机会。为什么某些能力只有特斯拉拥有?这可能与过去的技术范式限制了这些能力的实现有关,既有架构原因,也有数据原因。我们在这一领域进行了大量探索。
问:我理解马赫VLA是一个技术体系而非单一模型。例如,Mind-Edge是服务于智能座舱的端侧模型。那么,当前智能驾驶模型中是否还包含“L”(Language,语言)的部分?
**詹锟:**当前自动驾驶架构的一个共同趋势是将VLA(视觉-语言-行为模型)与World Model(世界模型)相结合。
从长远来看,所有技术路线都将朝这个方向发展。无论是VLA还是World Model,其内部的Prompt(提示)都需要用到语言。因此,语言的作用是必然存在的,关键在于如何运用语言。
从机器智能的角度来看,我认为基于视觉(Vision Based)的方案更为合理,它能更好地理解空间、感知三维空间并服务于环境。语言无疑也有其价值,它有助于理解环境、交通规则、指令以及进行复杂的决策思考。
长远来看,基于视觉和语言的原生基础模型,可能是未来的发展趋势。
**谢炎:**如果目标是实现L3、L4级别自动驾驶,需要解决更广泛的问题,那么模型必须具备类似人类的思考能力。届时,语言的重要性将日益凸显,这也是未来需要巨大算力的原因。
如果模型仅具备视觉和行为(Vision and Action)能力,即使拥有大量数据,在遇到分布之外的情况时也会不知所措。就像动物即使学会了所有常见情况,面对从未见过的情形也可能束手无策,不知道该如何做出正确的选择。
我们认为,随着自动驾驶向L3、L4级别迈进,所要解决的问题越来越多地集中在90%、95%、98%之后的那些未知场景,即需要模型具备类似人类的思考能力。而这种推理和思考能力的来源,正是语言模型。例如,面对交警的手势,理解其意图(是让你通行还是停止)并非仅仅通过收集或生成数据就能解决。
问:随着理想汽车车队规模的不断扩大,从内部来看,数据的边际效应是否出现了衰减?你们是如何定义有价值数据的?
**詹锟:**首先,数据的规模必须足够庞大,核心目标是收集更多的Corner Case(长尾场景)。目前,业界有多种方法,例如在车端部署优秀的神经网络触发器(neural trigger),以判断场景的难易程度,并将关键数据回传。这也是特斯拉在数据方面表现强大的原因之一。
其次,数据的质量至关重要,特别是行为数据的质量。当前,行业正逐渐趋向端到端的范式,无论是VLA(视觉-语言-行为模型)、World Model(世界模型)还是Vision-Action(视觉-动作模型),都要求准确理解Action(行为)。因此,行为数据的质量,包括其规范性和一致性,都非常重要。
至于数据规模扩大后边际效应是否衰减,只要模型能力在不断提升,且我们致力于追求极致的100分能力,那么数据的边际效应必然会呈现“对数曲线”式的增长,而非线性增长,这是所有AI公司发展的普遍规律。虽然随着进展深入,数据收敛的速度会放缓,但我们希望通过规模化来加速这一过程。
问:马赫M100芯片能够支持多种AI场景的运行。展望五年或更远的未来,理想汽车车内的算力中心是否有可能完全采用自研的马赫芯片?
**谢炎:**尽管业内存在“舱驾一体”的说法,但我们认为,舱驾一体的核心在于AI算力部分,其他部分的集成度则不那么关键。因为座舱系统和AI智能驾驶系统可以完全独立运行,但AI算力可以集中处理,从而显著提升效率。
我们的路线图最终目标是构建一个车内AI计算中心,所有AI任务都可以在该中心进行计算。这类似于在笔记本电脑上运行OpenClaw,AI计算并非在笔记本本地进行,而是在Token Provider Server(Token供应服务器)上完成,车内也类似,将设置一个Token Server(Token服务器)。
该Token Server的优势在于:第一,极高的效率。第二,能够实现不同任务的相互隔离,互不干扰。例如,智能驾驶任务的确定性——无论是内存还是带宽,都能保证不被其他任务影响,这是软硬件协同设计才能实现的目标。
问:马赫M100采用数据流架构的AI推理芯片,是否意味着其对带宽的需求低于其他厂商的自动驾驶芯片,而对片上存储的需求更高?
**谢炎:**我们对带宽的要求确实会相对较低,但这并非设计SRAM(静态随机存取存储器)容量(而非显存)的直接原因。目前HBM(高带宽内存)技术备受关注,许多人认为带宽越高越好。然而,计算、带宽、SRAM等都需要晶体管资源来实现,最终的设计是基于成本、整体性能等多方面因素权衡的结果。
不同架构的设计,不能仅凭一两个指标进行简单对比,这样做既不合理也不专业。这就像拳击比赛,身高和体重都有各自的优势,但胜负并非由单一指标决定,最终取决于比赛的整体表现。
问:为何当前的大算力芯片方案,如英伟达、小鹏及理想自研的芯片,并未实现芯片级的舱驾融合,而高通却在低算力芯片上实现了这一点?
**谢炎:**本质上,座舱(舱)和智能驾驶(驾)是两个独立的系统。特别是对于高端L3向L4级别的自动驾驶,智能驾驶需要一个更高确定性的系统,其内存和计算资源需要专属分配,此时融合的意义便大大降低。因为资源无法实现实时切换,而实时切换会降低系统的确定性。如果系统朝着越来越专用的方向发展,融合的价值就会减小——即使将两个芯片集成在一起,资源仍需分开,这并不能降低成本,甚至可能影响效率。
目前的舱驾融合系统,实际上仍然是分开运行的。它无法做到在不同任务间快速切换。如果将两个芯片集成到一块,晶体管数量可能不变,仅仅节省了封装成本。对于中低端芯片而言,这部分成本可以节省,但节省幅度有限。
我的观点是,随着智能驾驶技术向更高端发展,舱驾融合的意义可能并不显著。如果能将这些芯片做得更紧凑,在一个电路板上实现高度集成化的方案,这是可行的,不一定非要集成到一块芯片中,也可以是多块芯片协同工作。
问:自研芯片需要具备哪些条件,例如销量、营收和研发投入?鉴于当前自动驾驶迭代速度极快,芯片要实现持续迭代,又需要哪些条件?
**谢炎:**芯片的初期投入相当可观,可能每年需要数亿元人民币。
第一个条件是达到一定的营收规模。对于车企而言,年营收达到1000亿元以上,研发投入至少占10%,即每年拥有数十亿至上百亿的研发资金,才能支撑芯片的持续研发投入。第二个条件是,所研发的芯片必须能显著提升产品的能力,解决实际问题。
许多人认为芯片需要巨大的出货量才能摊薄成本。实际上,芯片的成本与其面积密切相关。一辆车上的智能驾驶芯片,例如Livis使用两颗马赫M100,总面积约为800平方毫米。而一款高端手机芯片的面积大约为100平方毫米,因此一辆车的智能驾驶芯片面积相当于8部高端手机芯片的总和。
如此计算,数十万辆车的销量所需的晶圆面积非常庞大,足以有效摊薄成本。因此,成本不能仅以单颗芯片的数量来衡量。
问:动态数据流编译器的难度究竟在哪里?攻克这一难题花费了多长时间?
**谢炎:**在芯片流片之前,甚至在设计阶段,我们就已经开始进行编译器的工作,并在流片前就已成功运行了大量模型。
数据流是一种全新的架构,它所要解决的问题类似于超级计算机或大规模计算机集群所面临的挑战——当规模扩展到数十万台计算机、上百万个核心时,它们之间的通信和协作需要高效的调度机制,而无法依赖中央管理员来管理如此庞大的计算单元。传统的冯·诺依曼架构调度方式在这种规模下已不再适用,这本质上是一个超大规模并行调度的问题。
赏金女王·PG电子官方网站提供官方平台访问服务,汇集热门游戏资讯、活动动态、版本更新及精彩内容推荐。平台内容更新及时,帮助用户快速掌握最新活动信息和游戏动态。
想了解更多赏金女王平台相关内容,尽在赏金女王。
玩家互动专区 (2)
留下您的精彩评论