如此一来,不仅信息传递是无损的,全局端到端可训练也意味着自动驾驶系统学习的目标也是基于全局任务的统一目标,换句话说就是所有的模块一起学习,实现全局优化。
到这里,我们可以看到自动驾驶算法经历了感知由CNN走向BEV+Transformer+OCC和决策从规则走向端到端,再进一步整合成为全局端到端的整个发展历程。然而,这样的一个模型依然不是完美的,也绝非自动驾驶的终局。

自动驾驶的未来在哪,或者说到了如今的2025年重点的发展方向是什么?由比亚迪推动的智能驾驶走向低价格车型是一大趋势,而另一个方向则是以特斯拉、理想等企业引领的VLM和VLA,继续挑战自动驾驶的上限。
2024年7月,理想汽车智能驾驶发布会上在其端到端智驾系统外增加VLM(Vision-Language Model视觉语言模型)系统,并于去年底全量推送至AD Max用户,成为国内首家使用VLM的方案。此后,极氪、小米和元戎启行也在自家的端到端系统中加入了VLM。
简单来说,VLM就是一个多模态大模型,能够同时处理和理解视觉信息(如图像、视频)和语言信息(如文本)。理想将自动驾驶系统分为系统1和系统2,其中系统1就是前文描述的全局端到端结构,用于处理驾驶中95%的任务,类比人类根据直觉做出反应的过程。

系统2则采用多模态大模型的训练方式,在这里理想使用的是基于通义千问70亿参数模型Qwen-7B为基座语言模型研发的Qwen-VL多模态模型。
视觉语言模型推理时同时接收视频和来自系统1的语言(理想为其编写了智驾系统的Prompt库)输入,输出它从视频中理解到的信息来辅助系统1,完成智驾系统剩下5%的逻辑思考能力。

既然全局端到端的自动驾驶系统已经非常强大了,为什么还需要VLM模型?一方面是因为端到端模型属于黑盒模型,它是模仿人类在行人前停下而停下,但它并不能解释自己是因为防止撞到行人而停下。
另一方面,端到端处理不了长尾问题,也就是人类开车都没见过但可能存在的场景。举个例子,假如路上出现一个外星人,人类没见过也知道要躲避要逃跑,但端到端的模型因为用来训练它的数据集里没有外星人便无法识别,顶多能做到避障。
VLM便可以很好的解决这两个问题,因为它是多模态的语言模型,具备了对世界一定的理解能力,也就是知识驱动而不单单是数据驱动的。同时,语言模型具有推理能力,也可以对自己做出的决策进行解释,一定程度上辅助模型可验证提升。
VLM具体有什么用呢?根据理想的演示,在坑洼路面前(下图左),端到端模型在未检测到障碍物后继续保持高速行驶,而VLM在理解坑洼路面会造成颠簸后主动提示系统1减速。在另一个例子中,车辆左转时错误驶入了主路(导航规划为辅路),VLM再次通过自己的判断能力提示系统1修正路线。VLM还可以识别、理解潮汐车道、交警手势等过往的端到端训练数据中没有的场景。

VLM模型发展迅猛,在去年理想首次公布时采用的还是两个模型互帮互助,就在几天前的2/25,理想联合港科大等学者发表了融入VLM后的端到端模型,将文本输入集成到BEV空间中以实现语义层面的监督,随后一同送往端到端的自动驾驶模型。

实际上,理想汽车此举正是在尝试将VLM的范式推向更深层次的VLA。VLA全称为视觉语言动作模型(Vision-Language-Action),最早用于机器人领域,是谷歌DeepMind于2023年7月推出用于控制机器人的模型。
VLA融合视觉、语言和动作三者的数据与推理能力,通过语言模型的逻辑链(Chain-of-Thought)支持复杂场景的长时规划,实现从感知到决策再到执行的闭环。
VLA与VLM的核心区别在于模型一体化、数据闭环和思维链推理,从端到端的感知输入和视觉语言输入到对汽车动作控制信号的输出完全由一个模型完成,使用同一套数据训练和推理。因此,VLA也被视为端到端和VLM的合体,而VLM也因此被视为端到端向VLA的过渡阶段。

VLA目前依旧是处于早期阶段的技术和概念,车载领域目前主要是谷歌旗下的无人驾驶出租车公司Waymo开始早期应用。但同时,VLA被视为自动驾驶从L3迈向L4的钥匙,因此被车企追捧,包括华为、理想、百度和元戎启行在内的众多自动驾驶企业都在积极布局。
无论是VLA还是VLM,多模态大模型的引入都意味着参数量的指数级上升,例如理想的一体化端到端(也就是系统1)模型有3亿参数,而VLM(系统2)有着22亿参数。这无疑意味着VLA/VLM对算力芯片的需求拉动。
简单总结,自动驾驶经历了从规则驱动到数据驱动再到知识驱动的范式转变,第一阶段靠人为定义规则,第二阶段靠海量数据模仿,而第三阶段靠的是对真实世界中的物理规则的理解。自动驾驶系统也经历了从模块化到模块化端到端再到全局端到端的架构转变,对于数据的保留和使用效率不断提升。
至此,我们不禁感叹AI和神经网络的发展速度。从2012年使用CNN识别图像大火到2021年BEV+Transformer构建时空关系跨越了近10年的时间,而从21年到23年的端到端正式落地不过两年时间,再到24年的VLM的多模态大模型上车仅相隔了一年之久。
回看端到端,正如Andrej Karpathy所言,“端到端不是技术终点,而是新起点”。可以预见的是,2025年将会是继续加速发展AI大模型上车,打造真正理解世界物理规则的自动驾驶。
转自: https://mp.weixin.qq.com/s/HT4XJARQX69xGNoQi5HYtA
还没有评论,快来抢沙发!