2021年12月理想推出高速NOA,2023年6月宣布“开城”,2024年7月开始推无图化“全国都能开”,到2024年底推送基于端到端和VLM的新一代系统。

从技术架构上看,理想汽车采用多传感器融合方案,同时配置激光雷达、毫米波雷达、摄像头和超声波雷达。软件系统上,理想经历了从规则化到两段式端到端再到如今的全局端到端One Model+VLM模式

根据理想在去年夏季智驾发布会上的介绍,理想的新一代智驾系统的具体结构包含系统1和系统2,系统1为从感知到执行的全局端到端神经网络,用于处理驾驶中95%的任务,类比人类根据直觉做出反应的过程。系统2是一个多模态大模型,被用来辅助系统1完成剩下5%的决策。

具体来看,系统1的端到端和特斯拉相似,通过BEV+Transformer+占用网络感知,能够同时认出白名单物体并感知到异形障碍物,完成避障。决策模块则通过模仿学习和强化学习实现端到端闭环。目前,理想的系统1已实现全局端到端,也是国内首家落地车企。

系统2作为多模态模型,其输入为前视摄像头的画面和系统1的提问,通过思维链理解画面中的语义信息,比如看到坑洼路段要减速,以此来实现自动驾驶系统对于真实世界物理规则的理解,而不是单纯的识别和模仿人类,进而改善系统表现。VLM概念或许并不是理想最先提出,但却是它最先落地,这一次理想的创新可谓走在了特斯拉前面。

华为鸿蒙智行


02

华为智驾方案于2021年4月首发,目前已从ADS1.0迭代至ADS3.0。早期的ADS1.0同样追随特斯拉的脚步,在BEV空间融合数据并完成感知,决策模块则依赖规则算法,此时的自动驾驶实际上只是辅助驾驶和高速NOA,城市NOA功能仅少数城市可以用,而且依赖高精地图。

2023年4月华为推出ADS2.0,再次效仿特斯拉引入类似占用网络的GOD网络。GOD全称为通用障碍检测(General Object Detection),也是将环境划分为立方体(体素网格),然后判断每个体素是否被占用。


GOD在BEV仅能识别已知白名单内目标的基础上完成异形障碍物检测,也就是对系统不认识的障碍物也能躲避。ADS2.0为华为实现了去高精地图和全国都能开,也标志着华为智驾系统走向成熟。

到了去年4月,华为推出乾崑ADS3.0智驾系统,摒弃BEV空间,仅由GOD神经网络实现白名单目标和异形障碍物识别,且能够对物理世界场景进行理解,实现车位到车位。BEV作为一经特斯拉推出便成为行业共识的感知方案,为何华为能不再需要呢?


特斯拉最开始构建BEV的初衷是为了更好的融合不同摄像头并完成2D向3D的升维,并做出全局的目标识别和预测。可是,华为的硬件配置中还有激光雷达和4D毫米波,而这两者输出的信息本身就是三维的。


如此一来,ADS3.0可以直接利用激光雷达的原生3D点云数据构建高精度3D占据栅格,完成对3D感知空间的构建,然后用神经网络学习不同传感器给出的特征之间的关联。这样做的好处有二,一是避免构建BEV时的信息损失,二是通过更直接和高效的利用各传感器数据实现更高级别的物理规则和场景理解

从第一点来看,纵然有端到端网络和强大的Transformer架构加持,构建BEV本质上还是从2D投影到3D空间,难免有些部分需要“脑补”,造成原始信息损失。


直接使用激光雷达构建的3D空间可以保留全部原始数据,同时还因为减少了将整个场景对齐到统一坐标系并对每个物体进行轨迹预测所需要的大量算力,尤其是复杂场景下数据量极大,构建BEV可能会出现延迟。


从第二点来看,各个传感器获取和输入的数据可以很多样,比如同一块石头,摄像头可以通过“看”来识别是什么、在哪、有多大,激光雷达可以计算反射率从而知道材质、纹理,毫米波则可以捕捉它的速度,多传感器之间不仅仅是冗余的关系,还可以推断物体在物理上的关联性


显然,将数据融合至BEV空间会一定程度上忽视这些信息。因此,摒弃BEV后的GOD可以学习多样化特征,具备场景理解能力。


如果能让模型学习到这些不同特征之间的物理关联,那么感知模型就能理解其背后的物理规则。举例来说,GOD可以通过视觉识别的“红色圆形”与激光雷达检测的“悬空物体”结合,推导出“红灯”语义。


遇到交警指挥时,GOD可以通过摄像头识别手势动态、激光雷达判断交警是否站在路中央(排除行人干扰),甚至还可以观察周围车辆的行为反推交警意图。


听起来是不是和理想的VLM有相似之处?理想的VLM是依赖视觉语言和思维链推理完成对场景理解的,华为的GOD方案则是根据物理规则,训练一个多模态(包含了摄像头、激光雷达和毫米波雷达)大模型在识别和预测目标的同时直接推导物理意义。与VLM相比,GOD更加接近人类的感知模式,同时在感知效率和场景泛化上都强于VLM。

对物理规则和场景的理解能力正是ADS3.0的杀器之一,也是华为的一大创新之处。从根本来说,无论是华为的GOD还是理想的VLM都是在朝着VLA和世界模型的方向演进,也就是自动驾驶系统能够真正理解真实世界物理规则。


除了GOD的创新外,决策层面华为亦有创新。在决策模块华为采用的是集预测、规划和决策一体的端到端模型,称为PDP网络。PDP本质上和特斯拉的端到端类似,也是采用模仿学习和强化学习的方式让系统表现更加拟人。


不过,ADS3.0在此基础上还引入了华为自研的博弈机制,简单来说就是可以预测其他交通参与者的意图,然后做出经过博弈后的合理反应,比如判断有车要加塞且自身距前车距离大时可以加速防止加塞。在深圳实测中,通过预判他车行为,华为将加塞场景通过率从特斯拉的62%提升至89%。