接下来,经过识别和融合后的众多目标被送入多个不同的“头”进一步识别。不同的头分管不同任务,比如有的负责车道预测,有的负责红绿灯识别,据说特斯拉的网络中具有超过50个头分管不同任务,也因此得名HydraNet——九头蛇。

这样设计的原因在于感知任务非常复杂,比如对不同目标的识别,甚至像红绿灯还要看清是红灯还是绿灯,若分别训练多个神经网络则成本高昂。


采用HydraNet的结构,所有输入的数据通过共享的主干网络实现特征共享,减少了重复计算。另外,由于不同的头都是相对独立的神经网络,可以根据具体情况单独微调,提高检测性能。


此时,不同摄像头识别过的特征还是相互独立且是二维的,特斯拉还需要通过人工规则将它们“缝合”在一起并投射到适用于真实世界的3D空间。至此,八个摄像头检测的特征(注意是特征不是原始画面)被融合在了一起。

数据融合方式


03

上述网络结构中涉及到很重要的一个概念是数据的融合处理,无论是多传感器融合还是纯视觉方案,神经网络接收到的数据都是由多个硬件输入的(比如特斯拉的8个摄像头),因此需要融合数据,将它们整合成一个时间和空间同步的数据源。基于融合发生在数据处理的不同阶段,可以分为前、中、后融合三种方式

首先来看后融合,也称为目标级融合。在这个方案下,不同传感器获得的数据首先通过各自不同算法独立处理,得到各自的关于目标的数据,再将这些数据在决策模块前由主处理器进行融合。

上面提到的HydraNet结构在早期(2021年前)特斯拉采用的就是后融合方法,即八个摄像头的原始数据分别由各自的主干网络提取特征、各自的多个头识别目标,之后再进行融合


对于多传感器路线这种融合方式更受青睐,因为不同传感器的数据可以单独进行处理,融合模块设置不同场景、不同传感器的置信度,最终输出融合结果用于决策,对车企和硬件供应商而言都更易于解耦和研发。


然而后融合存在信息损耗高的问题,由于现实世界是3D的,而摄像头拍摄的画面是2D图像,因此在HydraNet中算法需要逐张提取2D特征后将其投影到3D空间。同时,采用激光雷达生成的是点云数据,这个结果直接是3D的。


如此一来就会有两个步骤导致信息损失,一是摄像头在2D空间感知后通过计算升维到3D时需要对每个像素的信息进行精准的深度预测,算法难度大。而且如果物体因自身体积过大(如大卡车)而横跨多个摄像头出现,分别提取特征后融合显然无法对这个物体准确感知。


第二个问题在于不同传感器输出的数据特征是通过基于规则的(rule-based)方式融合到同一坐标系中而非端到端的,存在人为定义接口的问题。比如人为定义的摄像头输出特征并不能代表摄像头捕捉和提取到的全部特征,由此一来造成信息传递过程中的损失。


与后融合相对应的前融合可以更好的保留原始数据,前融合也称为数据级融合,也就是在所有传感器收集到数据后直接进行融合,统一成一整组数据后再进行目标感知。


显然,前融合可以最大限度的在融合时保留原始数据,但异构数据的直接融合对算法、存储和算力要求太高。

为了解决前融合和后融合的不足,BEV空间的概念应运而生,采用特征级融合。这一概念由特斯拉于2021年首发,此后迅速成为自动驾驶界的主流。


特征级融合先在特征层面融合不同传感器数据,然后再进行感知和识别等任务。特征级融合在前融合和后融合之间找到了平衡,在不消耗大量算力和造成大量信息损失的同时实现了不同传感器数据的融合。

2021年:BEV+Transformer重新定义感知


04

以上我们提到的HydraNet在2021年前都是基于2D图像+CNN技术的,在2021年的特斯拉AI Day上,特斯拉在HydraNet基础上加入BEV,并首次将Transformer引入自动驾驶的神经网络模型。这是自动驾驶感知侧的一次重大范式变革,BEV+Transformer重新定义了感知模块,并且将其性能带到了全新的高度。


BEV(Bird's Eye View)指的是鸟瞰视图,它带来的改变主要有两个,一是在目标识别前先融合不同摄像头的数据,二是通过Transformer架构这个端到端的模式实现2D向3D的变换,取代原来的基于人为规则的算法计算。


具体来看,特斯拉首先还是通过RegNet+BiFPN主干网络对不同摄像头拍下的画面进行特征提取,然后通过融合八个摄像头拍到的周围环境画面形成一个2D平面俯瞰图(也就是特征级融合,和此前的后融合不同),相当于在车辆正上方10米处向下俯视车辆及周围环境,也被叫做“上帝视角”。

表现在HydraNet的结构上,BEV是夹在主干网络和用于具体任务识别的多个头之间的夹层,也就是先融合后识别。虽然是2D的鸟瞰视角,但BEV实际上是和现实世界一样的3D向量空间,这是为什么呢?


据时任特斯拉自动驾驶负责人Andrej介绍,此前先识别、再融合、最后统一升维到3D的思路最终交出的结果存在巨大困难和缺陷,比如前文提到过的人为定义的数据融合规则问题和单个摄像头无法拍摄某个物体全部画面时的缺陷。