这就导致如下图中间的那幅图展示的结果,摄像头转化成向量空间后的信息很难使用,特斯拉需要先融合所有摄像头到BEV空间后再统一进行识别。

之前提到,2021年以前特斯拉使用的是基于人为规则的算法将多传感器输入进行融合并从2D画面升维到3D的,这个过程存在大量信息损失。构建3D向量空间需要深度信息,很多车企在这一步都因为视觉算法实现过于艰难而转向激光雷达来直接提供3D数据输入。
由于特斯拉坚持纯视觉路线,因此在2021年特斯拉开创性的首次引入了Transformer模块,基于此实现从多个单摄像头的二维图像空间到一个统一的三维BEV空间的端到端变换。

在语言大模型火爆了两年之久的今天,Transformer已经成为其基础架构,它的核心是自注意力机制,通过一次性计算输入序列中所有位置(也就是上下文)之间的相关性权重,相关性较高的元素给予更多的注意力,进而捕捉全局逻辑关系。在大语言模型中,Transformer处理的输入是文本单元(Token),例如单词或子词片段。
在自动驾驶系统中应用Transformer技术极为复杂,简单来说就是Transformer需要处理的对象从Token变为图片,也就是一个个的像素点,或者说经过CNN处理后的像素点背后的特征。
Transformer可以通过计算每个摄像头拍下画面中的特征与其他特征之间的关系,通过交叉注意力机制来确认其在3D空间中所对应的位置,从而将多摄像头特征映射到统一的BEV空间,完成八个摄像头输入的升维与融合。

通过Transformer实现的BEV空间带来了几个重要提升,首先所有传感器的数据得以进行端到端的特征级融合,减少层层处理以及先验规则带来的信息丢失;其次,Transformer提供了全局的感受野,而CNN 则是通过卷积核提取局部的相关性也就是局部感受野,因此Transformer对特征学习能力更强。
此外,在BEV空间下不会出现像此前大卡车无法被单个摄像头捕捉全貌而无法识别的问题。进一步看,这是因为Transformer可以融合处理时间数据并加入记忆模块,使得BEV空间从3D变成时序融合下的4D空间,可以在物体被遮挡时继续根据依存关系预判它的位置,也可以对其他目标的动态进行预测。
从下图可以看出,使用BEV+Transformer后感知到的向量空间对车道的识别能力远远超过过去基于2D+CNN再通过计算升维和融合后的感知结果。

这套方案带来的还有一个优势在于能够处理多种corner case(冷门场景),比如感知复杂道路、恶劣天气和动态交通,从而不再需要依赖高精地图给出的信息,使无图化自动驾驶成为主流。

BEV+Transformer的出现具有划时代意义,它重新定义了感知模块的范式,在它公布后到今天的三年里,国内头部自动驾驶车企如华为、理想、小鹏、蔚来等悉数跟进,采用这种方案进行感知已成为自动驾驶界主流。
做一个简单的总结,虽然各家自动驾驶公司的算法细节各有不同,但BEV+Transformer方案的总体思路就是多传感器输入数据、骨干网络提取特征、所有传感器数据融合并转换至BEV空间(2D>3D)、引入时序信息(3D>4D)-输出目标识别和轨迹预测。
2022年,特斯拉开展了第二次AI Day,揭示了在HydraNet和BEV+Transformer基础上增加了的全新OCC(Occupancy Networks)占用网络。
通过BEV+Transformer构建的3D空间本质上还是对特征级融合的2D空间的映射,它并不完美,如果看到不属于数据集的物体,或者不规则的长尾数据时摄像头无法识别特征,那BEV就无法感知。
还没有评论,快来抢沙发!