自动驾驶系列5:深度!一文看懂端到端智驾系统的过去、现在和未来
目
录
1. 感知:走向BEV+Transformer+OCC
2. 决策:走向端到端
3. 自动驾驶算法的未来:VLM到VLA
1. 感知:走向BEV+Transformer+OCC
在此前的系列文章中,我们已经看到自动驾驶系统可以分为感知、规划、决策和控制模块,并且对摄像头、激光雷达、毫米波雷达和超声波雷达这四大感知硬件的原理和特点有了认识。硬件只是获取信息的来源,就像人脑需要处理眼睛、耳朵接收到的信息才能做出决策一样,自动驾驶系统也需要能够对感知到的信息进行处理。
整体来讲,感知和决策是自动驾驶中最为复杂且难以实现的部分。另外两个模块中,规划可以理解为现在的导航干的事,而执行就是根据决策输出的信号控制方向盘和油门、刹车来完成转向和加减速。
在感知模块,处理硬件接收到的信息主要有两个目的:识别目标和预测轨迹。识别目标的意义在于看清楚周围环境中有什么和是什么,比如红绿灯、道路线、行人等,输出目标的类别、位置、尺寸等信息。预测轨迹则是对目标运动的方向、速度能做出预判,以做出更好的决策。
由于特斯拉是自动驾驶技术的行业标杆,许多创新都由特斯拉提出后国内厂商跟进,因此我们以特斯拉为例介绍主流技术发展脉络。从感知侧来看,特斯拉近些年分别经历了硬件层面上从多传感器融合路线走向纯视觉路线和软件层面上从2D+CNN技术走向BEV+Transformer以及如今的OCC占用网络。

在进一步展开介绍之前,有必要了解一下神经网络的故事。在2012年以前,神经网络是一项很早就被提出但因为计算效率低而不好用进而被冷落的技术。2012年,AI历史上具有划时代意义的AlexNet出现,研究团队使用CNN(卷积神经网络)在当年的ImageNet视觉识别大赛上首次将图像识别错误率突破25%来到15.3%。AlexNet的成功引爆了深度学习革命,也在那一年促成了GPU并行计算的地位和英伟达的未来。
CNN在图像领域的实践也被延伸到自动驾驶的感知算法当中,也就是对用摄像头拍下的2D画面进行学习和识别。图片是由像素点构成的,而每个像素点都可以由一组数字进行表达(比如彩色图像用红R、绿G、蓝B三个颜色通道的数值来描述颜色信息 ,每个通道的取值范围为 0 – 255)。

CNN首先通过卷积层的卷积核在图像上的像素点上挨个滑动进行卷积操作,这一步是为了提取图像不同层次的特征,比如边缘、纹理等。之后,这些特征经过池化层进行降维处理,在保留关键信息的同时减少数据量。最后,全连接层将提取的特征进行整合,并通过分类器计算图像属于各个类别的概率,从而完成图像识别。

通俗点说,CNN 就像一个 “探险家”,它用一个个 放大镜(卷积核)在图像上滑动,收集颜色、纹理等信息,然后将其汇总、提炼,就能知道图像里画的是什么。2D图像+CNN的模式是一直是感知模块的核心算法,它的逻辑在于给汽车看过足够多的图像后它就可以学会认出哪些是红绿灯、哪些是人等等。
基于CNN的技术,特斯拉于2019年提出了名为HydraNet的神经网络架构,用于目标识别。在这个结构下,摄像头的原始输入先经过一个叫做RegNet的主干网络提取特征。RegNet是由Facebook提出的基于CNN的神经网络,具有高效和精准的特征提取能力。随后,这些特征被送入BiFPN模块来增强特征表示能力并对目标进行一次识别。
还没有评论,快来抢沙发!