自动驾驶系列1:洞察产业变革,预见商业新局


随着特斯拉在去年11月的Robotaxi Day上宣布FSD今年有望携手Robotaxi一同进入市场,自动驾驶似乎已经离我们越来越近,有望成为继生成式大模型后下一个爆发的风口,打开全新的万亿级市场。从本篇开始,我们通过一系列文章梳理自动驾驶投资主题下的知识,寻找潜在的投资机会。


作为系列的第一篇,本文将首先介绍关于自动驾驶的基础知识和产业链的变革,随后将重点探索其商业落地的前提条件和潜在模式以及引发的变革。


图片


1. 基础知识

2. 产业链变革

3. 配套条件:安全、法规、保险

4. 商业模式



1. 基础知识

根据国际自动机工程学会(SAE),业界对自动驾驶按驾驶员参与程度分为L0-L5六级,是评估和引导自动驾驶发展的重要标准。具体来看,L0到L2阶段均属于辅助驾驶,以驾驶员操作为主,自动驾驶功能主要包括车道偏离预警、自动紧急制动、自适应巡航等。从L3开始,辅助驾驶转向自动驾驶。L3 阶段是条件自动驾驶阶段,可在一定条件下,系统完成所有驾驶操作。到了L4和L5,自动驾驶的条件逐步放开,系统最终实现完全自动驾驶。

当前,L2级辅助驾驶在商业化上已发展成熟,2023年在我国的渗透率达到37%。2019年,特斯拉开始推送NOA(Navigate on Autopilot)功能,可根据地图数据和传感器信息,在高速公路等特定场景下自动驶入、驶出高速公路,自动变道等,接近实现L3。国内品牌也迅速跟进,在L2的基础上推出自家的类似NOA功能,比如蔚来的NOP(Navigate on Pilot),华为的NCA(Navigate Cruise Assist),以及小鹏的NGP(Navigation Guided Pilot)。不过,大多车企会以L2+/L2++等来凸显自身产品功能,以规避监管压力以及潜在的事故责任。

NOA 的出现和逐步成熟标志着自动驾驶从 ADAS(Advanced Driver Assistance System高级驾驶辅助系统)到 FSD(Full Self-Driving完全自动驾驶)的过渡。NOA 分为高速 NOA 和城市 NOA 两种应用场景,其中高速场景相对简单,主要包括自动汇入主路、主路巡航行驶、智能选车道和自动驶离高速等功能。当前多数车企已实现高速NOA,城市NOA则因为城市路况复杂、环境多变等因素而较难突破,当前仅头部车企如特斯拉、华为、蔚小理等实现落地。

以上我们从产品角度对自动驾驶进行了划分,下面来看技术层面的基础架构。实现自动驾驶主要通过四个核心模块:感知、决策、规划、控制。 感知模块主要负责周边信息感知和检测,就像我们人类驾驶员观察周边情况,通过各类传感器(包括摄像头、激光雷达、毫米波/超声波雷达)的输入数据,输出车道线、行人、车辆等的位置和轨迹等信息。


决策模块主要负责预测车周物体的运动,规划模块则主要负责计算车辆下一时刻的运动路径。决策和规划在一起可以被看作人类是如何选择路线的。最后通过控制模块执行决策,生成具体的加速、转向和制动指令,控制驱动、转向、制动和悬架系统。这一过程在人脑中是很快学会并运用的,但在机器世界则是一套极为复杂的算法和硬件的结合并且配合大量的学习数据才能实现。在后续的系列文章中,我们将依次拆解每个模块的具体情况。


2. 产业链变革

汽车电动化、智能化程度的加深带来了诸如电池、人工智能等多个交叉领域的机会和新晋参与者,汽车产业链也正在经历一次重大变革。传统的汽车供应链是Tier3、Tier2、Tier1的垂直供应模式,主机厂(整车厂)不用跟Tier3和Tier2的供应商打交道。汽车智能化意味着更加依赖芯片、算法、软件等底层产品,因此二、三级零部件供应商将在产业链中扮演更重要的角色。

在自动驾驶最核心的算法领域存在着两条不同的发展路线。传统的主机厂一般采用渐进式路线,主张从L1、L2、L3逐渐过渡到L4,在量产车上先搭载辅助驾驶并收集数据,优化算法,逐步攻克自动驾驶各项核心环节。另外一条路线是跃进式,即直接以L4无人驾驶为目标进行研发,通过大规模车队获取路测数据来训练算法,代表厂商以Waymo和百度类科技企业以及小马智行和文远知行类初创企业为主。

由于存在着众多不同的新参与者,智能驾驶的产业链中上游也因此演变出了四种合作模式。首先是传统的“Tier1模式”,Tier1 供应商为主机厂OEM 提供芯片选型、域控制造、应用算法与整车集成的完整方案,是传统的成熟合作模式。传统的Tier1供应商有诸如博世、大陆、采埃孚等大型知名汽车供应商。


然而,传统的Tier1供应商能力优势多集中于硬件,在自动驾驶的芯片、算法等领域相对落后,因此自动驾驶集成商的角色应运而生,也就是“Tier0.5模式”。在这个模式下,集成商直接采购芯片和其他工具链,并通过Tier1供应商制造硬件,最终将完整的自动驾驶解决方案给到主机厂使用。由于集成商处在传统Tier1和主机厂之间,因此被称作Tier0.5,它标志着原Tier1沦为硬件代工厂。


Tier0.5集成商目前既有从整车厂孵化出来的,如长城旗下的仙豆智能、吉利旗下的亿咖通等,也有独立的解决方案提供商,华为和北汽、长安合作的极狐和阿维塔就属于这种模式,跃进式的算法研发公司也多以这种形式和车企合作。


除了Tier1和Tier0.5模式外,还有“主机厂自研模式”,这是车企为加深自身对于技术的掌控能力,绕过Tier0.5的角色直接负责算法以及芯片采购,并交由Tier1负责生产及整车集成,像蔚来、小鹏、理想等新势力就是这种模式。最后,特斯拉的模式最为特殊,被称为“深度自研”,也就是自己搞定全部应用算法开发、自研芯片设计及整车集成的全套方案设计。

未来自动驾驶进一步完善,可以预见的是产业链将走向Tier0.5和OEM自研模式的两极分化,也意味着有能力的车企将以自家技术优势建立壁垒参与竞争,而无法独自研发算法等技术的车企可以寻求Tier0.5和Tier1的解决方案商获得自动驾驶能力,并与他们分成。


从产业链具体环节来看,上游主要是支持自动驾驶技术各个模块的零部件供应商以及解决方案供应商,也就是所谓的Tier0.5、Tier1、Tier2和Tier3供应商。如前文所述,这里感知层主要包括激光雷达、毫米波雷达、超声波雷达和摄像头等硬件,不同的自动驾驶技术实现路线也会选择不同的硬件组合,比如纯视觉路线只是用摄像头。在决策层还有计算芯片、域控制器等硬件,执行层有线控转向和制动等。

产业链的中游是各大汽车主机厂,其中包括传统品牌(如BBA、比亚迪、大众)和新势力品牌(如特斯拉、蔚小理、小米)。

最后是产业链的下游,包括各种应用场景和汽车后市场。随着自动驾驶的发展,汽车的下游会出现越来越多的运营商,负责运营无人驾驶出租车Robotaxi,这里既有传统的各大网约车平台如滴滴、曹操出行、首汽约车等,也有新兴的无人驾驶车队如百度旗下的萝卜快跑、小马智行、文远知行。此外,车险公司也将在自动驾驶事故赔付中扮演更加重要的角色。


3. 配套条件:安全、法规、保险

当前自动驾驶市场已经经历起步期和成长期,逐渐步入成熟期。根据招商证券数据,预计到 2026 年全球智能汽车销量将达到 0.56 亿辆,渗透率提高至 80.3%,而中国销量将增至 0.2 亿辆、渗透率81.2%;到2030 年全球销量进一步上升至 0.82 亿辆,渗透率96.7%,中国销量达到0.3亿、渗透率99.7%。2023-2030 年,预计智能汽车销量的年复合增长率将达到 10.9%

这些数字意味着5年内我们将看到市面上的绝大多数车辆都是自动驾驶,这将极大改变人们的生活面貌。不过,实现这一前景还需多种条件配合达成,这也是驱动自动驾驶渗透率提升的关键基础。在这里我们来看三个主要的方面:自动驾驶安全性、自动驾驶事故责任的法规、自动驾驶的保险赔付


首先来看安全性,一项新技术的普及需要经历从能用到好用的阶段,而自动驾驶能用的关键前提之一便在于安全,毕竟如果不安全那没人会用。关于安全性,可以通过事故率、接管率衡量。


事故率:据统计,乘用车事故中,有 81.5%为驾驶人因素导致,这些因素其中 79.9%为驾驶员的主观错误,20.1% 为驾驶人的能力受限。由此可见,人为因素是车祸的首要原因,而自动驾驶系统由于不会违反交通规则、疲劳、酒后驾驶等,能极大减少因驾驶人产生的交通风险。从数据来看,小鹏曾宣称其 XNGP的事故率仅为人工驾驶的 1/10,特斯拉FSD的每起事故所需行驶英里更是远超人类驾驶员。

接管率:安全性不仅来自低事故率,还有用户对于系统的信任程度,如果需要频繁手动接管自动驾驶车辆,那势必会极大打消使用积极性。从2023年的数据来看,无论是高速还是城市NOA都普遍需要多次接管。接管率和事故率的共同下降才有望加快渗透率的提升。

除了安全性外,法律的保障也格外重要。逻辑上说,L3级别以上的自动驾驶由于是汽车完成操作,事故责任也应属于汽车制造商。早在2021年,德国《自动驾驶法》通过,允许符合条件的L3自动驾驶车辆事故责任属于车企而不是驾驶员。然而,国内当前立法暂时没有这样规定。


首先,现行的《中华人民共和国道路交通安全法》未将传统汽车与自动驾驶汽车作区分。其次,全国层面政策目前主要参考2023年11月由工信部、公安部等四部门联合发布的关于开展智能网联汽车准入和上路通行试点工作的通知》,具体相关内容并未明确划分责任:“车辆在自动驾驶系统功能激活状态下发生道路交通事故造成人身伤亡、财产损失的,由保险公司在保险责任限额范围内予以赔偿;不足的部分,按照《中华人民共和国道路交通安全法》第七十六条规定确定各方当事人的赔偿责任”。


不过,各地地方政府陆续发布相关政策法规。北京市在去年6月发布的《北京市自动驾驶汽车条例(征求意见稿)》中将事故责任划分给了车辆所有人,但保留了向主机厂追偿的政策空间。

在去年12月30日,《武汉市智能网联汽车发展促进条例》获批,明确了对于没有驾驶员或安全员的自动驾驶事故由管理人承担。此举可能主要是针对像萝卜快跑这样的无人驾驶出租车,但对于具有驾驶员的情况依然将责任定给驾驶员

由此可见,地方和全国层面对于自动驾驶事故责任划分给汽车生产商的政策和立法尚有待完善,这样的划分是消费者选择放心使用自动驾驶的重要前提条件,但也是主要的争议所在。


保险赔付或许能成为当前技术尚不完全成熟时解决这一矛盾的关键工具,而赔付的具体范围很大程度上取决于车险的保费。传统车险定价主要基于车辆与车主的相关因素,像车辆的品牌、型号、使用性质,以及车主年龄、性别、驾龄等特征确定保费 。这种定价方式下同一类别车主保费差异小。例如,一辆价值 20 万元的家用轿车,30 岁的男性与女性车主,若无出险记录,保费相差无几。


随着汽车上的传感器增加,可收集到的驾驶数据更为全面,使保险公司得以构建 UB(I Usage-Based Insurance, 基于使用而定保费的保险)的新型定价方式。UBI模式下,车险定价基于车辆使用情况和驾驶行为等多维度数据定价,包括驾驶员的急加速、急刹车频率、驾驶时段(如夜间驾驶频率)等行为习惯。对于自动驾驶车辆,UBI还需要考虑自动驾驶系统的历史运行数据。如此一来可以针对不同车主给出个性化定价的车险产品。


由于这一过程需要车企提供相应的数据,尤其是自动驾驶时,因此越来越多的头部车企开始成立保险子公司参与车险业务

以行业标杆特斯拉为例,是第一家直接向客户提供保险的汽车制造商。特斯拉最早是与保险公司合作为车主提供有品牌针对性的保险,直到自己成立保险公司开始自营保险业务。特斯拉保险依车辆情况、驾驶时长、承保范围与每月安全分定保费,驾驶越安全,安全分越高、保费越低。首次注册安全分初始为 90 分,每月按此前的驾驶行为动态调整。同时投保周期缩至月,可按月投保。这种 UBI 保险以 “千人千面”个性化定价,在比传统车险更加公平的同时也激励了更加安全的驾驶行为。

此外,在特斯拉的安全分评定中,使用 自动驾驶系统行驶的里程会包含在总里程数中,但在自动驾驶运行期间发生的事件不会计入安全分数,这也意味着使用特斯拉自动驾驶功能越多,较高分数的概率越大,保费也就越低,进而激励自动驾驶的普及。因此,保险机制的进一步完善也将推动自动驾驶的快速普及。



4. 商业模式

自动驾驶实现商业落地主要有两种模式,一种是以NOA、FSD的形式进入车主对汽车的日常自用,另一种则是无人驾驶出租车Robotaxi,我们主要来看第一种。长久以来汽车产业的盈利模式都是通过卖车(硬件)赚钱,消费者为硬件付费,在这种模式下整车厂通过规模化降本、品牌溢价获利。


如今,随着自动驾驶、智能座舱等软件在智能汽车中扮演的角色越来越重要,纯靠硬件付费的模式正在改变。类比互联网模式,智能汽车将走向消费者为知识、软件、服务付费。这一转变的关键基础在于技术层面上汽车电子电气架构从分布式向域集中转变,带来的是软硬件的解耦。


自此,底层软件与上层应用分开,软件架构向服务导向发展,为 “软件付费” 模式奠定基础。如此一来,硬件成为软件用户的入口,车企可通过低价售车以探索软件盈利空间。


软件层面的盈利模式参考互联网主要有两种:买断或订阅。订阅模式为车企提供稳定的汽车售后市场营收来源,是车企渴望的模式。在实践中,订阅模式在消费者心中的心智也在上升。

根据开源证券的总结,当前车企对于城市 NOA 的收费方式可以分为四类:(1)硬件标配、软件付费;(2)硬件选装、软件免费;(3)硬件选装,软件付费;(4)硬件标配、软件免费

这四种模式可总结如下:

1)硬件标配、软件付费:车型全系标配城市 NOA 硬件,成本含在车价,使用该功能需单独付费。蔚来全系等车型采用此方案,或是因硬件成本低、或是因车辆定位高,对消费者决策影响小。

2)硬件选装,软件付费:不同版本车型或选装配置,带城市 NOA 的版本售价更高,选后还需再付费开通功能。问界全系等车型用此方案,既照顾不同需求用户,又能提升自动驾驶盈利。

3)硬件选装、软件免费:加价选购带城市 NOA 的车型后,无需为该功能单独付费。理想 L 系列等车型采用,兼顾产品多样与用户情绪,可收集数据,但成本会体现在车价中。

4)硬件标配、软件免费:车价全包城市 NOA 软硬系统,适用于定位高端、目标用户对价格不敏感的车型,如阿维塔 011 等。


不过,许多车企目前由于迫切希望提升自家城市NOA产品的渗透率,多采取短期内以价换量的方式,先培养消费者对自动驾驶的心智和体验,实现早期的规模化。从长期来看,这种软件优惠大概率无法持续,展望未来,软件订阅的模式有望成为主流

特斯拉的FSD采用了买断和订阅的两种模式,北美 FSD 买断价格为8000美元,订阅价格为99美元/月(此前为199美元/月)。8000美元的价格相比一辆定价在3-4万美元的Model 3/Y是较高的买断门槛,特斯拉此举也意在鼓励消费者选择订阅模式。同时特斯拉的FSD跟车不跟人,考虑到车辆寿命与增换购需求,订阅模式对于用户选择灵活性更大,也有助于采取订阅模式。

作为自动驾驶商业落地的另一种模式,无人出租车Robotaxi也同样有着广泛的市场潜力。Robotaxi与网约车盈利模式相似,平台通过根据供需定制价格来匹配用户和司机,并赚取服务费,是网约车的直接竞争者。Robotaxi的出现引入了新的参与者,即无人驾驶车队运营商,他们可以是像滴滴的共享平台,也可以是诸如萝卜快跑、Waymo的无人驾驶车队,甚至个人购买的带有自动驾驶功能的车辆也可以在闲暇时加入无人出租车车队为车主赚钱,就像马斯克描述的那样。


此外,以特斯拉为例,除了Robotaxi的出租车形式外,自动驾驶还会普及到类似Robovan和Robosweeper等特种领域。Robovan是特斯拉在Robotaxi后推出的无人厢式货车,可作为公交车(载20人)也可用于货物运输。Robosweeper则是文远知行推出的无人扫地车,可实现自动化作业。

从商业化角度看,Robotaxi类场景由于有车辆管理人进行规模化运营,在权责划分、保险制度等方面都相对更加成熟,落地进展也更好。例如,去年百度旗下的萝卜快跑在武汉实现了大规模运营,其单量在2022Q1-2024Q1两年时间内翻了四倍。

从上游多元供应商模式的演变,到中游车企的技术角逐与转型,再到下游应用场景的创新拓展和商业模式实现从硬件到软件驱动的关键转变,自动驾驶背景下的智能汽车正在重塑整个汽车产业链。随着技术的持续突破和普及,智能汽车势必将深度融入我们的生活,打开万亿级别的新市场。


转自:https://mp.weixin.qq.com/s/y2qIfF5U06unen1FUh5o-w


自动驾驶系列2:激光雷达,突破感知边界!

在自动驾驶系统中,负责接收信息的感知模块是最为关键的环节之一。感知模块主要由硬件和软件组成,其中硬件负责“感”,也就是接收原始信息,软件负责“知”,也就是分析原始信息并将其转换成数字信号传送给决策和规划模块做下一步分析。


当前,感知模块在技术和产业领域都处于激烈的竞争状态。不同的技术路线与商业抉择,在大力推动自动驾驶技术飞速进步的同时,也让其未来发展前景充满了不确定性。接下来,本文将深度剖析关键感知硬件 —— 激光雷达的产业前景与投资机会。



1. 感知模块全景

2. 激光雷达分类

3. 产业链



1. 感知模块全景

自动驾驶中的感知模块硬件主要包括雷达和摄像头,其中雷达可分为毫米波雷达、激光雷达以及超声波雷达,摄像头则按其安装位置不同,可分为前视、侧视、后视和内置四种类型。


这四种硬件各有侧重,长短互现。其中,摄像头结构相对简单,也是最贴近人类视觉的感知设备。它凭借拍摄画面,识别物体、颜色与距离,并借助算法完成分类。不过,在夜间、逆光以及恶劣天气等影响视线的场景中,摄像头的性能会大打折扣。

超声波雷达依靠发射和接收声波来定位,常用于倒车雷达,是汽车领域成熟的硬件。但因声波传输速度相对较慢,感知精度有限,难以胜任自动驾驶系统的主力感知重任。


毫米波雷达通过发送和接收电磁波,依据反射电磁波的时间差测算物体距离,利用发送与接收电磁波的频率差计算物体速度。该雷达不受天气、光线干扰,具备长距离和动态目标探测能力。然而,它对非金属物体(如行人)的反射效果欠佳,无法全面识别周围环境。


激光雷达通过发送和接收光波来感知,具备中长距离探测与建模能力,对行人检测效果良好,即便在光线不佳的环境中也能正常工作。但在雨雪、浓雾等极端天气下,其性能同样会受到影响。此外,激光雷达的成本一直较高

由于不同传感器的优劣势不同,成本也不同,感知模块在技术路线上分为了基于摄像头的纯视觉路线以激光雷达为主的多传感器融合路线


纯视觉感知方案由特斯拉引领,仅需要处理摄像头的信息,在硬件要求、成本及实时算力需求上都有较大优势,但纯视觉路线需要强大的算力和数据来训练模型迭代,比如截止2024年Q1特斯拉披露已经积累了超16亿公里的数据,具有很大的先发优势。同时,特斯拉已经完成自研芯片D1和超级计算机Dojo的搭建,在数据和算力两项要素上具备坚实积累。


多传感器融合路线一般同时配备上述多种硬件,互相补充,很好的弥补了各类硬件的短板。比如长距激光雷达可用于高精度的目标检测,短距补盲激光雷达做盲点探测,摄像头则可以很好的识别如车道线、红绿灯等周边信息等。


早期开发自动驾驶技术的科技和创业公司大多采取了多传感器融合的方案,而目前大多主机厂也纷纷采用融合路线追赶特斯拉。

理论上,纯视觉路线有着较低的硬件成本和清晰的迭代路径,应是自动驾驶长期主流的发展方向。然而,实际应用中在安全冗余更高的L4和L5阶段纯视觉方案也多遭质疑,比如在摄像头恶劣天气、夜间、逆光等摄像头看不清楚时的安全性

多传感器融合路线因结合多种硬件的优势,在应对复杂环境和满足高安全冗余要求上,展现出了更强的适应性。


对于纯视觉和多传感器融合两种方案产业界的争论颇多,目前尚无定论。这两种方案背后对应着完全不同的硬件选择和研发模式,其核心在于寻找在最低成本下的最优技术解

激光雷达的成本随量产规模上升会大幅降低,而在L3级别以上的自动驾驶对安全冗余的需要更高,摄像头的探测精度尚不如激光雷达。因此,即便特斯拉短期内依靠纯视觉完全实现了自动驾驶,未来也依然很可能会看到两种方案在很长一段时间内共存。

无论是作为多传感器融合方案的核心还是纯视觉方案的安全冗余,抗干扰能力强又同时具备远距离高精度探测能力的激光雷达至关重要,接下来我们全方位拆解激光雷达。


2. 激光雷达分类

激光雷达Light Detection and Ranging (LiDAR)本质上就是通过发射激光来探测并确定目标位置、精确距离、速度等特征量的一种测量装置,早期多用于科研测绘和工业领域,近些年来逐渐走进消费电子和汽车。


目前,激光雷达在技术和产业上都尚未完全成熟,存在多种路线并存的局面。首先我们来看它测距的原理。


激光雷达由发射、接收、扫描、控制及处理四个模块组成,其中发射模块包括激光器和光学系统,主要负责发射激光;接收模块包含光学系统、探测器、放大器等,负责接收回波;扫描模块通过扫描的方式扩大激光探测的范围,主控模块则主要是芯片来运算处理探测的数据。

激光雷达测距的方法主要有ToF(Time of Flight飞行时间)FMCW(Frequency-Modulated Continuous Wave频率调制连续波)两种。ToF简单易懂,它通过测量一束激光从发出到触达目标折回再到接收的时间来计算目标距离,由于光速是恒定的,因此距离S=cT/2,其中c代表光速,T为光波往返的时间。


FMCW方法相对复杂,它通过发送频率连续变化的光束并计算反射信号与发射信号间的频率差(拍频)来测算距离。由于信号的频率在不断变化,激光信号往返目标物体的时间越长,发射信号和反射信号之间的频率差就会越大,因此频率差与目标距离成正比。


假设发射信号的频率已经从 100GHz 增加到 102GHz 的时候,反射信号回来了。如果反射信号的频率还是 100GHz,那么它们之间就产生了 2GHz 的频率差。

那么由于FMCW发出的是线性调频的波,外界干扰信号(如环境中的杂散光或者其他雷达)很难产生与 FWCW 激光雷达同样的频率变化模式。因此与 ToF 激光雷达相比,FMCW方法的抗干扰能力更强


不过,FMCW真正比ToF更强大的地方在于可以在测距的同时检测目标速度。初中物理课上学过的多普勒效应指的是当波源和观察者有相对运动时,观察者接收到的波的频率与波源发出的频率不同的现象。


比如当火车离你越近时你听到的鸣笛声更强,这是因为随着火车变得近了,每一个后续发出的声波都要比前一个声波传播的距离短一点,导致你在单位时间内接收到的声波波峰数量变多,也就是频率变高了。


通过精确地测量反射信号频率的这种变化,结合已知的激光频率变化规律,FMCW就可以计算出目标物体的速度。

然而FMCW法由于对硬件性能要求更高(发出、接收和解析不同频率的激光信号)而成熟度低,成本较高。目前产业界主要还是使用ToF法,不过未来FMCW有望成为主流

由一束激光发射和反射回来的只是关于目标物体的一个点,当我们将发射器快速旋转起来,就可以获得一系列呈 360° 分布的点,也就是扫描一个平面。当我们进一步增加同一时刻发出的激光线数时,这些激光束在垂直方向上分布,就像多根 “线” 一样,将探测范围扩大到一个三维空间,也就是最终的点云图

这便是经典的机械式激光雷达,它通过电机带动光机结构整体旋转实现360°环视,这个角度范围也被称为视场角 (FOV,Field of View)。这个机械式旋转的模块就是扫描模块,根据扫描模块内部是否具有运动器件,激光雷达可分为机械式、混合固态以及纯固态三类,这也是激光雷达最常用的分类方式。


机械式激光雷达是最早进入车载领域应用也是产业发展最成熟的激光雷达,但它的机械式内部结构意味着不稳定性和较低的扫描速度,比如在行车过程中的颠簸可能导致机械磨损或是卡死。


同时,机械式激光雷达的收发模组通常有较多的线束,好比一个有多层的灯塔,每层(每条线)都需要独立的线路来控制。在制造过程中,每一根线束都需要精确地连接和调校,因此不好降低生产成本。因此,车载激光雷达逐渐走向混合固态


混合固态式激光雷达也称为半固态,通过增加一面可动的“镜子”来使得收发单元不再进行机械运动,进而实现可靠性和成本的改善。根据镜子的不同半固态可进一步分为转镜、棱镜和 MEMS(Micro-Electro-Mechanical System)微振镜三种。


转镜式通过高速旋转镜面改变激光传播方向,实现360°全方位扫描。相比传统机械式,其结构更简洁,减少了机械部件,可靠性与稳定性得以提升。

棱镜式则借旋转棱镜改变激光出射角,完成多方向扫描。它光学性能佳,复杂环境也能获取高质量点云数据。然而,棱镜的高精度制造和调校难度较大,成本较高。

MEMS 利用微机电系统的微镜操控激光束,可实现高分辨率扫描。其体积小、功耗低、响应快。目前,转镜和MEMS式的半固态激光雷达均已实现车规级量产,是乘用车的主流选择。

这三种半固态的激光雷达是中短期内的主流路线,但其仍有机械扫描部件,因此在体积和稳定性上仍非长期最优解。


激光雷达的终极形态应是取消了运动扫描模块的固态激光雷达,它按技术路线可进一步分为OPA(Optical Phased Array,光学相控阵)方案和 Flash 方案。


OPA 的原理是通过多个激光发射单元组成发射阵列,通过调节发射阵列中各个单元的相位差来改变激光的发射角度。OPA方案制造工艺复杂,加工难度高,目前仍处于早期研发阶段。


Flash是通过高密度的激光源阵列,像手电筒一样能在短时间内发射出覆盖一片区域的激光,并用高灵敏度的接收器来构建三维图像。然而,Flash技术存在功率密度低、探测距离相对短的局限性,因此多用于近距离补盲激光雷达(补充远距离激光雷达覆盖不到的近距离盲区)。

从渗透率来看,如前文所述,基于转镜和MEMS的半固态激光雷达是当下以及未来几年内的主要出货方案,基于Flash和OPA的固态则有望在10年内随着技术成熟、成本降低而抢占份额

以上是根据测距原理和扫描模块的不同对激光雷达进行的分类,在其他模块中也有不同的技术路线。在发射模块中,按发射激光的波长可以分为以 905 nm 为代表的近红外(NIR,Near Infrared)以 1,550 nm 为代表的短波红外(SWIR,Short-Wave Infrared) 。


对于不同波长的选择有多重影响因素,包括安全性、技术成熟度、接收器适配性以及抗干扰性。905nm的激光由于其制造工艺成熟且可采用硅基探测器而成为主流选择,但是905nm波长接近人肉眼可见光范围,导致采用此波长的激光雷达只能以低功率运行,探测距离不超过200米。


1550nm远离肉眼可见范围,可以使用高功率达到超过300米的探测距离。然而,1550nm需要配套铟镓砷(InGaAs) 探测器使用,目前成本极高。此外,这个波长的激光很容易被水吸收, 因此在雨雾天气下面临探测距离缩减的问题。

在发射和接收模块中较为重要的器件是激光器和探测器,激光器可以分为半导体激光器和光纤激光器,其中半导体激光器按照驱动方式又可划分为边发射激光器(EEL,Edge Emitting Laser)和垂直腔面激光器(VCSEL,Vertical Cavity Surface Emitting Laser)


EEL 是通过从芯片边缘发射激光,因为发射功率高而能在长距离传输上保持较好性能。EEL是激光雷达行业的主流激光器,但因其生产时需要人手工调教而成本很高


VCSEL 从表面发射激光,结构上更为紧凑,易于实现大规模的阵列集成,生产成本也较低。不过VCSEL发射功率低,因此此前主要用于短距离通信中的手机、电脑的数据传输等,在消费电子领域广泛应用。随着近年来多层结 VCSEL 激光器的研发成功,其发光功率提升了 5-10 倍,因此未来VCSEL将取代EEL激光器


探测器的主要作用是识别光信号并将其转换为电信号,激光雷达探测器按照接收方式主要分为APD(雪崩光电二极管)和SPAD(单光子雪崩二极管),其中APD产业化成熟但灵敏度不如SPAD。探测器的选择主要取决于发射激光的波长,前文提到过1550nm需要配套铟镓砷(InGaAs) 探测器,因此目前只能使用APD;950nm则可以采用硅基的SPAD作为高灵敏度的优选。

最后是控制模块,负责信号处理、数据分析和系统控制。由于车载激光雷达的发展尚未完全成熟,技术路线也远没有标准化,因此在主控芯片上多选择灵活度高、可编程的FPGA芯片而不是ASIC芯片


随着激光雷达技术方案走向标准化,更适合大规模量产、芯片集成度更高且算力更强的SoC(单片系统)芯片将成为主流。


相比于采购FPGA ,自研 SoC 芯片可以更精确匹配自家激光雷达特征,实现信息采集、处理和分析的高效运作,显著提升产品质量,而自研SoC的能力也会成为各家激光雷达厂商的核心壁垒之一


以上是关于激光雷达的主要分类,其中有基于测距原理、扫描原理、激光波长、各模块硬件选择等。激光雷达厂商根据自身定位和实力将这些不同的类别进行组合,平衡激光雷达产品的性能和成本


总结来看,从发展趋势的角度,测距原理上ToF有望走向FMCW,激光器则会从EEL走向VCSEL,在激光波长选择上未来905nm和1550nm大概率会共存,扫描模块上则会从混合固态逐步转向固态,不过需要的时间比较久,探测器上APD和SPAD也会共存,最后处理器上从FPGA和ASIC走向SoC的确定性也较高。

以下简单列举当前市场中主流玩家的量产远距离雷达和补盲雷达产品和参数以供参考。



3. 产业链

近几年车载激光雷达市场随着以高速和城市NOA为代表的L2+级别自动驾驶渗透率的快速提升而增长飞快,全球车载激光雷达解决方案市场规模在2024年达到332亿,而预计到2030年突破万亿


值得注意的是,除了自动驾驶外,车规级的激光雷达也可以应用在另一个万亿级市场——机器人领域,因此激光雷达具有非常广阔的市场空间。

激光雷达的产业链非常清晰,上游是各个组成零部件的供应商,包括激光器、探测器、扫描器和信息处理器,中游是激光雷达主机厂,下游则是包括无人驾驶和机器人在内的众多应用领域。

作为产业链中游的主机厂,早期的车载激光雷达由外国公司主导,但近几年来已经逐渐被国内厂家超越。近两年来行业整合速度加快,大陆、博世、采埃孚等传统的欧洲Tier 1供应商都相继宣布停止激光雷达相关项目,激光雷达的“鼻祖” Velodyne于2022年11月也宣布和 Ouster 合并。


与此同时,中国厂商凭借自身的研发实力和量产效率,无论是在出货量上还是成为车企核心项目供应商上都突飞猛进。

从竞争格局看,全球车载激光雷达市场的头部玩家目前包括禾赛科技、速腾聚创、华为、法雷奥等,而国内乘用车市场则是几乎被禾赛、速腾聚创、华为和图达通垄断。其中,禾赛科技和速腾聚创是主要整车厂的核心供应商,华为主要面向鸿蒙智行和华为智选车系列车型,图达通则和蔚来深度绑定。

长期以来,作为一款高性能、高精度的探测硬件,成本高一直是困扰车载激光雷达实现渗透率快速提升的问题。马斯克在特斯拉转向纯视觉自动驾驶路线的同时更是说到:“傻子才会用激光雷达”


不过,马斯克这样讲是在2019年,短短几年后的今天,随着越来越多的国内企业投入研发以及实现规模量产,车规级的成本在近几年已实现快速、大幅的下降,从最高的单价超800美元来到500美元附近,且未来还有望降至200美元

与之而来的是量产激光雷达进入价格成本敏感的20-30万元乘用车价格带,甚至在10-20万元的搭载量也开始出现增长,激光雷达的降本也是众多车企得以推出自家的多传感器融合自动驾驶实现科技平权的重要推手。


从成本端来看,激光雷达的主要成本是光学部件和主控芯片。目前,光学部件成本有望随产量翻倍而降低15%,而芯片则每年降本幅度达到25%左右。

硬件选择本身也是一种降本的路径,随着主控芯片从FPGA走向SoC,激光器从EEL走向VCSEL,接收器从APD走向SPAD,激光雷达的成本得以在未来几年内进一步下降,这也是为什么它能成为未来汽车的标配部件。


转自:https://mp.weixin.qq.com/s/qYUqz-0qsu1hkPsJW41dAw


自动驾驶系列3:深度解析车载摄像头产业链

在自动驾驶感知层的四大主要硬件中,摄像头可谓是未来增量确定性最高的一个。凭借着自身的高性能叠加低成本,无论是使用纯视觉方案还是走多传感器融合路线,摄像头都是实现自动驾驶中不可或缺的硬件,同时有明确的单车平均搭载量提升的趋势。


继上一篇激光雷达赛道后,本文将覆盖车载摄像头的应用和产业链,从镜片到镜头再到模组,寻找具有高价值量和确定性的环节以及对应的投资机会。



1. 摄像头分类与构成

2. 产业链

3. 市场发展



1. 摄像头分类与构成

首先来看摄像头的一些基本分类与构成。摄像头是日常生活中经常会用到的硬件,作为车载产品,行业通常用视场角 FOV、探测距离、分辨率、信噪比、 帧率和动态范围等指标衡量其性能。


视场角FOV指的是摄像头能够覆盖的空间范围,较大的视场角可以让摄像头捕捉到更广阔区域的图像信息。视场角的大小取决于镜头焦距,焦距越小,视场角就越大。一般来说,40 - 60°是标准视场角,60 - 110°是广角,大于110°则是超广角,此外还有能达到180°或220°视角的鱼眼摄像头


分辨率是摄像头的核心性能指标,指的是对被摄景物细节的分辨能力。分辨率越高,图像也就越清晰。常见的分辨率有:1.3MP (1280*960)、2MP (1920*1080)、5MP(2560*2048)、8MP (3200*2400) 等。


动态范围指的是拍摄的同一个画面内,能正常显示细节的最亮和最暗物体的亮度值所包含的区间。动态范围越大说明拍摄的影像层次越分明,对于识别暗部和亮部信息很关键。低动态范围(LDR)通常在40 - 60dB 之间,而高动态范围(HDR)一般在100dB 及以上。HDR相比LDR可以在有强烈明暗对比场景时更好的识别亮暗部的细节,比如在逆光或者进出隧道时。


此外,探测距离也对自动驾驶算法非常重要,在摄像头分辨率一定的情况下,焦距越小,视场角越大,探测距离就越近。


从在车辆上的应用场景来说,摄像头主要分为汽车内和汽车外两种,其中舱内的主要负责智能座舱,舱外的则是用作辅助驾驶或自动驾驶。智能座舱中又分为DMS(驾驶员监测系统)和OMS(乘客监控系统),是装在车内(比如内后视镜上方、方向盘中间等位置)的摄像头,用于拍摄驾驶员和乘客并进行智能监控。DMS和OMS可以检测驾驶员状态(比如疲劳),也可以进行人机交互(比如手势交互)

自动驾驶中用到的摄像头一般指安装在舱外的,可进一步分为前视、侧视、环视、后视以及电子后视镜CMS。其中,前视、侧视和后视主要用于行车辅助,360°环视和倒车后视则用于泊车辅助。

在行车辅助中,前视摄像头是感知功能的关键,负责前向碰撞预警 FCW、行人防碰撞预警 PCW、车道线偏离预警 LDW、车道线保持辅助 LKA、自动紧急制动 AEB、自适应巡航 ACC 等。


前视摄像一般由1-3个摄像头组成,有前视一体机和单纯摄像头模组接入到独立控制器两种解决方案。前视不需要很高的视场角,但需要较高的分辨率以清晰识别,行业领先的技术已经做到量产800万像素。


根据镜头数量的不同可以分为单目摄像头、双目摄像以及三目摄像头,单目和双目以一体机形式为主,双目也有两个单目摄像头(窄视角+宽视角)组合的形式,三目则是由三个不同视场角摄像头模组组合而成,数据要输入到智驾域控制器进行处理。

侧视和后视摄像头则主要用于侧方和后方车辆的监控,侧视和后视只需要2~3MP的分辨率,探测距离为80-100米,但要求广角以探测的更广泛。侧视一般由4个摄像头环绕汽车,后视则需要在车后方安装1-4个摄像头。

泊车辅助中用到的摄像头主要有倒车后视和360°环视,后者一般由4个具有超高视场角的鱼眼摄像头拼接成鸟瞰视角显示在汽车的中控屏幕上。

以上是车载摄像头的分类,接下来说构成。车载摄像头一般以模组的形式出货,一套模组包括光学镜头、图像传感器 CIS、图像信号处理器 ISP、串行器和连接器等元器件

光学镜头由多片镜片、滤光片等组成,而镜片根据材质又有塑胶(P)和玻璃(G)两种,因此光学镜头可以分为全玻璃和玻塑混合两种。玻璃镜片在透光率、耐磨性等诸多领域都优于塑料镜片,但量产良率较低且成本较高。前视和侧视多采用全玻璃镜头,环视、舱内则多采用玻塑混合镜头。

图像传感器CIS用作将光信号转换为电信号,这个过程主要分为两部,首先将光信号转化为电荷信号,然后再将电荷转化为电压信号。根据第二步的不同做法,CIS分为了CMOS 和 CCD 两种类型


CCD是早期相机的主流传感器,现如今已经基本被CMOS取代。CCD和CMOS的核心区别在于CMOS针对每一个像素都有一个独立的电路,可以并行处理所有像素,因此速度很快。CCD则是一种串行处理路线,将像素按照一定顺序挨个处理。

正是由于CMOS处理速度快、能耗低和成本低,CCD逐渐被CMOS传感器淘汰。随着车载摄像头性能要求越来越高,CMOS也在走向高分辨率和高动态范围(HDR)


图像信号处理器ISP用于对CMOS输出的RAW格式原始数据做进一步处理,包括图像缩放、 自动曝光(AE)、自动白平衡(AWB)、自动对焦(AF)、图像去噪等,最终转换成 RGB、YUV 格式数据。过去的ISP多作为一颗独立的芯片和其他模块一起封装在摄像头模组内,随着摄像头小型化和轻量化的趋势,ISP逐渐开始被集成在CMOS芯片上,很好的改善了信号传输的延迟性。


不过,随着汽车从分布式 ECU 架构进入到集中式域控制器架构,汽车的主控芯片SoC上一般都直接集成了ISP模块,可支持多个摄像头 RAW数据的处理。如此一来,摄像头模组便无需ISP而只作为信息采集的设备。因此,大多前视和后视摄像头已经不再装有ISP,但环视摄像头由于大多是直接接入到车机去做 360°成像显示而不参与自动驾驶算法,所以CMOS中还会集成ISP。


此外,经过CMOS和ISP处理后的信号是基于 MIPI /CSI 标准的并行信号,传输距离较短,因此还需要串行器将其转换为适合长距离传输的串行信号


最后,摄像头模组在封装时也有不同的工艺路线,目前以CSP 封装模式为主,而针对500万像素以上的高分辨率摄像头多采用体积更小、成本更低的COB技术封装。CSP路线是表面贴装(SMT)工艺,将芯片贴装在模组基板上;COB技术则使用金属线绑定将芯片贴装在模组基板上。


2. 产业链

车载摄像头处于光学行业产业链中游,可以分为光学镜头制造商和摄像头模组制造商,其中模组是最后的出货形式,部分厂商专注于镜头的制造,也有厂商进行一体化布局同时生产镜头和模组。摄像头的下游行业非常丰富,车载摄像头只是其中的一个分支,其他还包括了消费电子(如手机)、安防监控、机器人等等。

光学行业的上游可以分为光学方向和电子(芯片)方向,前者负责包括镜片、镜头在内的负责光学成像的硬件,后者则是各种各样的信号处理芯片,比如CMOS和ISP。从上游角度看,像镜片、滤光片、保护膜等镜头组成部分以及晶圆等芯片制造部分可视作上上游。

光学镜片和镜头过去由日韩企业主导,近些年来随着国内企业的技术突破和产业化深化,国内企业已经在镜片和镜头市场占据主要份额。以2020年的数据来看,舜宇光学占据全球车载镜头市场的绝对份额,达到32%,其次是麦克赛尔(8%)。到了2023年,舜宇光学的份额继续扩大,排行榜的前几名也出现了像联创电子、欧菲光、弘景光电、特莱斯光学的一众国内企业,实现超越。

从成本构成来看,车载摄像头模组价值量最高的部分是图像传感器,其次是模组的封装和光学镜头的成本,分别占到40%、18%、16%。

作为一种芯片,车载CMOS的供应链模式与半导体一致,企业可以分为IDM、Fab-lite 和 Fabless 三种模式。IDM模式是一体化布局,从芯片的设计到制造、封装和测试全部由一家企业完成;Fabless模式下的厂商只负责设计芯片,制造等环节由代工厂完成。Fab-lite处于IDM和Fabless之间,灵活性较高。在高端芯片制造领域,Fabless模式是主流,然而车载CMOS则由IDM模式占据主流。

CMOS市场的集中度较高,由索尼、三星、豪威科技等公司主导。不过,CMOS的应用领域很多,索尼侧重于相机和手机,三星则侧重于手机领域,豪威科技的优势在安防和汽车,而美国的汽车半导体巨头安森美是车载CMOS领域的龙头企业。2022年安森美占据车载CMOS市场的份额达到44%,其次是国内的豪威科技和以及韩国的三星

豪威科技早年是在纳斯达克上市的美国企业,2016年被中信、华创等中国投资者收购并私有化后退市,成为北京豪威。2018年韦尔股份收购北京豪威。


在产业链中下游,摄像头模组是供应商给整车厂的交付形式。摄像头模组厂商目前多为传统汽车Tier1供应商,如博世和麦格纳。作为老牌的汽车核心供应商,这些企业在提供摄像头模组的同时也推出域控制器等其它零部件作为一整套解决方案提供给车企,因此这些Tier1供应商在系统集成能力、车规级验证、供应链管理、客户关系管理等方面都具备壁垒。


然而,随着软件在智能汽车中扮演的角色越来越重要,传统的Tier1厂商选择放弃一些低利润的硬件生产,给了光学厂商进入生产摄像头模组赛道的机会。因此,越来越多的光学镜片、镜头生产企业也开始了摄像头模组的业务


从2020年全球车载摄像头模组的市场格局来看,传统Tier1依旧占据主要地位,其中麦格纳占据半壁江山,份额为56%,其次是松下9%和法雷奥7%。


3. 市场发展

以上是关于车载摄像头的分类、构成以及产业链各环节的价值量和竞争格局,下面来看摄像头的市场空间、渗透率和发展趋势。


汽车智能化和自动化的大趋势是车载摄像头平均搭载量提升的基础,无论是依赖摄像头的纯视觉路线还是多传感器融合方案,摄像头都是自动驾驶感知模块不可或缺的高性价比硬件


在过去没有自动驾驶时,汽车只需要一颗后视摄像头用于倒车,甚至很多汽车只装载超声波雷达而完全没有摄像头。随着辅助驾驶级别的提升,前视、环视、后视、内置等汽车的各个方面都装上了摄像头,比如当前主流的L2+级别平均单车需要10个摄像头,因此随着自动驾驶级别的提升预计摄像头的搭载量还有上升空间。

从整个中国乘用车市场的角度观察,预计到2025年平均摄像头搭载量为4.9个,相较5年前翻倍。从另一组数据来看,到去年年初时超过10个车外摄像头的渗透率已经接近20%,且在整车20万元以上价格带有加速提升的趋势。

具体来看,特斯拉采用纯视觉路线,其硬件配置经历了从HW1.0时代的1个摄像头+毫米波和超声波雷达到2023年HW4.0时代的只有7个摄像头。当前的HW4.0虽然前摄像头从三目变成双目,总体摄像头数量从HW3.0时的8个减少到7个,但摄像头像素从120万像素提升到500万像素,视觉最大探测距离从250米变为424米。

除特斯拉外的国内第一梯队的高阶辅助驾驶车型均采用多传感器融合方案,例如问界、小鹏、理想等车型均搭载超过10个摄像头

除了以受自动驾驶影响下单车搭载量提升为代表的渗透率提升外,车载摄像头出货量也会受到智能汽车销量和乘用车整体销量增长而推动。根据亿欧智库测算,2019年到2025年中国乘用车总销量以3.8%的复合增长率增长,而新能源车和智能电车的渗透率则分别从4.7%和14.1%提升至47.4%和80.1%,其中智能电车市场预计在今年增长34.8%。

在市场规模快速增长、渗透率不断提升的背景下,中国乘用车摄像头出货量在2019年至2023年间保持平均每年21%的增长率,且预计到 2025 年,国内乘用车摄像头总搭载量将超 1 亿颗,2022-2025 年年复合增长率 CAGR 为 17%

综上所述,车载摄像头市场已经经历了快速成长期并开始步入成熟期,但随着自动驾驶发展的推动和新市场的打开,未来摄像头的增长态势非常明确。从其分类与构成来看,高分辨率、大视场角、高动态范围的摄像头产品将成为主流。同时,前视摄像头或将逐步放弃三目方案,以适应成本控制考量;而侧视和环视则可能被超大视场角的鱼眼摄像头取代,进一步扩大车辆的视野范围。


在模组方向上,摄像头去 ISP 化趋势明显。主控芯片 SoC 集成 ISP 模块的能力增强,这一趋势有助于优化摄像头模组结构,降低成本,提高信号传输效率。


在产业链方面,国内企业在光学镜片和镜头领域已逐渐崭露头角,打破了以往日韩企业的主导局面;同时,车载 CMOS 市场虽集中度较高,但格局也在不断变化,本土企业正努力提升市场份额。而在市场发展上,受自动驾驶级别提升、智能汽车销量增长等因素推动,车载摄像头的单车搭载量持续上升,市场规模持续快速扩张。

转自:https://mp.weixin.qq.com/s/R1CFqO8zzLXHwDfryVDxMw


自动驾驶系列4:比亚迪的智驾平权如何利好4D毫米波雷达?

2025年2月10日, 比亚迪董事长王传福在发布会上宣布了全系配备高阶智驾,首次将智驾配置带到10万元以下车型门槛,通过降本的方式实现“智驾平权”,引发行业巨震,智能驾驶产业链上的硬件有望率先深度受益。


在感知层的四大硬件中,无论是以激光雷达为主导的多传感器融合方案还是只用摄像头的纯视觉方案,市场对于激光雷达和摄像头的关注与讨论似乎远高于毫米波和超声波雷达。更有甚者,在纯视觉路线大火的同时更是有很多声音传出智驾不再需要毫米波和超声波。


然而,本次比亚迪带来的配置中,高中低三个版本都配置了相当数量的毫米波和超声波雷达。在其他车企的配置中,作为激光雷达向纯视觉的过渡的去激光雷达方案也都选择了配置摄像头+毫米波,其地位不言而喻。


本文接着前面的系列文章继续拆解毫米波雷达,分析4D毫米波如何凭借自身优势和比亚迪的推动而有望成为自动驾驶感知的中坚力量以及其产业结构与机会,最后也还会简单介绍超声波雷达。



1. 引子-比亚迪智驾带来了什么?

2. 为什么看好毫米波雷达?

3. 毫米波雷达产业全景

4.  超声波雷达简析



1. 引子-比亚迪智驾带来了什么?

为什么说毫米波雷达和超声波雷达在本轮比亚迪宣布智驾后不会沉沦反而更加看好?首先回顾一下比亚迪的发布会说了什么,在智驾方案上比亚迪给出了天神之眼A/B/C(或DiPilot 600/300/100)三中选择,分别对应高(仰望品牌)/中(20万以上车型)/低(10-20万车型)三个层级。此外还推出了搭载于10万以下车型的基础L2款DiPilot 10。

具体来看,硬件方案上三个层级的主要区别在于激光雷达的配置,其中具备城市+高速NOA的天神之眼A和B方案分别使用了3颗和2颗激光雷达,只具备城市NOA和基础L2的DiPilot 100和DiPilot 10则没有激光雷达,但分别选择了5个和3个毫米波雷达。


*注:硬件方案中的L 代表激光雷达(Lidar)、R 代表毫米波雷达(Radar)、V 代表摄像头(Video)、U 代表超声波雷达(Ultrasonic),2L5R12V12U代表2个激光雷达+5个毫米波雷达+12个摄像头+12个超声波雷达。

简要分析比亚迪本次发布会背后的战略和动向,虽然讲全系配置高阶智驾,但从硬件配置和功能实现来看主要还是20万以上的车型可以使用城市NOA。与此同时比亚迪高端智驾的软件算法是由Momenta提供,芯片配置也是英伟达上一代的Orin而不是即将推出的Thor,由此可见比亚迪的战略在于面向中低端的智驾下沉而不是向高端领域的进攻号角


比亚迪此次智驾平权的关键对自己在于既可以通过加量不加价进一步渗透那些低价格带中没有智驾的燃油车和其他品牌新能源车进而推动销量提升,又可以通过更高的销量带动更多的自驾数据收集进而布局长期自研自驾算法,形成正向循环


对于产业链来说以比亚迪的行业第一的销量配置各种智驾硬件(尤其是摄像头和毫米波)将带来全新的市场增量,无疑是对硬件厂的利好。说回毫米波和超声波雷达,从市场表现(比亚迪等车企的持续采用)已经可以看出二者地位依然重要。


智能驾驶此前由于硬件成本等原因在20万以下车型中的渗透率一直很低,一方面去年20万以下车型搭载高速和城市NOA的比例分别只有15.3%、2.0%,具备较大提升空间。另一方面,20万以下车型销量又是整个乘用车市场的大头(60%)

倘若比亚迪这次成功打开20万以下市场,那么整个自动驾驶产业链的发展便有望进一步提速,对于感知硬件则是单车搭载量提升+智驾车型销量提升所带来的双重放量逻辑

以上是市场表现,从逻辑上出发,毫米波和超声波雷达凭借自身的良好性能和较低成本也理应持续受到青睐。《自动驾驶系列2:激光雷达,突破感知边界!》一文中曾对四大感知硬件做过详细比较,在这里便只做简单回顾。

简单来说,毫米波雷达和超声波雷达相比激光雷达都具有低成本的优势,其中毫米波的特点在于分辨率高、不受天气影响及技术成熟度较高,超声波的优势则在于超低的成本、超高的成熟度和高精度。


凭借其全天候、全时段的高精度感知的特点,毫米波雷达在恶劣天气时激光雷达和摄像头探测能力失效时尤为关键超声波雷达则由于不受天气影响、结构简单、生产成本低、检测精度高等优势,在汽车倒车系统等场景持续占据关键地位。


2. 为什么看好毫米波雷达?

以上是对比亚迪智驾方案的回顾和由比亚迪智驾平权推动的产业链利好分析,下面正式进入关于毫米波雷达的分析。


雷达是英文RADAR的音译, 全称为Radio Detection and Ranging, 即无线电探测和测距,是指用无线电波的方法探测目标并测定位置。提到雷达,可能更为熟悉的画面是像下图左边这种的大圆盘雷达,车载毫米波雷达则长成右边这样。

为什么有这么大的区别呢?这还要从他们所发射的电磁波的不同说起。电磁波以频率、波长来定义其特征,根据公式波长λ=光速c/频率f,频率与波长成反比。左侧的大圆盘雷达所发射的是低频率、长波长的电磁波,用于长距离的远程预警探测(比如气象监测)。


毫米波雷达则是发射高频率的短波长电磁波,由于其波长在毫米级别因此被称为毫米波,频率范围为30 GHz 至 300 GHz,对应波长10 mm 至 1 mm,探测距离基本小于200米。


至于为什么二者体积上有这么大区别,这是由于发射电磁波的天线尺寸与波长成正比,而电磁波的分辨率又与波长成反比,为了增加大圆盘雷达的分辨率便需要提高其天线面积来获得信号增益。

无线电已经广泛应用于我们的日常通信等领域,然而电磁波的频谱是有限的自然资源,主要集中在约3kHz至300GHz之间。不同频段具有独特的物理特性,需科学分配以避免干扰,比如低频段因为其覆盖范围广、穿透能力强等物理特性而在通信领域有着广泛的需求。


具体的频谱分配标准由联合国下面的国际电信联盟(ITU)制订,像一些常见的场景有广播对应87.5-108MHz、4G网络对应700MHz-2.6GHz等。通信技术对于频谱的争夺异常激烈,比如美国C波段(3.7-4.2GHz)拍卖创下809亿美元纪录。


车载毫米波雷达的频率选择也会受到影响,目前主要有 3 个波段可供选择,分别是 24GHz、77GHz 和 79GHz。这其中24GHz严格意义上属于厘米波,目前已被禁用,因此车载毫米波雷达将逐步过渡至77GHz,相比24GHz可以做到更大带宽、更高分辨率、更小体积,同时可以避开氧气吸收,只是雨雾穿透能力稍弱。

由于更短的波长具有更高的分辨率精度,因此未来频率有望朝向79GHz发展,这个频率也是4D毫米波雷达的工作区间,迎合技术发展的大方向。


毫米波雷达当前安装在汽车上的方案主要有1R、3R和5R三种,其中1R方案仅使用一颗前向雷达,3R则在此基础上增加两颗角雷达,5R进一步增加两颗角雷达形成全车环绕的毫米波探测覆盖。前向雷达通常采用远距雷达(也称为LRR),角雷达则相对短距离探测(也称为SRR)。

说了这么多毫米波雷达的性质和特点,毫米波雷达成像出来的到底是什么样的,下面这张图一目了然,图中清晰的展示了毫米波雷达成像的画面以及其比起激光雷达和摄像头独有的穿透能力。

不过这里毫米波成像出来的只是二维画面,不看摄像头录像都很难分清到底是什么,这就是传统的3D毫米波雷达,因为只在xy平面发射/接收信号,只能探测距离、位置(水平方位角)和速度,因此称为3D。


之前毫米波雷达之所以不如激光雷达和摄像头那样火爆大概就是因为这个模糊不清的二维成像,因此只能被作为摄像头在雨雾天气下的冗余选择


为了解决3D毫米波雷达的不足,4D毫米波雷达应运而生,在距离、方位、速度的基础上增加高度信息,并且通过增加虚拟通道大幅提升角分辨率至<1°与检测的范围,能够输出大量测量点,形成几万点云密度,清晰呈现目标轮廓。

从性能表现上,4D 成像雷达可达到几万点云密度,性能相当于低线数激光雷达,虽然无法与百线激光雷达百万点云密度和0.1-0.2°的超高分辨率相提并论,但它的成本只有激光雷达的1/10(据传比亚迪本次采用自研4D毫米波雷达,成本仅有100多元,远低于动辄上千的激光雷达),此外4D毫米波还不受天气影响且具有穿透能力,这些都是激光雷达无法做到的


的确,4D毫米波无法等同高性能的激光雷达,但它的综合优势又很充分,市场上因此始终存在着毫米波取代激光雷达或是激光雷达取代毫米波的声音。


站在当下时点,究竟谁能胜出无法下定论,二者技术和市场上的并行研发和使用是车企和供应商采取的策略。


然而,从落地趋势上也许可以窥探未来。显然,比亚迪本次在20万以下车型给出的配置中去掉了激光雷达,但保留了同等数量的毫米波雷达。


类似的“去激光雷达”方案还有许多,比如小鹏的改款G6、G9、MONA M03、P7+,蔚来的乐道L60,就连坚信纯视觉方案的特斯拉也预留了毫米波雷达接口,引发外界猜测马斯克会不会放弃纯视觉。


无论从落地采用上观察还是逻辑推断上,4D毫米波因其独特的穿透力和不受雨雾干扰而难以替代,又因等同于低线数激光雷达+低成本而能成为摄像头最好的冗余配置,在低端车型中率先上车再合理不过了


市场规模上看,根据华泰证券预测4D 毫米波雷达 2022 年-2030年复合增长率将达到 73%


3. 毫米波雷达产业全景

毫米波雷达工作流程分为信号发射、接收与处理三步,硬件上主要是三个模块:用于产生信号的射频前端、发射和接收信号的天线以及处理信号的处理器


具体来说,射频前端的VCO压控振荡器生成调频连续波(FMCW),经放大滤波后由发射天线辐射。回波信号被接收天线捕捉,与发射信号在混频器中生成携带目标距离/速度的中频信号,经AD/DA转换和数字处理解析目标参数后,传输至车辆控制系统驱动实时决策。


从成本结构来看,软件算法受专利保护占毫米波雷达成本高达50%,硬件方面射频前端占比达到25%。射频前端实际上包含了压控振荡器、混频器、放大器、滤波器等一重组件,通过MMIC芯片集成在一起,缩小体积的同时提高可靠性


信号处理器站成本10%,有以德州仪器为代表的DSP芯片路线,优势在于高性价比和低功耗,适合固定算法的高效执行;还有以赛灵思为代表的FPGA芯片路线,优势在于高灵活性和并行计算能力,适合实时性要求高的场景,但成本相对较高。


毫米波雷达还需要高频PCB,成本占10%。与此前提到的大圆盘雷达类比,一方面,毫米波由于其波长短、频率高,需要高频PCB来降低信号衰减。


另一方面,大圆盘雷达需要机械旋转来扫描区域,体积大且笨拙,车载雷达仅有手掌大小且不需要机械旋转,这是因为其采用平面阵列天线来发射/接收信号,而这种天线依赖高频PCB实现微带贴片辐射单元和馈电网络。

毫米波雷达产业链是经典的硬件产业链构成,上游是以上提到的包括射频前端MMIC、数字信号处理器DSP/ FPGA、高频 PCB 板和天线在内的各个零部件,中游环节主体是毫米波雷达模块及整机方案企业,下游则是汽车,也有消费电子、家具、工业等使用场景。

目前,国内产业链上游的核心部件几乎被国外供应商垄断。其中,MMIC 芯片供应商多为国际模拟半导体企业,如英飞凌、恩智浦NXP、德州仪器TI、意法半导体等。不过国内企业也在加快布局,且已实现部分国产化,代表性公司有加特兰微、清能华波、矽杰微、矽典微等


高端DSP 芯片和FPGA 芯片也主要被国外企业垄断,DSP 有NXP、英飞凌、亚德诺、意法半导体等,FPGA 则有赛灵思(AMD收购)、阿尔特拉(英特尔收购)、美高森美、莱迪思等公司。


高频PCB主要供应商为罗杰斯、松下电工、雅龙等大型国际企业,但受益于5G通信产业的技术溢出,国内的生益科技、沪电股份等公司也已实现毫米波雷达用高频PCB 产品的技术突破,其产品性能都可与国外企业的高端产品相提并论。


毫米波雷达中游同样呈现出国际供应商主导、国内企业追赶的局面,近几年随着新能源车崛起而加快抢占市场份额。


中游企业可以进一步分为供应商和集成商,供应商主要负责雷达的设计和生产,以标准化的雷达模块或整机交付,代表企业国际上有博世、大陆集团、安波福,国内则有森思泰克、华域汽车、德赛西威、经纬恒润、威孚高科


集成商一般不直接生产雷达,而是基于供应商提供的雷达模块,针对具体应用场景进行二次开发与系统整合,比如有些传统Tier1如采埃孚、法雷奥将毫米波雷达与摄像头、激光雷达融合,开发辅助驾驶功能;也有像海康威视将雷达与视频监控、信号灯联动等结合定制化开发智能交通系统的。

具体来看,2023年国内前向毫米波雷达市场格局中约 70%市场被博世、大陆等外资企业占据,但国内的森思泰克、华域汽车、华为、承泰科技等本土企业都已经实现量产,进入国产化替代周期,国产替代趋势明确

总结来说,车载毫米波雷达存在三重看好逻辑,一是中短期内随比亚迪等一众低价车型卷智驾所带来的单车搭载量提升和智驾车型销量提升引发超预期增量,二是中期内4D毫米波雷达渗透率及国产替代率的提升,三是长期看毫米波使用场景进一步丰富(如舱内使用生命体征监测/手势交互)。


4. 超声波雷达简析

超声波雷达因为其价值量较低、技术较为成熟且感知边界明确有限而不怎么再成为市场热点,不过作为四大感知硬件的最后一个,我们简单过一下基本情况。


超声波雷达和其他雷达的原理类似,也是发射/接收然后处理信号,只不过这次是超声波信号。超声波信号的物理特性决定了它的使用上限,一方面超声波传播过程中容易被水分子、尘埃等吸收而导致衰减快,因此探测距离有限,通常小于5米


另一方面,声速只有340m/s,比光速和无线电波速3*108m/s相差甚远。假设车辆以120km/h(33.3m/s)行驶,超声波雷达完成一次探测需约30ms(往返5米耗时),此时车辆已移动1米,因此超声波也不适用于高速场景


然而,超声波的优势也很明显,那就是成本极低(单颗约10元)、短距离精度高以及量产上车非常成熟。事实上,超声波雷达就是汽车上常用的倒车雷达,因此它主要在泊车领域发挥作用


随着自动泊车逐渐取代倒车雷达, 超声波雷达的单车搭载数量也由 4-6 个增加至 8-12 个,包括 8 个安装于汽车前后的UPA 超声波雷达和 4 个安装于汽车两侧的APA 超声波雷达。UPA雷达主要用于预警,APA雷达在此基础上还参与车辆泊车过程中的控制。

虽然技术成熟,但超声波雷达的发展也并不是一成不变的。随着泊车系统的优化升级,超声波雷达由AK1向新一代AK2升级,通过引入更为先进的发射材料和滤波算法改善雷达探测距离和精度,使探测距离从3米延伸至5米,精度由±3cm提升至±1cm

从市场空间来看,2023 年国内乘用车超声波雷达安装量达到 1.2 亿颗,同比+13.7%。预计 2028 年超过 2.2 亿颗,5年CAGR为12.9%,属于温和增长的赛道。

不过,超声波雷达的超低成本让它也成为了辅助摄像头的优选项之一,例如比亚迪此次各个方案都配置了超声波雷达,智能驾驶走向低价格段也利好超声波雷达出货量提升预期


由于技术成熟,超声波雷达国产化程度也很高。根据调查到的两份数据显示,超声波雷达主要供应商有国外的博世、法雷松下,以及国内的君歌电子、同致电子、晟泰克、豪恩汽电等,2024年国产化率达到46.23%,近几年持续增长。


转自:https://mp.weixin.qq.com/s/-gR36I8Cek8nZdI2fLQwkw

自动驾驶系列5:深度!一文看懂端到端智驾系统的过去、现在和未来

2025开年以来自动驾驶可谓热闹非凡,前有比亚迪智驾首次应用于 20 万以下车型,让更多消费者得以触及前沿技术;后有特斯拉向国内推出降级版 FSD,为其在中国市场的布局迈出重要一步;雷军也在微博宣布小米开始推送全场景端到端智驾,引发广泛关注。


自动驾驶正以前所未有的速度走进大众视野,了解自动驾驶背后的技术无论对选购汽车的消费者还是对寻找机会的投资者都至关重要。随着越来越多车企纷纷宣布搭载智能驾驶功能,各种术语和新概念令人目不暇接,到底是低阶智驾卷低价还是高阶智驾卷技术将会是车企今年的主旋律。因此,深入探究自动驾驶背后的技术显得尤为必要。


作为自动驾驶系列的第5篇,前序文章已对感知侧的四大硬件分别做了重点分析,感知硬件是汽车的五官,而感知处理和决策算法才是真正的大脑。本篇聚焦自动驾驶背后的算法,通过结构化的梳理看清发展脉络。文章将先介绍感知算法的发展历程和原理,然后拆解决策算法,展现它是如何走向端到端的,最后探讨整体系统未来的演变方向,包括VLM和VLA模型。



1. 感知:走向BEV+Transformer+OCC

2. 决策:走向端到端

3. 自动驾驶算法的未来:VLM到VLA



1. 感知:走向BEV+Transformer+OCC

在此前的系列文章中,我们已经看到自动驾驶系统可以分为感知、规划、决策和控制模块,并且对摄像头、激光雷达、毫米波雷达和超声波雷达这四大感知硬件的原理和特点有了认识。硬件只是获取信息的来源,就像人脑需要处理眼睛、耳朵接收到的信息才能做出决策一样,自动驾驶系统也需要能够对感知到的信息进行处理。


整体来讲,感知和决策是自动驾驶中最为复杂且难以实现的部分。另外两个模块中,规划可以理解为现在的导航干的事,而执行就是根据决策输出的信号控制方向盘和油门、刹车来完成转向和加减速。


在感知模块,处理硬件接收到的信息主要有两个目的:识别目标和预测轨迹。识别目标的意义在于看清楚周围环境中有什么和是什么,比如红绿灯、道路线、行人等,输出目标的类别、位置、尺寸等信息。预测轨迹则是对目标运动的方向、速度能做出预判,以做出更好的决策。


由于特斯拉是自动驾驶技术的行业标杆,许多创新都由特斯拉提出后国内厂商跟进,因此我们以特斯拉为例介绍主流技术发展脉络。从感知侧来看,特斯拉近些年分别经历了硬件层面上从多传感器融合路线走向纯视觉路线和软件层面上从2D+CNN技术走向BEV+Transformer以及如今的OCC占用网络。

在进一步展开介绍之前,有必要了解一下神经网络的故事。在2012年以前,神经网络是一项很早就被提出但因为计算效率低而不好用进而被冷落的技术。2012年,AI历史上具有划时代意义的AlexNet出现,研究团队使用CNN(卷积神经网络)在当年的ImageNet视觉识别大赛上首次将图像识别错误率突破25%来到15.3%。AlexNet的成功引爆了深度学习革命,也在那一年促成了GPU并行计算的地位和英伟达的未来

2D+CNN技术


01

CNN在图像领域的实践也被延伸到自动驾驶的感知算法当中,也就是对用摄像头拍下的2D画面进行学习和识别。图片是由像素点构成的,而每个像素点都可以由一组数字进行表达(比如彩色图像用红R、绿G、蓝B三个颜色通道的数值来描述颜色信息 ,每个通道的取值范围为 0 – 255)。

CNN首先通过卷积层的卷积核在图像上的像素点上挨个滑动进行卷积操作,这一步是为了提取图像不同层次的特征,比如边缘、纹理等。之后,这些特征经过池化层进行降维处理,在保留关键信息的同时减少数据量。最后,全连接层将提取的特征进行整合,并通过分类器计算图像属于各个类别的概率,从而完成图像识别。

通俗点说,CNN 就像一个 “探险家”,它用一个个 放大镜(卷积核)在图像上滑动,收集颜色、纹理等信息,然后将其汇总、提炼,就能知道图像里画的是什么。2D图像+CNN的模式是一直是感知模块的核心算法,它的逻辑在于给汽车看过足够多的图像后它就可以学会认出哪些是红绿灯、哪些是人等等。

2019年:HydraNet——整体框架


02

基于CNN的技术,特斯拉于2019年提出了名为HydraNet的神经网络架构,用于目标识别。在这个结构下,摄像头的原始输入先经过一个叫做RegNet的主干网络提取特征。RegNet是由Facebook提出的基于CNN的神经网络,具有高效和精准的特征提取能力。随后,这些特征被送入BiFPN模块来增强特征表示能力并对目标进行一次识别


接下来,经过识别和融合后的众多目标被送入多个不同的“头”进一步识别。不同的头分管不同任务,比如有的负责车道预测,有的负责红绿灯识别,据说特斯拉的网络中具有超过50个头分管不同任务,也因此得名HydraNet——九头蛇。

这样设计的原因在于感知任务非常复杂,比如对不同目标的识别,甚至像红绿灯还要看清是红灯还是绿灯,若分别训练多个神经网络则成本高昂。


采用HydraNet的结构,所有输入的数据通过共享的主干网络实现特征共享,减少了重复计算。另外,由于不同的头都是相对独立的神经网络,可以根据具体情况单独微调,提高检测性能。


此时,不同摄像头识别过的特征还是相互独立且是二维的,特斯拉还需要通过人工规则将它们“缝合”在一起并投射到适用于真实世界的3D空间。至此,八个摄像头检测的特征(注意是特征不是原始画面)被融合在了一起。

数据融合方式


03

上述网络结构中涉及到很重要的一个概念是数据的融合处理,无论是多传感器融合还是纯视觉方案,神经网络接收到的数据都是由多个硬件输入的(比如特斯拉的8个摄像头),因此需要融合数据,将它们整合成一个时间和空间同步的数据源。基于融合发生在数据处理的不同阶段,可以分为前、中、后融合三种方式

首先来看后融合,也称为目标级融合。在这个方案下,不同传感器获得的数据首先通过各自不同算法独立处理,得到各自的关于目标的数据,再将这些数据在决策模块前由主处理器进行融合。

上面提到的HydraNet结构在早期(2021年前)特斯拉采用的就是后融合方法,即八个摄像头的原始数据分别由各自的主干网络提取特征、各自的多个头识别目标,之后再进行融合


对于多传感器路线这种融合方式更受青睐,因为不同传感器的数据可以单独进行处理,融合模块设置不同场景、不同传感器的置信度,最终输出融合结果用于决策,对车企和硬件供应商而言都更易于解耦和研发。


然而后融合存在信息损耗高的问题,由于现实世界是3D的,而摄像头拍摄的画面是2D图像,因此在HydraNet中算法需要逐张提取2D特征后将其投影到3D空间。同时,采用激光雷达生成的是点云数据,这个结果直接是3D的。


如此一来就会有两个步骤导致信息损失,一是摄像头在2D空间感知后通过计算升维到3D时需要对每个像素的信息进行精准的深度预测,算法难度大。而且如果物体因自身体积过大(如大卡车)而横跨多个摄像头出现,分别提取特征后融合显然无法对这个物体准确感知。


第二个问题在于不同传感器输出的数据特征是通过基于规则的(rule-based)方式融合到同一坐标系中而非端到端的,存在人为定义接口的问题。比如人为定义的摄像头输出特征并不能代表摄像头捕捉和提取到的全部特征,由此一来造成信息传递过程中的损失。


与后融合相对应的前融合可以更好的保留原始数据,前融合也称为数据级融合,也就是在所有传感器收集到数据后直接进行融合,统一成一整组数据后再进行目标感知。


显然,前融合可以最大限度的在融合时保留原始数据,但异构数据的直接融合对算法、存储和算力要求太高。

为了解决前融合和后融合的不足,BEV空间的概念应运而生,采用特征级融合。这一概念由特斯拉于2021年首发,此后迅速成为自动驾驶界的主流。


特征级融合先在特征层面融合不同传感器数据,然后再进行感知和识别等任务。特征级融合在前融合和后融合之间找到了平衡,在不消耗大量算力和造成大量信息损失的同时实现了不同传感器数据的融合。

2021年:BEV+Transformer重新定义感知


04

以上我们提到的HydraNet在2021年前都是基于2D图像+CNN技术的,在2021年的特斯拉AI Day上,特斯拉在HydraNet基础上加入BEV,并首次将Transformer引入自动驾驶的神经网络模型。这是自动驾驶感知侧的一次重大范式变革,BEV+Transformer重新定义了感知模块,并且将其性能带到了全新的高度。


BEV(Bird's Eye View)指的是鸟瞰视图,它带来的改变主要有两个,一是在目标识别前先融合不同摄像头的数据,二是通过Transformer架构这个端到端的模式实现2D向3D的变换,取代原来的基于人为规则的算法计算。


具体来看,特斯拉首先还是通过RegNet+BiFPN主干网络对不同摄像头拍下的画面进行特征提取,然后通过融合八个摄像头拍到的周围环境画面形成一个2D平面俯瞰图(也就是特征级融合,和此前的后融合不同),相当于在车辆正上方10米处向下俯视车辆及周围环境,也被叫做“上帝视角”。

表现在HydraNet的结构上,BEV是夹在主干网络和用于具体任务识别的多个头之间的夹层,也就是先融合后识别。虽然是2D的鸟瞰视角,但BEV实际上是和现实世界一样的3D向量空间,这是为什么呢?


据时任特斯拉自动驾驶负责人Andrej介绍,此前先识别、再融合、最后统一升维到3D的思路最终交出的结果存在巨大困难和缺陷,比如前文提到过的人为定义的数据融合规则问题和单个摄像头无法拍摄某个物体全部画面时的缺陷。


这就导致如下图中间的那幅图展示的结果,摄像头转化成向量空间后的信息很难使用,特斯拉需要先融合所有摄像头到BEV空间后再统一进行识别。

之前提到,2021年以前特斯拉使用的是基于人为规则的算法将多传感器输入进行融合并从2D画面升维到3D的,这个过程存在大量信息损失。构建3D向量空间需要深度信息,很多车企在这一步都因为视觉算法实现过于艰难而转向激光雷达来直接提供3D数据输入。


由于特斯拉坚持纯视觉路线,因此在2021年特斯拉开创性的首次引入了Transformer模块,基于此实现从多个单摄像头的二维图像空间到一个统一的三维BEV空间的端到端变换。

在语言大模型火爆了两年之久的今天,Transformer已经成为其基础架构,它的核心是自注意力机制,通过一次性计算输入序列中所有位置(也就是上下文)之间的相关性权重,相关性较高的元素给予更多的注意力,进而捕捉全局逻辑关系。在大语言模型中,Transformer处理的输入是文本单元(Token),例如单词或子词片段。


在自动驾驶系统中应用Transformer技术极为复杂,简单来说就是Transformer需要处理的对象从Token变为图片,也就是一个个的像素点,或者说经过CNN处理后的像素点背后的特征。


Transformer可以通过计算每个摄像头拍下画面中的特征与其他特征之间的关系,通过交叉注意力机制来确认其在3D空间中所对应的位置,从而将多摄像头特征映射到统一的BEV空间,完成八个摄像头输入的升维与融合。

通过Transformer实现的BEV空间带来了几个重要提升,首先所有传感器的数据得以进行端到端的特征级融合,减少层层处理以及先验规则带来的信息丢失;其次,Transformer提供了全局的感受野,而CNN 则是通过卷积核提取局部的相关性也就是局部感受野,因此Transformer对特征学习能力更强。


此外,在BEV空间下不会出现像此前大卡车无法被单个摄像头捕捉全貌而无法识别的问题。进一步看,这是因为Transformer可以融合处理时间数据并加入记忆模块,使得BEV空间从3D变成时序融合下的4D空间,可以在物体被遮挡时继续根据依存关系预判它的位置,也可以对其他目标的动态进行预测


从下图可以看出,使用BEV+Transformer后感知到的向量空间对车道的识别能力远远超过过去基于2D+CNN再通过计算升维和融合后的感知结果。

这套方案带来的还有一个优势在于能够处理多种corner case(冷门场景),比如感知复杂道路、恶劣天气和动态交通,从而不再需要依赖高精地图给出的信息,使无图化自动驾驶成为主流。

BEV+Transformer的出现具有划时代意义,它重新定义了感知模块的范式,在它公布后到今天的三年里,国内头部自动驾驶车企如华为、理想、小鹏、蔚来等悉数跟进,采用这种方案进行感知已成为自动驾驶界主流。


做一个简单的总结,虽然各家自动驾驶公司的算法细节各有不同,但BEV+Transformer方案的总体思路就是多传感器输入数据、骨干网络提取特征、所有传感器数据融合并转换至BEV空间(2D>3D)、引入时序信息(3D>4D)-输出目标识别和轨迹预测

2022年:占用网络-感知的终极形态


05

2022年,特斯拉开展了第二次AI Day,揭示了在HydraNet和BEV+Transformer基础上增加了的全新OCC(Occupancy Networks)占用网络


通过BEV+Transformer构建的3D空间本质上还是对特征级融合的2D空间的映射,它并不完美,如果看到不属于数据集的物体,或者不规则的长尾数据时摄像头无法识别特征,那BEV就无法感知。


这种场景主要有三类,一是摄像头没见过的障碍物,比如被风吹倒的广告牌、临时掉落的树干、未标注的施工区域碎石等。二是形状不规则的动态目标,比如快速移动的碎片(如被风吹起的塑料袋)、正在变形的挂车。三是复杂环境中被遮挡的目标,如绿化带中隐藏的矮桩、雨雾中翻倒的摩托车等。

与从2D图像中提取像素(pixel)再转化为3D不同,占用网络OCC将世界划分为多个大小一致的立方体,每个立方体也被称为体素(voxel),然后识别每个体素是空闲还是被占用。


OCC以摄像头产生的视频流作为输入,直接在向量空间产生统一的体积占用,预测车辆周围的体素被占用的概率。这样一来,BEV空间真正的从2D感知走向了3D感知。

由此可见,OCC不以认识分类为目标而是以空间是否被占用为检测目标,这样做大幅提升了系统的泛化能力。此外,占用网络还通过光流法识别目标的动态信息


光流法的核心思路假设构成物体的像素亮度恒定且时间连续,通过对比连续两帧图像中的像素位置变化估计出物体或场景的运动。


以下图特斯拉的展示为例,汽车前方有一辆两节的公交车,它的前半部分刚刚启动而后半部分还停在原地,占用网络可以清晰的感知到这个细节,图中可以看到右前方的蓝色体素表示公交车前半部分在动,而它后面的红色体素则表示后半部分处于静止状态。

将占用网络与原有的BEV+Transformer合体造就了感知模块的终极形态,在一张巨大的神经网络中,通过多个摄像头输入的画面直接端到端输出3D空间中每个体素的占用情况(Occupancy)、运动轨迹(Flow)和语义识别结果(Semantics)。这些结果甚至可以通过输入任意坐标值(x、y、z)在三维空间内查询,也可以直接用于规划和决策模块的输入使用。


根据特斯拉的解释,它是通过在BEV+Transformer层后面增加去卷积(Deconvolution)层从较低维度的特征中恢复更高分辨率的空间信息,进而解码出占用网络。由Transformer输出的带有时序和空间特征(Spatiotemporal Features)的信息直接被输入到卷积层,如此一来整个网络实现了端到端无损输入输出

至此,BEV+Transformer+OCC结构实现了对感知模块这个自动驾驶中最复杂、棘手部分的一统天下。在这个过程中,特斯拉从2D+CNN和人为规定的模式走向基于数据的端到端神经网络,极大地推动了自动驾驶技术进步。

特斯拉自身的感知硬件也从多传感器融合走向了纯视觉,FSD也从最初的1.0迭代至V11版本。可以说,特斯拉的这么多创新很大程度上来源于其坚持纯视觉的低成本路线“逼”出来的。


2. 决策:走向端到端

感知仅仅是自动驾驶的第一步,如何根据接收到的信息做出判断和反应在实际中更为复杂,因为感知层面更多的是描绘汽车看到的世界,重构一个汽车视角的虚拟世界,而到了决策层面汽车需要真正理解世界中不同元素交互的规则和逻辑,因为它的选择会对真实世界产生影响。


早期的工程师也是基于这一思路着手设计决策模块的,简而言之就是通过写下许多if-else的逻辑规则代码,然后让自动驾驶系统遵守,比如看见红灯要停车、遇到行人要礼让、出高速要提前并线等等。


在这里我们还要区分一下决策规划的三个层次:全局路径规划层、行为决策层和局部轨迹规划层。全局路径规划是规划模块的主要职责,也属于导航的领域,就是从A点到B点的整体路线规划,由于处理的是静态信息而相对简单。


行为决策是根据感知到的环境信息做出反应行为,比如知道什么时候减速。局部轨迹规划则是基于全局路径和行为决策找到最优行驶轨迹。自动驾驶系统使用工程师写下的规则来做出行为决策并找到最优行驶轨迹。很早就开始布局自动驾驶的谷歌旗下Waymo就整合了超10万条交通规则。

这种模式也被称为规则驱动的决策系统,具有诸多优势。首先是高解释性和透明度,这是由于规则是人工明确定义的,因此决策过程可逐条追溯。同时,这种方法也不需要大量的数据和算力对系统进行训练。


不过随着规则越写越多,维护系统和修正错误的成本也就越来越高,天花板明显。此外,真实世界非常复杂,规则难以穷尽,而且不同规则之间还可能产生冲突。最后,规则依赖人为编写,具有主观性。


转机依旧来自特斯拉,2022年特斯拉在感知层大杀四方的同时也展示了引入蒙特卡洛树搜索后的决策算法。彼时特斯拉对决策的思路是让汽车考虑自己和其他车辆、行人等物体的运动轨迹,对所有可能的行驶方案进行评估,快速选出最优行驶方案。


不过,求解最优轨迹面临着非凸性和高维性两大难点。非凸性,是函数极值求解中的概念,指函数存在多个局部最大值 / 最小值,致使难以找出全局最大值 / 最小值(即最优解)。在现实世界中自由度极高,意味着存在众多可能的解,这就容易使决策陷入局部最小值。

高维性则是指决策过程涉及过多变量。以车辆为例,其需对未来 10 秒的行为做出判断,这一过程涉及环境中不同目标的位置、速度、加速度,以及目标间的交互可能性等大量参数,处理难度极大。


为了解决这两个问题,特斯拉采用蒙特卡洛树搜索,一种基于统计模拟的启发式搜索算法。它的结构类似大树,由根节点与叶子节点构成。每个节点代表一种选择后的状态,路径选择从根节点起始。算法通过模拟不同驾驶决策(如加速、转弯等)在未来一段时间内可能产生的结果,并依据一定策略(如综合考虑节点的平均奖励值和访问次数等因素),来选择并优化自身的最优路径。


以下图为例,当车辆需要左转进入路口时有行人和直行车辆经过,汽车在根节点(路口)时需要先选择礼让行人或是赶在行人前通过。由于汽车选择了礼让行人,因此进入下一层后遇到直行车辆,汽车再次需要选择是否等待后车通过。

蒙特卡洛树搜索的核心在于快速尝试所有可能的路径后选择最好的一条,不过计算出的每个轨迹都需要一个成本函数,这部分需要基于人为规定的规则。特斯拉将这个规则定义为关于碰撞概率、舒适度、干预可能性和人类操作相似性这四个因素的函数。

以上我们提到的感知和决策都是2022年时的事情,也就是FSD V12版本出现之前。虽然蒙特卡洛树搜索改善了传统完全基于规则的决策,但它还是80%机器学习+20%的规则


2022年11月ChatGPT的成功给了特斯拉工程师灵感,既然GPT可以通过学习大量文本后理解含义,那汽车也可以通过学习大量人类驾驶片段学习人类的决策方式,也使用强大的Transformer,成为真正的端到端。


2023年4月,特斯拉工程师Dhaval Shroff 指出完全端到端的决策模块运行速度比过去快出10倍,并且可以直接删掉30万行代码,也就是那些人为定义的规则。自此,端到端的训练范式一发不可收拾。


训练端到端的决策模块主要运用模仿学习和强化学习两种方法。模仿学习是让模型模仿人类专家的驾驶行为,从而学会在相似场景中做出最优决策;强化学习则是让模型通过试错进行学习,借助奖励函数对正确行为予以奖励、对错误行为进行惩罚,以此优化模型的输出效果。

从结果来看,特斯拉于2023年底开始推送基于端到端训练出来的FSD V12版本,收获广泛好评和较高评分,其中最为受到称赞的一点是自动驾驶的决策方式更加人性化了


比如,过去规则规定时的算法表现的非常迟钝、“守规矩”,而端到端训练后会表现的和人一样,用逻辑关系打破一些规则。评分来看,加入了端到端后的V12版本明显比V11进步不少。


3. 自动驾驶算法的未来

如果用一个词描述当前自动驾驶技术,那非“端到端”莫属。端到端的概念很简单,就是通过一张神经网络实现信号的输入和输出。端到端的优势也很明显,打破人为定义的规则,让模型直接从海量数据中自己学习所有的逻辑关系,就像人类学习一样,端到端可训练也意味着数据的无损转换和传输。


从范式上看,端到端标志着从规则驱动转向数据驱动,规则时代的算法壁垒也转变为数据时代的数据积累和算力处理能力成为壁垒。无论是以ChatGPT、DeepSeek为代表的大语言模型还是以FSD为代表的自动驾驶模型,基于Transformer的端到端模型的表现都成功验证了它的强大,也使其成为统一共识。

在前文中已经看到感知侧从传感器输入原始数据到BEV空间的感知结果输出是如何通过一张神经网络的不同层实现效果大幅改进的,以及决策模块从接收到感知信号到输出决策信号又是如何通过端到端实现性能提升的。


然而,这就是自动驾驶的最终章了吗?非也!


如果把自动驾驶系统看做一个整体,以上我们提到的还属于模块化端到端,也就是感知和决策模块的工作各自有各自的端到端模型完成。模块化的设计是传统基于规则打造自动驾驶系统的延伸,它把复杂的自动驾驶任务拆解成相对简单的子任务,简化研发的难度。

然而,数据或者信号在不同模块间传递时依然需要人为定义接口,信息也会产生损耗和损失。解决这个问题的方向便是全局端到端,也就是集感知、规划和决策为一体的一张超大神经网络,传感器数据从这张网的一端输入后可以直接输出控制方向盘、油门和刹车的信号(如下图所示)。

2023年由上海人工智能实验室、武汉大学和商汤科技联合提出的UniAD模型获得CVPR最佳论文奖,UniAD开创性的首次展示了将感知、预测、规划等任务整合到一个统一的端到端网络框架下的全局端到端模型。

如此一来,不仅信息传递是无损的,全局端到端可训练也意味着自动驾驶系统学习的目标也是基于全局任务的统一目标,换句话说就是所有的模块一起学习,实现全局优化


到这里,我们可以看到自动驾驶算法经历了感知由CNN走向BEV+Transformer+OCC和决策从规则走向端到端,再进一步整合成为全局端到端的整个发展历程。然而,这样的一个模型依然不是完美的,也绝非自动驾驶的终局。

自动驾驶的未来在哪,或者说到了如今的2025年重点的发展方向是什么?由比亚迪推动的智能驾驶走向低价格车型是一大趋势,而另一个方向则是以特斯拉、理想等企业引领的VLM和VLA,继续挑战自动驾驶的上限。


2024年7月,理想汽车智能驾驶发布会上在其端到端智驾系统外增加VLM(Vision-Language Model视觉语言模型)系统,并于去年底全量推送至AD Max用户,成为国内首家使用VLM的方案。此后,极氪、小米和元戎启行也在自家的端到端系统中加入了VLM。


简单来说,VLM就是一个多模态大模型,能够同时处理和理解视觉信息(如图像、视频)和语言信息(如文本)。理想将自动驾驶系统分为系统1和系统2,其中系统1就是前文描述的全局端到端结构,用于处理驾驶中95%的任务,类比人类根据直觉做出反应的过程。

系统2则采用多模态大模型的训练方式,在这里理想使用的是基于通义千问70亿参数模型Qwen-7B为基座语言模型研发的Qwen-VL多模态模型。


视觉语言模型推理时同时接收视频和来自系统1的语言(理想为其编写了智驾系统的Prompt库)输入,输出它从视频中理解到的信息来辅助系统1,完成智驾系统剩下5%的逻辑思考能力。

既然全局端到端的自动驾驶系统已经非常强大了,为什么还需要VLM模型?一方面是因为端到端模型属于黑盒模型,它是模仿人类在行人前停下而停下,但它并不能解释自己是因为防止撞到行人而停下。


另一方面,端到端处理不了长尾问题,也就是人类开车都没见过但可能存在的场景。举个例子,假如路上出现一个外星人,人类没见过也知道要躲避要逃跑,但端到端的模型因为用来训练它的数据集里没有外星人便无法识别,顶多能做到避障。


VLM便可以很好的解决这两个问题,因为它是多模态的语言模型,具备了对世界一定的理解能力,也就是知识驱动而不单单是数据驱动的。同时,语言模型具有推理能力,也可以对自己做出的决策进行解释,一定程度上辅助模型可验证提升。


VLM具体有什么用呢?根据理想的演示,在坑洼路面前(下图左),端到端模型在未检测到障碍物后继续保持高速行驶,而VLM在理解坑洼路面会造成颠簸后主动提示系统1减速。在另一个例子中,车辆左转时错误驶入了主路(导航规划为辅路),VLM再次通过自己的判断能力提示系统1修正路线。VLM还可以识别、理解潮汐车道、交警手势等过往的端到端训练数据中没有的场景。

VLM模型发展迅猛,在去年理想首次公布时采用的还是两个模型互帮互助,就在几天前的2/25,理想联合港科大等学者发表了融入VLM后的端到端模型,将文本输入集成到BEV空间中以实现语义层面的监督,随后一同送往端到端的自动驾驶模型。

实际上,理想汽车此举正是在尝试将VLM的范式推向更深层次的VLA。VLA全称为视觉语言动作模型(Vision-Language-Action),最早用于机器人领域,是谷歌DeepMind于2023年7月推出用于控制机器人的模型。


VLA融合视觉、语言和动作三者的数据与推理能力,通过语言模型的逻辑链(Chain-of-Thought)支持复杂场景的长时规划,实现从感知到决策再到执行的闭环。


VLA与VLM的核心区别在于模型一体化、数据闭环和思维链推理,从端到端的感知输入和视觉语言输入到对汽车动作控制信号的输出完全由一个模型完成,使用同一套数据训练和推理。因此,VLA也被视为端到端和VLM的合体,而VLM也因此被视为端到端向VLA的过渡阶段。

VLA目前依旧是处于早期阶段的技术和概念,车载领域目前主要是谷歌旗下的无人驾驶出租车公司Waymo开始早期应用。但同时,VLA被视为自动驾驶从L3迈向L4的钥匙,因此被车企追捧,包括华为、理想、百度和元戎启行在内的众多自动驾驶企业都在积极布局。


无论是VLA还是VLM,多模态大模型的引入都意味着参数量的指数级上升,例如理想的一体化端到端(也就是系统1)模型有3亿参数,而VLM(系统2)有着22亿参数。这无疑意味着VLA/VLM对算力芯片的需求拉动


简单总结,自动驾驶经历了从规则驱动到数据驱动再到知识驱动的范式转变,第一阶段靠人为定义规则,第二阶段靠海量数据模仿,而第三阶段靠的是对真实世界中的物理规则的理解。自动驾驶系统也经历了从模块化到模块化端到端再到全局端到端的架构转变,对于数据的保留和使用效率不断提升。


至此,我们不禁感叹AI和神经网络的发展速度。从2012年使用CNN识别图像大火到2021年BEV+Transformer构建时空关系跨越了近10年的时间,而从21年到23年的端到端正式落地不过两年时间,再到24年的VLM的多模态大模型上车仅相隔了一年之久。


回看端到端,正如Andrej Karpathy所言,“端到端不是技术终点,而是新起点”。可以预见的是,2025年将会是继续加速发展AI大模型上车,打造真正理解世界物理规则的自动驾驶。

转自: https://mp.weixin.qq.com/s/HT4XJARQX69xGNoQi5HYtA


自动驾驶系列6:头部厂商智驾方案巡礼

无论是以比亚迪、吉利等带领的智驾全面走进低价格车型,还是包括特斯拉、蔚小理在内的头部智驾厂商在全国“开城”和“车位到车位”后继续冲击高阶自动驾驶技术,2025年无疑是自动驾驶全面开卷的一年。


在上一篇《自动驾驶系列5:深度!一文看懂端到端智驾系统的过去、现在和未来》中,我们以特斯拉为例从技术层面详细拆解了自动驾驶算法系统进化过程,展示从过去由知识驱动的2D+CNN+模块化走向如今由数据驱动的BEV+Transformer+OCC+端到端,再到未来以知识驱动的VLA和世界模型。


本文将从商业和产业角度对当前自动驾驶厂商分类,随后梳理主流厂商的发展历程和技术路径,分析各家相较于特斯拉方案的创新点。



1. 自动驾驶厂商分类

2. 头部厂商方案巡礼



1. 自动驾驶厂商分类

国内智驾发展历程


01

首先回顾一下国内自动驾驶整体发展到什么阶段了,根据国际汽车工程学会SAE编制的分级标准,自动驾驶按自动化程度分为L0-L5。高阶智驾为L2级以上,是有条件的自动驾驶,汽车虽能处理复杂的场景和任务,但仍需驾驶员集中注意力以便随时接管车辆。

在系列第一篇《自动驾驶系列1:洞察产业变革,预见商业新局》中曾讨论过,出于技术限制、政策法规以及配套保险等原因,当前的智能驾驶还停留在L2和L2+阶段。随着去年以来L3厂商开始获批上路测试,2025年有望成为L3的商用元年。


在L2和L2+阶段,主流厂商在近几年经历了从基础版L2到高速NOA和城区NOA,再到车位到车位的几个阶段。2019年6月,特斯拉首次将NOA(Navigate on Autopilot)带入国内,高速NOA可以在L2辅助驾驶的基础上实现高速公路等场景的自动驶入、驶出、变道等。


随着2021年特斯拉在AI日上展示了BEV+Transformer的感知层创新后,这一技术架构迅速成为主流,获得众多车企效仿。两年后的2023年,“开城”成为了各家车企智驾发布会的主题词,也就是城区NOA上线,车企开始比拼在全国内开城的速度。


到了2024年,基于端到端范式统一共识,自动驾驶系统彻底摆脱对于高精地图标注的依赖,“无图化”和“全国都能开”/“全国都好用”也成为了去年的宣传标语,紧随其后的则是“车位到车位”的新口号。

车位到车位是开城和全国都能开后下一个迭代的方向,也就是点对点的全程无断点智驾产品,比如从小区车位出发开始到公司车位到达结束,在舒适度和接管率上都有更高的表现,但也因此对全域各场景下的技术适应性有更高的要求。

智驾研发模式


02

智驾的研发分为车企全栈自研和与供应商合作两种模式,也因此产生了整车厂和智驾解决方案提供商两种不同的玩家,还有车企同时采用自研和供应商合作方案,构成竞争和冗余。


其中,整车厂全栈自研模式主要有特斯拉、小鹏、理想、小米、蔚来等新势力品牌;同时拥有自研和供应商合作的冗余模式下有比亚迪(与Momenta合作)、长城(与元戎启行合作)、吉利和广汽等传统品牌。


依赖供应商合作(Tier0.5)的则有华为系的赛力斯、长安、北汽和与Momenta合作的上汽等。

自动驾驶时代,由于汽车软硬件的解耦,供应商可扮演的角色也更加丰富。例如,华为给车企提供三种不同合作模式:零部件供应模式(Tier 1)、解决方案集成HI模式(Tier 0.5)和智选车模式。三种模式分别代表了华为的参与度,由浅到深。

不过这是华为造车的三种模式,具体到自动驾驶解决方案合作(Tier0.5)中,车企一般负责采集车、数据标准、云端算力等支持,供应商则负责提供感知算法和端到端模型


对于车企而言,由于核心技术掌握在供应商手中,自身缺乏快速响应客户的能力。同时,对于提供解决方案的供应商来说不同车企只是其不同的项目。因此,供应商合作更多是自研落后时的过渡方案,整车厂自研模式是长期的核心壁垒

软硬件配置阵营


03

根据硬件配置不同,可分为激光雷达派和去激光雷达的视觉派(包含了像特斯拉和小鹏这样的纯视觉)。


激光雷达派是目前国内包括头部的理想、蔚来、小米、比亚迪、吉利在内的大部分车企选择的方案,不过出于成本考量和技术能力,也有头部车企如小鹏在去年从激光雷达转向以摄像头为主的纯视觉派。

另外,虽然一众车企纷纷宣布自家的NOA实现无图,但许多厂商依旧保留了高精地图。


高精地图可以通过地图上的标识帮助汽车获取精度到分米甚至厘米级别的车道线、路面箭头、交通灯、标识牌等环境信息,从而降低软件层算法难度。


目前依旧保留地图的有蔚来、吉利、长安,不过由于高精地图的获取、维护和更新的成本很高,无图化大概率会成为主流。

自动驾驶算法经历了从基于规则到基于数据的转变,从此前的模块化走向神经网络端到端,很好的解决了规则的局限并且让自动驾驶决策更加拟人,提升安全性的同时也提高舒适度。


端到端的范式依然成为行业新共识,不过当前大部分车企依然是两段式端到端,也就是感知和决策是两个独立的端到端神经网络,中间需要人为定义数据接口。


当下和短期内的重要发展目标就是一段式端到端,也就是从感知到决策规划的全局优化。目前实现了一段式端到端的有特斯拉、理想和借助供应商方案的广汽、上汽等车企。

落地方案分类


04

最后,从各家车企智能驾驶落地的方案来看,可以通过三个维度划分:硬件是否标配、智驾方案是否付费、是否提供智驾保险


大部分车企都选择了硬件选配的模式,或者高价格车型标配、低价格车型选配,全系标配硬件的有特斯拉和小鹏。

从智驾方案是否收费来看,采用免费的有理想、小鹏等,采用买断或订阅的收费模式的有特斯拉、问界、比亚迪、小米等。

最后,智驾的普及离不开专有的智驾险,解决车主对于智驾出车祸时定责和赔付的担忧。目前仅有特斯拉、小鹏和问界为车主提供智驾险。


2. 头部厂商方案巡礼

根据量子位智库的划分,预计2025年智驾厂商格局分为三个梯队,在第一梯队的主要有一直以来聚焦自动驾驶全栈自研的新势力品牌,包括特斯拉、理想、小鹏、蔚来、小米、极氪以及华为系的诸多车型。


此外,第一梯队还有采用Momenta方案的比亚迪和上汽智己、与元戎启行合作的长城汽车旗下魏牌、与卓驭合作的红旗

上一篇拆解了特斯拉引领自动驾驶行业的 BEV+Transformer+OCC 及端到端技术,特斯拉是自动驾驶领域的领导者,开创性的提出了这些颠覆行业的技术。


特斯拉之后,国内厂商也跟进研发类似的架构。到了如今,已有部分头部企业逐渐赶超特斯拉并提出了自己的创新。

下面对理想、华为、小鹏、蔚来、Momenta这几家头部玩家的方案进行整理分析。

理想汽车


01

早在2019年理想第一款量产车型ONE上市之际便搭载具有L2辅助驾驶功能的AD Pro智驾系统,虽然与同期的蔚来和小鹏相比起步较晚,但追赶速度很快。


2021年12月理想推出高速NOA,2023年6月宣布“开城”,2024年7月开始推无图化“全国都能开”,到2024年底推送基于端到端和VLM的新一代系统。

从技术架构上看,理想汽车采用多传感器融合方案,同时配置激光雷达、毫米波雷达、摄像头和超声波雷达。软件系统上,理想经历了从规则化到两段式端到端再到如今的全局端到端One Model+VLM模式

根据理想在去年夏季智驾发布会上的介绍,理想的新一代智驾系统的具体结构包含系统1和系统2,系统1为从感知到执行的全局端到端神经网络,用于处理驾驶中95%的任务,类比人类根据直觉做出反应的过程。系统2是一个多模态大模型,被用来辅助系统1完成剩下5%的决策。

具体来看,系统1的端到端和特斯拉相似,通过BEV+Transformer+占用网络感知,能够同时认出白名单物体并感知到异形障碍物,完成避障。决策模块则通过模仿学习和强化学习实现端到端闭环。目前,理想的系统1已实现全局端到端,也是国内首家落地车企。

系统2作为多模态模型,其输入为前视摄像头的画面和系统1的提问,通过思维链理解画面中的语义信息,比如看到坑洼路段要减速,以此来实现自动驾驶系统对于真实世界物理规则的理解,而不是单纯的识别和模仿人类,进而改善系统表现。VLM概念或许并不是理想最先提出,但却是它最先落地,这一次理想的创新可谓走在了特斯拉前面。

华为鸿蒙智行


02

华为智驾方案于2021年4月首发,目前已从ADS1.0迭代至ADS3.0。早期的ADS1.0同样追随特斯拉的脚步,在BEV空间融合数据并完成感知,决策模块则依赖规则算法,此时的自动驾驶实际上只是辅助驾驶和高速NOA,城市NOA功能仅少数城市可以用,而且依赖高精地图。

2023年4月华为推出ADS2.0,再次效仿特斯拉引入类似占用网络的GOD网络。GOD全称为通用障碍检测(General Object Detection),也是将环境划分为立方体(体素网格),然后判断每个体素是否被占用。


GOD在BEV仅能识别已知白名单内目标的基础上完成异形障碍物检测,也就是对系统不认识的障碍物也能躲避。ADS2.0为华为实现了去高精地图和全国都能开,也标志着华为智驾系统走向成熟。

到了去年4月,华为推出乾崑ADS3.0智驾系统,摒弃BEV空间,仅由GOD神经网络实现白名单目标和异形障碍物识别,且能够对物理世界场景进行理解,实现车位到车位。BEV作为一经特斯拉推出便成为行业共识的感知方案,为何华为能不再需要呢?


特斯拉最开始构建BEV的初衷是为了更好的融合不同摄像头并完成2D向3D的升维,并做出全局的目标识别和预测。可是,华为的硬件配置中还有激光雷达和4D毫米波,而这两者输出的信息本身就是三维的。


如此一来,ADS3.0可以直接利用激光雷达的原生3D点云数据构建高精度3D占据栅格,完成对3D感知空间的构建,然后用神经网络学习不同传感器给出的特征之间的关联。这样做的好处有二,一是避免构建BEV时的信息损失,二是通过更直接和高效的利用各传感器数据实现更高级别的物理规则和场景理解

从第一点来看,纵然有端到端网络和强大的Transformer架构加持,构建BEV本质上还是从2D投影到3D空间,难免有些部分需要“脑补”,造成原始信息损失。


直接使用激光雷达构建的3D空间可以保留全部原始数据,同时还因为减少了将整个场景对齐到统一坐标系并对每个物体进行轨迹预测所需要的大量算力,尤其是复杂场景下数据量极大,构建BEV可能会出现延迟。


从第二点来看,各个传感器获取和输入的数据可以很多样,比如同一块石头,摄像头可以通过“看”来识别是什么、在哪、有多大,激光雷达可以计算反射率从而知道材质、纹理,毫米波则可以捕捉它的速度,多传感器之间不仅仅是冗余的关系,还可以推断物体在物理上的关联性


显然,将数据融合至BEV空间会一定程度上忽视这些信息。因此,摒弃BEV后的GOD可以学习多样化特征,具备场景理解能力。


如果能让模型学习到这些不同特征之间的物理关联,那么感知模型就能理解其背后的物理规则。举例来说,GOD可以通过视觉识别的“红色圆形”与激光雷达检测的“悬空物体”结合,推导出“红灯”语义。


遇到交警指挥时,GOD可以通过摄像头识别手势动态、激光雷达判断交警是否站在路中央(排除行人干扰),甚至还可以观察周围车辆的行为反推交警意图。


听起来是不是和理想的VLM有相似之处?理想的VLM是依赖视觉语言和思维链推理完成对场景理解的,华为的GOD方案则是根据物理规则,训练一个多模态(包含了摄像头、激光雷达和毫米波雷达)大模型在识别和预测目标的同时直接推导物理意义。与VLM相比,GOD更加接近人类的感知模式,同时在感知效率和场景泛化上都强于VLM。

对物理规则和场景的理解能力正是ADS3.0的杀器之一,也是华为的一大创新之处。从根本来说,无论是华为的GOD还是理想的VLM都是在朝着VLA和世界模型的方向演进,也就是自动驾驶系统能够真正理解真实世界物理规则。


除了GOD的创新外,决策层面华为亦有创新。在决策模块华为采用的是集预测、规划和决策一体的端到端模型,称为PDP网络。PDP本质上和特斯拉的端到端类似,也是采用模仿学习和强化学习的方式让系统表现更加拟人。


不过,ADS3.0在此基础上还引入了华为自研的博弈机制,简单来说就是可以预测其他交通参与者的意图,然后做出经过博弈后的合理反应,比如判断有车要加塞且自身距前车距离大时可以加速防止加塞。在深圳实测中,通过预判他车行为,华为将加塞场景通过率从特斯拉的62%提升至89%。


除了PDP网络,华为还引入了本能安全网络,一种应急响应机制。本能安全网络的设计可以类比人类的“无条件反射”,在ADS3.0系统下,本能网络独立于PDP决策网络,通过极低延迟的自动化决策专门对极端风险进行兜底处理,提升安全下限。

除了用于中高端车型的“满血版”ADS3.0,华为还为低价车型推出ADS SE版本,其架构和ADS3.0相似,也由GOD感知、PDP决策和本能安全网络构成,但由于硬件中没有配置激光雷达而无法支持城区NOA,ADS SE是华为推动智驾平权和扩展鸿蒙智行“朋友圈”的重要战略。

出于在芯片、云计算、传感器硬件和软件算法的全布局优势,华为在自动驾驶系统的训练和迭代上都具备坚厚实力。算力和数据是端到端模型的重要基础,截至 2024 年 10 月,华为智能驾驶系统的云端学习训练算力达到 7.5EFLOPS,训练数据量达到日行 3500 万公里,模型每五天就能迭代一次。余承东也预计将在今年推出高速L3商用和城区L3试点。

小鹏汽车


03

小鹏汽车在创立之初就以智能化和扎实技术作为自己的目标和使命,也是国内最早开始自动驾驶研发的车企之一。2018年底,小鹏智能驾驶系统的第一代产品Xpilot1.0随首款量产车型小鹏G3落地,随后不断迭代至Xpilot3.5,逐步开通高速NOA和多个城市的城区NOA。2023年3月,小鹏智驾系统升级至XNGP,实现全场景的无图化智驾。

去年5月,XNGP实现全国无图化,紧接着在7月推出全国首个端到端AI大模型量产上车,8月又推出纯视觉自动驾驶方案,小鹏预计XNGP 将在 2025 年底至 2026 年初进入全新阶段。

从技术架构来看,小鹏可谓紧追特斯拉的脚步。2022 年 10 月,小鹏引入 BEV+Transformer的识别和预测架构,随后又增加占用网络,重写其自动驾驶感知模块代码,大幅提升效果。


目前XNGP由神经网络 XNet+规控大模型 XPlanner+大语言模型 XBrain三部分组成,形成模块化端到端的自动驾驶系统。


XNet是小鹏XNGP系统的感知模块,由静态BEV(识别)、动态BEV(预测)和纯视觉 的占用网络组成。XPlanner则是规划决策模块,同样采用神经网络和模仿学习生成拟人的驾驶决策,同时也通过强化学习训练防加塞、环岛等场景下的博弈驾驶策略。


最后,XBrain作为大语言模型主要用于识别并理解路牌、待转区等路面信息,与华为的场景理解和理想的VLM作用相似。

小鹏的主要创新在于其对纯视觉算法的深入探索,以此实现降本和智驾平权。为了达到更好的视觉感知能力,小鹏研发的 AI 鹰眼视觉,是行业首个采用LOFIC 架构,在暗光、逆光等传统视觉短板场景中达到与激光雷达相近的感知精度,感知距离提升 125%,识别速度提升 40%。如此一来,小鹏得以去除激光雷达,大幅降低成本。

AI鹰眼视觉对纯视觉方案短板的补齐意义重大,在除特斯拉外众多车企选择多传感器融合方案时,小鹏在为纯视觉阵营扳回一城的同时实现高阶智驾的降本平权,也正因为如此小鹏Mona M03首次将高阶智驾带到20万以下。


坚定专注投入智驾等智能化的小鹏似乎也在销量上得到了兑现,智驾系统的升级对于其销量具有明显推动作用。

蔚来


04

蔚来的自动驾驶研发同样起步较早,早期采用Mobileye的方案,直到2020年开始转向自研,同年10月成为国内首个实现高速NOA全量交付的车企。


2021年蔚来发布自动驾驶平台系统NAD,从辅助驾驶升级为自动驾驶,并于2023年6月首次开启上海城区NOA。如今蔚来也已实现全国都能开,在去年的发布会上又推出了点到点的自动驾驶。

蔚来的自动驾驶方案在2024年之前大体上追随特斯拉的脚步,感知模块采用BEV+Transformer+OCC实现对环境中目标的识别和预测,决策模块也采用推演树的形式推演7秒钟的可能情况,并且引入基于交互博弈的人类价值偏好函数来优化决策方式,让决策更加拟人。

正如业界在大规模使用端到端时发现这个架构下模型只是通过海量数据提取特征和模式而非真正理解物理规则和其背后的时空变化一样,蔚来也意识到端到端绝非自动驾驶的尽头,因此于2024年推出全新的世界模型。

在2024年的蔚来科技日上,蔚来正式发布中国首个智能驾驶世界模型 NWM(NIO World Model)。NWM主要分为两个步骤,想象重建和想象推演,蔚来智能驾驶负责人任少卿在发布会上让观众闭眼想象一棵树在四季下不同的变化来比喻。


首先,NWM通过生成式模型对传感器输入进行“想象重建”,生成与现实平行的3D动态场景,这里面不仅包含物体位置,还能还原材质、天气等细节。


随后,NWM在这个世界中推演接下来的众多可能性,比如NWM 可以 在 0.1 秒内,推演 216 种可能发生的轨迹、寻找最优路径。基于世界模型的感知模块在部分程度上已经融合了决策模块,也是自动驾驶继BEV+Transformer+OCC后的重点研究方向

目前,蔚来准备将世界模型部署到车端,使用其感知结果作为预测参考输入到规划模型,在未来实现全局端到端并进一步融合语言模型后可以直接输出轨迹去控制车辆,更加接近VLA模式。


由于世界模型需要更大规模的数据和算力,蔚来对此也做好了长期准备。截至 2024 年 7 月,蔚来整体端云算力高达 306.9EOPS,是全国最大的端云算力集群。


不仅如此,蔚来还推出群体智能,在车端搭载的四颗英伟达Orin-X芯片中专门留一颗用于自动化收集数据,且在非智驾状态下也能获取到有效数据。

Momenta


05

最后将视线离开全栈自研的车企,来看一家提供自动驾驶解决方案的供应商Momenta。Momenta成立仅8年之久,目前已和包括上汽智己、比亚迪腾势、吉利路特斯在内的多家传统车企建立合作,为其提供自动驾驶软件系统。前不久比亚迪智驾平权的发布会上提及的天神之眼A和B版本就是Momenta提供的。


自动驾驶厂商一般会选择渐进式或跨越式路线作为自己的研发定位,渐进式从L0开始逐渐积累数据然后升级软件直到L4和L5,车企全栈自研多为渐进式路径。跨越式直接研发L4级的自动驾驶,多为解决方案提供商选择,技术成熟后既可以提供给车企又可以自行推出无人驾驶出租车业务。


Momenta则同时布局渐进式和跨越式,提出“一个飞轮,两条腿”的战略。当前,Momenta的产品布局有Mpilot和MSD,前者是量产自动驾驶方案,当前主要为车企提供L2+的智能驾驶;后者则是L4级的完全无人驾驶,用于无人驾驶出租车。


Mpilot和MSD构成了Momenta的两条腿,用量产L2+车辆收集的数据训练L4的算法,再让L4的算法为L2+提供技术进步,形成数据飞轮。

商业模式方面,Momenta采用一次性工程费用和授权收费的两种模式,前者主要在和车企深度合作,基于整车平台进行开发时收取;后者按每台车收取固定金额的方式与整车厂合作,可以买断也可以订阅。


技术架构上,Momenta和特斯拉相似,也采用BEV+Transformer+OCC的感知融合和端到端决策规划,2024年Momenta率先推出一段式端到端大模型

此外,Momenta还推出了长短期记忆的训练范式,短期记忆负责每天(短周期)的数据收集和优质数据筛选,随后被用于在云端训练模型。长期记忆用于车端的推理使用,接收短期记忆训练后总结出的新经验。以长短期记忆结合的方式减少了Momenta端到端大模型的验证成本。

总结来看,国内智驾厂商在2023年和2024年主要以学习特斯拉、追赶特斯拉为目标,到了如今的2025年,从华为 GOD 大网、理想端到端 + VLM 双系统、小鹏 XNet/XBrain,到蔚来世界模型,头部玩家在掌握了底层技术后纷纷摩拳擦掌,加速提出自己的下一代智驾技术思路,以构建差异化竞争力。


相比之下,特斯拉FSD这条最初的鲶鱼却迟迟无法正式入华。FSD虽然拥有坚实的技术基础、远超同行的训练数据积累和强大算力建设,但受政策法规限制而既不能在中国建数据中心训练国内的道路数据,又不能将中国的数据传到美国数据中心训练,导致FSD在国内显得“水土不服”。(中国规定数据不出国,美国规定不能在海外训练AI)


未来国内智能驾驶市场有望形成以本土技术为主导的新格局,实现从追赶者到引领者的角色转变,在全球智能驾驶舞台上绽放属于中国的光

彩。



链接: https://mp.weixin.qq.com/s/nGggTrzqfiib1JfVfn8XDw